自己会画画的人工智能，正在用艺术征服人类

2022-04-24 18:06 由藻起藻睡发表于 #文化

AI作画早就不是什么新鲜事。

从几年前开始，每隔一段时间就会有一个新的“自动作画AI”跳出来，凭借精心调试的案例吸足眼球。但到了大多数人手里，却又只能画出仿佛脱胎于克苏鲁神话的诡异产物，好奇心的热乎劲冷却后就被快速淡忘。

两款能将简单图案复杂化的AI，仍然存在不少局限

直到最近，一批风格独特的画作开始在网上流行。天马行空的构图、丰富的细节加上风格统一的笔触无不彰显着作者的艺术审美，只不过它们是出自AI之手。

作者：Aetherial

作者：Binx.ly

但在精致的画面背后，最让人吃惊的还是这些AI的画图方式：直接描述想象中画面，它就能生成对应图像，就像能听懂人类的自然语言一样。一个“用嘴画图”的时代，仿佛已经悄然即将来临。

早在一年前，一个名叫wombo的AI绘图程序就已经引发过热议。不需要任何绘画基础，也不必懂复杂的参数调试，只要输入一句简单的提示词，就能得到一张可能风格诡异但颇具神韵的作品。

只是更多时候，想得到一张符合想象的画作并不容易。

当你尝试描述“用吉普力工作室的风格画出一个皮卡丘”时，可能收获的却是一幅“移动的皮卡丘城堡”；想看看蒸汽朋克的海拉鲁大陆如何，却只得到一个机械宇航员的侧身像。想让AI读懂自己的心思，除了需要更精准的描述外，似乎更需要还是运气。

最近开始流行的Disco Diffusion（以下简称DD），和wombo一样基于Deepdream视觉程序，但相较之下它明显更能和人类“互相理解”。不仅画出的作品诡异气氛大减，而且能更精准地还原场景描述，更能“听懂人话”。

当我同样输入“一座巨大的哥特式城堡，矗立在波涛汹涌的流光之海中”时，两个AI的作品对比非常明显。DD已经完全丢掉了满是AI烙印的抽象画风，用以假乱真的笔触还原了我想要的风格，而这距离我的想象已经非常接近。

右侧两幅DD画作是同一描述下生成的不同结果

相比于wombo固定种类的画风选项，DD通过直接添加不同的关键词调节画作风格。这些词汇可以是绘画形式、流派名称、艺术家名字或者具体到某个作品的标题。

同样是上述哥特城堡的描述，加上“中国山水画”或“梵高的星月夜”的补充后，得到的结果就大相径庭。

在一个名为weirdwonderfulai的网站上，众多使用者总结出了同一句话在不同作者、流派、关键词下得到的上百种结果以供参考，由此可以看出DD强大的风格把控力。

许多创作者的悉心调教后的DD，已经完全具备“画出”一系列成熟作品的潜质。社区里有不少人经过初步摸索，画出的作品已经很难看出AI处理的痕迹。

作者：annetropy

作者：kelseyY

再搭配上不同主题和风格，完全能得到以假乱真的概念场景作品，稍加后期的人工修饰，就是一套卖相十足的成熟作品集。

作者：LIUXIYAUN

但与此同时，我们也都明白AI并不能真的听懂人话。在无法帮助它快速学习迭代的情况下，不少人选择和AI角色互换，让自己接受训练，试图去理解AI眼里的人类语言。

作为官方给出的描述语模版，每个DD的使用者都见过上述这句话。语法规范的描述语不算长，其中却包含了画家、画种、内容、风格和配色方案等要素，让初学者能一眼明白描述词的要点。

但很快使用者们渐渐发现，正确的语法语序并不能很好表达出画面的逻辑，甚至适当的偏差反而能得到更好的结果。毕竟从原理上来说，AI只是根据关键词对应的图片信息“算”出了这样一幅画。

利用这一特性，也就不必拘泥于人类语言中的对错，只要某个词汇能对应一类图像的特征和风格，它就能成为一种画风，图片网站、游戏引擎名称或者镜头型号都可以。

对于DD来说，参数也是调整图片的重要方式。但如果嫌麻烦，仅靠描述词也可以达到类似的效果。

例如在描述词后加上不同的数字调整权重，如“雷云5：，火焰：5”，画面中它们呈现的比例就会有所对应；加上“景深：-2”关键词，会减弱画面的景深效果；输入“4K”则会在分辨率不变的情况下提升锐化值，模拟出更清晰的画面。

“一棵由雷云和火焰组成的树”

到了这时候，不少人的描述词里已经没有了最初还算严谨的语法，变成了词组和数字的神奇组合。为了让AI更好理解自己，这些赛博炼丹师反而让自己被训练出了一套怪异的语言，和AI完成了奇妙的角色互换。

可也正因如此，擅长捕捉词汇特征的DD才会犯下只有AI会闹出的笑话。

当我为了模拟次世代游戏画面，尝试加入“RTX ON”词缀渲染上图中的树时，图片角落总会出现类似于作者签名的神秘符号。但我的描述里并没提到任何一个作者，这让我百思不得其解。

直到我细想之下越发觉得这东西很像几个字母的变形，到搜索引擎里一看“光追”的图片结果，立马明白了怎么回事：光追画面的演示图片里确实都有一个常被我们忽视的“签名”。

不只图片的角标会干扰结果，当一个人名不仅对应他的作品，还能搜出作者本人的肖像照时，类似的情况也会出现。

当你想着用宫崎骏电影的风格来一张画时，宫崎骏老爷子的头像可能会突然出现的云端。或者为了模拟《异形》风格加上设计师H. R. Giger 的名字时，他也可能不请自来为个人风格浓郁的骨头宫殿打上水印。

作者：ZhaoKin

从结果来看，已经能画出很多惊艳作品的DD，距离理解人类语言还有很大一段距离。但它做不到并不意味着所有AI都做不到，这几天它风头更盛的另一个同僚DALLE-E2，就明显更接近美好畅想中的“用嘴画图”。

在DALL-E2官网的演示里，靠着不同物体概念、属性和样式的组合，我们能轻易得到一个区别于DD写意风格的具象图片。例如一个骑着马的宇航员或一个和猫打篮球的宇航员。

改变风格词条，还能在写实、波普艺术、童书和水彩风格中任意切换画风，同样保持了描述中逻辑关系的正确，完全没出现不可名状的画面。

更神奇的是，这个AI还能在保证阴影、反射和纹理正确的情况下，在图片中毫无破绽地加入想添加的元素。例如想在一张美术馆的图片中加入一只柯基，不管想让它和左画中的老人来一张合影，钻进右画还是趴在前景的软凳上，DALL-E2都可以算出它正确的样子。

除此之外，它还能选定画面里的指定元素删除或修改，或是让AI按照原图风格再绘制一幅类似的作品。

由于DALL-E2目前还处于内测阶段，很多慕名而来的人都无法实际上手操作，不免怀疑实际应用中是否能还原案例中的效果，这些展示案例中预调试的成分又有多少。

但从推特上部分拿到测试资格的用户的发出的成果来看，人们对DALL-E2的担忧并没有成真。他依然保持着超强的“理解力”，即使是很多现有图库中很难找到现成答案的描述，它画出的作品依然没有让人失望。

并且在一些参考图片更少、可变动性不大的虚拟形象上，我们也很难一眼看出DALL-E2作品里留下的AI痕迹。

作者：Trent Kuhn（左），Cybertroniss（右）

作为知名人工智能研究组织OpenAI推出的产品，DALL-E2其实在去年就有了初代版本DALL-E，只不过当时它的清晰度和识别性都还很差，虽然也能实现用文字生产画面的效果，但并没引起什么关注。

对比前后两代产品在相同描述下的作品，我们能直观感受到它的进化，而这仅仅过去了8个月。

正是在AI这种快到令人有些心惊的速度里，一片“哇塞”的赞叹声中还混杂着另一个词汇：“失业”。不少相关从业者在感叹技术进步的同时，也逐渐产生了被AI取代的危机感，一如19世纪摄影术发明之初的画家前辈们。

“从今天开始，绘画已经死了。”

这是19世纪40年代法国画家保罗·德拉罗什首次看到摄影印刷品后说出的话。但就算不看历史我们也都知道，绘画还活得好好的。

“用嘴画图”听上去非常美好，只需要形容心中所想就能得到一幅画面，也难免苦练手头功夫的美术工作者对此产生焦虑。但在混迹DD社区的这一周里，我还是明显感受到了我和其他人作品的“嘴上差距”。

社区里很多人都有着丰富的软件辅助作图经验和绘画功底，对于不同派别、不同网站的画作特点他们可以信手拈来，不同参数的微调也不在话下，想获得固定构图和配色时，他们还能靠导入草图帮助AI更好理解描述语，通过后期修改补绘调整细节。这才有了那些我难以企及的作品。

作者：Binx.ly

DD训练着用户不停实验描述词的效果差异，同时反过来这也是他们对它探究学习的过程，就像学习使用一支新画笔的过程。看上去效果更好的DALL-E2，也不过是风格更内敛和具象的另一支。

nin_artificial用同一词条得到的作品风格对比

文字描述确实给了创作更大的空间，但这过程中的想象、调试、修改和补充等步骤，仍然需要创作者全程的参与和把控，就像买了相机并不等于学会了摄像。

更何况摄像的发明当初不仅没有杀死绘画，反而在古典绘画的基础上让人们学会了以更多元的观察和思考方式，才有了后来印象派、立体主义和超现实主义等新风格的诞生。

萨尔瓦多·达利的《记忆的永恒》

据OpenAI介绍，他们之所以要把这个AI命名为DALL-E，主要参考了超现实主义画家萨尔瓦多·达利（Dali）和动画电影《机器人总动员》主角瓦力（WALL-E）这两个名字。他们悄悄镶在这台机器中的展望也就不言而喻了——

在一片荒芜的新大陆上，瓦力仍将帮助人类开垦出新的乐土，即使这次它是位画家。

热门相关：请公子斩妖世嫁慕先生，来官宣一剑独尊和我结婚我超甜