最火的“赛博COSER”作者,怎么看待AI创作的现状与未来
“人类文明有五千年历史,地球生命史长达几十亿年,而现代技术是在三百年时间内发展起来的,从宇宙的时间尺度上看,这根本不是什么发展,是爆炸!”
这段话出自知名科幻作品《三体》,作者刘慈欣以他的“技术爆炸”理论,引出了三体人与地球人之间的核心矛盾——猜疑链,并由此延展出了更多的奇思妙想,编织出了一部壮阔的宇宙史诗。
《三体》的故事发生在近未来,这些天马行空的科幻概念理应与2023年的我们隔着一段遥远的距离。不过事实是,在过去的半年里,真正意义上的技术爆炸与猜疑链,其实已经悄然而至。一方面,AI绘画正在以前所未有的进化速度席卷世界,每隔几天都会出现全新的技术探索;
另一方面,画师圈人心惶惶,在集体抵制AI的大背景下,谁也不知道屏幕那头的画作是否出自AI之手。网络上的“赛博猎巫”愈演愈烈,AI与画师之间的战争至今仍未平息。
同人二创平台Lofter近日上线的“AI头像生成器”功能惹恼了大量用户
AI绘画能有如今的成果,很大程度上归功于去年8月大范围传播的SD(Stable Diffusion,稳定扩散模型)的开源属性,自SD公开之后,大量基于该模型的全新AI模型应运而生,开放共享的互联网精神加速了行业的发展进步,用“日新月异”一词来描述这个领域的近况再合适不过。
国内知名度较高的NovelAI同样基于SD模型
在这股科技浪潮之中,上一次破圈的热点话题正是半个月前红极一时的“赛博COSER”,当时的 AI训练师们模糊了现实与幻想的边界,以难辨真伪的写实风格让一众网友重新认识到了AI的实力。
这其中,科技博主“勘云工造”创作的一系列作品尤为突出,由他训练而成的AI COSER不仅在国内的社交媒体疯狂刷屏,更在日本引起了热议,一时之间,AI绘画的相关话题再次登上了热搜,成了每个人都在关注的话题。
勘云工造的AI COS作品在日推引起波澜
但与此同时,这项新兴技术同样也背负着与生俱来的争议——版权。AI绘画不可避免地借鉴了海量画师苦练多年而成的画风,未经授权的AI训练总会让画师群体产生本能的厌恶与反感。在整个世界建立起一套可供参考的法律标准之前,围绕着AI绘画数字版权的争议恐怕不会停歇。
现在AI绘画的“技术痛点”是什么,今后又该朝着哪个方向发展;AI作品的版权该怎么界定, 创作者的权益又要如何保证……在AI绘画相关话题持续霸榜的今天,这些问题成为了迷雾中的重点。
带着这些问题,我们采访到了前文提到的AI COSER创作者“勘云工造”,与他聊了聊AI绘画的现状与未来。
以下是采访正文:
游研社:
勘云工造:
游研社:
勘云工造:
OpenAI于去年4月推出的DALLE·2,基于扩散模型,自此text2image(文字转图像)技术开始广为人知
游研社:
勘云工造:
LoRA,AI模型训练之一,能方便快捷地固定画风、角色、动作等细节,赛博COSER的实现正是基于此技术
游研社:
勘云工造:
游研社:
勘云工造:
其中,AI的基础性能需要等待算法、采样器的进一步研究发展,毕竟这是AI生成图片的底层原理,能从根本上改变出图的效果和效率;
可操作性是指找到让AI可以彻底被控制的方法,就像车的方向盘,可操作性不强的话AI就只能停留在随机出图的玩具层面,没法加入工业化流程。实际上现在以Controlnet为基础开发出的很多操作方式都非常牛逼,除了之前的骨骼识别、边缘检测、深度检测等功能,目前最新的seg语义控制的表现也很优秀;
新晋AI绘画插件Controlnet,能大幅优化细节部分的处理与把控,大家普遍认为这是全新的技术突破
Seg插件通过色值绑定语义,然后直接在画面里构图来指定不同地方的组成元素。
游研社:
勘云工造:
游研社:
勘云工造:
2018年《哈佛商业评论》通过对12个行业的1075家公司的调查,发现这些公司对AI与人类的合作越是重视,他们的工作效率、成本节约、收入或其他运营措施方面的表现就越好
画师其实才是AI的最佳使用者 ,画师不但具有长久锻炼得到的审美,而且可以直接在基于高度定制化生成的图片上进一步修改,再把修改后的图片传回AI进行重新生成。AI的迭代与进化必须要由人类来引导方向,否则无法实现对于人类的价值。
游研社:
勘云工造:
我认为这个问题的关键点不在于真人,而是做出来的人在现实中存不存在。AI一直都是做写实风格的,直到去年NovelAI开始兴起后才有人做二次元,只做二次元虽然可以规避肖像权风险,但也相当于自断经脉了。而且做二次元的争议完全不比写实风格的要少,AI的问题在于数据来源的合法性,写实类的数据源是照片,二次元的是画作,后者在版权上的争议还更大些。
游研社:
勘云工造:
美国版权局的声明是针对去年9月围绕着Midjourney产生的一起版权保护申请案。当时Midjourney产出的图片基本还是半随机生成的,AI的部分远大于人工部分,没有今天的可操作性。如果AI的可操作性完善了,或者说AI帮助了作者更好地实现自我表达,那么AI的版权问题可能会被重新定义。
美国版权局近日表示,AI绘画工具Midjourney制作的一部漫画中的插图不受版权保护,因为作者只为AI绘画工具提供文本提示(输入关键字),并非最后生成图像的“主脑”(Master Mind),不能算是创作者。
只不过,未经授权将他人创作的图片用于AI的i2i(image2image,图像转图像)这一行为,需要整个行业的抵制。 i2i洗稿跟用写实模型换脸其实是同样的性质,现在很多人指责AI抄袭然后放叠图对比,就是因为有人用i2i来洗稿才会败坏风气。 有些模型会跑出跟训练素材一模一样的图,实际上这是一种过拟合现象,证明这个模型是失败的。
i2i技术会在图片生成阶段叠一张底图控制AI的创作方向,很容易形成相似度过高的“抄袭”行为
游研社:
勘云工造:
游研社:
勘云工造:
其次,AI在动画和漫画行业可以优化工作流程,使用AI辅助制作原画和中割。这将显著减少制作动画的时间和成本,并为创作者提供更多的时间去优化故事情节和角色表现,提高作品的质量和文化价值;
另外,AI在游戏和电影行业可以辅助制作各种美术资产生成和自动建模,实现高效低费的产出。这将加速游戏和电影的开发速度,同时也使得更多的游戏和电影可以被制作和推广,丰富了人们的文化娱乐生活。
AI的出现有助于解放人类的创造力,使人们不再受制于资本异化的束缚,更多地关注于个人的兴趣和创造力。我认为在可预见的未来,将会有更多优质文化产品诞生。
结语
采访结束后,勘云工造给我们发来了一份3000字的文章,详细阐述了他对AI绘画的见解。受限于篇幅,我们稍作整理,从中挑出了几条最有价值的观点。
AI绘画的原理:
目前主流的AI工具都是基于扩散算法的生成类AI。在模型训练阶段,AI会对训练目标图片其添加噪点并进行编码,使作品进入一个“图像信息空间”。在训练和生成的过程中,AI使用扩散概率模型来处理图片,它的基本原理是通过从若干随机样本中学习来生成新的样本,举个例子的话,就是在一个装有很多苹果的篮子里随机挑选苹果,然后再挑选一个比之前更大的苹果,这个过程重复的越多,你挑出篮子中最大苹果的概率也就越高。
不同于人类作画的起点是从无到有,即逐渐增加颜色形成图像。AI作画是从有到无,从一个由噪点组成的图像中不断去掉无关的噪点,定向降噪直至保留最终目标图像的过程。
扩散模型的原理示意图,AI绘画的本质其实是数学问题,将画风转换为公式,再通过解算公式获取相似的像素排列方式
AI创作相关法律落实有何难点:
从原理上来说,AI学习的过程和人类学习没有太多的本质区别,同样是从浏览大量图片并且模仿开始,只是效率超出了人类无数倍。而从法律角度出发,法律的落实首先要考虑可执行性,现有手段已经无法分辨部分经过修改过的AI作品与人类作品之间的区别,随着技术发展只会更难分辨。假如认定AI参与工作流的作品均无版权,表面是维护版权,实际是在支持更广泛的侵权行为,因为侵权方只需要声称侵权作品是AI生成,即可侵害任何人的版权。
为了防止被大家认为是个天真的理想主义者,勘云工造叮嘱我们为文章加上两个必要的前提:首先 AI 作为一项技术,在问世后便无法被消灭,目前开源后全世界至少有上百万本地备份;其次是生产力和生产关系的问题,当生产力突破生产关系的限制时,必然需要新的生产关系来适配。
作为人类使用的绘图工具, Al 如今面临的问题早已超出了单纯的“科技”范畴,围绕着这项新兴技术产生的矛盾与争议,并非一篇文章能说得清道得明。勘云工造会在今后将他的思考与理解分享出来,想进一步深入探讨AI 前景的朋友,可以持续关注 AI 绘画今后是否还能跟得上时代与法律的变革和冲击。