首页 > 科技圈 > 正文

AI“干掉”程序员后,又对艺术家下手了

来源:新浪科技综合

人工智能领域缺钱,但这两个月来,他们不缺“好消息”。

Google母公司Alphabet旗下的Deep Mind,先推出了蛋白质结构预测AI——AlphaFold2,为困扰了生化学界50年的难题提供了解决思路;接着又发论文介绍“进阶版AlphaGo”——MuZero,这个AI能在完全不知道棋局规则和人类知识的情况下,自己摸索,决策,并赢棋。

2021年的第一周还没过去,AI就再次向人类发起了“挑衅”。

AI研究机构OpenAI,继去年部分开放了AI模型GPT-3并引爆整个科技圈之后,又于近期连发了DALL·E和CLIP这两个连接文本与图像的神经网络。它们刚一面世,就点燃了整个AI社区。因为人们发现有了这些神经网络,就能通过自然语言操纵视觉概念,比如,你输入“一把牛油果造型的扶手椅”,它们就能通过图像合成,“凭空捏造”出一系列的目标图像。

AI“干掉”程序员后,又对艺术家下手了

什么是人工智能的未来?《麻省理工科技评论》认为就是“那把牛油果造型的扶手椅”,因为AI又往“构建多模态AI系统”这个长期目标又迈近了一大步。

“干掉”程序员后,AI又对艺术家下手了

DALL·E率先在社交网络上刷起了屏,因为人们放出了很多看起来像凭空捏造的合成图,比如“立方体状的豪猪”、“由乌龟变成的长颈鹿”和“竖琴状的蜗牛”,这些就像是超现实主义画家萨尔瓦多·达利在梦里会看到的奇异造物。有意思的是,DALL·E也正是“Dalí”和皮克斯动画形象“WALL-E”的合成词。

竖琴状的蜗牛

竖琴状的蜗牛

DALL·E是OpenAI基于GPT-3开发的一种“用字生图”的AI。GPT-3本质上是一个自然语言处理(NLP)模型,机器就是依靠NLP理解了我们平时说的“人话”。在1750亿参数量基础上的GPT-3,展现出了惊人的翻译、问答和文本填空能力,写出来的新闻甚至通过了图灵测试,人们分辨不出是人还是机器写的。

GPT-3可扩展性非常强大,甚至可以用在无代码开发领域。无代码就是就是不用敲代码也可以直接生成程序,而GPT-3就是强大的无代码开发平台,只要对它输入你想要什么样的网页或者app,它就能帮你直接生成。因此,业内认为基层码农将会被AI“干掉”。

而DALL·E是GPT-3的一个小版本,使用了120亿个参数。它使用的是“文本-图像对”的数据集,而非像GPT-3那样广泛的数据集。“从原理上来看,它应该就是GPT-3在文本合成图像方向上的扩展版本。”Keras创始人François Chollet表示。

DALL·E可以利用自然语言从文字说明中“捏造”图像,就像GPT-3创建网站和写故事一样。DALL·E生成复杂图像的表现,让人惊喜,比如下面这则包含多个要素的目标文本:“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。

要正确地解释这句话,DALL·E不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且还不能混淆它们。

这张图显示了DALL·E掌握了理解相对定位、堆叠对象和控制多个属性方面的能力|OpenAI

这张图显示了DALL·E掌握了理解相对定位、堆叠对象和控制多个属性方面的能力|OpenAI

因为足够强大的NLP底层,DALL·E还能执行多种图像到图像的翻译任务,比如“参照上面的猫在下面生成草图”、“画出和上面一样的茶壶,并在茶壶上写上『GPT』”等等。除此之外,DALL·E也能理解地理事实,生成让人信服的“中国食物的图片”,它甚至也能理解“时间”,画出从20年代起发明的电话,甚至联想未来的手机。

中国食物

中国食物

各个年代的手机

各个年代的手机

另外,它还能根据文字指令“看日出的水豚鼠”,生成诸如波普风格、超现实主义风格、浮世绘风格等不同艺术风格的画作,还能渲染出各个角度下美洲狮的细节。

看日出的水豚鼠

看日出的水豚鼠

Coursera创始人、斯坦福大学教授吴恩达还特别对OpenAI表示祝贺,并挑选了自己最喜欢的“蓝色衬衫+黑色长裤”的AI生成图。DALL·E能不能成为艺术家不敢说,但成为AI大神的着装参谋,绰绰有余。

吴恩达的Twitter

吴恩达的Twitter

一个生成图像,一个匹配文字和图像

但DALL·E目前也存在局限,比如当人们引入更多的对象时,DALL-E容易混淆对象及其颜色之间的关联。另外,用意思相同的词重新表述指令,生成的图像也不一致。还有一些迹象表明,DALL·E只是在模仿它在网上看到的图片,而不是生成新颖的图像。

而OpenAI同期发布的CLIP(ContrastiveLanguage–ImagePre-training),则是为了加强文本和图像的关联程度而诞生的。CLIP是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。

CLIP使用了大量可用的监督资源,即网络上找到的文本-图像对。这些数据用于创建CLIP的代理训练任务,即给定一张图像,然后预测数据集中32768个随机采样文本片段中哪个与该图像匹配。

简单来说,CLIP能根据视觉类别名称,自己分类图像,创新点在于它学会了识别图像,而不是像大多数现有模型那样,通过数据集中的标签(比如“猫”或“香蕉”)识别图像,而是从互联网上获取的图像及其标题中识别图像。

CLIP瞄向的,就是当前深度学习的两个“痛点”:一是数据集构建成本高昂;二是数据集应用范围狭窄。具体来说,深度学习需要大量的数据,而视觉模型传统上采用人工标注的数据集进行训练,这些数据集的构建成本很高,而CLIP可以从互联网上已经公开可用的文本图像对中自行学习;CLIP可以适应执行各种各样的视觉分类任务,而不需要额外的训练样本。

另外,实验结果表明,经过16天的GPU训练,在训练4亿张图像之后,Transformer语言模型在ImageNet数据集上仅实现了16%的准确率。CLIP则高效得多,实现相同准确率的速度快了大约9倍。

AI“干掉”程序员后,又对艺术家下手了

简单来说,DALL·E可以基于文本直接生成图像,CLIP则能够完成图像与文本类别的匹配。

出门问问CEO李志飞曾告诉极客公园(ID:GeekPark),“GPT-3随着数据和参数规模增大而展现出的学习能力曲线,目前也还没有要停止的意思。虽然AI的学习能力还没有达到大家公认的“摩尔定律”,但是过去几年确实看到模型每几个月就翻倍。可以预测到的是,GPT-4参数又会增大至少10倍,而且处理的数据将会更加多模态(文字、图像、视觉、声音)。”

OpenAI首席科学家IlyaSutskever也在推特上发文表示:“人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而DALL·E和CLIP使我们更接近『多模态AI系统』这一目标。”

DALL·E和CLIP的出现,让人们看到自然语言与视觉的壁垒正在被逐渐打通。

几十年前,柯达说出了那句经典的广告语,“你负责按快门,剩下的交给我们”。在未来,AI兴许也会打起类似的广告,“你什么都不用干,剩下的交给我们”。

相关阅读:
英特尔新任CEO帕特·基辛格:回归十分激动 期待共同塑造科技未来 被iPhone放弃的日本芯片厂,不行了吗?