从OpenAI发布DALL-E说起，5年来图像生成领域都有哪

工业机器人 2021-06-01 09:04www.robotxin.com工业机器人教育

OpenAI 因打造了一些 A.I. 行业最具未来感的产品雏形而名声大噪。

这家由微软支持的研究机构现在由 Y Combinator 创始人 Sam Altman 领导。它最著名的是强大的文本生成器 GPT-3，但在过去的几年里，它还建立了一个教自己解魔方的机械手，一个像超人一样的电子竞技算法团队，一个能创作出令人感到舒适的音乐算法，以及能玩游戏和使用工具学习复杂策略的算法。

上周，OpenAI 发布了 DALL-E，这是一个可以根据书面文字生成图像的 A.I. 系统。例如，针对提示 "一个牛油果形状的皮包，一个模仿牛油果的皮包"，该系统可以对牛油果皮包的想法生成几十次迭代。

该公司还没有向公众甚至是它通常邀请试用新软件的特定开发者群体提供 DALL-E，但其网站上的例子表明，该系统可以创建极其逼真和清晰的图像。该名称取自是萨尔瓦多 - 达利（Salvador Dalí）和 WALL-E 的混合体，DALL-E 精通各种艺术风格，包括插画和风景。它还可以生成文字来制作建筑物上的标志，并分别划分制作同一场景的草图和全彩图像。A.I. 的研究人员将这种深远的能力称为泛化，这意味着该算法并不仅适用于特定任务或艺术风格。

OpenAI 将算法的熟练程度归功于两个主要因素。，该算法非常庞大。它使用了令人瞠目结舌的 120 亿个参数，这些参数可以被认为是被算法转动的旋钮，用来调整它如何理解想法。这 120 亿个参数让它在分析图像和文本时，可以学到不可思议的特征性。

然后，就是将这些图片和文字材料输入算法的方式。文字和图像都被翻译成算法更容易理解的 tokens 或文本。OpenAI 在其关于 DALL-E 的博文中解释说，tokens 就像英文字母表中的字母一样它们以机器更容易计算的方式代表了零散的概念，并以一种为算法准备的语言排列。这个机器字母表包含了 16384 个文本的标记和 8192 个图像的标记。这种将人类可读的文字自动翻译成机器可读的文字的方法被称为 "变换器模型"。

博文链接

https://openai./blog/dall-e/

当算法得到一个标题，或图像附带的文字时，它被翻译成最多 256 个 token，而图像被翻译成最多 1,024 个 token。这使得该算法可以将相对较少的文字输入与复杂得多的图像进行匹配。

该算法通过分析成对的图像和标题进行学习。通过表层的数百万次迭代，它将文本片段与图像的特定特征联系起来。OpenAI 还没有公布这个数据集的大小，也没有公布它包含哪些图像。

该公司并不是第一个尝试从文本生成图像的公司，该算法也不是 OpenAI 的第一次尝试。这只是这一类算法中最新的、看起来能力最强的版本。虽然该公司还没有发布描述该系统的论文，但该算法的创建者确实在其博客上引用了 DALL-E 的前身。通过对该算法的成长历程进行可视化浏览，我们可以追溯该技术到底走了多远。

2016

这篇来自密歇根大学和 Max Planck 研究所的论文被 OpenAI 誉为振兴当前文本到图像生成研究的论文，该论文使用生成式对抗网络，即 GANs 来生成图像。GANs 的功能是将两种算法对立起来。一个用来生成图像，另一个如果图像看起来不够真实，就拒绝它。

2017

一年后，Rutgers 大学、Lehigh 大学和香港中文大学的研究人员采取了另一种 GAN 方法"叠加 "成对算法。第一对算法将场景的形状和颜色铺设出来，第二对算法完善细节。

论文链接

https://arxiv./pdf/1710.10916.pdf

2019

2019 年，另一个主要隶属于微软的团队尝试了一种不同的两步法。第一步是生成一张物体在场景中的位置图，第二步是以这张位置图为指导，生成物体，形成想要的画面。

论文链接

https://arxiv./pdf/1902.10740.pdf

2020

而在去年年底，Allen AI 研究所发表了一项研究，使用了一个与 OpenAI 相同的转换器模型。Allen 研究所的研究人员没有去追求模型的纯粹大小，而是依靠 "masking"。麻省理工学院科技评论的 Karen Hao 在一篇解释该论文的大文章中进一步详细介绍了 masking，他将 masking 描述为"在句子中隐藏不同的单词，并要求模型填入空白"。通过让算法学习进行这些直观的跳跃，研究人员发现，图像生成的质量得到了极大的提高。

研究论文链接

https://arxiv./pdf/2009.11278.pdf

解释文章链接

https://.technologyrevie./2020/09/25/1008921/ai-allen-institute-generates-images-from-captions/

通过查看这些过去研究的例子，很明显，OpenAI 的 DALL-E 真的是一个很大的飞跃。OneZero 专栏作家欧文-威廉姆斯(Oen Williams)说“最先进的技术已经从生成可怕的斑点发展到了他真的会买的牛油果椅子。如果这没有让一代家具设计师，股票绘图师和任何在线艺术家害怕，我不知道什么会。”

从OpenAI发布DALL-E说起，5年来图像生成领域都有哪

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

从OpenAI发布DALL-E说起，5年来图像生成领域都有哪

机器人工业设计

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术