OpenAI发布可用文本叙述产生合理图像的神经网络
非营利人工智能研究组织OpenAI训练了一个称为DALLE的,可让用户以自然语言文本注解,创建内容相符的图像。而DALLE的名称由来,来自西班牙加泰隆尼亚超现实主义画家萨尔瓦多达利(Salvador Dalí),以及皮克斯动画人物瓦力(WALLE)的混合词。
DALLE是一个具有120亿个参数的GPT-3语言模型,经过文本图像配对资料集训练,可以从文本叙述生成图像。DALLE具有丰富的功能,除了创建拟人化动物与物体,还能以合理的方式组合不相关的概念,而渲染文本以及转换图像等工作,也都难不倒DALLE。
研究人员提到,GPT-3的出现,代表语言已经可以用来指示大型,执行各种文本生成工作,而图像GPT代表着类似于GPT-3的,也可以用来产生高分辨率的图像,而OpenAI扩展了两者的概念,DALLE的贡献在于证明人们已经可以通过语言,来操纵所产生的视觉概念。
就如同GPT-3一样,DALLE是一个变换语言模型(Transformer Language Model),其以包含多达1,280个权限(Token)的单一流媒体,接收文本以及图像,并使用最大可能性,一个接一个地生成所有权限。由于这个训练过程,让DALLE不仅能够以文本提示一致的方式,从头开始产生图像,还能够顺着既有图像,重新生成符合文本叙述的图像。
DALLE能够探索语言结构的组成,从大量不同的句子中产生合理的图像。研究人员发现,DALLE具有控制物体属性的能力,像是可渲染多边形物体,即便有些物体在现实世界不太可能出现,但DALL在搭建时,仍会考虑其合理性,例如DALLE在搭建像框或是画框,会倾向避开七边形,而人孔盖或是停车标志,DALLE较不会使用五边形等特殊形状。
除了单一物体之外,DALLE也有能力以不同的视角,搭建完整的场景图片,像是输入文本an extreme close-up vie of a capybara sitting in a field,则DALLE就能产生大量近距离,水豚坐在空地上的图片,官方提到,DALLE能以各种视角搭建动物,要从鸟瞰图和后视图视角搭建动物,DALLE需要从不同角度了解动物的外观,而诸如像是特写镜头,则关乎DALLE对动物毛皮细节的了解程度。为了测试DALLE搭建不同视角物体的能力,研究人员让DALLE以等角度间隔,搭建同一个头部图像,而这些图像串联起来,可以形成一个平顺的头部旋转动画。
而当收到的指令不够明确,DALLE还会自动推断出背景细节,像是a painting of a capybara sitting on a field at sunrise这样的文本描述,依照搭建水豚的朝向,可能需要画出阴影,虽然文本叙述没有明确提及,DALLE仍可以正确地画出合理的阴影。
DALLE还有一个强大的能力,可以结合不同的概念搭建成合理物体图像,像是要DALLE搭建出酪梨形状的扶手椅,DALLE便能产生考量两者形状的椅子,酪梨形状外形通常会与椅背相关联,而酪梨的果核凹槽,则会与椅垫相关联。
由于DALLE的能力过于强大,可能会对人类社会产生广泛的影响,OpenAI将计划分析像是DALLE这样的模型,对社会所产生的影响,包括特定工作流程以及专业的经济冲击,还有这个技术所存在的潜在偏差,以及长期在道德上挑战。
人工智能培训
- 人工智能的利与弊有哪些 如何看待人工智能的利
- 人工智能到底是什么 人工智能的概念是什么
- 国内十大人工智能公司 国内十大人工智能公司排
- 人工智能的东西有哪些 人工智能的东西有什么
- 人工智能的发展历程 简述人工智能的发展历程
- 国内人工智能比较厉害的公司 国内人工智能比较
- ai人工智能语音系统 ai人工智能语音系统有哪些
- 人工智能存在的弊端 人工智能存在的弊端有哪些
- 人工智能的八大应用领域 人工智能有那些应用领
- 人工智能的利与弊观点 如何看待人工智能的利与
- 人工智能的发展前景如何 人工智能的发展前景有
- 人工智能app排行:国内ai人工智能app排行
- 人工智能ai系统:人工智能ai系统有哪些
- 人工智能包含哪些具体内容 人工智能包含什么内
- ai人工智能是什么意思 人工智能的概念是什么
- 人工智能ai是指什么 人工智能ai是指什么内容