官方论文代码放出,OpenAI是如何实现图像版GPT-
OpenAI 放出 DALL-E 的部分论文与实现代码。
今年年初,OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像,效果十分惊艳。
如输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。
如果 GPT-3 一样,大家都在期待 OpenAI 放出 DALL-E 的官方论文与实现代码。
经过近两个月的等待,DALL-E 的论文和代码终于新鲜出炉!
不过此项目正在更新,截止发稿时 DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分,而 Transformer 代码部分还没有公开。除此以外数据集也不能使用。而论文也是公布了 d-VAE 的论文。
项目地址https://github./openai/DALL-E 论文地址https://arxiv./abs/2102.12092
只能期待后续 OpenAI 公开更多的技术细节。
DALL-E 部分代码已开源
这是为 DALL·E 所使用的 d-VAE 的官方 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前,需要先安装软件包,代码如下
pip install git+https://github./openai/DALL-E.git
d-VAE 论文
年初在论文还没有公开的情况下,就有人开始复现,他们复现的依据来自某博主制作的油管视频,在视频中,对 DALL·E 的原理结构进行了猜测。那么,现在论文已公开,是否颠覆了他的预想。
传统上,文本到图像的生成主要集中在在固定的训练数据集上找到更好的建模假设。这些假设可能涉及复杂的体系架构、辅助损失或辅助信息,例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法,将文本和图像 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下,当以 zero-shot 方式评估时, 该研究提出的方法与以前的领域特定模型具有相当的竞争力。
人工智能培训
- 真正能和人交流的机器人什么时候实现
- 国产机器人成功完成首例远程冠脉介入手术
- 人工智能与第四次工业革命
- 未来30年的AI和物联网
- 新三板创新层公司东方水利新增专利授权:“一
- 发展人工智能是让人和机器更好地合作
- 新春贺喜! 经开区持续推进工业互联网平台建设
- 以工业机器人为桥 传统企业如何趟过智造这条河
- 山立滤芯SAGL-1HH SAGL-2HH
- 2015国际智能星创师大赛火热报名中!
- 未来机器人会咋看人类?递归神经网络之父-像蚂
- 成都新川人工智能创新中心二期主体结构封顶
- 斯坦德机器人完成数亿元人民币C轮融资,小米产
- 到2020年,智能手机将拥有十项AI功能,有些可能
- 寻找AI机器人的增长“跳板”:老龄化为支点的产
- 力升高科耐高温消防机器人参加某支队性能测试