“再生”达利+机器人瓦力文字生成图片的AI升级版来了！

发布时间：2022-04-08 08:49来源：未知

当地时间4月6日，人工智能研究机构OpenAI发布DALL-E 2（文本到图像生成程序）。DALL-E 2具有更高分辨率和更低延迟，精确度改善了71。7%，写实度改善了88。8%，解析度更是原本的4倍，还可

　　当地时间4月6日，人工智能研究机构OpenAI发布DALL-E 2（文本到图像生成程序）。DALL-E 2具有更高分辨率和更低延迟，精确度改善了71。7%，写实度改善了88。8%，解析度更是原本的4倍，还可结合概念、属性及风格打造更生动的图像，如以莫奈（Claude Monet）的风格画出草原上的狐狸。

　　同时新增两大功能：更细颗粒度的文字局部修改图像，以及生成原图的多重风格变体。

　　生成的图片是1024 x 1024像素，比原始模型提供的256 x 256像素有了飞跃

　　但是单词匹配并不一定能捕捉到人类认可的重点，而且预测过程限制了图像的真实性。于是用CLIP（OpenAI去年发布的计算机视觉系统）来观察图像，并以人类的方式总结它们的内容。

　　CLIP是原版DALL·E功能实现的基础，DALL-E 2则结合了CLIP和扩散模型两种技术的优点。DALL·E图像生成的“扩散”（diffusion）过程可以理解为从“一堆点”出发，用越来越多的细节把图像填充完整。扩散模型的特点在于，在牺牲多样性的前提下，能大大提升生成图像的逼真度。

　　该模型在已剔除不良数据的数据集上进行训练，将由经过OpenAI审查的合作伙伴进行测试，用户被禁止上传或生成“非G级”和“可能造成伤害”的图像，以及任何涉及仇恨符号、裸体、猥亵手势，或“与正在发生的重大地缘政治事件有关的重大阴谋或事件”的图像。

　　该模型也无法根据姓名生成任何可识别的人脸，即使要求的是“蒙娜丽莎”之类的内容。同时，DALL·E 2 在生成的图片上都标有水印，以表明该作品是 AI 生成的。理想情况下这些措施可以限制其产生不良内容的能力。

　　与之前一样，该工具并未直接向公众发布。但研究人员可以提交申请预览该系统，OpenAI希望以后将DALL·E 2纳入该组织的API工具集中，使其可用于第三方应用程序。

上一篇：2021第五届全球青年创新大会落幕微克科技荣获「金领奖」两项大奖
下一篇：中国在汽车电动化浪潮中持续发挥引领作用