技术分享会：DALL·E和CLIP，视觉语言生成和关联的多模态预训练模型

摄星智能 2021-09-06 09:42 抢发第一评

9月2日，摄星智能星衍研究院举办了以“DALL·E和CLIP，视觉语言生成和关联的多模态预训练模型”为主题的技术分享会，此次分享人为星衍研究院CV组算法岗赵帅。

（技术分享会现场）

分享会上，赵帅以DALL·E和CLIP的基本概念为切入点，介绍了两款模型的基本功能和应用前景。他表示，DALL·E是一个利用文本描述生成相关图像的多模态预训练模型，具有120亿参数。DALL·E能够以合理方式组合不相关的概念，生成拟人化的动物插画，对现有图像进行转换，推断上下文细节、控制对象属性、渲染文本，甚至懂得地理和时间知识。为了帮助参会人员更加直观的了解DALL·E技术，他现场利用DALL·E生成了多组图像，DALL·E强大的功能让参会人员赞叹不已。

（DALL·E生成的图像）

赵帅介绍道，CLIP是一个关联图像和语言的多模态预训练模型，CLIP是基于互联网上收集的4亿图像文本对进行预训练的，可以有效地从自然语言监督中学习视觉概念，解决了数据标注成本高，模型泛化能力差的问题。CLIP能够计算图像和文本的相似度，可以非常方便地迁移到OCR、视频动作识别、地理定位和多种类型的细粒度对象分类等大多数任务上，并且不需要任何特定数据集的微调就能与全监督基线模型相竞争。

（CLIP方法总结）

（技术分享会现场）

为增强与会人员对两者关系的理解，他解释道，DALL·E可以根据文本描述生成大量图像，CLIP能够计算每张图像与文本描述的相似度，并输出相似度较高的图像。在讲解DALL·E和CLIP技术的应用场景时，他表示DALL·E有潜力应用于虚拟人物生成、文章配图生成、工业设计、文本渲染、艺术创作、装修设计等领域；CLIP有潜力应用到图文互搜、情报收集等领域。

（DALL·E和CLIP的关系）

在最后的交流环节，星衍院院长杨录补充了两者在军事领域的应用，DALL·E与CLIP技术可应用于装备型号判断、军事图片生成、战术战法规划等方向，例如CLIP技术通过武器装备的相应文本描述，推断图像中武器装备的型号等。

作为一家以人工智能赋能国防领域的技术驱动型企业，摄星智能非常重视团队的技术氛围和成长空间，因此公司会不定期举办技术分享会，让团队不断保持学习状态，凝聚团队力量，提升创新能力。

声明：该文章版权归原作者所有，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系。

您阅读这篇文章花了0秒

转发这篇文章只需要1秒钟哦