9月2日,摄星智能星衍研究院举办了以“DALL·E和CLIP,视觉语言生成和关联的多模态预训练模型”为主题的技术分享会,此次分享人为星衍研究院CV组算法岗赵帅。
(技术分享会现场)
分享会上,赵帅以DALL·E和CLIP的基本概念为切入点,介绍了两款模型的基本功能和应用前景。他表示,DALL·E是一个利用文本描述生成相关图像的多模态预训练模型,具有120亿参数。DALL·E能够以合理方式组合不相关的概念,生成拟人化的动物插画,对现有图像进行转换,推断上下文细节、控制对象属性、渲染文本,甚至懂得地理和时间知识。为了帮助参会人员更加直观的了解DALL·E技术,他现场利用DALL·E生成了多组图像,DALL·E强大的功能让参会人员赞叹不已。
(DALL·E生成的图像)
赵帅介绍道,CLIP是一个关联图像和语言的多模态预训练模型,CLIP是基于互联网上收集的4亿图像文本对进行预训练的,可以有效地从自然语言监督中学习视觉概念,解决了数据标注成本高,模型泛化能力差的问题。CLIP能够计算图像和文本的相似度,可以非常方便地迁移到OCR、视频动作识别、地理定位和多种类型的细粒度对象分类等大多数任务上,并且不需要任何特定数据集的微调就能与全监督基线模型相竞争。
(CLIP方法总结)
(技术分享会现场)
为增强与会人员对两者关系的理解,他解释道,DALL·E可以根据文本描述生成大量图像,CLIP能够计算每张图像与文本描述的相似度,并输出相似度较高的图像。在讲解DALL·E和CLIP技术的应用场景时,他表示DALL·E有潜力应用于虚拟人物生成、文章配图生成、工业设计、文本渲染、艺术创作、装修设计等领域;CLIP有潜力应用到图文互搜、情报收集等领域。
(DALL·E和CLIP的关系)
在最后的交流环节,星衍院院长杨录补充了两者在军事领域的应用,DALL·E与CLIP技术可应用于装备型号判断、军事图片生成、战术战法规划等方向,例如CLIP技术通过武器装备的相应文本描述,推断图像中武器装备的型号等。
作为一家以人工智能赋能国防领域的技术驱动型企业,摄星智能非常重视团队的技术氛围和成长空间,因此公司会不定期举办技术分享会,让团队不断保持学习状态,凝聚团队力量,提升创新能力。
2022-03-28 摄星智能发布了 《“俄乌冲突对未来指挥与控制的挑战”研讨会顺利召开》的文章
2022-03-21 摄星智能发布了 《开源数据支撑下的人物与装备分析》的文章
2022-03-07 摄星智能发布了 《以AI之力 铸国之利器--摄星智能开启人才招募计划》的文章
2022-01-04 摄星智能发布了 《2022年美国空军态势评估、项目展示和未来预算策略》的文章
2021-12-31 摄星智能发布了 《2021见证摄星不凡——年度大事记》的文章