公众号
关注微信公众号
移动端
创头条企服版APP

技术分享会:DALL·E和CLIP,视觉语言生成和关联的多模态预训练模型

3446
摄星智能 2021-09-06 09:42 抢发第一评

9月2日,摄星智能星衍研究院举办了以“DALL·E和CLIP,视觉语言生成和关联的多模态预训练模型”为主题的技术分享会,此次分享人为星衍研究院CV组算法岗赵帅。

技术分享会现场)

分享会上,赵帅以DALL·E和CLIP的基本概念为切入点,介绍了两款模型的基本功能和应用前景。他表示,DALL·E是一个利用文本描述生成相关图像的多模态预训练模型,具有120亿参数。DALL·E能够以合理方式组合不相关的概念,生成拟人化的动物插画,对现有图像进行转换,推断上下文细节、控制对象属性、渲染文本,甚至懂得地理和时间知识。为了帮助参会人员更加直观的了解DALL·E技术,他现场利用DALL·E生成了多组图像,DALL·E强大的功能让参会人员赞叹不已。

(DALL·E生成的图像)

赵帅介绍道,CLIP是一个关联图像和语言的多模态预训练模型,CLIP是基于互联网上收集的4亿图像文本对进行预训练的,可以有效地从自然语言监督中学习视觉概念,解决了数据标注成本高,模型泛化能力差的问题。CLIP能够计算图像和文本的相似度,可以非常方便地迁移到OCR、视频动作识别、地理定位和多种类型的细粒度对象分类等大多数任务上,并且不需要任何特定数据集的微调就能与全监督基线模型相竞争。

(CLIP方法总结)

(技术分享会现场)

为增强与会人员对两者关系的理解,他解释道,DALL·E可以根据文本描述生成大量图像,CLIP能够计算每张图像与文本描述的相似度,并输出相似度较高的图像。在讲解DALL·E和CLIP技术的应用场景时,他表示DALL·E有潜力应用于虚拟人物生成、文章配图生成、工业设计、文本渲染、艺术创作、装修设计等领域;CLIP有潜力应用到图文互搜、情报收集等领域。

(DALL·E和CLIP的关系)

在最后的交流环节,星衍院院长杨录补充了两者在军事领域的应用,DALL·E与CLIP技术可应用于装备型号判断、军事图片生成、战术战法规划等方向,例如CLIP技术通过武器装备的相应文本描述,推断图像中武器装备的型号等。

作为一家以人工智能赋能国防领域的技术驱动型企业,摄星智能非常重视团队的技术氛围和成长空间,因此公司会不定期举办技术分享会,让团队不断保持学习状态,凝聚团队力量,提升创新能力。


声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
喜欢这篇 0
评论一下 0
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
阿里云创新中心
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP