创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > 新三板 > 谷歌人工智能再次完爆人类,读取唇语水平秒杀专家!
分享到

谷歌人工智能再次完爆人类,读取唇语水平秒杀专家!

首发且原创 时间:11-27 23:15 阅读:15277次 来源:创客星球

摘要:很多武侠小说或者电视里的武侠高手总会一个特殊的技能——读唇语。其实在我们现实世界中,读唇语这项技能也是真实存在的。

很多武侠小说或者电视里的武侠高手总会一个特殊的技能——读唇语。其实在我们现实世界中,读唇语这项技能也是真实存在的。

不过读唇语的难度是很高的,不仅因为人的嘴唇、舌头和牙齿的运动较为轻微轻微,而且大多数唇语信号十分隐晦,难以在没有语境的情况下分辨。哪怕是专业的唇读者的精确度也只有20%-60%

人工智能通过大数据处理,已将语音识别发展到非常接近人类的水准,那么AI技术是不是也能运用到读唇语上

当然能。来自牛津大学、谷歌DeepMind以及加拿大高级研究所的研究员,在ICLR机器学习学术会议上提交的论文宣布,他们开发的神经网络LipNet——一个使用深度学习的唇读程序,能够解决这个问题。

LipNet能够通过分析视频中人物的“时空视觉特征”,来解读所说的话。它在测试中实现了93.4%的准确率,远超于人类专业唇读者的准确率。即使在目前的初级阶段,LipNet也能很快地将无声视频处理为文本,几乎接近于实时。

研究人员称:“机器唇读有巨大的应用潜力,可应用于改善助听器、公共场所的无声听写、秘密谈话、嘈杂环境中的语音识别、生物识别以及电影默片处理等。”

研究人员利用网格语料库(GRID corpus)训练和测试LipNet。这个语料库中有一系列音频和视频,包括34名演讲者每人讲的1000句话。这些句子都有“简单语法”的结构”:命令(4)+颜色(4)+介词(4)+字母(25)+数字(10)+副词(4)。

括号中的数字代表每个类别可选单词的数量,这意味着它们共可以组成64000万个句子。由于许多文件已经丢失或损坏,现在还有13名演讲者说出的32829个句子。

LipNet需要大量的训练才能达到如今的精准程度。这些视频中,约88%被用于训练LipNet,12%则用于对其进行测试。LipNet专注于演讲者说话时的口型变化,并将其分解成图像帧。

然后这些信息被馈送到神经网络中,通过多层分析将嘴部运动映射为音素,以语音学出词汇和句子。

如果担心被监控系统读取秘密对话内容的人来说,还不必感到惊慌。极为精确的唇读十分罕见,目前大多数情况都是有限的词汇被串联成句,而且它们往往没有任何意义。

在LipNet能够处理两个人之间真正的、正常的对话之前,还有很长的路要走。这需要极大的的数据量用于训练以处理重音和不同语言。

如果还是担心被监控泄露秘密

那就戴个面具说话吧

编后注:LipNet项目由谷歌DeepMind赞助,但LipNet所有版权均归属牛津大学所有。

资料来源:The Register /  The Verge / Quartz

欢迎加入创客星球微信福利群 方法:

1.添加创客星球星妹纸的微信号:2726646214

2.暗号我是创客,加入群聊参与讨论,就有机会免费获得最酷最炫的智能硬件

更多酷炫前沿的创新视频,请在各大应用商店,搜索“创客星球”进行下载

微信公众号:创客星球 QQ号:2726646214



声明:本文由创客星球企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。

评论

未登录的游客
游客

创客星球
创客星球
关注企业号
320
分享次数
5

创客星球是国内领先的泛科技媒体,在这里发现全球顶尖的创客团队,获取最潮科技资讯与实用手机技巧。视频评测,酷玩直播,人物故事,坊间八卦,爆笑段子,为你探索不一样的科技圈。

TA的其他文章

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

普华永道:2016医疗机器人宏观应用趋势与研究方向(附下载)

普华永道:2016医疗机器人宏观应用趋势与研究方向(附下载)

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号RSS