创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > 融资并购 > 谷歌等研究员提出弱监督学习新方法,突破数据瓶颈
分享到

谷歌等研究员提出弱监督学习新方法,突破数据瓶颈

时间:03-19 12:11 阅读:4679次 转载来源:将门创投

将门2019年度创新峰会

快来报名呀!

戳图了解详情~

From:google 编译:T.R对于现代机器学习系统来说,最大的瓶颈在于训练过程中对数据庞大的需求。创建大规模的数据集是十分昂贵的过程,需要消耗大量的人力物力来标注数据,并且随着应用的迭代已有的数据集可能不能满足实际的需要还需要重新标注甚至创建新的数据集。为了克服工业级大规模数据的瓶颈,世界各地的研究人员在这个方向上进行了深入的努力。 近日,来自谷歌斯坦福和布朗大学的研究人员们提出了一种称为”Snorkel Drybell”的新方法,基于弱监督学习的方法可以再很大程度上缓解大规模工业数据集生成的问题,利用已有的知识迅速的标注出大规模的数据。

研究人员基于开源框架Snorkel开发了这套实验标注系统,并在实验中发现这套系统可以获得与手工标记成千上万个数据点相同的效果,并揭示了如何为现代机器学习系统创造训练数据和核心原理。值得一提的是,Snorkel是一套专门基于弱监督创建训练数据的框架,它能基于内部模型、本体、规则知识图谱等各种形式的知识为机器学习模型创建大规模的数据。

与传统手工标注不同,新系统创造出为数据打标的标注函数,程序化地完成数据标记工作。研究人员主要探索了这些标注函数是如何捕获工程师的经验,如何基于现有资源启发式的进行弱监督学习的。

举个例子,如果我们想识别出与名人相关的内容,一方面可以使用现有的命名实体识别(NER)模型来标注出不包含与名人无关的人的内容来实现这一任务。这就巧妙地将已有的知识资源与简单的逻辑结合起来,为新的模型创造了训练数据。更重要的是这一标注函数将在大多数情况下返回None(与名人相关的相对较少),这就意味着在整个数据集中只有少量数据需要打标,我们可以利用这些数据标签来训练对于另一任务具有泛化性的新模型。

实验中的标注函数,将现有知识与简单的逻辑代码相结合启发式的进行数据标注。

自动化的程序标注显然比人工方法要高效和灵活,但质量却无法与手工标注媲美。标注函数常常会出现标签重叠和不一致的情况。这主要是用于标注函数的精度未知、与已有数据的关联方式也存在不确定性。为了解决这一问题,研究人员利用生成模型来对标记函数的精度和相关性进行可溯源的自动估计,在无需基准训练数据的情况下将输出重新赋权并为每一个数据点合成单一概率标签。此外还可以基于协方差观察标记函数之间的一致性,并学习出标记函数精度和相关性的参数,更好的解释标注的输出情况。

基于多源知识的弱监督学习

在研究Snorkel Drybell的过程中,研究人员使用了网络内容分类、是否提及特定产品以及实时事件的检测等生产任务及数据来进行实验。基于新的框架,可以充分综合各种信息源和已有资源:

  • 启发和规则:例如特定领域作者的规则

  • 主题模型、标记器和分类器:例如目标或相关领域的机器学习模型

  • 统计汇总:例如目标领域的相关指标

  • 知识或实体图谱:例如目标领域的数据库

在Snorkel DryBell中,为了训练模型对对Web数据进行内容或事件分类。 用户无需手工标注,而是编程组织已有资源并自动加权生成新数据集。

研究人员利用MapReduce中的模板来实现资源的组织和数据标签生成,但结果却不尽如人意。得到的数据标签噪声很大,要么与其他标签冲突,要么对于目标任务粒度太大。为了解决这一问题研究人员在自动数据清洗和整合上又进行了深入的研究。

对准确度建模以结合&重用现有资源

为了处理标签中的噪声,需要将标记函数的输出基于置信度加权整合为单一的数据点标签。但最大的难点在于没有基准数据。所以研究人员引入了生成模型技术,基于无标记数据学习出每一个标记函数的精度。通过标记函数输出的一致性矩阵并综合已知的相关性结构来进行学习。在Snorkel DryBell研究人员还实现了一套快速无采样的建模方法,在tensorflow中处理web级别的数据。 通过对标记函数的输出进行组合与建模,在Snorkel DryBell中实现了高质量的数据标记。事实上,在手工标记的训练数据可用于比较的两个应用中,Snorkel DryBell打标的数据分别与12,000和80,000个人工标记数据点在同一模型的训练中得到了相同的预测精度。

将非服务知识转移到可服务模型中

在很多情况下可用于生产的服务特征与非服务特征之间也存在重要区别,非服务特征在生产中使用面临着速度和成本的问题。但非服务特征中可能具有非常丰富的信号,但问题在于如何使用这些信号来进行训练或辅助服务模型在生成中进行部署呢?

用户可以自行编写标签函数,利用在生产中无法使用的特征历来组织知识资源(a)例如在生产中使用太慢或太昂贵的聚合统计,内部模型或知识图 来训练可服务的生产模型,利用如便宜,实时的网络信号来进行服务

在Snorkel DryBell中,用户可以自行编写标签函数来组织已有的知识资源,并利用输出的数据来训练具有不同的可服务特征的新模型。这种特征交叉迁移将基准数据上的表现平均提高了52%。更重要的是,这种方法将缓慢(昂贵的模型或者聚合统计)、私密(实体或知识图谱)或者其他不适合部署的特征充分利用起来,并训练了基于迅速和便捷特征的新模型。这种简单但强大的方式可以被视为一种全新的迁移学习方法,在不同特征集上的知识迁移代替了在不同数据集间的模型迁移,具有广泛的应用潜力!

展 望

研究人员将在未来的工作中将其他形式的知识应用于弱监督标签生成中,并探索Snorkel DryBell在信息复用和跨域知识共享中的应用。如果想了解更多的详细信息,请戳论文链接:https://arxiv.org/pdf/1812.00417.pdf

同时在下面的链接里可以找到snorkel的详尽的教程和相关博客:https://hazyresearch.github.io/snorkel/

-The End-

将门是一家以技术创新为切入口的早期创新发掘机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

声明:本文由将门创投企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。

评论

未登录的游客
游客

将门创投
将门创投
关注企业号
0
分享次数
0

将门创投是一家专注于发掘、加速和投资技术驱动型创业公司的创业服务及投资机构,投资通过技术创新激活商业场景,实现商业价值的初创企业。关注领域包括机器智能、物联网、自然人机交互、企业计算。

TA的其他文章

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

移民管理局:2018年5月1日至年底,全国审批护照等1亿多本

移民管理局:2018年5月1日至年底,全国审批护照等1亿多本

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号RSS