创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > 融资并购 > 如何如文本般顺滑来编辑照片中的文字?
分享到

如何如文本般顺滑来编辑照片中的文字?

时间:03-12 04:14 转载来源:将门创投

将门2019年度创新峰会

快来报名呀!

戳图了解详情~

From:arxiv 编译:T.R

你想像编辑word文本一样便捷地编辑照片中的文字吗?像这样:

和这样:

让别人感觉不到任何人为编辑的迹象:

近日来自印度的研究人员们近日提出了一种基于自编码模型的字符替换方法,通过字符生成、颜色调节和重置完成对图像中目标文字的修改,并且能生成十分自然的图像,图像中被编辑过的文字毫无违和感。图片上的文字信息对于我们理解图片十分重要。字符的缺失和改变有的时候会严重的影响我们对于图像内涵的理解。除了会造成忍俊不禁的错别字,有时候还会让人们误解造成严重的损失!

另一方面,对于不同视角、环境下得到字符缺失的图片,如何进行有效的编辑和修复也是视觉领域一个重要的问题,甚至对于古文献修复和案件侦破都有着重要意义。

像编辑文本一样编辑图像中的文字

如果我们能够像文本编辑器一样编辑图像中的文字就好了。先前的人员提出过基于字符几何特征的合成方法,但却缺乏泛化性。但随着深度学习的发展,研究人员提出了利用GAN来进行字符生成,但基于GAN生成字符进行编辑的方法也需要面临一系列问题。 首先基于GAN的生成需要对目标字符进行精确的识别,但字符识别本身就是一个复杂的问题,任何误差都会在整个过程积累十分有可能造成字符编辑的错误; 其次,字符在同一张图像内具有多种字体类型,GAN模型需要对字体进行多次观察,并在生成前对字符进行较为严格的字体去失真过程,这对于不同情况下的字符编辑来说十分复杂。

所以研究人员聚焦字符级别的生成模型,来代替单词级别的生成模型最大化模型的灵活性和适应性。 那么为了编辑图像中的文字,怎样才能又快又好呢?你需要四个步骤:定位到你要修改的字符、生成目标字符、调整目标字符的颜色、将字符融合回图像中去。这一工作的核心在于解决如何生成具有相同字体的目标字符,并为它赋予原字符相同的颜色风格。为此,研究人员提出了下图所示的FANet和ColorNet联合完成。

首先选取需要修改的字符,并利用算法将原字符转变为二值图像输入网络。FANet首先通过一个三层卷积和两次全连接将输入字符编码到512长度的向量上,其中包含了字体的风格信息。此外,目标字符的编码通过26个字符的独热编码转换到512维的编码上与先前得到的输入字符图像编码拼接得到1024维的隐空间编码。随后利用两个全连接和三次上采样最终得到与原字符相同风格的目标字符。但这时候的字符还没有颜色。 那么就把原字符的颜色信息拿过来,继续进行处理。通过编码器解码器的结构,将原字符上的颜色信息迁移到了新字符上。最后对原图的对应区域进行背景去除,区域连续性处理,将得到的新字符放到合适的位置就可以得到修改后的图片了!来看看效果~~

这本jave书有点厉害!

看到这些图,你可能会觉得这些路标好像和上次看到的不一样了!

为了训练这个网络,研究人员们利用了谷歌字符库中的1000中字体,其中训练集中包含了67.6万个数据,验证集则有20.2万个数据。

最终的网络不仅可以编辑字符,同时还能由输入的单一字符生成出全部26个字母的新字体,下图中的的字体都是由一个输入字符生成出来的。

同样颜色也可以迁移,下图中的第二行表示输入字符的颜色,第三行就是将第二行的颜色迁移到第一行字符的结果。

中文字符

那么按道理,我们也可以开心的编辑照片中的汉字了。华中科技大学和旷视去年就提出了一篇可以生成各种风格汉字书法的工作,利用生成器和判别器实现了中文书法字符的合成。

这是文章中的网络结构:

和最后得到的结果:

我们可以基于同样的思路将图像中的中文字符也进行转换,把照片中的汉字都变成优秀的书法作品啦。

如果想要更详细的了解论文,特别是生成字符后的处理请参看下面链接:https://arxiv.org/pdf/1903.01192.pdf中文书法合成请参看:https://arxiv.org/pdf/1706.08789.pdf

ref: https://arxiv.org/abs/1706.08789https://arxiv.org/abs/1712.00516https://arxiv.org/pdf/1811.04256.pdfhttps://www.groundai.com/https://github.com/ChanChiChoi/awesome-ocr/blob/master/README.md

https://dribbble.com/search?q=font

-The End-

将门是一家以技术创新为切入口的早期创新发掘机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

声明:本文由将门创投企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。

评论

未登录的游客
游客

将门创投
将门创投
关注企业号
0
分享次数
0

将门创投是一家专注于发掘、加速和投资技术驱动型创业公司的创业服务及投资机构,投资通过技术创新激活商业场景,实现商业价值的初创企业。关注领域包括机器智能、物联网、自然人机交互、企业计算。

TA的其他文章

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

GSLAM:一套通用的SLAM框架与基准

GSLAM:一套通用的SLAM框架与基准

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号RSS