创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > 融资并购 > Facebook提出Vid2Game模型,帮助你来控制视频里的主人公动起来~
分享到

Facebook提出Vid2Game模型,帮助你来控制视频里的主人公动起来~

时间:04-24 00:00 阅读:1657次 转载来源:将门创投

From Facebook AI 编译 T.R

相信大家还记得曾经游戏中的主人公,可以随着按键旋转跳跃,通过三维/二维模型或者实现录制好的视频来响应不同指令的动作。而最近来自Facebook的研究人员提出了一个能从真实视频中抽取可控制主角的模型Vid2Game,这意味你可以将视频中喜欢的主人公变成可以在游戏中控制的主角。

让我们先来看看效果,从真实视频中抽取的主角被放置到了新背景中,随着按键的控制左右移动挥拍击球。

黑衣服的运动员被妥妥地安排到了不同的背景中,随着键盘的指令移动。这是怎么做到的呢?为了实现对主体的控制和生成需要解决一下几个问题:首先需要将主体从环境中分离出来以便在新的任意的背景中生成;由于渲染阴影、反射、运动效果等、这种分离不是二值化的;用户给出的控制信号任意的x,y位移、如何编码并将控制量馈入主体生成中;最后需要处理生成序列过程中积累误差的影响。那么文章中具体是如何做到的呢?下面让我们一起来看看背后的原理。Vid2Game包含了两个神经网络和三个主要步骤的工作流程,首先利用第一个神经网络将当前位姿和控制信号映射到下一时刻的新位姿;随后利用新位姿和给定的背景输出希望的帧,包括背景和主体以及主体的mask;最后将生成的主体以背景融合生成最终输出。这种通用的方法可以被广泛用于多种不同运动场景中。给定视频中的主角可以根据用户的控制,生成在目标背景中运动的视频。两个序列形式工作的模型分别是Pose2Pose和Pose2FramePose2Pose网络基于用户的控制序列信号以自回归的方式操作给定的位姿,实现在特定的域内基于2D控制信号引导人体位姿生成。通过输入t-1时刻的位姿和对应物体、在用户控制序列的操作下生成t时刻的主角位姿和对应物体。上图中我们可以看到输入的运动员位姿图和对应的球拍、同时输入的还有控制量。我们还可以看到中间的n-2个条件残差模块是基于质心位移量进行处理的。在训练时,质心唯一来自于训练序列的编码、而推理时则来自于用户输入。

随后将生成的位姿及给定的背景输入Pose2Frame将生成高分辨率的真实视频序列。同样以运动员作为例子,将运动员位姿和网球拍的序列输入,模型将生成一个RGB图像和mask图像.RGB图像考虑了运动员在环境中需要包括了阴影、反射等渲染,而mask辅助融合运动员与给定背景。通过mask与生成的rgb相乘得到运动员部分的RGB图像、再通过背景抠出mask区域随后融合运动与与给定背景,即得到运动员在新环境中生成的受用户控制的帧。

对于判别器部分、模型主要关注多尺度情况下二进制阈值主体。其中o为基准图像f为生成图像,在放入多尺度判别器前需要进行均值pooling减采样,。放入VGG分类器中的图像则保持了原始分辨率用于给出感知损失。Pose2Pose和Pose2Frame的生成器和判别器都使用了pix2pixHD架构来作为基础网络,并进行了一系列改进。同时利用了基于DensePose的方法来对位姿进行表示,同时使用了语义分割的方法来对运动员手持物体进行抽取。

通过这样的方法,就可以在希望的场景中合成你可控制的主角了。这对于未来个性化游戏、虚拟显示等具有十分重要的意义。从各种视频中抽取主角、并可以通过键盘在游戏中控制真的很棒!

让我们来跳一支舞吧:

控制你的主角四处漫游:

到任何想去的地方打球:

与龙来一场战斗吧:

ref:

Paper:https://arxiv.org/pdf/1904.08379.pdf

DensePose:http://openaccess.thecvf.com/content_cvpr_2018/papers/Guler_DensePose_Dense_Human_CVPR_2018_paper.pdf

http://densepose.org/

pix2pixHD:http://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_High-Resolution_Image_Synthesis_CVPR_2018_paper.pdf

logo:https://dribbble.com/shots/5703749-Abstract-Game

-The End-

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在三年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com

    

点击右上角,把文章分享到朋友圈
 

将门创投

让创新获得认可!

微信:thejiangmen

bp@thejiangmen.com

声明:本文由将门创投企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。

评论

未登录的游客
游客

将门创投
将门创投
关注企业号
0
分享次数
0

将门创投是一家专注于发掘、加速和投资技术驱动型创业公司的创业服务及投资机构,投资通过技术创新激活商业场景,实现商业价值的初创企业。关注领域包括机器智能、物联网、自然人机交互、企业计算。

TA的其他文章

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

直播 | NVIDIA DLMED组研究科学家张灵博士:适用于临床场景的自动前列腺分割算法

直播 | NVIDIA DLMED组研究科学家张灵博士:适用于临床场景的自动前列腺分割算法

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号RSS