创头条App
扫码下载APP
扫码下载APP

您是个人用户,您可以认领企业号

    免密码登录
  • 图形验证码
  • 获取验证码
  • 立即登录
第三方账号登录
·
·

Hello,新朋友

在发表评论的时候你至少需要一个响亮的昵称

GO
资讯 > VR/AR > NVIDIA想要用AI实时生成视频,效果远超想象
分享到

NVIDIA想要用AI实时生成视频,效果远超想象

时间:12-04 00:00 阅读:111次 转载来源:青亭网

hi188| 撰文

人工智能及其应用的发展速度远超想象,在NVIDIA面前更是如此。

NVIDIA刚刚在NeurIPS大会上展示了一项新的人工智能应用,可以看作是一个驾驶模拟系统,特点是其中的视频内容由AI生成,你可通过真实方向盘来控制视频内的车辆。

可能第一眼看上去并无太大差异,只是略微有些模糊而已。然而,我要告诉你的是:这是一段通过AI技术并结合游戏引擎实时生成的虚拟视频

视频内的场景布局逼真、自然,车辆行驶流畅,超乎了我的想象。虽然仔细看仍能看出一些不真实的地方,但依然会大吃一惊。不禁反问,这还是那个曾经为了提升游戏画面不断推出更高性能显卡的NVIDIA吗?

1

视频的“生成”

NVIDIA深度学习应用副总裁Bryan Catanzaro向外媒The Verge讲到:“这是通过深度学习渲染视频的新方式。很显然,NVIDIA非常关心图像的生成,同时我们还在思考如何通过人工智能改变这一领域。”

首先,我们来回忆一下日常看到的视频都是如何完成的。从视频内容的虚实角度来看,视频内容可以分为以下两大类:

第一类是直接拍摄的实拍视频,通过相机来直接拍摄的真实图像。

第二类是动画、CG渲染等方式生成的虚拟视频,例如游戏、动画电影等,甚至有些游戏场景画面已经足够接近现实,甚至达到超现实主义画风,比真实场景更讨好的观感。

而今天NVIDIA针对的就是第二类,虚拟视频的生成。相信很多影视制作、游戏制作领域的朋友对此都不陌生。

游戏引擎们

游戏制作领域,制作者通常会采用大公司推出的较为成熟的引擎,例如Unity、Unreal Engine等。甚至也有些大的游戏公司拥有自己的游戏引擎,EA公司的寒霜、育碧公司的Realblast引擎等。

而在CG领域,同样也会结合到游戏引擎。为了解决游戏实时的光线追踪难题,NVIDIA已经推出民用级NVIDIA RTX系列显卡,进一步下探了制作和应用上的局限。

2

AI变革视频渲染方式

很显然,NVIDIA展示的视频并不是真实的场景。其中,一个重要的识别方式在于它比较模糊,没有那么清晰。作为对比,当下售价200元左右的行车记录仪拍摄的视频也比上图要清晰。

实际上,这背后的技术并不新颖。早在今年8月份,NVIDIA就公布了一套名为vid2vid的视频转换方法,并随之在Arxiv公布论文。

论文提到如何基于现有技术实现该方案的方式,其中包括了一个名为pix2pix的开源系统,并由此开发了一套生成式对抗网络模型(GAN)。这些技术都是当前角为成熟的AI图像生成方式,包括此前由佳士得拍卖出的首个AI创作的画作,也是基于此模型创作诞生的。

这里简单讲一下几者的不同。

GAN:生成式对抗网络模型,通过自我判断真假来不断强化学习的图像生成技术,不足在于不受人为控制,且画面分辨率和质量较低;pix2pix:可以理解为GAN升级版,特点是支持有条件输入,通过成对的数据进行训练,点此体验草图生成图片pix2pixHD:pix2pix高阶版,可生成高分辨率、更高质量的图像。

当然,这仅仅是一个驾驶模拟系统,你可以通过方向盘来控制视频内的车辆驾驶,走几个街区都没有问题,场景非常简单而且局限,你不能离开汽车,也不能与场景互动。也就是说,这套系统目前只有驾驶员视角。

在NVIDIA看来,这其中最值得炫耀的就是它只通过一块显卡即可完成,虽然我们猜测可能是刚刚发布的Titan系列显卡,价格上并不亲民。

左上角:视频分割图; 右上角:pix2pixHD; 左下角:COVST; 右下角:Nvidia vid2vid

据悉,NVIDIA的这段演示场景制作分为三个步骤:

1,研究人员收集大量的训练数据,数据来自于自动驾驶的开源数据集; 2,将视频内容分割,具体到每一帧,同时将每一帧的图像进行识别后分类,例如图像中的汽车、天空、树木、建筑等都有了明确分类; 3,对分类数据进行GAN训练,从而生成新的版本 4,工程师基于UE4游戏引擎创建出虚拟环境的基础框架; 5,在此框架,基于深度学习算法实时生成每个不同类别的图像,然后将不同类别的图像与游戏引擎相结合。

Catanzaro表示:“一个视频场景的结构从传统角度来看都是被创造出来的, 而人工智能生成的图像,但又不仅仅是图像那么简单。”这本身仅仅是一个演示Demo,并不能看作是一款游戏模型。

3

系统开发难点

在一段效果还不错的视频渲染技术Demo背后,是NVIDIA工程师不断攻破技术难点而努力的结果。

据了解,这其中最大的难点在于如何保持对象的持久性,在视频为25帧的速率下如何让对象持续且看上去足够连贯。Catanzaro谈到:“由于每一帧的颜色和纹理都会发生变化,因此这也是最头疼的问题。”

不过,工程师仍然找到一个解决方案,就是给系统增加了一个短期记忆的能力。其作用是将每一帧图像与前一帧图像比较,从中预测图像的运动方向和轨迹,从而创建出一个与之运动方向相同的新帧。

左上角:地面实拍;右上角:PredNet;左下角:MCNet;右下角:NVIDIA

虽然解决了图像稳定性的问题,但是也随之而来带来一个新的困扰。由于上个步骤用于判断和预测图像运动方向所需大量算力,因此当前的Demo仅能以25帧/秒的速度运行。

“这项时技术处于早期阶段,随着人工智能技术的不断演进成熟,可能需要几十年的时间才能普及到消费级应用场景中。”Catanzaro谈到,同时也谈到和光线追踪技术的对比。光线追踪技术是当前图形渲染的热门技术,不过由于种种限制,直到几周前才得以在游戏中展开应用,虽然它最初展现在大家面前已经是很多年之前了。

4

应用场景和领域

正因为当前这套系统还处于开发阶段,因此前在的应用场景也非常广泛。首先能想到的就机器人、自动驾驶厂商用于环境训练,用于自我模拟训练。

游戏引擎商店

当然,这相技术真正令我兴奋的则是应用在游戏制作、电影制作以及VR领域。利用AI技术制作大量相似的人物或场景,让内容制作变得更轻松。

ZEPETO应用

甚至是当前火热的社交应用ZEPETO,我们可通过AI技术在游戏中创建出更逼真的卡通画的头像,甚至是动态的人物形象等。

甚至外媒也指出了另一点担心,未来可能会有一些通过AI技术制作的虚假的政治人物视频,用于虚假的传播。当然,技术本身并没有对错,这一点实际上是很难避免的。

Catanzaro则表示,通过这项技术创建出误导性的内容并不是新出现的问题,在此之前通过任何渲染手段都可以做到这一点。他认为,NVIDIA正在与合作伙伴联合研究检测虚拟AI成品的方法。最终发现,这是一个“信任问题”,并不能单单靠技术来解决。

(END)

 
   推荐阅读    

 
每天五分钟,轻松了解前沿科技。              —— 青亭网  

声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。

评论

未登录的游客
游客

    为您推荐
  • 推荐
  • 人物
  • 专题
  • 干货
  • 地方
  • 行业
+加载更多资讯

阅读下一篇

11月VR大数据:Windows MR与Vive Pro涨幅缓慢,VR进入幻灭低谷期

11月VR大数据:Windows MR与Vive Pro涨幅缓慢,VR进入幻灭低谷期

返回创头条首页

©2015 创头条版权所有ICP许可证书京ICP备15013664号RSS