400-123-4657
行业资讯
您当前的位置: 首页 > 新闻动态 > 行业资讯

英伟达CVPR - 18论文Super SloMo开源PyTorch实现,将任意视频变高清慢速播放

时间:2025-02-05

总是有一些细节。您的眼睛睁大了,拼命想看到它,但是您仍然无能为力,例如,以下是:

你能跟上吗?看到男子羽毛球比赛的细节并不容易

有时我想盯着羽毛球飞翔,这非常困难。这是人类裸眼的极限。

您可能会说很容易解决,只需使用缓慢的后坠落功能即可。

确实可以播放它,但是较慢的支持的前提是,相机从一开始就捕获了这些细节。如今,一些大型体育赛事使用了工业高速相机,以便在裁判的决策引起争议时使用慢速镜头来确定结果。

但是,如果没有专业的高速相机,该怎么办?

就像我们使用智能手机拍摄的视频一样,我们在生活中录制了很多美景,随风而来的日落,或者被池塘溅出的涟漪,孩子们在游泳池里溅水。带来新的感觉。

因此,当今年的计算机视觉会议的CVPR时,NVIDIA团队的视频允许手机拍摄手机也“高定义和缓慢的游戏”在行业中引起了很好的反应。

这项名为Super Slomo的工作使用深层神经网络来预测和完成视频中缺乏帧,以产生连续和缓慢释放的效果。

更重要的是,他们提出的方法可以排除原始视频帧中阻塞的像素,以免在生成的中间框架中模糊模糊伪雕像(伪像)。

值得一提的是,本文的第一作者是Huaizu Jiang,他毕业于西安·贾蓬大学,现在是马萨诸塞大学阿梅斯特大学。第二作者Deqing Sun是NVIDIA研究和感知研究小组的高级研究员。他毕业于Harbin理工学院,并在香港中文学习。在布朗大学获得博士学位后,他在哈佛大学Pfister的视觉研究团队中任命了博士后视觉研究团队。

感觉超级洛杉矶产生的“缓慢释放”效果:

请注意,左侧和右侧是由超级slomo生成的视频。左侧是原始的慢视频,右侧是将此结果放慢4次的效果。如果您不告诉您中间细节(框架)是由神经网络生成的,您是否会将它们作为真正的慢速返回?资料来源:Huaizu Jiang个人主页

这是用手机拍摄的图片。比较之后,您是否意识到超级传播家族补充剂有多少细节?

作者说,他们可以将30fps(每秒帧数)的视频更改为480fps,即每秒增加16次。

根据Super Slomo项目的首页,作者说,在单个NVIDIA GTX 1080TI和TESLA V100 GPU上使用其不知道的Pytorch代码,7个中间框架,分辨率为1280*720需要。本质(补充说明:从标准序列30-FPS生成240-FPS视频,通常有必要将7个连续帧插入7个中间帧。

效果当然令人惊叹。但是,让许多人感到失望的是,纸张和数据集在发布时没有透露纸张和数据集,尽管作者表示他可以联系Huaizu Jiang以获取一些原始数据。

论文中提到的数据和示例。资料来源:超级流浪论文

今天,有人向Github的Pytorch开放,向Super-Slomo开放。 ATPLWL的REDDIT用户是作者提供的ADOBE24FPS数据集的预培训模型(以下图中预审计的矿山)实现了几乎来自论文的一些描述的结果。

现在,该预训练模型也可以在GitHub上找到。

声称自己是新手的Atplwl说,他目前正在努力改善Github图书馆。预计将添加一个Python脚本,以将视频转换为更高的FPS视频。欢迎提供建议。

Super Slomo Pytorch实现地址(单击以读取原始访问):

超级slomo:将任何视频转换为“高清慢游戏”

该代码在手中,然后阅读该论文 - 在之前已经说过,从现有视频中产生高定义慢速视频是一件非常有意义的事情。

除了专业的高速摄像机外,尚未在所有人的手中普及它,而当他们想放慢脚步时,人们可以通过手机拍摄视频(通常为240fps)。为了实现这一目标,他们必须使用标准帧速率来录制所有视频。但是,对这种需求的需求太大了,移动设备的功耗负担不起。

目前,在计算机视觉领域,除了将标准视频转换为更高的帧速率外,视频插值还可以用于生成平滑的视图转换。在自学和学习中,这也可以用作监视信号,以了解开纸视频的光流。

但是,生成的多个中间视频帧(中间视频框架)具有挑战性,因为该框架在时空中必须相干。例如,从30-FPS标准序列生成240-FPS视频,需要将7个中间帧插入两个连续帧中。

成功的解决方案不仅必须正确解释两个输入图像之间的运动(隐藏或显式),而且还要理解遗忘。否则,它可能会在插值框架中引起严重的伪图像,尤其是在运动边界附近。

现有方法主要集中在单个帧视频插值中,并且取得了良好的进步。但是,这些方法不能直接用于生成任何高帧速率视频。

尽管通过递归应用单个帧视频插值方法来生成多个中间帧是一个好主意,但至少有两个限制:此方法:

首先,递归单帧插值不能完全平行,并且速度很慢,因为某些帧是在完成其他帧后计算的(例如,在七个帧插值中,帧2取决于0和4 ,框架4取决于它。

其次,它只能生成2i-1中间帧。因此,此方法不能用于有效地生成1008 -FPS 24帧的视频,该视频需要生成41个中间帧。

论文超级slomo:视频插值的多个中间框架的高质量估计提出了一种高质量的多帧插值方法,可以解释两个帧之间的时间步长。

主要思想是将两个图像输入到特定的时间步长,然后适应两个扭曲图像以生成中间图像。运动解释和阻塞推理是建模。

超级流感效应显示:请注意过渡区域中伪图像的处理。

具体而言,首先使用CNN的流量计算来估计两个输入图像之间的两个路灯流,然后线性融合以近似所需的中间光流,以使输入图像变形。这种近似方法适用于光滑的区域,但不适合运动边界。

因此,Super Slomo Papers的作者使用另一个流量插值CNN来完善流程并预测柔软的可见图像。

通过在融合前将可见图应用于变形图像,排除了晦涩的像素对内部帧的贡献,从而减少了伪图像。

超级Slomo网络体系结构

“我们的流计算和插值网络的参数与插值的特定时间步长无关,这是流量插值网络的输入。因此,我们的方法可以与任意中间帧并行生成。”作者在论文中写道。

为了训练网络,团队从YouTube和手持式摄像机收集了240-FPS视频。总量为1.1k视频剪辑,由300K独立的视频框架组成,典型分辨率为1080×720。

然后,该团队在其他几个需要不同插值的独立数据集上评估了培训模型,包括Middlebury,UCF101,Slowflow DataSet和High -Frame -Rate MPI Sintel。

实验结果表明,该方法明显好于所有数据集上的现有方法。该团队还评估了Kitti 2012 Light Flow Benchmark的无监督(自居式)光流量结果的结果,并获得了比现有的最近方法更好的结果。

超级Slomo Project主页:〜Hzjiang/Projects/superslomo/

Super Slomo Pytorch实现GitHub地址:

地址:广东省广州市天河区88号   电话:400-123-4657   传真:+86-123-4567
版权所有:Copyright © 2002-2025 澳门金沙真人娱人 版权所有 非商用版本      ICP备案编号:粤IP**********
威尼斯(金沙)欢乐娱人城(Macau game Center)·Baidu百科