当前位置:首页 > 数码 > 绝妙逼真的音效打破无声电影-AI配音版Sora影片狂潮-或改写万亿美元产业 (绝妙的音乐)

绝妙逼真的音效打破无声电影-AI配音版Sora影片狂潮-或改写万亿美元产业 (绝妙的音乐)

admin3个月前 (04-22)数码24

导语:Sora之后,又一个突破!语音初创公司ElevenLabs放大招,直接用给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。

Sora的震撼效应

虽然一些人不想承认,但AI视频模型Sora的开年王炸,确实给影视行业带来了颠覆性的影响!

Sora各种逼真视频的生成足以让人惊掉下巴,有网友却表示,现在的Sora视频更像是‘无声电影’。如果再给它们配上音效,现实可就真的就不存在了......

ElevenLabs的惊艳配音

就在今天,AI语音克隆初创公司ElevenLabs给经典的Sora展示视频,完成了绝美的配音。听过之后,让人简直颅内高潮。

从建筑物到鲨鱼无缝切换视频中,可以听到小鸟叽喳,狗在狂吠,不同动物叫声糅杂在一起,非常空灵。汽车卯足劲向前行驶的声音,偶尔还能听到石子与轮胎的摩擦音。

还有这欢乐喜庆的中国舞龙表演,敲锣打鼓人声鼎沸,好不热闹。地铁在轨道中咔哒咔哒行驶,还伴有空气被压缩发出隆~隆~的声音,让人有种耳塞的赶脚。

机器人的专属配音,直接将赛博风拉满,听过后就知道是那种‘熟悉的味道’。

东京街头上,靓丽的女人提着手提包在路边行走,高跟鞋哒哒哒与步伐完全吻合。还有那汽车鸣笛,路人说话的声音体现的淋漓尽致。

惊涛骇浪撞击着岩石,海鸥在高空中飞翔,叫声高亢嘹亮。老奶奶开心地吹灭蜡烛,笑容洋溢在每个人的脸上,片刻美好,只希望时间能够按下暂停键。

三只可爱的金毛在雪地中嬉戏打闹,兴奋地汪汪大叫。

更令人震撼的是,下面这个视频直接配出了‘纪录片’的高级感。

在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,没有一点编辑痕迹。网友惊呼,‘这简直离完全由AI生成电影又近了一步’!堪称突破后的突破!

技术分析

需要补充的是,ElevenLabs的配音不是看视频直接生成的,还是需要prompt之后才能完成。不过,这种梦幻联动确实让人眼前一亮,或许OpenAI的下一步就是进一步扩展多模态能力,将视频、音频同时呈现。

AI配音版Sora影片狂潮

到时候,被革命的不仅仅是影视行业,甚至是配音、游戏领域,也要发生翻天覆地的变化!

向量空间中建模,让LLM理解隐式物理规则

那么,视频到音频的精准映射,该如何突破呢?对此,英伟达高级科学家JimFan做了一个比较全面的分析:

为了精确配合视频内容,配音不仅需要文本信息,视频像素也至关重要。若想精确地实现‘视频-音频’的无缝匹配,还需要LLM在其潜在空间内理解一些‘隐式的物理原理’。

那么,一个端到端的Transformer需要掌握以下能力,才能正确模拟声波:

  • -确定每个物体的种类、材质和空间位置。
  • -识别物体间的复杂互动,比如棍子是敲在木头、金属还是鼓面?敲击的速度如何?
  • -辨识场景环境,是餐厅、空间站、黄石国家公园还是日本神社?
  • -从模型的内存中提取物体及其环境的典型声音模式。
  • -应用‘软性’的、已学习的物理规则,组合并调整声音模式的参数,或者即时创造全新的声音,类似于游戏引擎中的‘程序化音频’。
  • -对于复杂场景,模型需要根据物体的空间位置,将多条声音轨道叠加起来。

所有这些能力都不是通过显式模块实现的!它们是通过大量时间对齐的视频和音频配对,通过梯度下降法学习得来的。模型的注意力层将利用其权重来实现这些功能,以达到扩散的目标。

目前,我们还没有创造出如此高质量的‘AI音频引擎’。JimFan挖出了5年前来自MIT团队的一项关于‘TheSoundofPixels’的研究,或许从这里可以找到一些灵感。

这个项目中,研究人员提出了像素级声源定位系统PixelPlayer。通过结合声音和图像信息,AI能够以无监督的方式从图像或声音中识别目标、定位图像中的目标,甚至分离目标视频中的声源。

当你给定一个输入视频,PixelPlayer可以联合地将配音分离为目标组件,以及在图像帧上定位目标组件。值得一提的是,它允许在视频的‘每个像素’上定位


跳舞的时候,按下空格键,什么声音跳得最好,

PERFECT的时候最好、是紫色的、很大动静的一声

想买一诺基亚的手机不知道那款好

1000——1600的``诺基亚都不是智能的``除不6210C是智能的`` 还可以``1200——1400左右```

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: Sora

“绝妙逼真的音效打破无声电影-AI配音版Sora影片狂潮-或改写万亿美元产业 (绝妙的音乐)” 的相关文章

探索其非凡能力-奥特曼再放大招!OpenAI隆重发布首个文生视频模型Sora (探索其非凡能量的方法)

探索其非凡能力-奥特曼再放大招!OpenAI隆重发布首个文生视频模型Sora (探索其非凡能量的方法)

简介 北京时间16日凌晨,全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。此前在2023年轰轰烈烈的多模态AI模型竞赛中,谷歌、Meta和初创...

文生视频模型Sora-虚拟现实与人类存在的模糊界限 (七火山文生视频模型)

文生视频模型Sora-虚拟现实与人类存在的模糊界限 (七火山文生视频模型)

After the mind-bogglingimpact of OpenAI's large language model GPT-3, the company's latest crea...

OpenAI的Sora模型引爆高清视频生成-引发人类毁灭之忧-AI革命 (openai安卓版)

OpenAI的Sora模型引爆高清视频生成-引发人类毁灭之忧-AI革命 (openai安卓版)

人工智能(AI)的快速发展引起了广泛的兴奋和焦虑。新兴的大模型,如 OpenAI 的 Sora,可以生成长达一分钟的高清视频,引发了人们对 AI 取代电影和动画公司的前景的猜测。 这种兴奋情...

Sora炸裂科技圈-真神还是焦虑制造机 (sora炸裂openai估值飙升)

Sora炸裂科技圈-真神还是焦虑制造机 (sora炸裂openai估值飙升)

作者:吴狄 出品:零态 LT(LingT_LT) 引言 周鸿祎又一次语出惊人。他声称,通用人工智能(AGI)的实现将从 10 年缩短到 1 年,而背后的原因仅仅是一个 1 分钟的短...

Sora技术路途揭秘-伯克利出身的外围成员-变革性本文曾遇CVPR拒稿 (sora技术报告)

Sora技术路途揭秘-伯克利出身的外围成员-变革性本文曾遇CVPR拒稿 (sora技术报告)

最近几天,听说全环球的风投机构散会都在大谈Sora。自去年终引发全科技畛域军备比赛之后,曾经没有人情愿在新的生成视频赛道上落后了。 在这个疑问上,人们早有预判,但也始料未及:AI生成视频,...

第一批试用者亲自体验分享!-Sora评测 (第一批试用者是谁)

第一批试用者亲自体验分享!-Sora评测 (第一批试用者是谁)

每经编辑:毕陆名 target=_blankclass=infotextkey>OpenAI推出文生视频大模型Sora已有一个多月,如今第一波试用反应来了! 外地时期3月25日,...

经典文学作品 (经典文学作品有哪些书)

经典文学作品 (经典文学作品有哪些书)

在问世一年多后,target=_blankclass=infotextkey>OpenAI公司近期再次出招,推出文生视频大模型Sora。依据便捷的文本指令,Sora就能生成一段60秒的视频,...

Sora超逼真视频引恐慌!Nature警示AI视频模型-社会-或在2024年颠覆科学 (超sos)

Sora超逼真视频引恐慌!Nature警示AI视频模型-社会-或在2024年颠覆科学 (超sos)

随着AI技术的飞速发展,文本转视频工具Sora的出现,使得生成逼真的视频变得更便捷。这种技术也带来了新的挑战和恐惧,影响着各个行业和社会层面。 社会恐惧 错误信息的泛滥: So...