当前位置：首页 > 数码 > 音频大模型追逐图灵时刻-AI干掉声优 (音频模拟)

音频大模型追逐图灵时刻-AI干掉声优 (音频模拟)

admin1年前 (2024-04-21)数码56

人工智能（AI）领域中，一个重要的里程碑是图灵测试。图灵测试提出，如果一个人无法通过屏幕上的对话判断出对方是人还是机器，那么机器就具有了与人相当的智能。

近年来，随着生成式人工智能（AIGC）的发展，AI对物理世界的探索成为热门话题。以Sora为代表的AIGC模型展现出了令人惊叹的表达能力，被认为是AI感知物理世界的初步探索。

AI感知物理世界的现状

有专家对Sora模型的物理世界理解能力提出了质疑。上海大学计算机科学与技术系教授武星表示，Sora提示词中生成的大部分看起来逼真的视频并不表明视频理解了物理世界。

喜马拉雅珠峰AI科技产品研发总监吕睿韬也持类似观点。他认为，Sora的表达虽然很好，但本质上是假装出来的，并没有真正理解世界的规则。

AI与物理世界交互的途径

AI与物理世界交互一般可以通过视频和音频两种途径。相比之下，音频似乎能够更早达到图灵时刻。

目前音频产业界达成了以下共识：

未来一定是实时跨语种语音交互，而且会提前发生。
语音表达的人格化将成为趋势，随着语音模型发展到30B以上，AI可能超越人类。

喜马拉雅在音频大模型领域的探索

吕睿韬介绍称，喜马拉雅每天播放量的10%是AI大模型生成的，用户已经分不出是真人还是AI了。这表明音频大模型的能力正在涌现。

2023年，行业内的音频大模型都只复刻了音色，但吕睿韬指出，这仅仅占30%，并不是完全复刻人。

喜马拉雅目前正在研究的音频大模型可以实现以下能力：

15秒60个字内实现腔调、口吻、音色和情感信息的学习和快速生成。
不仅可以生成语音，还可以生成音效和音乐。
在喜马拉雅的主营业务中应用，包括对话、多角色、多情感的演绎能力等。

结语

AI与物理世界交互是一个仍在探索中的领域。虽然目前AI还没有完全理解物理世界的规则，但音频大模型的发展表明，AI在音频领域正在迅速接近图灵时刻。

随着AI技术的不断进步，我们期待着在未来看到AI在物理世界交互方面取得更大突破。

怎么接入ai大模型

接入AI大模型需要一定的技术能力和资源准备，但随着技术的发展和开源社区的壮大，这些门槛正在逐渐降低，我们可以通过获取模型、准备合适的环境，微调模型以及部署和维护来实现。

要使用AI大模型，需要先搭建一个合适的环境。这包括硬件环境（高性能的CPU或GPU）和软件环境（Python、PyTorch、TensorFlow等）。同时，还需要准备一些必要的工具，如代码编辑器、版本控制工具等。

在接入AI大模型后，可能需要对模型进行微调以适应特定的任务。这可能涉及到调整模型的参数、改变模型的架构等。此外，还需要对模型的输出进行合理的处理和解释，以符合实际需求。

最后，需要将AI大模型部署到实际的应用场景中，并进行实时的维护和更新。这可能涉及到调整模型的参数、优化模型的性能等。同时，还需要考虑如何保护模型的安全性和隐私性。

AI大模型的特点：

1、参数规模庞大：AI大模型通常具有数百万甚至数亿个参数，能够从大量数据中学习复杂的特征和规律。

2、深度结构复杂：AI大模型通常采用深度神经网络结构，具有多层次的抽象和抽象能力，能够更好地理解和处理数据。

3、泛化能力强：AI大模型能够从已有知识中提取普适规律，并应用于新任务和新领域。

4、多模态处理能力：AI大模型可以处理多种不同类型的数据，如文本、图像、音频等，实现多模态的信息处理。

5、能够实现跨领域的学习和推理：AI大模型可以应用于不同的领域和任务，并能够实现跨领域的学习和推理，为跨模态任务提供更全面的解决方案。

6、在NLP领域有着重要应用：AI大模型在自然语言处理（NLP）领域有着广泛的应用，如文本生成、自动翻译、情感分析、问答系统等任务。

以上内容参考：网络百科-人工智能

AI大模型、智驾全面升级极越01迎来首次大版本OTA

1月14日，极越官方宣布将对品牌首款车型—极越01进行首次大版本OTA升级，将陆续向全国用户推送V1.3软件版本。作为极越01交付以来的首次整车升级，V1.3版本包含了OCC占用网络技术上车在内的通用视觉能力进化、SIMO完全融入文心一言4.0在内的通用语音能力进化、冬季模式等安全和生态服务等5大类、超400个功能点升级。同时，极越CEO还通过直播的方式，亲自驾驶极越01从上海嘉定出发到杭州城西银泰体验店，体验了全程点到点的PPA领航辅助驾驶，直观展示极越01的智驾能力。

据悉，极越的纯视觉感知完整体系被正式命名为“B.O.T三向箔”，其基于网络Apollo高阶自动驾驶技术开发，其纯视觉方案的3D精度可达厘米级，并且对运动障碍物的速度识别误差范围也可控制在0.1米/秒内。并且为解决用户的后顾之忧，极越与平安产险广东分公司已经签署了战略合作协议，针对智能驾驶场景的保障展开深度合作，并已推出针对高阶智能驾驶的专属保险—智驾保，在高阶智驾范围内所产生的责任费用将通过该产品赔付。

据官方数据显示，极越01用户平均每天与SIMO交互频次达63次，次数是行业平均水平的10倍。而点到点领航辅助PPA的覆盖范围已经达到全国超40万公里的道路，PPA智驾里程占用户出行总里程的比重，也是行业平均水平的2-4倍，尤其是上海市，该占比高达47.9%，足见用户对极越01智能化功能的认可。

此次推送的V1.3版本升级共包含了超400个功能点，在智能驾驶、智能交互、安全性能、娱乐服务等5大层面新增多项功能，并对点到点领航辅助PPA、智能AI 伙伴SIMO等功能进行深度优化，进一步提升用户的智能化体验。

具体来看，此次升级针对智驾体验方面，增加了更高效的超车变道、自动变道提示、跨黄色虚线借用对向车道绕障、变道进入显示时段的公交车道等功能。同时，智驾相关播报信息变得更为细致，断头路的自动泊车效率也显著提升。

文心一言大模型则从3.5版本升级为4.0版本，并且SIMO也将与文心一言进行更好的融合。在升级后，用户可直接语音提问SIMO，便可享受文心一言4.0的全部功能，无需单独打开文心一言大模型，并且在使用文心一言额过程中，SIMO也将继续支持其他指令的执行。

而在娱乐生态方面，车机内新增了哔哩哔哩、小宇宙、后排K歌等功能，还支持手机和Switch投屏、麦克风、极越APP虚拟手柄控制车载游戏。

此次升级，官方也针对用户在日常用车过程中的很多细节场景进行了大范围优化。例如增加远程方向盘加热、远程除雾除霜、雨天自动关窗、远程预约预设座舱环境、导航到快充站时的电池预加热、预约出发电池加热、雨天自动关窗、手机音频无感切换、盲区视频显示等一系列功能。并且针对用户反馈的一系列问题，对导航定位、车位语音、行车记录仪、HMI等进行了多项优化。

而在安全性方面，此次OTA也进行了一系列深度优化。例如在发生严重碰撞车辆下电的状态下，外部救援人员在车外按开门键时默认启动“破冰功能”，通过施加额外的力量帮助救援人员快速打开车门。新增的雪地辅助功能也会提升车辆的脱困能力及雪地下的行驶稳定性，提升驾驶安全。

在智加领域，极越将“BEV+OCC+Transformer”正式命名为“B.O.T 三向箔”，此次V1.3版本的升级也大幅提升了其应对异形障碍物和场景泛化的能力。据介绍，在面对路肩、水马、绿化带花盆等常见障碍物时，“B.O.T 三向箔”可准确识别，并在行驶中偏离原本中心线10厘米左右，留出更多安全距离。而在遇到高精地图和实际路线不一致、临时路面施工等场景时，其会通过减速、刹停或者绕行等动作进行避障。目前，全国90%的高速高架都可使用高速PPA，而城市PPA也已经开通了上海、北京、深圳、杭州4个城市的主要城市道路。

相比目前市面上更常见的激光雷达方案，纯视觉方案的实现难度更高，但也有模型迭代速度更快、有效降低用户体验高阶智能驾驶的购车成本的优势。通过超6000万公里的Robotaxi原始数据积累，并依托网络AI大模型、高标准的自动化标注产线实现日均产能过百万（帧）、高质量标注数据BEV+OCC精标训练数据过亿(帧)，大幅提升数据处理效率和精度。“B.O.T三向箔”感知技术架构可实现厘米级的3D精度，对于运动障碍物的速度识别精度能达到0.1米/秒误差范围。

其实随着软件对车辆各方面表现的重要性不断提升，能否做到持续的OTA升级，不断优化体验，已经成为了车企“售后”的关键一环。如今这些智能化汽车的OTA升级真不是因为产品不完善而去打补丁，而是软件赋予了一台车更多的可能性，这种可能性也确实需要车企去不断探索和完善。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: AI