配音版Sora视频效果惊人，多模态引领行业变革_IDC算力新闻

最近，大众对Sora生成视频的创新表现深感震撼，不过目前所展示的Sora生成的视频就跟早期的电影一样，没有声音元素。文字、图片、声音和视频作为字信息时代的四种主要载体，它们各自承担着不同的信息传递任务，也互利共生，共同构建了丰富的信息生态。

Sora生成视频

AI音频公司ElevenLabs公司为Sora经典视频完成了配音，并宣布将上线AI音效功能，用户只需要输入文字描述声音的特征即可用AI生成配音。从完成配音的视频来看，AI能够生成与视频内容紧密匹配的声音，环境音配合地恰到好处，用户的视听体验更加丰富和完整，视频的质感也大幅提升。在视频的结尾ElevenLabs还写到，以上所有的配音全部由AI生成，没有一点编辑痕迹，看来AI生成电影又更近了一步。

公开信息来看，这家成立仅两年的AI音频公司已经宣布完成了8000万美元的B轮融资，估值超过10亿美元。ElevenLabs的主打产品是文生语音工具，用户只需提供文本，ElevenLabs即可利用AI生成高度逼真的语音，可应用于视频、游戏、有声读物等多个领域，去年3月，流媒体自动化服务Super-Hi-Fi就携手ElevenLabs，使用AI配音技术为虚拟DJ配音，推出了全自动的「AI Radio」广播服务。

AI配音技术

视频到音频的精准映射是AI技术在多媒体领域的一个重要挑战，为了实现这一目标，AI系统需要具备物体识别、材质理解、环境模拟、情感和语境理解等能力，当音、视频内容无缝融合，就能为观众提供更加真实、沉浸式的体验。

Sora模型的出现已经让影视行业从业者倍感震撼，可以预见，随着表现优越的多模态大模型的出现，电影工业将面临颠覆性的变革，诸多行业的工作模式也将发生改变。

首先，原本需要大量人力和时间投入的影视特效等工作，在多模态大模型的支持下，能够以更高效的方式完成概念设计与美术设计，极大地缩短了创作周期，降低了制作成本。在技术的不断迭代下，多模态大模型还可以实现从剧本创作、角色设计，到视频合成、配音等环节的自动化，大幅缩短制作周期。

其次，多模态大模型将为影视创作带来更多可能性。它可以帮助创作者实现天马行空的创意，将各种奇特的视觉风格和场景呈现在观众面前。

此外，多模态大模型的出现也将对传统职业产生影响，行业分工和职业定位可能会发生改变，例如编剧、导演、演员等会受到冲击。长远来看，在多模态大模型的影响下影视行业或许会催生新的工作岗位，如AI创意指导、智能影像优化师等，并引导行业向更高层次的艺术和技术融合方向发展。

Sora模型的出现，为影视行业的变革拉开了序幕，而ElevenLabs公司为Sora视频的配音，更是带来了多模态的全新体验，随着AI技术的发展，多模态的融合也是未来的趋势。ElevenLabs也可能会被open AI替代掉，下一次OpenAI发布新的多模态大模型时，不仅会给影视行业带来颠覆性的变革，我们看到听到的或许就不再是真实世界了。