最近,大众对Sora生成视频的创新表现深感震撼,不过目前所展示的Sora生成的视频就跟早期的电影一样,没有声音元素。文字、图片、声音和视频作为字信息时代的四种主要载体,它们各自承担着不同的信息传递任务,也互利共生,共同构建了丰富的信息生态。

Sora生成视频

Sora生成视频

AI音频公司ElevenLabs公司为Sora经典视频完成了配音,并宣布将上线AI音效功能,用户只需要输入文字描述声音的特征即可用AI生成配音。从完成配音的视频来看,AI能够生成与视频内容紧密匹配的声音,环境音配合地恰到好处,用户的视听体验更加丰富和完整,视频的质感也大幅提升。在视频的结尾ElevenLabs还写到,以上所有的配音全部由AI生成,没有一点编辑痕迹,看来AI生成电影又更近了一步。

公开信息来看,这家成立仅两年的AI音频公司已经宣布完成了8000万美元的B轮融资,估值超过10亿美元。ElevenLabs的主打产品是文生语音工具,用户只需提供文本,ElevenLabs即可利用AI生成高度逼真的语音,可应用于视频、游戏、有声读物等多个领域,去年3月,流媒体自动化服务Super-Hi-Fi就携手ElevenLabs,使用AI配音技术为虚拟DJ配音,推出了全自动的「AI Radio」广播服务。

AI配音技术

AI配音技术

视频到音频的精准映射是AI技术在多媒体领域的一个重要挑战,为了实现这一目标,AI系统需要具备物体识别、材质理解、环境模拟、情感和语境理解等能力,当音、视频内容无缝融合,就能为观众提供更加真实、沉浸式的体验。

Sora模型的出现已经让影视行业从业者倍感震撼,可以预见,随着表现优越的多模态大模型的出现,电影工业将面临颠覆性的变革,诸多行业的工作模式也将发生改变。

首先,原本需要大量人力和时间投入的影视特效等工作,在多模态大模型的支持下,能够以更高效的方式完成概念设计与美术设计,极大地缩短了创作周期,降低了制作成本。在技术的不断迭代下,多模态大模型还可以实现从剧本创作、角色设计,到视频合成、配音等环节的自动化,大幅缩短制作周期。

其次,多模态大模型将为影视创作带来更多可能性。它可以帮助创作者实现天马行空的创意,将各种奇特的视觉风格和场景呈现在观众面前。

此外,多模态大模型的出现也将对传统职业产生影响,行业分工和职业定位可能会发生改变,例如编剧、导演、演员等会受到冲击。长远来看,在多模态大模型的影响下影视行业或许会催生新的工作岗位,如AI创意指导、智能影像优化师等,并引导行业向更高层次的艺术和技术融合方向发展。

Sora模型的出现,为影视行业的变革拉开了序幕,而ElevenLabs公司为Sora视频的配音,更是带来了多模态的全新体验,随着AI技术的发展,多模态的融合也是未来的趋势。ElevenLabs也可能会被open AI替代掉,下一次OpenAI发布新的多模态大模型时,不仅会给影视行业带来颠覆性的变革,我们看到听到的或许就不再是真实世界了。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-02-20 10:17:00
运维管理 Sora来了,数据中心如何接住这“泼天富贵”?
Sora的到来将推动数据中心规模的持续扩大,有望带动更多资本的进入,促进行业的繁荣,同时也意味着传统数据中心或许也不再符合当下的需求,需要在制冷等方面进行技术上的发 <详情>