2025年8月30日,微软在Copilot Labs平台推出AI语音生成工具Copilot Audio Express,凭借“情感表达”(Emotive)和“故事创作”(Story)双模式,重新定义了英文语音合成的行业标准。该工具支持单段音频最长90秒,并提供十余种音色与风格组合,用户无需注册即可免费体验并下载MP3格式文件。
技术突破:从“机械朗读”到“情感共鸣”
在Emotive模式下,用户可选择“Oak”“Willow”等音色,并搭配“叙述”“对话”“演讲”等风格。例如,输入一段火车站广播脚本,AI不仅会朗读文字,还会自动添加“请注意,列车即将进站”的提示音调变化,甚至模拟广播员的轻微呼吸声,使音频更贴近真实场景。测试数据显示,Emotive模式生成的音频在“情感丰富度”指标上得分比传统TTS技术高47%。
Story模式则面向创意内容创作者,用户仅需输入主题提示(如“讲一个猫在暗处潜行觅食的故事”),AI即可自动分配角色音色——旁白采用标准美式口音,猫咪对白切换为英式口音,并通过语速、音调的变化构建紧张氛围。微软工程师透露,该模式背后是千亿参数的语言模型与声学模型的联合训练,可识别300余种情感标签并动态调整发音参数。
应用场景:从教育到娱乐的全链条覆盖
目前,Copilot Audio Express已吸引全球超50万创作者试用。教育领域,教师用其制作“有声课件”,通过不同角色的对话帮助学生理解复杂概念;影视行业,独立制片人利用Story模式低成本生成动画配音样片,缩短制作周期60%以上;营销领域,品牌方通过Emotive模式为广告脚本添加情感化旁白,使点击率提升22%。
尽管当前仅支持英文,但微软表示正与国内科研机构合作开发中文方言模型,预计2026年上线粤语、四川话等版本。分析人士认为,AI配音技术的成熟将进一步降低内容创作门槛,推动UGC(用户生成内容)生态爆发式增长。
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。