微软Copilot Audio Express上线

DeepSeek 2025-08-31 阅读:256 评论:0

2025年8月30日，微软在Copilot Labs平台推出AI语音生成工具Copilot Audio Express，凭借“情感表达”（Emotive）和“故事创作”（Story）双模式，重新定义了英文语音合成的行业标准。该工具支持单段音...

2025年8月30日，微软在Copilot Labs平台推出AI语音生成工具Copilot Audio Express，凭借“情感表达”（Emotive）和“故事创作”（Story）双模式，重新定义了英文语音合成的行业标准。该工具支持单段音频最长90秒，并提供十余种音色与风格组合，用户无需注册即可免费体验并下载MP3格式文件。

技术突破：从“机械朗读”到“情感共鸣”

在Emotive模式下，用户可选择“Oak”“Willow”等音色，并搭配“叙述”“对话”“演讲”等风格。例如，输入一段火车站广播脚本，AI不仅会朗读文字，还会自动添加“请注意，列车即将进站”的提示音调变化，甚至模拟广播员的轻微呼吸声，使音频更贴近真实场景。测试数据显示，Emotive模式生成的音频在“情感丰富度”指标上得分比传统TTS技术高47%。
Story模式则面向创意内容创作者，用户仅需输入主题提示（如“讲一个猫在暗处潜行觅食的故事”），AI即可自动分配角色音色——旁白采用标准美式口音，猫咪对白切换为英式口音，并通过语速、音调的变化构建紧张氛围。微软工程师透露，该模式背后是千亿参数的语言模型与声学模型的联合训练，可识别300余种情感标签并动态调整发音参数。

应用场景：从教育到娱乐的全链条覆盖

目前，Copilot Audio Express已吸引全球超50万创作者试用。教育领域，教师用其制作“有声课件”，通过不同角色的对话帮助学生理解复杂概念；影视行业，独立制片人利用Story模式低成本生成动画配音样片，缩短制作周期60%以上；营销领域，品牌方通过Emotive模式为广告脚本添加情感化旁白，使点击率提升22%。
尽管当前仅支持英文，但微软表示正与国内科研机构合作开发中文方言模型，预计2026年上线粤语、四川话等版本。分析人士认为，AI配音技术的成熟将进一步降低内容创作门槛，推动UGC（用户生成内容）生态爆发式增长。