喜马拉雅自研珠峰语音生成式大模型，实现5秒内“极速克隆”声音

10月31日消息，2023云栖大会上，喜马拉雅展示其最新的自研语音技术成果，包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互系统。

据介绍，喜马拉雅珠峰语音生成式大模型，具备快速实现语音音色和风格定制的能力。这一技术支持丰富场景下的音色实时转换，为声音赋予了创造性的"变声"能力，宛如给声音涂上不同的“画皮”。此前，喜马拉雅珠峰实验室团队已通过AIGC方式创作了超过3.7万部有声书专辑，而AIGC作品的每日播放时长已超过250万小时。

在云栖大会现场，喜马拉雅展示了其自研的珠峰语音生成式大模型。该大模型由喜马拉雅珠峰智人团队与西北工业大学aslplab展开合作，基于自研框架，实现音频与文本在统一框架下的稠密训练，用于语音生成任务，能够实现语音风格和音色的zeroshot的学习和迁移，实现风格和音色的任意组合，同时，喜马拉雅基于阿里云数据湖3.0构建的云原生大数据平台为语音大模型训练提供了海量高质量数据，是喜马拉雅语音大模型不可或缺的“数据引擎”。

据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍，“喜马拉雅语音生成式大模型目前已经取得了显著的突破，在音色定制方面实现了5秒内的‘极速克隆’声音。通过极少量的数据，该模型能够克隆出具有90%相似度的基本音色，并在短短的10秒内快速生成定制音频。未来，这项技术在短视频创作、数字人配音、人机交互对话、名人IP复刻等领域有望发挥出巨大的潜在价值，有效解决商业场景中的沟通需求痛点。”

喜马拉雅珠峰实验室资深产品专家吕睿韬现场介绍到：该语音大模型采用基于语音向量和语义标记的新型语音编解码器，其中语音向量包含用于高保真语音重建的声学细节，而语义标记（LLM）则侧重于语言建模的语音的语言内容，最终实现高效生成最富有语言表现力和最高保真度的语音（对话）内容。应用场景上，该语音大模型可应用于语音内容生成、口语对话、语音音色实时转换、说话风格迁移、语音到语音跨语种翻译、说话人匿名化等各种任务。

喜马拉雅还将展示其第二代智能语音交互系统，这一系统以阿里云的“通义千问”大模型为基础，以喜马拉雅儿童形象代言人“波波”为中心，增强了他的自然连贯对话能力，凸显了“波波”这一IP形象的特征。该智能语音交互系统已通过喜马拉雅儿童APP和喜马拉雅提供服务，波波球为家庭亲子用户提供陪伴对话功能。（一橙）