【ZiDongHua 之“会展赛培坛”栏目标注“第一对焦“、“自动对焦”关键词:中移九天 人工智能 高质量发展 】
 

  2025年声纹处理研究与应用学术研讨会召开,中移九天专家分享声纹领域研究成果及应用

 
  11月8日至9日,2025 年声纹处理研究与应用学术研讨会在深圳举行。研讨会以 “一音一世界,万象悉可聆” 为主题,聚焦声纹处理领域核心科学问题与前沿技术方向,交流最新研究成果、探讨未来发展趋势,促进学术创新与成果转化。
 
  中移九天人工智能科技(北京)有限公司(九天人工智能研究院)语音团队负责人张世磊博士受邀出席了主论坛及圆桌会议,并发表了题为《掩蔽生成式目标说话人提取方法》的专题报告,向参会专家学者系统介绍了团队在目标说话人提取领域的技术突破与实践成果。
 
 
  张世磊博士在报告中指出,目标说话人提取(Target Speaker Extraction, TSE)技术旨在从混合语音中分离出特定目标说话人的声音。当前,目标说话人提取领域的主流方法大多基于判别式模型。然而,这类方法在训练过程中专注于区分目标语音和背景噪声,常常导致提取的语音信号失真,并且在新场景下泛化能力较为有限。面对这些挑战,生成式模型近年来展现出巨大潜力,通过学习语音信号的内在分布生成目标语音,生成式模型有望在保真度和音质上取得更优越的效果。
 
  中移九天语音团队基于生成式模型的优势,提出了一种新颖的、基于掩码生成模型的目标说话人提取方法。该方法的核心思想是联合利用离散声学token和从混合信号中提取的连续特征,通过注意力机制融合混合信号和目标人注册语音中的连续特征信息,准确地重建被掩码的token。目前,实验结果表明该方法能够有效提取目标说话人。
 
 
  除目标说话人提取技术外,张世磊博士还分享了中移九天语音团队在音频离散化与成分解耦领域的研究成果。他指出,音频信号作为承载丰富语义内容与副语言信息的复杂时变信号,其统一化离散表征在适配不同下游任务时,普遍存在冗余干扰等问题,严重制约可控音频生成的灵活性与任务适配性。中移九天语音团队从表征、结构、任务、蒸馏等不同角度研究音频的离散化与成分解耦,提出了解耦驱动的多层级音频离散化表征方案。该方案在输入音频的离散化表征过程中对语音与背景声信息进行解耦,通过选择不同成分可以实现语音增强、背景音替换等任务,显著提升了技术方案的实用性与泛化能力。
 
 
  报告最后,张世磊博士还介绍了基于上述核心技术构建的百万说话人基础模型及其落地应用进展。该模型依托百万说话人语料库训练,目前已在智能会议系统、语音助手、全双工语音交互等实际场景中应用。
 
  面向未来,中移九天团队将持续深耕生成式 AI 在语音领域的技术突破,进一步优化目标说话人提取、音频离散化与成分解耦等核心技术,强化语音模型在复杂噪声环境下的抗干扰能力与跨场景适配的鲁棒性。同时,作为人工智能领域的央企国家队,中移九天将始终秉持开放协作的核心理念,深化与学界、产业界的多元联动与深度协同,以技术创新为纽带构建产学研用共赢生态,让可信、高效、便捷的语音交互体验持续赋能千行百业。