在鸡尾酒会等社交场合听演讲,嘈杂环境往往分散人们的注意力。Google旗下语音识别系统近日有新突破,团队首先上传10万部演讲影音内容,训练人工智能(AI)模型辨识视听讯号(如人声嘴形是否同步),再把不同音源的人声拆解出来。

该技术除了可降低杂音,更可增强主要人声,甚至自动生成字幕,适合YouTube等短片平台使用。(网上图片)

Google语音AI分拆人声减杂音