本帖最后由 云开月明 于 2020-5-19 16:29 编辑
北京时间2020年5月4日,国际多通道语音分离和识别大赛(CHiME)组委会在线揭晓最新一届CHiME-6比赛结果。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道语音识别两个参赛任务上夺冠,其中语音识别错误率从CHiME-5的46.1%降至30.5%,刷新项目最好成绩。据了解,这是自2016年以来,科大讯飞第三次参加这项国际竞赛,并连续夺冠。
科大讯飞夺得CHiME-6冠军 (Track1:Ranking A)
科大讯飞夺得CHiME-6冠军 (Track1:Ranking B)
攻克"史上最难"语音识别任务,准确率大幅提升
作为国际语音识别评测领域影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛,本届CHiME大赛相比上届又增加了一些新难点,分别为大量的语音交叠(Speech Overlap),远场混响和噪声干扰对录音的影响,对话风格非常自由、近乎随意,训练数据有限这四大难点,被称为"史上最难的语音识别任务"。
据了解,本次CHiME-6使用的语音素材包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天,聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素,因而技术难度极大。在比赛中,Track1任务为在给定说话人边界的情况下重点考察参赛团队的多通道信号处理能力及复杂场景语音识别能力。另外,本次比赛新设了Track2任务,该任务要求参赛结构在自动说话人分离的基础上再进行语音识别。
(CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话)
2018年的CHiME-5比赛,科大讯飞联合中科大语音及语言信息处理国家工程实验室杜俊教授团队(USTC-NELSLIP)斩获了四个比赛项目的全部冠军。然而,当年最优的参赛系统语音识别错误率仍高达46.1%,距离实用仍有较大差距,所以,今年USTC-NELSLIP联合团队重点聚焦于Track1,希望进一步探索复杂场景语音识别实用化的可能性。通过团队的技术攻关,将该任务上的语音识别错误率从原来的46.1%降至30.5%,大幅刷新该项赛事历史最好成绩,进一步拉大领先优势,最终在Track1的两个子任务(Track1-Ranking A,需使用官方语言模型;Track1-Ranking B,不限制语言模型)上均斩获冠军。
行业风云争霸,科大讯飞实现以技术破局
始办于2011年的CHiME,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构共同发起,比赛的目的是希望学术界和工业界针对高噪声、高混响等现象影响下的实际场景提出全新的语音识别解决方案,从而进一步提升语音识别的实用性和普适性。
历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。而在CHiME-6中,美国的约翰霍普金斯大学(JHU)、俄罗斯STC公司、德国帕德博恩大学(Pardeborn University)、捷克布尔诺理工大学(Brno University of Technology)等知名学术机构及企业均有参赛。
能在众多行业大咖中脱颖而出并三连夺冠,再次证明了科大讯飞在多通道语音识别领域内扎实的基本功和雄厚的实力,也表明了科大讯飞在保持行业领先技术的同时,不断追求创新突破。
作为亚太地区知名的智能语音与人工智能上市公司,科大讯飞基于"技术顶天、产品落地"的战略理念,不断进行着核心技术的创新。未来,科大讯飞将继续坚持核心源头技术研发,用人工智能赋能美好生活。
来源:科大讯飞
|