中国科学院噪声与振动重点实验室IACASlab9团队参加了2021年IEEE声学,语音和信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing,以下简称ICASSP)深度降噪挑战赛(Deep Noise Suppression-Challenge,以下简称DNS-Challenge),力克业内众多知名企业和国内外科研院所,斩获挑战赛的第一名。
ICASSP是由IEEE主办的极具世界影响力的声学、语音和信号处理国际盛会,每年都会吸引全球各地的语音信号领域和人工智能领域的数千知名专家、学者、企业和开发人员参加。
作为今年ICASSP旗下五大挑战赛之一的DNS-Challenge,由微软公司组织,旨在促进降噪领域的创新,从而实现卓越的语音品质。本次DNS-Challenge主要评价指标是平均主观意见分(Mean Opinion Score, MOS分)。在本次挑战赛中,微软增加了超过20小时的干净语音和歌唱目标数据集,并提供了丰富多样的噪声数据集。此外,微软还提供了来自其他数据集的100000多个合成的和实录的房间脉冲响应(Room Impulse Responses, RIRs)。微软曾在INTERSPEECH 2020组织了第一次DNS-Challenge,IACASlab9团队也参与其中,并获得了非实时降噪赛道第五名的成绩。
此次ICASSP 2021 DNS-Challenge竞赛主题之一的实时降噪赛道要求所提交的方案是因果的实时的,以满足低延迟应用要求,这同时要求参赛算法复杂度不能过高。具体要求之一是在主频为2.4GHz的Intel Core i5四核计算机或同等处理器上,如果帧移为Ts毫秒,则处理帧长T毫秒所用的时间必须不超过Ts毫秒;具体要求之二是T+Ts以及前看未来信息的总时长必须小于等于40毫秒。例如,如果帧长T为20ms,帧移Ts为10ms,算法延迟被认定为至少有T+Ts,即30ms,则满足低延迟要求;但是,如果使用32ms的帧长,16ms的帧移,算法延迟被认定为至少有48ms,则不能满足低延迟要求,因为总算法延迟被认定超过了40ms。如果T1=T+Ts小于40毫秒,则最多可以使用(40-T1)毫秒的未来信息。
中国科学院噪声与振动重点实验室李晓东研究员和郑成诗研究员带领博士研究生李安东和罗笑雪以及硕士研究生刘文哲,组成IACASlab9团队参加了此次DNS-Challenge。
IACASlab9团队凭借实验室多年来专注于语音和音频信号处理,有着丰富的理论知识和工程经验。参赛的模型采用了两阶段深度学习语音增强的方法,对相位和幅度的优化进行了解耦,在深度降噪挑战赛的5个模式(唱歌、音调、非英语语音、英语语音、情绪)中都取得了良好的性能,从而在众多优秀团队中脱颖而出,排名第一。
该模型对应的论文:Decoupling Magnitude and Phase Optimization with a Two-Stage Deep Network也同时被ICASSP接收,将在ICASSP线上会议中与同行进行分享和交流。
从主办方对排名前三结果的ANOVA(Analysis of Variance)分析来看,IACASlab9团队与第二、第三名之间有统计意义上的显著性优势,而第二和第三名之间则没有统计上的显著性差异。
作为国内顶尖科研院所的国家重点实验室——中国科学院噪声与振动重点实验室,前身为1958年由马大猷院士建立的通用声学实验室。实验室拥有国内综合实力最强的研究队伍和完善的研究设施。曾获得全国科学大会奖、国家科技进步二、三等奖和中国科学院一、二、三等奖。近五年来发表论文496篇,获得国家发明专利49项,出版专著8本,制修订15项国家标准。
IACASlab9团队两位带队老师——李晓东研究员和郑成诗研究员亦是业内知名声学和语音信号处理专家。李晓东研究员现任中国科学院声学研究所研究员,博士生导师,同时任中国《声学学报》中、英文版主编以及多个国内相关行业协会的理事和委员。在声学和信号处理领域主要开展声信号处理方面的研究工作,包括音频/语音信号处理、主动噪声与振动控制、声信号监测与故障诊断、声学测量和计量,以及电声器件和声频系统的研究和开发。先后负责承担和参加过数十项国家项目和企业合作项目,包括国家自然科学基金重点和面上项目、院重大和基础研究项目、国家863项目、国家973项目等。先后发表国内外期刊论文、会议论文逾200篇。主持和参与制定国家标准10余项,拥有国家和国际专利30余项。
郑成诗研究员是中国科学院青年创新促进会会员,IEEE高级会员,德国埃尔朗根-纽伦堡大学访问学者,丹麦奥尔堡大学访问学者,专注智能语音前端处理及应用,超远距离目标语音拾取和处理,深度学习语音增强的研究。先后主持国家重点研发计划课题、国家自然科学基金面上项目和青年项目等多个国家级项目,先后负责中国科学院重点部署项目子课题、STS项目等多个部级项目以及华为技术有限公司等委托的多个横向课题。以第一作者和通信作者发表SCI论文30余篇,发表EI论文近50篇,申请和授权专利10项以上。担任二十余家国际国内知名学术期刊的评审,包括IEEE Signal Processing Magazine、IEEE Transactions on Signal Processing、IEEE/ACM Transactions on Audio, Speech and Language Processing、JASA、声学学报、电子学报、电子信息学报等。
在两位老师的指导下,IACASlab9团队拥有强大的科研创新能力,凭借实验室多年来积累的经验,以及团队成员共同的努力,在强手如林的国际赛场上一举夺魁,展示了团队的实力。
文章转载自21dB声学人