微信
腾讯微博
新浪微博
川北快讯
科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军
时间: 2021-11-18 11:21   来源:TechWeb   阅读量:8934   

日前,由美国国家标准与技术研究院NIST发起的OpenASR挑战赛落下帷幕,科大讯飞—中科大语音及语言信息处理国家工程实验室联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,全部取得第一。

科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军

继前不久荣获多语言理解评测XTREME冠军之后,科大讯飞在多语种领域再次取得突破,在探索人机交互更自然,人人沟通无障碍的征程中又迈出了坚实的一步,也为中国多语种语音语言技术赶超国际先进水平,中国智能制造的全球化奠定了坚实的基础。

从大语种向低资源多语种拓展

最近几年来,伴随着深度学习技术的进步,汉语,英语等大语种语音识别技术日趋成熟,并获得广泛的应用。

相比之下,小语种语音识别因其语音数据资源难以获取,难以标注,难以评估,语言专家稀缺等原因,已经成为世界性的研究难题,距离实用门槛仍有较大差距。

与NIST此前组织的其他赛事相比,OpenASR更加关注小语种语音技术,探索如何使用少量的数据达到较好的效果,同时考察低资源语音识别基础算法在多个语种上的推广性自2020年启动以来,吸引了加拿大蒙特利尔信息科技研究中心,新加坡科技研究局,清华大学,腾讯等国内外知名研究机构和企业参与其中

本次比赛共包含15个语种,涵盖受限赛道,受限附加赛道和非受限赛道。

表1:15个语种信息

其中受限赛道为各参赛单位必选项,每个语种只能使用组委会提供的10小时标注语音识别数据,受限附加赛道在受限赛道的基础上允许使用开源的预训练模型,而非受限赛道可以使用受限数据以外的数据。

科大讯飞—中科大联合团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架,获此佳绩也验证了该算法良好的推广性。

图1:联合团队全部15个语种受限赛道成绩

图2:联合团队参加的7个语种非受限赛道成绩

领先技术亮相国际赛场

在受限赛道上,由于每个语种只有10小时语音数据,如何使用少量文本数据,利用无监督的方法增加语音训练数据的多样性至关重要。。

科大讯飞—中科大联合团队创新运用Flow—TTS语音合成进行训练数据扩增,并使用语音属性解耦技术保证合成语音的多样性结果显示,使用上述无监督数据扩增方案,能够稳定,显著地提升低资源语音识别任务的效果

而在非受限赛道上,虽然参赛者可以利用公开的语音数据,但数据总量仍只有数百小时,而且语音数据和文本数据的量级差距十分明显,这对于端到端识别框架来说,弊端更为明显。

为了在端到端统一框架下,充分使用少量语音数据和海量文本数据,科大讯飞—中科大联合团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS—ASR。

首先,对于海量文本数据的使用,创新设计了文本掩码语言模型任务,合成数据语音识别两个目标,两个任务联合训练以充分利用海量无监督文本,其次,设计了共享语言解码模块,实现了语音和文本隐层表达空间的统一,大大缓解了低资源语种的数据稀疏问题。

图3:USRS—ASR框架示意图

为全球提供多语种智能语音解决方案

就在不久前,工信部正式批复同意成立国家智能语音创新中心,国家高端智能化家用电器创新中心,科技创新正不断引领产业升级。通过全球1024开发者节,科大讯飞希望用最新最全的人工智能技术和产品促进跨行业链接,多领域碰撞,新技术升级,以科技之光,生态之念,立足当下,放眼未来,打造全域AI新世界。

值得注意的是,在这两家国家级创新中心依托公司的股东名单中,科大讯飞均赫然在列。

持续致力于打造源头技术创新策源地,科大讯飞正不断追寻顶天立地的产业梦想。

多语种语音语言技术是万物互联时代实现人机交互的关键技术,也是实现一带一路语言大互通的基础技术。

从2014年开始,科大讯飞就一直在该方向的源头技术创新及产业化应用上持续投入,并不断挑战实际应用中的技术难题。

经过多年的技术积累,除了中英以外,科大讯飞还具备了 69种语言的语音识别能力,并已在新加坡,俄罗斯,印度,日本等国家部署了海外站点,为各地开发者提供语音识别,语音合成,机器翻译,图文识别等语音语言服务,所有服务均在科大讯飞开放平台开放。

多语种技术有力支撑了科大讯飞智能硬件产品创新在翻译终端方面,2016年11月发布的科大讯飞智能翻译硬件,开创了AI翻译机新品类,在会议同传方面,2016年11月推出的讯飞听见多语种字幕同传系统,支持日韩法西等多国语言的同声传译,在录音笔方面,科大讯飞于2019年5月发布智能录音笔,次年升级支持8种语言转写能力,2021年日本版智能录音笔VOITER系列在日本一经上线,就取得单月销售破千台的亮眼成绩

除自身产品以外,科大讯飞也积极为中国制造出海产品提供自主可控解决方案。

在手机,家电方面,为国内众多手机厂商提供包括中英在内的多语种语音识别,语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场,在车载交互方面,与上汽,长安,奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院等海外车厂开展多语种项目合作,覆盖英语,俄语,日语,泰语,西班牙语,意大利语等数十个语种。

此外,科大讯飞的多语种相关技术能力也已应用于北京2022年冬奥会官方APP,助力冬奥信息沟通无障碍。

作为人工智能国家队,科大讯飞将继续坚持源头核心技术创新,联合国内众多研究机构与企业,构建多语言技术的系统性创新研发生态,共同推动我国多语言技术进步与应用落地。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

川北快讯
①凡注明"来源:XXX(非在线)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,本网不承担此类稿件侵权行为的连带责任。
②本站所载之信息仅为网民提供参考之用,不构成任何投资建议,文章观点不代表本站立场,其真实性由作者或稿源方负责,本站信息接受广大网民的监督、投诉、批评。
③本站转载纯粹出于为网民传递更多信息之目的,本站不原创、不存储视频,所有视频均分享自其他视频分享网站,如涉及到您的版权问题,请与本网联系,我站将及时进行删除处理。
ad888

ad999
川北快讯