原標題:依圖科技聲紋識別權威競賽奪冠,智能語音再下一城
全球權威聲紋識別競賽結果出爐,依圖科技獲得第一
作者:栗峰
編輯:唐里
在奧地利召開的機器語音國際頂會 InterSpeech 2019 上,國際聲紋識別權威競賽 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新結果,依圖科技大幅領先海內外多支強隊獲得冠軍,再次展示了世界級人工智能算法實力。
不僅如此,依圖團隊使用小數據就取得了優于其他團隊使用大數據得到的結果,充分表明中國聲紋識別技術已達世界領先水平。
依圖團隊(logicworld)在全球權威聲紋識別競賽 VoxSRC 2019奪冠,等錯誤率(EER)0.0098,大幅領先第二名。
聲紋識別為什么難?
聲紋識別是一種通過聲音判別說話人身份的技術。如果說語音識別是讓機器判斷「說了什么」,那聲紋識別就是判斷「是誰說的」,用于解決生物身份的確認和識別。
2012 年以來,深度學習技術逐漸進入聲紋識別主流,這種方法純粹采用數據驅動的方式,通過海量數據樣本和深度神經網絡模型,讓機器自動去發掘聲學特征中說話人的信息差異,從而「學會」聲學特征中的說話人信息表示。
很顯然,使用基于端到端深度學習的方法做聲紋識別,擁有大量聲紋數據樣本,就有了無可置疑的優勢。
目前,聲紋識別應用還處于探索階段,但其應用前景十分廣闊。最容易想到的,比如會議錄音的音頻轉錄,在結合了聲紋識別技術后,就能自動標注出誰在什么時候說了什么,輕松完成多人會議紀錄,大幅提高工作效率。
隨著技術的不斷成熟和融合,聲紋識別技術將逐漸融入日常生活,根據不同應用場景的特點進行針對性開發,將產生巨大的應用價值。
VoxSRC:聲紋識別界的 ImageNet 競賽
VoxSRC 是由英國牛津大學、韓國互聯網巨頭 Naver、斯坦福國際研究院(SRI International)和 MIT 的研究者聯合發起的全球聲紋識別競賽,可以說是「聲紋識別界的 ImageNet 競賽」。在很大程度上,VoxSRC 結果反映了全球聲紋識別技術最高水平。
VoxSRC 基于開源數據集 VoxCeleb,由牛津大學團隊于 2017 年發布,后來逐漸擴充,現在是聲紋識別領域規模最大、標注最完備的開源數據集之一。
VoxCeleb 來自 YouTube 名人采訪視頻,包含了 7000 多個不同種族、性別、口音、職業和年齡的說話人,在不同場合下超過 100 萬段的說話聲(utterance),時長加起來總共超過 2000 小時(每段音頻的長度從 3 秒到 20 秒不等)。
除了數據量大且來源多樣化,VoxCeleb 的音視頻基本都含有背景噪音、笑聲、重疊的說話聲和其他雜音,非常考驗算法的實戰水平。
牛津大學發布并維護的VoxCeleb數據集是目前全球規模最大、標注最完備的開源聲紋數據集之一,數據來源多樣且都來自無約束場景,非常考驗算法的實戰水平。
此外,VoxSRC 的測試數據集是「盲的」(blind),即沒有任何標注。這些數據無法用來訓練或調整系統,確保了比賽結果的公正與準確(不會出現有團隊過擬合數據的情況)。
今年的 VoxSRC 吸引了海內外多支隊伍參與,有約翰霍普金斯大學、法國國家信息與自動化研究所、清華大學、中山大學等知名高校和研究機構,也有平安科技、NEC、君林科技等大企業。
競賽的任務很明確,就是判斷兩段音頻是出自同一個人,還是來自兩個不同的人。算法的輸出結果用等錯誤率(Equal Error Rate,EER)來衡量。
EER 是衡量聲紋識別算法系統綜合性能的重要指標,EER 值越小,系統的性能就越好。
什么是EER、FAR、FRR?
評估算法系統性能時常輸出ROC 曲線,用于描述FAR(誤識率)與FRR(拒識率)之間的關系。
簡單說,在聲紋識別中,誤識率就是“把不應該匹配的聲紋當成匹配聲紋”的比例,拒識率則是“把應該匹配的聲紋當成不匹配聲紋”的比例。
在對安全要求非常高的應用場景,就會把FAR值設置得低一些,因為判斷錯一次的代價很大,但這樣做的同時會導致FRR值上升,用戶體驗度下降。
等錯誤率(EER)是系統的誤識率(FAR)和拒識率(FRR)相等時的錯誤率,即ROC曲線與45度角直線相交的點,是衡量聲紋識別算法系統綜合性能的重要指標。EER數值越小,系統性能越好。
為了評估數據量(訓練樣本多少)對系統性能的影響,這次 VoxSRC 競賽給定了兩種情況,一是固定數據集,另一個是無約束數據集。
依圖團隊以 0.0098 的 EER 值獲得本屆競賽冠軍,也是唯一將 EER 值降低到 0.01 以內的團隊。
特別值得一提的是,這個結果比其他團隊無約束數據集任務的結果更好(無約束數據集任務的冠軍 EER 值為 0.0126)。
中國最好的就是全球最好的
依圖已經不是第一次在國際人工智能公開比賽中獲得第一。
成立 7 年來,依圖在視覺感知、自然語言處理、語音識別、智能決策等多算法領域發展,并且都獨占鰲頭。這次在全球聲紋識別權威競賽 VoxSRC 中奪冠,是對中國自有 AI 技術能夠引領世界的又一個絕佳證明。
今年 5 月,依圖發布自研云端 AI 芯片求索(questcore?),旨在提升智能密度,結合世界領先人工智能算法和先進芯片設計理念,同等功耗下的視覺推理性能是 NVIDIA GPU 的 5 倍。
基于求索構建的智能視頻分析系統,將原本需要 16 臺機柜的方案壓縮到 1 臺,降低數據中心整體建設成本 50%,運維成本 80%,讓 10 萬路智能視頻解析系統成標配,50 萬路成現實,大幅提升基礎設施智能水平,為人工智能應用落地和普及奠定了堅實的基礎。
8 月 29 日,依圖獲得科技部正式授牌,承建視覺計算國家新一代人工智能開放創新平臺,促進芯片設計與人工智能的融合,同時針對不同業務場景打造一系列定制化芯片,支持智能城市、智慧醫療和智慧金融等行業。
未來,依圖將在多算法領域持續投入,多模態技術融合,軟硬件協同開發,將世界優勝人工智能算法與行業場景深度結合,推動人工智能應用落地。
點擊 閱讀原文查看 安卓智能語音助手源代碼返回搜狐,查看更多
責任編輯: