亚洲国模在线视频,国产精品久久久久久久免费aⅤ

人工智能讓每個人都能讀懂唇語

2018-08-09 09:21

中國科學報

唐一塵

解讀唇語是非常復雜的工作，人類在日常說話過程中嘴唇的微小移動是很難被可靠地解讀，對于失聰者來說，其平均準確率也僅為52.3%。如今，研究人員已編寫了一種新的人工智能程序，其準確率十分高，可幫助每位失聰者讀...

解讀唇語是非常復雜的工作，人類在日常說話過程中嘴唇的微小移動是很難被可靠地解讀，對于失聰者來說，其平均準確率也僅為52.3%。如今，研究人員已編寫了一種新的人工智能程序，其準確率十分高，可幫助每位失聰者讀懂唇語。

“這是一項了不起的工作。”未參與該研究的英國倫敦瑪麗皇后大學計算機科學家Helen Bear說。

編寫可以閱讀唇語的計算機代碼令人抓狂。因此，在新研究中，科學家向機器學習“求助”，讓計算機從數據中學習。他們?yōu)樵撓到y(tǒng)提供了數千小時的視頻和抄寫本，并讓計算機自己解決這個問題。

該項目始于14萬小時的YouTube視頻，視頻展示了人們在各種情況下進行的交談。然后，研究人員設計了一個程序，通過每個音素或單詞聲音的嘴部動作創(chuàng)建幾秒鐘的剪輯，并帶有標注。該程序過濾掉了非英語語音、非講話者面孔、低質量視頻和未直接拍攝的視頻。然后，他們裁剪了講話者嘴巴周圍的視頻。這樣產生了近4000個小時的錄像，包括超過12.7萬個英文單詞。

沒有參與該研究的美國哥倫比亞大學計算機科學家Hassan Akbari說，這個過程和由此產生的數據集比同類數據集大7倍，對于任何想要訓練類似系統(tǒng)閱讀嘴唇的人來說都是“重要且有價值的”。

此外，該過程部分依賴于神經網絡。AI算法包含許多連接在一起的簡單計算元素，這些元素以類似人腦的方式學習和處理信息。當研究人員為該系統(tǒng)提供未標記的視頻時，這些網絡會裁剪嘴巴動作片段。系統(tǒng)中的下一個程序也使用了神經網絡，為每個視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進行整理，并生成了英語單詞序列。

經過訓練，研究人員用它之前沒有看過的37分鐘的視頻測試了該系統(tǒng)。他們在發(fā)布于arXiv網站的論文中報告說，單詞錯誤率僅為41%。

這個成績可能聽起來并不怎么樣，但之前最好的算法——專注于單個字母而不是音素——的錯誤率為77%。在同一項研究中，專業(yè)唇讀者的錯誤率為93%（盡管在現實生活中他們能參考語境和肢體語言，這有助于讀唇）。這項工作由總部位于倫敦的人工智能公司DeepMind完成，但該公司拒絕就這一記錄發(fā)表評論。

Bear表示，該程序對音素的理解可能看起來不同，具體取決于之前和之后所說的內容。（例如，在說“boot”中的“t”時，嘴的形狀與說“beet”中的“t”不同。）系統(tǒng)有單獨的階段預測嘴唇形狀代表的音素和通過因素預測單詞。這意味著如果想教系統(tǒng)識別新的單詞，你需要重新訓練最后一個階段。但她說，這個AI也有弱點：它需要清晰、直白的視頻，41%的錯誤率遠非完美。

Akbarni表示，將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶“翻譯”。這樣的翻譯也可以幫助那些不能說話的人，例如聲帶受損者。對于其他人來說，它可以簡單地幫助解析各種聊天。

這種技術也可應用于其他程序，例如分析安全視頻、解釋歷史鏡頭，或在音頻下降時聽到Skype伙伴的語音。新的AI方法甚至可以回答世界上最大的一個謎團：在2002年世界杯決賽中，法國足球運動員齊達內因用頭部頂撞對手而被紅牌罰下。他顯然是被對手的臟話所激怒，但他說了什么？我們也許可以揭開謎底了。（唐一塵編譯）

（原標題：讀唇用上人工智能）

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯系，我們將及時更正、刪除，謝謝。聯系郵箱：xiali@infoobs.com

本月熱門

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

11月1日
2024 年預防網絡攻擊的 12 項網絡安全最佳實踐措施

11月1日
2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

11月1日
從5G到6G：開啟無線通信的未來

11月1日
光芯片，時代“芯”寵

11月1日
權威解答+圖解 | 《工業(yè)和信息化領域數據安全事件應急預案（試行）》

11月1日

精選文章

熱點資訊

解決互聯網保險投訴的方法

人工智能讓每個人都能讀懂唇語

2024 信息化觀察網

長按掃描二維碼閱讀原文

人工智能讓每個人都能讀懂唇語

微軟的人工智能打敗 Google

養(yǎng)豬業(yè)新神器，AI 工具可解讀豬叫聲背后的情緒

Gartner發(fā)布2024 年企業(yè)機構需要探索的十大戰(zhàn)略技術趨勢

淘天AI打算讓吳泳銘等多久？

本月熱門

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

2024 年預防網絡攻擊的 12 項網絡安全最佳實踐措施

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

從5G到6G：開啟無線通信的未來

光芯片，時代“芯”寵

權威解答+圖解 | 《工業(yè)和信息化領域數據安全事件應急預案（試行）》

精選文章

2024半導體生態(tài)創(chuàng)新大會圓滿落幕，蘇州冠禮榮登上榜

BigInsights高性能分布式數據庫架構

重磅 | 南棲仙策獲評2023中國人工智能行業(yè)領軍企業(yè)

“大連華信計算機技術股份有限公司”更名為“信華信技術股份有限公司”媒體發(fā)布會舉行

陸峰：以“互聯網+”推動產業(yè)創(chuàng)新機理、模式、路徑

關于召開“2023第六屆中國信息技術應用創(chuàng)新大會”的通知

熱點資訊

DevSecOps建設標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導體數智峰會正式啟動，邀您共創(chuàng)電子半導體行業(yè)美好未來!

榮耀應用市場攜手數智融合應用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

解決互聯網保險投訴的方法

石巖建設 “24小時不打烊”自助政務服務

人工智能讓每個人都能讀懂唇語

欄目推薦

微軟的人工智能打敗 Google

養(yǎng)豬業(yè)新神器，AI 工具可解讀豬叫聲背后的情緒

Gartner發(fā)布2024 年企業(yè)機構需要探索的十大戰(zhàn)略技術趨勢

淘天AI打算讓吳泳銘等多久？

本月熱門

精選文章

熱點資訊

解決互聯網保險投訴的方法

石巖建設 “24小時不打烊”自助政務服務

養(yǎng)豬業(yè)新神器，AI 工具可解讀豬叫聲背后的情緒

淘天AI打算讓吳泳銘等多久？