AI讀心術(shù):計算機(jī)是如何還原腦電波的?

腦極體
通過計算機(jī),將大腦中的所思所想轉(zhuǎn)換成語音說出來,這種“讀心術(shù)”距離現(xiàn)實究竟還有多遠(yuǎn)?

圖片來源:視覺中國

“我的身體沉重如潛水鐘,內(nèi)心卻渴望像蝴蝶般自由飛翔。”

這句來自電影《潛水鐘與蝴蝶》的臺詞,也是前《ELLE》雜志主編、記者讓·多米尼克的真實經(jīng)歷。

讓·多米尼克中風(fēng)癱瘓后,身體的語言和運(yùn)動功能都喪失了,他不能說話,不能自主呼吸,只剩下一只眼睛和意識可以自由活動。在這種情況下,他還是“寫”出了一部散文集。

書是這樣完成的:助手把一個個字母依次念給讓·多米尼克,直到他眨一下眼,就把那個字母記下來……如此循環(huán)進(jìn)行,直到字母形成單詞、句子、片段,最終付梓成冊。

顯然,這個還原思維的過程十分艱辛且原始,但至少給他的靈魂留下了一絲自由遨游的可能。

而對于更多缺乏發(fā)聲能力的普通人(比如中風(fēng)患者、植物人等)來說,無法與正常人交流的他們,生命已然停滯。

技術(shù)能幫助他們“言其所不能言”,提高生活質(zhì)量嗎?

答案是肯定的。科學(xué)家們正試圖讓看不見摸不著的思維活動自動“顯形”。

通過計算機(jī),將大腦中的所思所想轉(zhuǎn)換成語音說出來,這種“讀心術(shù)”距離現(xiàn)實究竟還有多遠(yuǎn)?

《潛水鐘與蝴蝶》(2007)劇照

AI讀心術(shù):計算機(jī)是如何還原腦電波的?

先來潑一盆冷水,那就是想要將人想象中的單詞和句子轉(zhuǎn)換成語音,目前的計算機(jī)還做不到如此鬼斧神工的地步。

不過,已經(jīng)有研究人員成功利用AI復(fù)原了人聽到或超小聲說話時的句子。

技術(shù)的實現(xiàn)原理也并不復(fù)雜。人類的發(fā)聲運(yùn)動是靠大腦神經(jīng)元電信號刺激下頜、嘴唇、聲帶等部位形成的。

因此,只要將相關(guān)腦區(qū)的神經(jīng)運(yùn)動信號輸送給AI系統(tǒng),深度學(xué)習(xí)網(wǎng)絡(luò)就會根據(jù)信號與相對應(yīng)的語言文字或嘴部運(yùn)動進(jìn)行層層匹配,推斷出具體說了什么,再由語音合成器將這些信號轉(zhuǎn)換成能被聽到的語音。

那么,這項技術(shù)的靠譜程度如何呢?

哥倫比亞大學(xué)計算機(jī)科學(xué)家Nima Mesgarani做了一項實驗,讓聽眾“收聽”一組與故事和數(shù)字有關(guān)的聽覺皮層數(shù)據(jù),有75%的人能夠正確識別出該數(shù)字。

類似的實驗在加州大學(xué)舊金山分校的研究組也成功了。癲癇患者大聲朗讀句子時的大腦活動被記錄下來,借助深度學(xué)習(xí)網(wǎng)絡(luò)重建為書面語句。結(jié)果顯示,AI重現(xiàn)的句子有80%都是正確的。

既然神經(jīng)信號轉(zhuǎn)譯為書面語言被證明是可行的,下一步就是要走出實驗室,真正幫助失聲人群“說出心里話”了。

麻省理工學(xué)院的研發(fā)人員就開發(fā)了一種植入型智能增強(qiáng)設(shè)備,由可穿戴裝置和相關(guān)計算系統(tǒng)構(gòu)成。

設(shè)備中的電極可以截取由內(nèi)部語言所觸發(fā)的下頜和面部肌肉運(yùn)動信號,被反饋到機(jī)器學(xué)習(xí)系統(tǒng),再由該系統(tǒng)將神經(jīng)信號與特定的文字相關(guān)聯(lián)。

使用者還可以通過骨傳導(dǎo)耳機(jī),在不中端對話的前提下通過面部振動,將外部信息傳遞到內(nèi)耳。

目前,根據(jù)聽眾自身定制的這種可穿戴設(shè)備,平均轉(zhuǎn)錄識別準(zhǔn)確率已經(jīng)達(dá)到92%以上!

如果說前面還屬于輔助醫(yī)療范疇,到這里就有點開掛的苗頭了。比如在國際象棋比賽中,選手要是戴上這樣一副耳機(jī),不就可以不被察覺地“聽”到計算機(jī)給支招嗎?

麻省理工學(xué)院媒體實驗室Fluid Interfaces小組的研究員Arnav Kapur演示了AlterEgo項目

會“讀心”的腦機(jī):腦腦交流能成為現(xiàn)實嗎?

利用AI讀懂腦電波,這個技術(shù)不僅僅看起來很酷,更重要的是應(yīng)用空間非常巨大。

從理論層面上來說,可以不依賴于生物發(fā)聲器官來實現(xiàn)交流的目的,這就給醫(yī)療、工業(yè)、刑偵等領(lǐng)域的帶來了新的交互可能性。比如:

1.為失聲患者提供聲音。人類一旦不幸遇到中風(fēng)、腦外傷、脊髓損傷或ASL運(yùn)動神經(jīng)細(xì)胞?。ㄊ返俜一艚鹁褪茿SL患者),大腦無法直接刺激言語產(chǎn)生,患者只能在沉默中走向死亡。如果未來大腦語音合成器被應(yīng)用,幫助失聲患者找回語言功能,對于他們的治療和生活將起到極大幫助。

2.特殊環(huán)境的工作協(xié)助。并不是所有工作環(huán)境都能保障正常分貝下的語言交流,比如飛機(jī)場內(nèi)的噴射噪音、航空母艦的駕駛艙、發(fā)電廠或印刷廠車間,以及穿著防護(hù)裝備的實驗室等等,不是過分嘈雜就是過分沉默,很容易錯過關(guān)鍵信息。這種特殊環(huán)境中,大腦語音轉(zhuǎn)錄技術(shù)就能夠有效解決交流不暢的問題,聾啞殘疾員工也可以與他人無障礙交流。

3.從重建聽覺到重建視覺。除了轉(zhuǎn)錄文本和語音,類似的AI神經(jīng)網(wǎng)絡(luò)還可以被訓(xùn)練來恢復(fù)模糊的圖像,比如還原記憶中的面孔,應(yīng)用在刑偵破案有奇效。

4.用思維操作假肢。佩戴上語音轉(zhuǎn)錄設(shè)備之后,截肢/截癱患者只需要通過思考,就能自由控制假肢設(shè)備,這顯然比讓他們下達(dá)語音指令容易接受多了。

5.高度自動化的智能助理。這種BCI設(shè)備的更大作用,在于可以根據(jù)人們內(nèi)心的想法直接完成多種任務(wù),比如控制燈光、做閱讀筆記、下達(dá)VR游戲指令,甚至可以用來控制車輛。

日產(chǎn)汽車已經(jīng)推出了類似的耳機(jī),來監(jiān)控司機(jī)的腦電波。例如,一旦檢測到司機(jī)打算踩剎車,設(shè)備會在司機(jī)做出剎車動作之前就開始剎車,反應(yīng)時間比人工操作快了多達(dá)半秒。甚至Facebook也推出了一個讀心術(shù)項目,研究讓用戶如何用腦電波發(fā)送Facebook Messenger信息。

總而言之,這個極具想象力的技術(shù),解決了一個長久以來的難題:如何化無形的意識為有形的信號,讓人類可以從身體這個“潛水鐘”的重重限制中透口氣。

不過實事求是的說,盡管技術(shù)正在慢慢走向成熟,但華美的理想要照進(jìn)現(xiàn)實,還有很長一段路要走。

不能停歇的科技之翼

盡管學(xué)界和商業(yè)界都對這個“讀心術(shù)”趨之若鶩,但在實際應(yīng)用中,這種語言轉(zhuǎn)錄的腦機(jī)接口還有很多隱患需要一一解決。

1.植入難度過大。技術(shù)推廣最直接的障礙就是,為了獲取精確的實驗數(shù)據(jù),受試者必須通過開顱手術(shù)將電極植入大腦中的相關(guān)區(qū)域。侵入式的解決方案大大縮小了參與實驗的積極性,在實際應(yīng)用中也會給植入者帶來排異、感染等不可預(yù)測的風(fēng)險。

2.詞匯數(shù)據(jù)量不足。腦電波-語音的轉(zhuǎn)錄效果依賴于大規(guī)模的詞匯表,但每個參與者對同一語言到神經(jīng)元的映射都各有不同,因此AI系統(tǒng)學(xué)習(xí)和推斷到的結(jié)果很難被通用。只能為不同的參與者特別定制屬獨屬于他們的思維語料庫,才能保證轉(zhuǎn)錄的準(zhǔn)確性,難以大規(guī)模普及。

3.商業(yè)化難題。設(shè)備的植入難度與系統(tǒng)的定制化所帶來的大量門檻,決定了它只能在極為小眾的應(yīng)用群體中發(fā)揮價值,比如少部分重癥患者和一些狂熱極客。

4.倫理困境。即使補(bǔ)全了設(shè)備和系統(tǒng)的缺陷,想必也很少有人愿意在公眾場合戴上這樣一套設(shè)備,而別人也很難不覺得被冒犯。

這有點像Googleglass剛問世的時候,只有設(shè)備,卻沒有形成相對應(yīng)的行為規(guī)范,導(dǎo)致很多人擔(dān)心和質(zhì)疑其侵犯隱私。同樣的,腦電波“讀心術(shù)”是否會帶來隱私或另一種不公平呢,恐怕還需要大量的社會學(xué)研究來支撐。

總而言之,盡管“AI讀心術(shù)”很容易就讓人感受到它的社會價值和商業(yè)潛力,但應(yīng)用度上顯然還存在不少問題,想要靠腦交流,少說還有幾十年的路要走。

它帶給我們更多的,可能是作為一種高度可行性的解題思路,如果人類的肉身注定要像潛水鐘一樣緩慢地沉入深海,至少可以讓“思維”這只蝴蝶,多擁有一刻自由。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論