版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

失語四年,AI幫他重新“開口”說話

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

撰文 | 馬雪薇

編審 | 學(xué)術(shù)君

前言

一位失語四年的漸凍癥患者,在 AI 的幫助下,重新“開口”說話了。

肌萎縮側(cè)索硬化(ALS),又名漸凍癥,是一種神經(jīng)系統(tǒng)罕見病,被世界衛(wèi)生組織(WHO)列為與艾滋病、癌癥等并列的 5 大絕癥之一。

由于“肌無力”,漸凍癥患者不僅無法正常完成行走、抓取物品等日?;顒?dòng),連咀嚼、吞咽也異常困難,最終甚至不能發(fā)聲講話,這使得患者的抑郁情緒增加、生活質(zhì)量下降。

如今,人工智能(AI)在讓“失語”患者重新說話方面,取得了新的突破。

在一項(xiàng)新的研究中,由加州大學(xué)戴維斯分校健康中心研究團(tuán)隊(duì)及其合作者開發(fā)的一種由人工智能(AI)驅(qū)動(dòng)的大腦植入物,成功將大腦信號(hào)轉(zhuǎn)換為語音,讓失語患者重新開口說話,準(zhǔn)確率高達(dá) 97.5%。

圖片

圖 | Casey Harrell 與他的妻子。(圖源:Ian C. Bates, The New York Times)

相關(guān)研究論文以“An Accurate and Rapidly Calibrating Speech Neuroprosthesis”為題,已發(fā)表在權(quán)威醫(yī)學(xué)期刊《新英格蘭醫(yī)學(xué)雜志》(NEJM)上。

在這項(xiàng)研究中,他們對(duì)一位 45 歲的漸凍癥患者 Casey Harrell 進(jìn)行了臨床試驗(yàn)。在參加試驗(yàn)前,Harrell 四肢癱瘓無力,言語很難理解。試驗(yàn)結(jié)果顯示:

在系統(tǒng)使用的第一天,經(jīng)過 30 分鐘的嘗試說話訓(xùn)練數(shù)據(jù)后,神經(jīng)假體達(dá)到了 99.6% 的準(zhǔn)確率,詞匯量為 50 個(gè)單詞。

第二天,可能輸出的詞匯量增加到了 125000 個(gè)單詞,并且在額外 1.4 小時(shí)的訓(xùn)練數(shù)據(jù)后,神經(jīng)假體達(dá)到了 90.2% 的準(zhǔn)確率。

隨著更多訓(xùn)練數(shù)據(jù)的積累,神經(jīng)假體在植入手術(shù)后八個(gè)月以上保持了 97.5% 的準(zhǔn)確率。

此后,Harrell 使用神經(jīng)假體進(jìn)行了超過 248 小時(shí)的自主節(jié)奏對(duì)話,經(jīng)過短暫的訓(xùn)練期后,皮層內(nèi)語音神經(jīng)假體達(dá)到了恢復(fù)自然交流水平的性能。

據(jù)《紐約時(shí)報(bào)》報(bào)道,在任何一個(gè)時(shí)刻,植入物都會(huì)捕捉到一群神經(jīng)元的活躍,將它們的放電模式轉(zhuǎn)化為聲音的元音或輔音單位,然后計(jì)算機(jī)將這些聲音串連成一個(gè)單詞,再將單詞串連成句子,選擇它們認(rèn)為最可能對(duì)應(yīng)于 Harrell 試圖說的話的輸出。

該論文的通訊作者之一、加州大學(xué)戴維斯分校助理教授、神經(jīng)外科醫(yī)生 David M. Brandman 表示:“這一技術(shù)幫助了一位癱瘓的人與朋友、家人和護(hù)理者溝通,我們的研究展示了有史以來最準(zhǔn)確的語音神經(jīng)假體設(shè)備?!?/p>

找回失語患者的聲音

參與研究的患者 Harrell 是一位 45 歲的男性,患有 ALS 和四肢癱瘓,伴有嚴(yán)重的構(gòu)音障礙 (ALSFRS-R = 23)。

在植入陣列之前,研究團(tuán)隊(duì)通過解剖 MRI 掃描確定中央溝,并通過功能性 MRI 確認(rèn)參與者是左半球語言優(yōu)勢(shì)。利用人類連接組計(jì)劃的多模態(tài) MRI 皮層分區(qū),將植入目標(biāo)精確映射到參與者的腦中。

其次,團(tuán)隊(duì)使用四個(gè) 64 電極猶他陣列從左側(cè)腹側(cè)前中央回測(cè)量皮層神經(jīng)活動(dòng)。機(jī)器學(xué)習(xí)技術(shù)每 80 毫秒將皮層神經(jīng)活動(dòng)解碼成一個(gè)英語音素。使用一系列語言模型(LM),預(yù)測(cè)的音素序列被翻譯成一系列單詞,當(dāng)參與者嘗試說話時(shí),這些單詞出現(xiàn)在屏幕上。在句子結(jié)束時(shí),一個(gè)自聲音文本到語音算法將解碼的句子發(fā)聲,旨在模仿參與者在發(fā)展 ALS 之前的語音。

圖片

圖 | 電極位置和語音解碼設(shè)置。a, 大致微電極陣列位置,由黑色方塊表示,疊加在參與者大腦的 3D 重建上。b, 腦到文本語音神經(jīng)假體的示意圖。

神經(jīng)假體在啟動(dòng)后即可實(shí)現(xiàn)高準(zhǔn)確率解碼,無需大量訓(xùn)練數(shù)據(jù)。研究結(jié)果表明,該神經(jīng)假體在短期內(nèi)即可為患有嚴(yán)重言語障礙的 ALS 患者提供自然溝通的能力。

圖片

圖 | 在線語音解碼性能。

圖片

圖 | 廣泛使用神經(jīng)假體進(jìn)行準(zhǔn)確的自發(fā)語音。a, 參與者和語音神經(jīng)假體在對(duì)話模式下的照片。神經(jīng)假體僅基于神經(jīng)活動(dòng)檢測(cè)到他試圖說話,并在 6 秒的語音不活動(dòng)后結(jié)束,或者在他通過眼動(dòng)追蹤選擇激活屏幕上的按鈕后結(jié)束。解碼的句子完成后,參與者使用屏幕上的確認(rèn)按鈕來指示解碼的句子是否正確。b, 參與者使用語音神經(jīng)假體與女兒交談的第二天樣本轉(zhuǎn)錄。c, 參與者使用語音神經(jīng)假體與周圍人溝通的累積小時(shí)數(shù),包括在結(jié)構(gòu)化研究會(huì)議期間和個(gè)人使用期間。對(duì)于由紅色輪廓點(diǎn)表示的會(huì)議,解碼準(zhǔn)確度在(d)中量化。d, 評(píng)估對(duì)話中的語音解碼準(zhǔn)確度(n = 925 個(gè)已知真實(shí)標(biāo)簽的句子,來源于(c)中紅色標(biāo)記的會(huì)議)。平均單詞錯(cuò)誤率為3.7%(95%置信區(qū)間,3.3%至4.3%)。

此外,研究還發(fā)現(xiàn),腹側(cè)中央前回區(qū)域的電極陣列在解碼語音方面表現(xiàn)最佳,其次是 55b 區(qū)、4 區(qū)和背側(cè)中央前回區(qū)域的電極陣列。解碼錯(cuò)誤往往發(fā)生在發(fā)音相似的音素之間。此外,神經(jīng)假體還能夠泛化到新的單詞,并且訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率越高,對(duì)特定單詞的解碼準(zhǔn)確性也越高。神經(jīng)假體能夠解碼非發(fā)聲語音,以及不同說話幅度的語音,包括低聲、正常和大聲說話。

總而言之,這項(xiàng)研究證明了腦機(jī)接口技術(shù)在恢復(fù)失語癥患者溝通能力方面具有巨大潛力。

不足與展望

雖然這項(xiàng)研究取得了顯著的成果,但仍然存在一些局限性,需要在未來研究中進(jìn)一步解決。

首先,該研究?jī)H涉及一位參與者,因此需要更多參與者的研究來評(píng)估該系統(tǒng)在不同個(gè)體中的性能分布,并確定是否存在個(gè)體差異。

其次,該研究的參與者患有 ALS 并伴有嚴(yán)重構(gòu)音障礙。需要進(jìn)一步研究來評(píng)估該系統(tǒng)是否適用于其他原因?qū)е碌臉?gòu)音障礙患者,例如腦干卒中或中風(fēng)。

而且,該研究?jī)H報(bào)告了 8 個(gè)月的數(shù)據(jù)。需要更長(zhǎng)時(shí)間的數(shù)據(jù)來評(píng)估神經(jīng)解碼的長(zhǎng)期穩(wěn)定性,并確定是否存在信號(hào)衰減或其他長(zhǎng)期問題。

此外,該系統(tǒng)將腦信號(hào)解碼為文本,然后使用語音合成器將其轉(zhuǎn)換為語音。然而,目前的語音合成技術(shù)無法完全復(fù)制人類語音的自然度和豐富性。將腦信號(hào)直接轉(zhuǎn)化為語音仍然是一個(gè)挑戰(zhàn),需要進(jìn)一步的研究。

還需要考慮的是,目前使用的設(shè)備較大,并且需要連接到外部電腦。需要開發(fā)更小、更便攜、無線連接的設(shè)備,以提高患者的舒適度和便利性。在未來,還可以嘗試開發(fā)更易于用戶和護(hù)理伙伴操作的自動(dòng)化軟件,以進(jìn)一步提高患者的自主性。

評(píng)論
新風(fēng)科普????
學(xué)士級(jí)
四年沉默后,AI技術(shù)的溫情援手讓他的聲音再次被世界聽見,這不僅是科技的勝利,更是人文關(guān)懷在數(shù)字時(shí)代的溫情體現(xiàn)。
2024-09-02
臭皮匠心
庶吉士級(jí)
這一成果讓我們看到了科技改善人類生活的無限可能,期待未來能有更多的進(jìn)展和突破,幫助更多的失語者重獲聲音。
2024-09-02
新風(fēng)科普????
學(xué)士級(jí)
AI賦予失語者新聲,科技與人性的完美和鳴。
2024-09-02