版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AI又一突破!“咳嗽模型”誕生,一聲咳嗽,告知你的身體健康

學(xué)術(shù)頭條
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

撰文 | 馬雪薇

前言

根據(jù)世界衛(wèi)生組織(WHO) 2021 年公布的數(shù)據(jù),世界前 10 大死因共計(jì)造成 3900 萬(wàn)人死亡,占全球死亡總?cè)藬?shù)(6800 萬(wàn))的 57%,其主要與兩大類疾病有關(guān),即心血管疾?。ㄈ缛毖孕呐K病、中風(fēng)等)和呼吸系統(tǒng)疾病(如肺結(jié)核、慢性阻塞性肺病、下呼吸道感染等)。

其中,呼吸系統(tǒng)疾病所導(dǎo)致的咳嗽或呼吸,包含很多關(guān)于我們健康狀況的信息。例如,臨床醫(yī)生使用類似“喘息”的咳嗽聲來(lái)診斷百日咳,以及使用臨終呼吸來(lái)檢測(cè)急性心血管事件。

那么,在人工智能(AI)時(shí)代,我們是否可以利用這一技術(shù)從這些聲音數(shù)據(jù)中提取健康信息,進(jìn)而更好地監(jiān)測(cè)我們的身體狀況呢?

來(lái)自谷歌、贊比亞傳染病研究中心結(jié)核病科的研究團(tuán)隊(duì)在這一方向邁出了重要一步,他們合作推出了生物聲學(xué)基礎(chǔ)模型 HeAR(Health Acoustic Representations),旨在幫助他們監(jiān)聽(tīng)人類聲音并標(biāo)記疾病早期跡象。相關(guān)研究論文以“HeAR - Health Acoustic Representations”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。

據(jù)介紹,他們?cè)趶亩鄻踊胰プR(shí)別化的數(shù)據(jù)集中精心挑選的 3 億個(gè)音頻數(shù)據(jù)上訓(xùn)練了 HeAR,還特別使用了大約 1 億個(gè)咳嗽聲音來(lái)訓(xùn)練這一“咳嗽模型”。

HeAR 能夠辨別與健康相關(guān)聲音中的模式,在廣泛任務(wù)上的平均排名高于其他模型,且能夠跨麥克風(fēng)泛化。使用 HeAR 訓(xùn)練的模型也以較少的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了高性能,這在常常缺乏數(shù)據(jù)的醫(yī)療研究領(lǐng)域是一個(gè)關(guān)鍵因素。HeAR 現(xiàn)在可供研究人員使用,從而幫助加速開(kāi)發(fā)具有較少數(shù)據(jù)、設(shè)置和計(jì)算要求的定制生物聲學(xué)模型。

StopTB Partnership 數(shù)字健康專家 Zhi Zhen Qin 表示:“像 HeAR 這樣的解決方案將使 AI 驅(qū)動(dòng)的聲學(xué)分析在肺結(jié)核篩查和檢測(cè)方面大有用處,將為最需要的人提供一種可能影響較小、易于獲取的工具。

未來(lái),研究團(tuán)隊(duì)希望通過(guò)這項(xiàng)研究,推進(jìn)在肺結(jié)核、胸部、肺和其他疾病領(lǐng)域的診斷工具和監(jiān)測(cè)解決方案的開(kāi)發(fā),并幫助改善全球社區(qū)的健康結(jié)果。

如今,印度的呼吸健康公司 Salcit Technologies 基于此開(kāi)發(fā)了一款名為 Swaasa 的產(chǎn)品,使用 AI 分析咳嗽聲音并評(píng)估肺部健康。該公司正在探索 HeAR 如何幫助擴(kuò)展其生物聲學(xué) AI 模型的功能。

一聲咳嗽,即可檢測(cè)疾病

HeAR 系統(tǒng)由三個(gè)主要部分組成。通過(guò)自我監(jiān)督學(xué)習(xí),HeAR 系統(tǒng)利用大量未標(biāo)記的音頻數(shù)據(jù)學(xué)習(xí)通用的音頻表示,并能夠遷移到各種健康聲學(xué)任務(wù)中。

圖片

圖|HeAR 系統(tǒng)概況

在數(shù)據(jù)采集步驟,研究團(tuán)隊(duì)使用了一個(gè)健康聲學(xué)事件檢測(cè)器。這是一個(gè)多標(biāo)簽分類卷積神經(jīng)網(wǎng)絡(luò)(CNN),用于識(shí)別 2 秒音頻片段中是否存在 6 種非語(yǔ)音健康聲學(xué)事件:咳嗽、嬰兒咳嗽、呼吸、清嗓子、笑聲和說(shuō)話。該檢測(cè)器使用 FSD50K 和 FluSense 數(shù)據(jù)集進(jìn)行訓(xùn)練,并通過(guò)音頻片段中的標(biāo)簽(例如“咳嗽”、“打噴嚏”和“呼吸”)進(jìn)行標(biāo)注。

論文使用了兩個(gè)數(shù)據(jù)集,一部分是從 30 億個(gè)公共非版權(quán) YouTube 視頻中提取的 2 秒音頻片段,總共有 3.133 億個(gè)片段或約 174000 小時(shí)的音頻。這些片段使用健康聲學(xué)事件檢測(cè)器進(jìn)行篩選。另一部分由贊比亞傳染病研究中心收集,包含來(lái)自 599 名疑似肺結(jié)核患者的咳嗽音頻錄音和胸部 X 光片。

研究團(tuán)隊(duì)使用掩碼自編碼器在包含 3.13 億個(gè)兩秒鐘長(zhǎng)音頻片段的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過(guò)線性探測(cè),在跨越 6 個(gè)數(shù)據(jù)集的 33 個(gè)健康聲學(xué)任務(wù)基準(zhǔn)上,HeAR 在所有健康音頻嵌入模型中的表現(xiàn)達(dá)到了 SOTA。

圖片

圖|HeAR 在 33 個(gè)健康音頻任務(wù)中取得了最高的平均排名(MRR = 0.708),超越了所有其他基線模型。

HeAR 在 FSD50K 和 FluSense 數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型,特別是在使用 FSD50K 訓(xùn)練的模型中排名第二。

圖片

圖|健康聲學(xué)事件檢測(cè)任務(wù)在 FSD50K 和 FluSense 數(shù)據(jù)集上的性能比較。

HeAR 在 10/14 個(gè)咳嗽推理任務(wù)中表現(xiàn)優(yōu)于基線模型,包括人口統(tǒng)計(jì)、生活方式。在 TB 和 CXR 任務(wù)中,其表現(xiàn)與最佳模型相當(dāng)。

圖片

圖|咳嗽推理任務(wù)的性能比較。

HeAR 在 SpiroSmart 數(shù)據(jù)集上的 4/5 個(gè)肺功能測(cè)試任務(wù)和性別分類任務(wù)中表現(xiàn)優(yōu)于基線模型。

圖片

圖|肺功能測(cè)試任務(wù)的性能比較。

HeAR 在 CIDRZ 數(shù)據(jù)集上的表現(xiàn)不受不同錄音設(shè)備的影響,對(duì)不同設(shè)備具有魯棒性。此外,HeAR 在訓(xùn)練數(shù)據(jù)較少的情況下也能取得良好的性能,在標(biāo)注數(shù)據(jù)稀缺的醫(yī)療研究中更具優(yōu)勢(shì)。

然而,HeAR 也具有一定的局限性。例如,線性探針無(wú)法完全發(fā)揮模型的性能潛力,部分?jǐn)?shù)據(jù)集規(guī)模較小且存在類不平衡問(wèn)題,且 HeAR 等模型較大,難以在手機(jī)等設(shè)備上運(yùn)行。

研究團(tuán)隊(duì)表示,未來(lái)可以考慮微調(diào)模型或加入更多特征來(lái)提升性能,以及收集更多數(shù)據(jù)并改進(jìn)數(shù)據(jù)預(yù)處理方法,還可以考慮研究模型壓縮和量化技術(shù),使其能夠在本地設(shè)備上運(yùn)行。

AI 輔助診斷疾病,大有可為

從輔助醫(yī)生到獨(dú)立診斷疾病,AI 在醫(yī)療領(lǐng)域的應(yīng)用越來(lái)越廣泛,且展現(xiàn)了巨大的潛力。

今年 6 月,來(lái)自倫敦帝國(guó)理工學(xué)院和劍橋大學(xué)的研究團(tuán)隊(duì)訓(xùn)練了 AI 模型 EMethylNET,通過(guò)觀察 DNA 甲基化模式,從非癌組織中識(shí)別出 13 種不同類型的癌癥(包括乳腺癌、肝癌、肺癌和前列腺癌等),準(zhǔn)確率高達(dá) 98.2%。

7 月,由波士頓大學(xué)研究團(tuán)隊(duì)及其合作者開(kāi)發(fā)的 AI 工具,有望幫助我們(同時(shí))診斷 10 種不同類型的癡呆癥,將神經(jīng)科醫(yī)生的準(zhǔn)確率提高了 26% 以上。

近日,針對(duì)兒童的“隱形殺手”自閉癥,AI 也有了突破。由卡羅林斯卡學(xué)院研究團(tuán)隊(duì)開(kāi)發(fā)的一種多模態(tài)數(shù)據(jù)分析 AI 模型,不僅可以在自閉癥患兒 12 個(gè)月左右時(shí)發(fā)現(xiàn)患病的早期跡象,而且對(duì)兩歲以下兒童識(shí)別的準(zhǔn)確率達(dá)到了 80.5%,更重要的是,整個(gè)過(guò)程只需要相對(duì)有限的信息。

可以預(yù)見(jiàn),AI 將在不久的將來(lái)幫助人類診斷更多疾病,為醫(yī)療健康領(lǐng)域帶來(lái)更多可能性。

評(píng)論
科普:zhf
少師級(jí)
HeAR模型的開(kāi)發(fā)和應(yīng)用展示了人工智能在醫(yī)療健康領(lǐng)域的巨大潛力。通過(guò)分析日常的聲音數(shù)據(jù),如咳嗽聲,可以為疾病的早期檢測(cè)和管理提供新的途徑。
2024-09-25
科普青云
貢士級(jí)
AI真的是變革性技術(shù),文中的咳嗽輔助治療,揭示其應(yīng)用領(lǐng)域之一,隨著更多數(shù)據(jù)的收集,AI更深入的訓(xùn)練,其強(qiáng)大功能將顛覆人類想象。
2024-09-25
沖沖
大學(xué)士級(jí)
谷歌的目標(biāo)是普及這項(xiàng)技術(shù),支持全球醫(yī)療界開(kāi)發(fā)創(chuàng)新解決方案,打破早期診斷和護(hù)理的障礙。這表明,AI在醫(yī)療健康領(lǐng)域的應(yīng)用越來(lái)越廣泛,展現(xiàn)了巨大的潛力!
2024-09-25