撰文 | 馬雪薇
前言
根據(jù)世界衛(wèi)生組織(WHO) 2021 年公布的數(shù)據(jù),世界前 10 大死因共計造成 3900 萬人死亡,占全球死亡總?cè)藬?shù)(6800 萬)的 57%,其主要與兩大類疾病有關,即心血管疾病(如缺血性心臟病、中風等)和呼吸系統(tǒng)疾?。ㄈ绶谓Y(jié)核、慢性阻塞性肺病、下呼吸道感染等)。
其中,呼吸系統(tǒng)疾病所導致的咳嗽或呼吸,包含很多關于我們健康狀況的信息。例如,臨床醫(yī)生使用類似“喘息”的咳嗽聲來診斷百日咳,以及使用臨終呼吸來檢測急性心血管事件。
那么,在人工智能(AI)時代,我們是否可以利用這一技術從這些聲音數(shù)據(jù)中提取健康信息,進而更好地監(jiān)測我們的身體狀況呢?
來自谷歌、贊比亞傳染病研究中心結(jié)核病科的研究團隊在這一方向邁出了重要一步,他們合作推出了生物聲學基礎模型 HeAR(Health Acoustic Representations),旨在幫助他們監(jiān)聽人類聲音并標記疾病早期跡象。相關研究論文以“HeAR - Health Acoustic Representations”為題,已發(fā)表在預印本網(wǎng)站 arXiv 上。
據(jù)介紹,他們在從多樣化且去識別化的數(shù)據(jù)集中精心挑選的 3 億個音頻數(shù)據(jù)上訓練了 HeAR,還特別使用了大約 1 億個咳嗽聲音來訓練這一“咳嗽模型”。
HeAR 能夠辨別與健康相關聲音中的模式,在廣泛任務上的平均排名高于其他模型,且能夠跨麥克風泛化。使用 HeAR 訓練的模型也以較少的訓練數(shù)據(jù)實現(xiàn)了高性能,這在常常缺乏數(shù)據(jù)的醫(yī)療研究領域是一個關鍵因素。HeAR 現(xiàn)在可供研究人員使用,從而幫助加速開發(fā)具有較少數(shù)據(jù)、設置和計算要求的定制生物聲學模型。
StopTB Partnership 數(shù)字健康專家 Zhi Zhen Qin 表示:“像 HeAR 這樣的解決方案將使 AI 驅(qū)動的聲學分析在肺結(jié)核篩查和檢測方面大有用處,將為最需要的人提供一種可能影響較小、易于獲取的工具。”
未來,研究團隊希望通過這項研究,推進在肺結(jié)核、胸部、肺和其他疾病領域的診斷工具和監(jiān)測解決方案的開發(fā),并幫助改善全球社區(qū)的健康結(jié)果。
如今,印度的呼吸健康公司 Salcit Technologies 基于此開發(fā)了一款名為 Swaasa 的產(chǎn)品,使用 AI 分析咳嗽聲音并評估肺部健康。該公司正在探索 HeAR 如何幫助擴展其生物聲學 AI 模型的功能。
一聲咳嗽,即可檢測疾病
HeAR 系統(tǒng)由三個主要部分組成。通過自我監(jiān)督學習,HeAR 系統(tǒng)利用大量未標記的音頻數(shù)據(jù)學習通用的音頻表示,并能夠遷移到各種健康聲學任務中。
圖|HeAR 系統(tǒng)概況
在數(shù)據(jù)采集步驟,研究團隊使用了一個健康聲學事件檢測器。這是一個多標簽分類卷積神經(jīng)網(wǎng)絡(CNN),用于識別 2 秒音頻片段中是否存在 6 種非語音健康聲學事件:咳嗽、嬰兒咳嗽、呼吸、清嗓子、笑聲和說話。該檢測器使用 FSD50K 和 FluSense 數(shù)據(jù)集進行訓練,并通過音頻片段中的標簽(例如“咳嗽”、“打噴嚏”和“呼吸”)進行標注。
論文使用了兩個數(shù)據(jù)集,一部分是從 30 億個公共非版權 YouTube 視頻中提取的 2 秒音頻片段,總共有 3.133 億個片段或約 174000 小時的音頻。這些片段使用健康聲學事件檢測器進行篩選。另一部分由贊比亞傳染病研究中心收集,包含來自 599 名疑似肺結(jié)核患者的咳嗽音頻錄音和胸部 X 光片。
研究團隊使用掩碼自編碼器在包含 3.13 億個兩秒鐘長音頻片段的大型數(shù)據(jù)集上進行訓練。通過線性探測,在跨越 6 個數(shù)據(jù)集的 33 個健康聲學任務基準上,HeAR 在所有健康音頻嵌入模型中的表現(xiàn)達到了 SOTA。
圖|HeAR 在 33 個健康音頻任務中取得了最高的平均排名(MRR = 0.708),超越了所有其他基線模型。
HeAR 在 FSD50K 和 FluSense 數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型,特別是在使用 FSD50K 訓練的模型中排名第二。
圖|健康聲學事件檢測任務在 FSD50K 和 FluSense 數(shù)據(jù)集上的性能比較。
HeAR 在 10/14 個咳嗽推理任務中表現(xiàn)優(yōu)于基線模型,包括人口統(tǒng)計、生活方式。在 TB 和 CXR 任務中,其表現(xiàn)與最佳模型相當。
圖|咳嗽推理任務的性能比較。
HeAR 在 SpiroSmart 數(shù)據(jù)集上的 4/5 個肺功能測試任務和性別分類任務中表現(xiàn)優(yōu)于基線模型。
圖|肺功能測試任務的性能比較。
HeAR 在 CIDRZ 數(shù)據(jù)集上的表現(xiàn)不受不同錄音設備的影響,對不同設備具有魯棒性。此外,HeAR 在訓練數(shù)據(jù)較少的情況下也能取得良好的性能,在標注數(shù)據(jù)稀缺的醫(yī)療研究中更具優(yōu)勢。
然而,HeAR 也具有一定的局限性。例如,線性探針無法完全發(fā)揮模型的性能潛力,部分數(shù)據(jù)集規(guī)模較小且存在類不平衡問題,且 HeAR 等模型較大,難以在手機等設備上運行。
研究團隊表示,未來可以考慮微調(diào)模型或加入更多特征來提升性能,以及收集更多數(shù)據(jù)并改進數(shù)據(jù)預處理方法,還可以考慮研究模型壓縮和量化技術,使其能夠在本地設備上運行。
AI 輔助診斷疾病,大有可為
從輔助醫(yī)生到獨立診斷疾病,AI 在醫(yī)療領域的應用越來越廣泛,且展現(xiàn)了巨大的潛力。
今年 6 月,來自倫敦帝國理工學院和劍橋大學的研究團隊訓練了 AI 模型 EMethylNET,通過觀察 DNA 甲基化模式,從非癌組織中識別出 13 種不同類型的癌癥(包括乳腺癌、肝癌、肺癌和前列腺癌等),準確率高達 98.2%。
7 月,由波士頓大學研究團隊及其合作者開發(fā)的 AI 工具,有望幫助我們(同時)診斷 10 種不同類型的癡呆癥,將神經(jīng)科醫(yī)生的準確率提高了 26% 以上。
近日,針對兒童的“隱形殺手”自閉癥,AI 也有了突破。由卡羅林斯卡學院研究團隊開發(fā)的一種多模態(tài)數(shù)據(jù)分析 AI 模型,不僅可以在自閉癥患兒 12 個月左右時發(fā)現(xiàn)患病的早期跡象,而且對兩歲以下兒童識別的準確率達到了 80.5%,更重要的是,整個過程只需要相對有限的信息。
可以預見,AI 將在不久的將來幫助人類診斷更多疾病,為醫(yī)療健康領域帶來更多可能性。