300 萬張圖片+1.5 萬個斑馬魚胚胎的數(shù)據(jù)集,系統(tǒng)生物學家 Patrick Müller 成功實現(xiàn)基于 AI 的胚胎識別。
作者|加零
編輯|三羊
在動物發(fā)育過程中,胚胎隨著時間的推移會發(fā)生復雜的形態(tài)變化,研究者們希望能夠客觀地量化發(fā)育時間和速度,并提供標準化的方法以分析早期胚胎所處階段,更好地認知進化與發(fā)育流程。
之前,學者們對于胚胎發(fā)育階段和胚胎發(fā)育形態(tài)轉(zhuǎn)化的認知來源于顯微觀察。但胚胎發(fā)育的階段轉(zhuǎn)化并不是理想化、穩(wěn)定化的,存在非常多的影響因素,以至于研究人員很難觀察到某一特定發(fā)育狀態(tài)。觀察胚胎形態(tài)推定所處的發(fā)育時間和發(fā)育階段這一過程,目前仍是偏向主觀的。
為了客觀建立發(fā)育時間與發(fā)育速度的關(guān)系,系統(tǒng)生物學家 Patrick Müller 領(lǐng)導康斯坦茨大學研究人員,開發(fā)了一套基于孿生網(wǎng)絡(luò)的深度學習方法,通過圖像對比,它能夠自動捕捉胚胎發(fā)育過程,并在沒有人為干預的情況下識別胚胎發(fā)育特征階段點。目前,相關(guān)成果已發(fā)表于「Nature Methods」。
論文發(fā)表于「Nature Methods」
獲取論文:
https://www.nature.com/articles/s41592-023-02083-8
01 實驗過程
數(shù)據(jù)集:整合大量胚胎圖像
利用高通量成像 Pipeline 和基于 ResNet101 的圖像分割,研究者們構(gòu)建了一個包含 300 萬張圖片和 1.5 萬個斑馬魚胚胎的數(shù)據(jù)集,以產(chǎn)生單個胚胎的發(fā)育軌跡。每個胚胎被單獨跟蹤,輸入模型時以不同顏色的邊界框劃分。開展每個實驗時創(chuàng)建一個單獨的 JSON 文件,其中包含屬于各個類別的胚胎信息。
圖像處理圖示
模型架構(gòu):孿生網(wǎng)絡(luò)模型
孿生網(wǎng)絡(luò)結(jié)構(gòu)由兩個相同結(jié)構(gòu)的并行神經(jīng)網(wǎng)絡(luò)構(gòu)成,可以同時接收兩個圖片作為輸入,并且兩個神經(jīng)網(wǎng)絡(luò)之間權(quán)值共享,通過基于特征嵌入的相似度計算,對圖像進行比較。
以下是孿生網(wǎng)絡(luò)的結(jié)構(gòu)圖示:
孿生網(wǎng)絡(luò)結(jié)構(gòu)
構(gòu)成孿生網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:
基于 ResNet50 的神經(jīng)網(wǎng)絡(luò)
主干網(wǎng)絡(luò):基于 ImageNet 數(shù)據(jù)集,帶有預訓練權(quán)重的 ResNet50 架構(gòu)作為主干網(wǎng)絡(luò);
嵌入模型頭部 (model head):主干網(wǎng)絡(luò)的輸出被壓平傳遞至嵌入模型頭部,其由三個密集層組成,每層之間有批量歸一化層,產(chǎn)生一個 size 為 (1, 256) 的輸出/嵌入;
遷移學習:除了卷積塊5和模型頭層之外,ResNet50 骨干網(wǎng)絡(luò)的所有層都被凍結(jié)。將 ResNet50 生成的特征嵌入結(jié)合在一個距離層中,計算訓練過程中不同輸入的網(wǎng)絡(luò)生成嵌入之間的歐幾里得度量。
算法訓練:三聯(lián)體損失訓練
算法訓練過程如下:
構(gòu)建圖像三聯(lián)體:圖像三聯(lián)體由三張胚胎圖像組成,分別為錨定圖像 (anchor image),處于隨機發(fā)育階段 t1 的胚胎圖像;正向圖像 (positive image),類似發(fā)育階段 t1 的圖像(輸入神經(jīng)網(wǎng)絡(luò) 1)或者經(jīng)過圖像增強處理的錨定圖像(輸入神經(jīng)網(wǎng)絡(luò) 2);負向圖像 (negative image),發(fā)育階段 t2 ≠ t1 的胚胎圖像。
圖像三聯(lián)體圖示
三聯(lián)體損失訓練:將構(gòu)建完成的圖像三聯(lián)體傳遞給孿生網(wǎng)絡(luò),基于下方公式計算三聯(lián)體損失 (Triplet loss),以最小化錨定圖像和正向圖像的相似性,并最大化錨定圖像和負向圖像的相似性。
三聯(lián)體損失計算公式
A 表示錨定圖像,P 表示正向圖像,N 表示負向圖像
迭代訓練:神經(jīng)網(wǎng)絡(luò) 1 使用了 30 萬個斑馬魚胚胎圖像三聯(lián)體進行了 10 個 epoch 的訓練;神經(jīng)網(wǎng)絡(luò) 2 使用了 100 萬個圖像三聯(lián)體進行了 2 個 epoch 的訓練,并對錨定圖像進行了增強處理,使用 NVIDIA GeForce RTX3070 (ASUS) 進行 GPU 加速訓練。
分任務訓練:對圖像相似性、胚胎分期、發(fā)育速度和溫度、藥物誘導導致的胚胎發(fā)育變化分別進行了對應訓練。
02 實驗結(jié)果
結(jié)果 1:利用相似性圖對胚胎自動分期
將測試圖像與一組胚胎圖像比較,計算它們之間的余弦相似度,獲得相似性評分以分類胚胎圖像。
測試胚胎與參考圖像的相似性圖
比較測試圖像與時間序列的發(fā)育胚胎圖像,得到相似性隨時間變化的曲線,從中提取出兩個主要特征:
· 曲線的峰值指示了測試圖像胚胎位于哪個發(fā)育階段。
· 曲線的非峰值區(qū)域包含了額外信息,如峰寬度和與遠程胚胎階段的相似性,反映了不同時間點的形態(tài)相似性。
胚胎年齡預測示意圖
孿生網(wǎng)絡(luò)可以對一個胚胎的一組時間序列圖像進行識別預測,構(gòu)建基于預測發(fā)育階段的軌跡,實現(xiàn)準確的胚胎分期。
結(jié)果 2:探究發(fā)育速度與溫度的函數(shù)關(guān)系
以前,量化胚胎發(fā)育的溫度依賴性需要手動或半自動注釋發(fā)育時間,這大大限制了可以在合理的時間跨度內(nèi)分析的實驗數(shù)量。
利用構(gòu)建的孿生網(wǎng)絡(luò)自動分析發(fā)育速度的溫度依賴性變化,實驗方案為:23.5 ℃ 和 35.5 ℃ 之間的斑馬魚胚胎和 18 ℃ 到 36 ℃ 的青魚胚胎,每個溫度條件下分析 100 至 200 個斑馬魚胚胎或 20 至 100 個青魚胚胎。
實驗結(jié)果如圖所示:
不同溫度下斑馬魚和青魚胚胎發(fā)育分析圖
a,d:斑馬魚和青魚的年齡估計示意圖;
b,e:斑馬魚和青魚在不同溫度的發(fā)育情況;
c,f:斑馬魚和青魚在不同溫度下估計生長率的自然對數(shù)。
· 溫度變化對兩種胚胎的發(fā)育速率產(chǎn)生了顯著影響。較低溫度下,胚胎發(fā)育速率較慢,而較高溫度則導致發(fā)育速率顯著加快。面對 10℃ 的溫度變化時,發(fā)育速率大致變化了兩倍。
· 使用孿生網(wǎng)絡(luò)量化分析溫度依賴的發(fā)育速率,利用 Arrhenius 方程擬合數(shù)據(jù)。在物種特定的溫度范圍內(nèi),線性擬合的斜率給出斑馬魚和米達卡的表觀活化能分別為 65 kJ/mol 和 77 kJ/mol。這些表觀活化能與其他變溫動物(如青蛙、果蠅或酵母)相似,明顯不同于恒溫動物(如小鼠或人類)。
· 與理想化猜測不同,在較高溫度區(qū)域,兩種胚胎的發(fā)育速率均不再加速,而是趨于穩(wěn)定。在較低溫度區(qū)域:斑馬魚的發(fā)育線性減緩,溫度低于 23℃ 胚胎停止發(fā)育;青魚胚胎則表現(xiàn)出非線性發(fā)育的特征,長時間停滯在發(fā)育的原始囊階段。
結(jié)果 3:量化胚胎進化過程中的自然變異性
研究發(fā)現(xiàn),盡管胚胎受到基因變異、外部干擾以及基因表達中的噪音和隨機性影響導致生長速率和發(fā)育階段的偏差,但總會完成進化過程。
胚胎的進化差異圖示
利用孿生網(wǎng)絡(luò)評估同齡胚胎中個體表型的差異,實驗結(jié)果如圖所示:
胚胎發(fā)育圖
左圖表示不同時間后預測的胚胎發(fā)育階段百分比,0 分鐘(綠色)、400 分鐘(藍色)、800 分鐘(紫色);
右圖表示胚胎的平均相似值隨時間下降。
在早期胚胎發(fā)育階段,預測的胚胎發(fā)育階段具有較窄的分布,而隨著分段期的開始,預測的胚胎發(fā)育階段的分布寬度增加。這表明,在胚胎發(fā)育過程中,個體之間的差異逐漸增加,但平均相似性值卻隨著時間降低。
在 300 多萬多張斑馬魚胚胎圖像數(shù)據(jù)中,約有 1% 的胚胎發(fā)育異常,常見原因是自發(fā)性崩解或背腹極性缺陷。使用孿生網(wǎng)絡(luò),研究人員能夠在早期階段就檢測出發(fā)育異常的胚胎。這些異常胚胎在預測的正常發(fā)育范圍之外表現(xiàn)出較低的平均相似性值。
發(fā)育異常胚胎圖示
結(jié)果 4:鑒定藥物處理的胚胎表型
胚胎發(fā)育受到多種信號分子的協(xié)調(diào)作用,而調(diào)節(jié)它們的活性可能導致胚胎表型變化。在斑馬魚發(fā)育過程中,有七個主要的信號通路,在這些通路中,骨形成蛋白 (BMP)、視黃酸 (RA)、Wnt、成纖維細胞生長因子 (FGF) 和 Nodal 信號通路主要調(diào)控生殖層定向和前后背腹軸的形成,Sonic Hedgehog (Shh) 和平面細胞極性 (PCP) 信號通路則控制身體軸的延伸和形態(tài)發(fā)生。
研究人員對孿生網(wǎng)絡(luò)在檢測異常胚胎方面的效用層面展開測試,結(jié)果如下圖所示:
未經(jīng)處理的胚胎與藥物處理后胚胎的表型對比
a:未經(jīng)處理的胚胎作為藥物處理的胚胎表型參考;
b - i:不同藥物處理胚胎與未處理胚胎相似性變化;
j:胚胎數(shù)目對異常檢測準確性的依賴性。
比較未經(jīng)處理的胚胎與經(jīng)過 BMP、Nodal、FGF、Shh、PCP 和 Wnt 抑制劑處理以及 RA 暴露的胚胎的表型,發(fā)現(xiàn)未經(jīng)處理的胚胎之間存在高相似性值,而受小分子藥物處理的胚胎與未經(jīng)處理的胚胎之間的相似性值通常較低。
對時間點進行統(tǒng)計分析,確定胚胎群體與參考群體顯著偏離的時間點,從而檢測到具有表型缺陷的胚胎群體,檢測的準確性取決于分析的胚胎數(shù)量和干擾類型。
此外,研究還探究了該方法在識別不同穿透率和嚴重程度表型時的準確性。使用不同水平 BMP 通路抑制導致的斑馬魚胚胎的已知表型范圍,結(jié)果如圖所示:孿生網(wǎng)絡(luò)能夠準確檢測到發(fā)育偏差,對于具有高穿透性的表型或使用高劑量小分子 BMP 信號通路抑制劑引起的明顯表型,僅需要少量胚胎即可進行準確檢測,而輕微的表型則需要約 30 個胚胎。
不同水平 BMP 通路抑制下斑馬魚胚胎表型變化
這些分析表明,僅使用正常發(fā)育胚胎圖像訓練的孿生網(wǎng)絡(luò),能夠以無偏見的方式檢測胚胎表型變化。
結(jié)果 5:自動推導胚胎發(fā)育時期
通常情況下,可以使用參考胚胎圖像來評估測試胚胎的發(fā)育時間,但是對于新發(fā)現(xiàn)或未經(jīng)表征的物種,可能無法獲得這樣的參考圖像。
研究者提出,可以利用孿生網(wǎng)絡(luò)計算測試圖像與同一胚胎在早期時間點的其他圖像的相似性判斷發(fā)育階段。
對斑馬魚胚胎進行相似性分析的結(jié)果如圖所示:
胚胎發(fā)育時期推導
a:計算測試胚胎與來自同一胚胎的以前采集時間點的圖像之間的相似性;
b:代表性相似矩陣。
在不同的發(fā)育時期,相似性呈現(xiàn)出獨特的分布特征。他們觀察到了一個共同的模式:高相似性值在局部聚集,而在更遠的時間點,相似性值較低且呈現(xiàn)平穩(wěn)狀態(tài)。
有趣的是,孿生網(wǎng)絡(luò)評估的圖像對之間的局部和全局統(tǒng)計相似性,與發(fā)育過程中關(guān)鍵階段的順序是一致的。落入平穩(wěn)階段的胚胎具有穩(wěn)定的形態(tài),突顯了發(fā)育中的主要時期,如經(jīng)典的分裂、囊胚、胚胎盤、器官發(fā)生和分段階段。與此相反,落入平穩(wěn)階段之間的邊界的胚胎代表著發(fā)育形態(tài)發(fā)生主要變化的短暫時期。
接下來,研究者嘗試將這種方法推廣到其他物種,包括青魚(medaka)和三棘刺魚(three-spined stickleback)。結(jié)果顯示,孿生網(wǎng)絡(luò)對這些形態(tài)多樣的胚胎序列生成了信息豐富的圖譜。
自動檢測青魚和三刺魚胚胎的發(fā)育時期和轉(zhuǎn)變
進一步研究中,他們將這種方法應用到親緣關(guān)系更遠的線蟲(Caenorhabditis elegans),研究者們利用來自不同獨立來源的開放數(shù)據(jù),如已發(fā)表的論文和YouTube視頻,訓練和評估網(wǎng)絡(luò),成功自動識別出C. elegans的第一次分裂周期,形成前四個原胚細胞。
這些結(jié)果表明,Twin Network 方法能夠用于針對不同生物體系,以及廣泛范圍的圖像數(shù)據(jù)集,自動生成不同物種的發(fā)育圖譜,而無需先前針對此目的專門訓練的模型。
03 孿生網(wǎng)絡(luò)vs.數(shù)字孿生網(wǎng)絡(luò)
5G 時代,數(shù)字孿生網(wǎng)絡(luò)屢被提及。同時,和他名稱相仿的「孿生技術(shù)」—— 孿生網(wǎng)絡(luò)也在圖像識別領(lǐng)域嶄露頭角。二者雖然概念不同,但在某些領(lǐng)域卻展現(xiàn)出了合力。
首先注意,這是兩個完全不同的概念。
Twin Network:一種深度學習架構(gòu),主要應用于圖像檢索、圖像匹配、圖像分類等領(lǐng)域,通過學習圖像的嵌入表征,實現(xiàn)圖像相似性的比較和分析。
Digital Twin Network:物理實體的虛擬模型,它通過實時數(shù)據(jù)更新和仿真技術(shù),與其對應的物理實體進行交互,并可以模擬物理實體在不同條件下的行為和性能,主要應用于工業(yè)制造、物聯(lián)網(wǎng)、城市規(guī)劃、航空航天等領(lǐng)域。
作為一種 AI 算法,Twin Network 可從自身優(yōu)勢為數(shù)字孿生網(wǎng)絡(luò)賦能增效。
比如工業(yè)設(shè)備的數(shù)字孿生中,孿生網(wǎng)絡(luò)可以比較不同時間點的設(shè)備圖像,以了解設(shè)備狀態(tài)的變化和差異;數(shù)字孿生城市規(guī)劃中,孿生網(wǎng)絡(luò)可以處理監(jiān)控探頭拍攝圖像數(shù)據(jù),對交通流量和路況進行實時監(jiān)測和模擬等等。
綜合來看,Twin Network 通過結(jié)合圖像數(shù)據(jù)和深度學習技術(shù),為 Digital Twin Network 提供圖像相關(guān)的支持和應用,提高數(shù)字孿生的信息獲取、監(jiān)測和決策能力。
不只是 Twin Network,其他的 AI 工具也將進一步為數(shù)字孿生賦能。