先導(dǎo)化合物的結(jié)構(gòu)優(yōu)化(Lead optimization)是藥物設(shè)計(jì)的核心環(huán)節(jié),需要通過DMTA(設(shè)計(jì)-合成-測(cè)試-分析)的反復(fù)循環(huán)來提高化合物活性、特異性、成藥性等性質(zhì)。長(zhǎng)期以來,先導(dǎo)化合物的活性優(yōu)化高度依賴藥物化學(xué)家的經(jīng)驗(yàn)以及大量的人力和資源投入。基于結(jié)構(gòu)的藥物設(shè)計(jì),尤其是高精度的結(jié)合自由能計(jì)算,可以通過部分模擬的DMTA循環(huán)來加速先導(dǎo)化合物活性優(yōu)化過程。隨著分子力場(chǎng)和構(gòu)象采樣算法的改進(jìn),自由能微擾(FEP)等相對(duì)結(jié)合自由能模擬方法的預(yù)測(cè)值與實(shí)驗(yàn)結(jié)果的誤差可以接近化學(xué)精度(1 kcal/mol,約5-6倍活性差異以內(nèi)),但這類方法通常需要復(fù)雜的配置與體系搭建過程。此外,消耗計(jì)算資源龐大、商業(yè)軟件價(jià)格高昂等問題也限制了這類方法的應(yīng)用范圍。因此,開發(fā)一種兼顧速度、精度與易用性的先導(dǎo)化合物活性優(yōu)化方法一直是藥物設(shè)計(jì)領(lǐng)域的迫切需求。
近期,中國(guó)科學(xué)院上海藥物研究所鄭明月課題組提出了一種先導(dǎo)化合物優(yōu)化的人工智能方法PBCNet(pairwise binding comparison network)。該方法采用孿生圖卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過比較一組相似配體的結(jié)合模式差異來預(yù)測(cè)二者之間的相對(duì)結(jié)合親和力,可以較好的兼顧計(jì)算速度和精度。此外,研究團(tuán)隊(duì)還開發(fā)了易于操作的圖形界面網(wǎng)絡(luò)計(jì)算服務(wù)(https://pbcnet.alphama.com.cn/index)。相關(guān)研究論文“Computing Relative Binding Affinity of Ligands Based on a Pairwise Binding Comparison Network”于2023年10月19日于Nature Computational Science在線發(fā)表。
圖1 PBCNet網(wǎng)絡(luò)主體框架。A. 信息傳遞階段,實(shí)現(xiàn)配體與蛋白質(zhì)分子之間相互作用的信息交互,并獲得配體原子級(jí)別的表征信息;B. 讀出階段,獲取配體分子級(jí)別的隱空間表征,并實(shí)現(xiàn)成對(duì)配體之間的信息交互;C. 預(yù)測(cè)階段,配體分子對(duì)表征經(jīng)過兩支獨(dú)立的3層前饋神經(jīng)網(wǎng)絡(luò),分別輸出:(1)兩個(gè)配體分子對(duì)在該蛋白體系下的△pIC_50預(yù)測(cè)值y(i,j);(2)第一個(gè)配體分子的結(jié)合親和力高于第二個(gè)配體分子結(jié)合親和力的預(yù)測(cè)概率p(i,j)。
近年來,人工智能技術(shù)已逐漸成為藥物研發(fā)領(lǐng)域中重要的技術(shù)手段之一。基于已知的結(jié)構(gòu)和活性數(shù)據(jù),如何引入合理的關(guān)系歸納偏置使得AI模型可以更有效的提取其中蘊(yùn)含的物理化學(xué)知識(shí)和分子相互作用規(guī)律,是開發(fā)先導(dǎo)化合物優(yōu)化方法的關(guān)鍵。在PBCNet中,模型采用了一種孿生網(wǎng)絡(luò)架構(gòu)(圖1),可以較好的消除不同來源或?qū)嶒?yàn)測(cè)定條件下結(jié)合親和力數(shù)據(jù)中存在的系統(tǒng)誤差;考慮到分子間非鍵相互作用往往服從嚴(yán)格的幾何先驗(yàn),模型將原子之間的距離和化學(xué)鍵之間的角度信息編碼作為注意力偏置項(xiàng),有助于分子間相互作用信息的交互;此外,相對(duì)于二維拓?fù)鋱D,模型同時(shí)引入距離和角度信息得到三維分子圖,可以更全面的描述了蛋白-配體之間的分子結(jié)合信息。
研究團(tuán)隊(duì)設(shè)計(jì)了多種測(cè)試場(chǎng)景,對(duì)包括PBCNet在內(nèi)的多種先導(dǎo)化合物優(yōu)化方法進(jìn)行了性能比較。在零樣本學(xué)習(xí)方面, PBCNet的排序能力和預(yù)測(cè)精度均顯著優(yōu)于Schr?dinger Glide、MM-GB/SA和多個(gè)近期報(bào)道的深度學(xué)習(xí)模型,在部分測(cè)試體系上的誤差已接近于化學(xué)精度;在小樣本學(xué)習(xí)方面,僅使用少量的結(jié)構(gòu)活性數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)后PBCNet的排序性能已經(jīng)可以接近或超過Schr?dinger FEP+(圖2),并且在計(jì)算速度方面相對(duì)FEP+有多個(gè)數(shù)量級(jí)的優(yōu)勢(shì)。對(duì)比結(jié)果顯示,使用PBCNet可以使先導(dǎo)化合物優(yōu)化項(xiàng)目平均加速約4.7倍,平均節(jié)省約30%的資源投入。此外,模型在原子和官能團(tuán)水平的可解釋性分析也反映了PBCNet預(yù)測(cè)結(jié)果的合理性。
圖2 小樣本學(xué)習(xí)中PBCNet的性能隨微調(diào)樣本量(已知活性化合物數(shù)量)的變化趨勢(shì)。x軸表示微調(diào)樣本的數(shù)量,y軸表示PBCNet的預(yù)測(cè)性能,藍(lán)色虛線為文獻(xiàn)報(bào)道的Schr?dinger FEP+的預(yù)測(cè)性能。誤差線表示10次獨(dú)立運(yùn)行的標(biāo)準(zhǔn)偏差。
本論文的第一作者為上海藥物所研究生虞杰和蘇州阿爾脈生物科技有限公司的李召軍博士。上海藥物所鄭明月研究員、羅小民研究員、博士后李敘潼為本研究論文的共同通訊作者。本研究得到了國(guó)家自然科學(xué)基金、臨港實(shí)驗(yàn)室、國(guó)家重點(diǎn)研發(fā)專項(xiàng)、中國(guó)博士后科學(xué)基金、上海市自然科學(xué)基金、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目、以及上海市科技重大專項(xiàng)資助。
全文鏈接:https://doi.org/10.1038/s43588-023-00529-9 Research Briefing: https://doi.org/10.1038/s43588-023-00531-1(供稿部門:鄭明月課題組)