中國網/中國成長門戶網訊 綠色制造是綜合斟酌周遭的狀況影響和資本效益的古代化制造形式,而綠色生物制做作為綠色制造主要的方法之一,具有得天獨厚的上風。綠色生物制造以生物細胞及其酶的反映經過歷程為焦點,以CO2、木質纖維素、農作物放棄物、其他可再生生物基碳源包養網比擬等為原料,生孩子燃料、藥物分子、資料、大批化學品和食物等低碳、可連續成長產物,完成原料獲取、經過歷程制造的綠色化和低碳化。綠色生物制造可以完成資本的高效應用和周遭的狀況的可連續成長,是國度提出鼎力成長的新質生孩子力的主要構成部門。綠色生物制造以高科技、高機能、高東西的品質等為特征,完善契合新質生孩子力,是合適新成長理念的進步前輩生孩子力質態。
高機能細胞工場作為綠色生物制造的焦點,是產業發酵經過歷程的主體。為呼應疾速成長新質生孩子力的號令,細胞工場需求疾速更換新的資料迭代以順應分歧的生孩子周遭的狀況,以及尋求更高的生孩子機能,這對細胞工場的精準design、疾速迭代、發酵經過歷程把持等提出了極高的請求。而跟著盤算範疇的成長,“數字孿生”(digital twin)完成了對化工經過歷程優化與把持、新產物開闢與測試等的數字化,人工智能更拓展并進步了數字孿生的利用范圍和後果。基于相似的設法,對細胞內復雜的生物經過歷程停止數字化模子構建,構建多種數據庫,并應用機械進修等手腕對酶、細胞工場代謝收集、發酵工藝等停止數字化,構成細胞工場全性命周期數字化design方式(圖1)。應用這些方式,可以疾速、高效取得高機能細胞工場,賦能綠色生物制造。
細胞工場數字化基本:代謝數據庫、酶數據庫
數據是數字化的基本。在細胞工場中,由酶催化的代謝反映是完成細胞發展、產品分解的要害。代謝數據庫包括代謝化合物、生化反映、催化生化反映的酶、代謝反映組合構成的代謝道路等信息,是代謝收集數字化的基本。
代謝數據庫、酶數據庫的成長近況
近年來,跟著internet時期的到臨,酶、代謝數據的共享為研討職員帶來了極年夜的方便(表1)。KEGG、MetaCyc(BioCyc數據庫子數據庫)等常用的綜合代謝數據庫在分子程度樹立了對細胞代謝的體系認知,Brenda、PDB、Uniprot等酶反映數據庫則聚焦代謝反映酶的構造與效能。代謝數據庫和酶數據庫的聯合,將由代謝道路構成的代謝收集,與酶構造效能、催化活性、細胞定位等的酶催化數據相聯合,構成對細胞工場代謝的體系性表征。同時,跟著研討的深刻,HMDB(人類代謝組數據庫)、SGD(酵母基因組數據庫)、GMD(植物代謝組數據庫)等物種專有代謝數據庫、基因數據庫,在特定的利用周遭的狀況中也施展了主要感化。
我國在成長和扶植自立常識產權的高東西的品質代謝、酶數據庫方面成長較晚,招致我國在綠色生物制造財產成長平安及在國際上的焦點競爭力存在必定水平的隱患。為此,近年來國度和研討職員開端器重生物迷信數據的尺度化及平安治理,公佈了《中華國民共和國生物平安法》,同時依托《中華國民共和國數據平安法》等法令律例,推動生物迷信數據的尺度化數據庫構建與規范化治理。
基于年夜說話模子的數據庫更換新的資料方式
跟著分解生物技巧的成長,細胞中新酶、代謝反映的更換新的資料速率呈指數級增加,傳統數據庫更換新的資料及保護需求人工對信息停止收拾,存在必定滯后性。跟著盤算機技巧的成長,經由過程機械進修發掘文獻中文本提代替謝相干信息成為能夠,而近幾年GPT-4、Bard等年夜說話模子(LLM)在生物醫藥範疇的成長與利用,更是進步了生物代謝信息提取的速率與正確性。而在部門文獻中,代謝道路信息以圖片格局展現,為提取這部門不在文本中的代謝數據信息,在最新的報道中,研討職員應用包含Faster R-CNN和PaddleOCR的機械進修模子對文獻中包括代謝道路的圖片停止辨認,完成了高通量、周全地從文獻中提代替謝反映信息。跟著機械讀文獻中信息獲取才能和正確性的晉陞,代謝數據庫、酶數據庫的數據更換新的資料將更具時效性。
細胞工場酶的數字化design
酶是細胞中代謝反映的焦點,酶的效能、活性、選擇性直接影響細胞工場的產品分解才能。酶的數字化design為細胞工場中代謝反映供給了高效的催化劑。經由過程數字化方式,猜測卵白質構造與效能,并停止酶的改革design,可將酶的催化活性進步數百甚至上千倍。例如,經由過程實際盤算-試驗驗證,ω-轉胺酶的kcat/Km值進步了1 660倍。
卵白質構造猜測
卵白質構造是其效能的基本,數字化酶的design依靠于卵白質構造的精準猜測。依據分歧的猜測思緒,研討職員開闢了多種卵白質構造猜測軟件,包含基于同源建模的SWISS-MODEL、基于無模板方式的Rosetta等。而Google DeepMind團隊基于深度進修算法開闢的Alphafold在精準猜測卵白質構造的基本上,更進步了卵白質、核酸、小分子、離子間互作構造的猜測正確性,將生物年夜分子構造猜測推上了新高度。
細胞工場酶的改革——酶的再design
酶的再design依據已有酶的構造效能,對催化活性中間或其他要害位點氨基酸停止漸變,并經由過程量子力學模仿(QM)、分子動力學模仿(MD)、粗粒化(CG)模仿、分子對接等盤算生物化學手腕停止剖析,并領導濕試驗驗證,完成以催化活性進步或耐受才能進步等為目的的疾速酶design。
細胞工場酶的立異——酶的從頭design
卵白質構造決議效能,而實際上卵白質的氨基酸序列決議卵白質構造,已知效能酶的量級遠遠小于由隨機氨基酸序列構成的“卵白質空間”。比擬于酶的再design,酶的從頭design旨在聯合已有酶骨架構造及效能特色,拓展已知效能酶在卵白質空間中的范圍,完成新效能酶的design,摸索浩瀚未知的卵白質空間。限于酶從頭design的難度,現階段高機能軟件及勝利案例絕對較少,包含ORBIT、DESIGNER、Rosetta、CCBuilder、PRODA等在內的多種軟件可以或許完成酶的從頭design。此中Rosetta針對天然界中沒有酶可以催化的化學反映,如Kemp打消反映、逆醛縮反映等,停止酶的從頭design,發明了可以催化這些反映的人工design酶,拓展了酶可催化反映的品種,Rosetta的開闢者David Baker也因在盤算卵白範疇的進獻取得2024年諾貝爾化學獎。
細胞工場代謝收集數字化design
酶的數字化完成了酶催化代謝反映的優化及新效能酶的design,拓展了以酶催化反映為焦點的細胞工場的效能。在細胞工場的代謝層面,細胞內源的酶促反映會構成復雜的代謝收集,而經由過程分解生物學添加的外源途徑更增添了細胞工場design的難度。為完成目的產品的高效分解,在細胞工場中,需求對復雜代謝收集中物資流、能量流、異源分解途徑等停止組織優化,這凡是需求消耗大批的物力和時光本錢。基因組標準代謝收集模子(GEM)、生物逆分解道路猜測、基因線路數字化design等數字化方式可以領導細胞工場的design,削減試錯本錢(圖2)。
基因組標準代謝收集模子(GEM)領導細胞工場代謝收集數字化design
GEM將代謝收集數字化,以描寫生物體全部代謝道路中基因—卵白質—代謝反映的關系特征,是經由過程數學模子模仿細胞內代謝反映的體系生物學研討方式。自研討職員初次在流感嗜血桿菌中完成了GEM的構建與利用,在接上去的20余年中,為進步GEM盤算的正確性,在以代謝流矩陣為焦點的代謝流均衡剖析(FBA)基礎算法的基本上,添加了酶束縛、熱力學束縛及多束縛等分歧條理的附加束縛,并聯合轉錄組學、代謝組學等試驗數據,完成了多種生物高東西的品質GEM的構建與利用]。而跟著獲取試驗數據本錢下降、數據更換新的資料速率加速,GEM也在不竭地更換新的資料重構,以順應分歧的利用周遭的狀況。
GEM的模子構建方式重要包含:手動構建、主動構建和半主動構建。2010年COBRA ToolBox東西箱的開闢完成了GEM手動構建的數字化,但手動構建需求消耗大批的時光。主動與半主動東西加速了GEM模子的構建,主動構建GEM,如Model SEED等東西箱可以疾速大量量天生多個物種的GEM,但數據東西的品質很年夜水平影響主動構建的GEM模子的精準度。而半主動構建GEM的東西既可以疾速搜集數據,又可以停止手動數據校訂,包管了疾速構建的模子的精準性,成為現階段GEM構建與重構的重要方式。現階段半主動構建模子的方式逐步成熟并趨于尺度化,已有多種東西箱被開闢應用:RAVEN東西可以重構和剖析GEM,并將成果停止可視化;Merlin集成了序列婚配與亞細胞定位效能,使得其應用極為便利;GECKO東西經由過程動力學和分子生物學數據向GEM中添加酶制約原因,從而進步GEM猜測才能。
應用構建的模子,經由過程FBA算法盤算細胞內代謝流量,猜測細胞以最年夜化發展或生孩子產品為目的的代謝通量,進而為懂得細胞內的代謝流質變化供給輔助;而MOMA、FSEOF及OptKnock等算法例以進步發展與生孩子為目的,猜測細胞代謝通量分布,并供給基因表達強度優化戰略,為細胞工場試驗design供給領導。
跟著數據更換新的資料速率的加速及模子構建技巧的更換新的資料,研討職員完成了對多種產業微生物GEM的重構與迭,并利用這些GEM完成了產業細胞工場代謝收集的數字化design(表2)。
生物逆分解東西幫助細胞工場異源道路design
在停止全新化合物或從未在細胞工場中完成從頭分解的化合物的細胞工場構建經過歷程中,需求大批的時光精神停止未知道路的解析及道路design,且這個經過歷程激烈依靠專家常識。數字細胞工場經由過程生物逆分解戰略,聯合數據庫中數據信息,針對目的分子,經由過程反映規定、機械進修等方式,應用酶的雜泛性拓展酶催化反映空間,將目的分子復雜構造逆向解析,以細胞工場內源代謝物為逆分解目的起點,完成細胞工場外源代謝道路的逆分解design。逆分解design聯合上述章節中先容的酶的從頭design、再design,及細胞工場代謝收集數字化design,構成完全的目的分子細胞工場代謝道路design。
生物逆分解在目的分子異源分解道路design中,依據道理和完成難易水平,可以分為2類:基于已知酶、代謝反映的常識庫搜刮方式;基于反映規定提取或機械進修,猜測未知的、包養新的酶促反映的方式。這2種方式可以停止組合,完成更貼合試驗design思緒的逆分解途徑design。
基于常識庫搜刮的道路design方式由于無法超出數據庫中數據,受限于已知酶促反映的數據範圍。經由過程蒙特卡洛樹搜刮(MCTS)、無環途徑搜刮等算法,構建了DESHARKY、Metabolic tinker等軟件,完成了基于已知酶促反映的逆分解道路design,勝利發明碳應用率、能量應用率更高的新道路,并利用在細胞工場構建中。
在新酶促代謝反映猜測方面,按拓展新酶促反映的方式可分為:基于反映規定的逆分解design方式、無模板逆分解design方式、半模板逆分解design方式。
基于反映規定的逆分解design經由過程原子—原子映射等方式從已知數據庫中提取反映規定,并應用尺度化方式構成反映規定數據庫。例如,RetroRules、Ni等從MetaCyc數據庫抽提并精簡的包括1 224條反映規定的規定數據庫;RetroBioCat軟件應用的包括99條的極簡反映規定數據庫等;經由過程MCTS等算法構建逆分解道路design軟件,基于RetroRules的RetroPath2.0、RetroPath RL、RetroBioCat等。
無模板逆分解design方式應用反映數據庫來練習機械進修模子,將“反映物—產品信息對”視為翻譯經過歷程,應用天然說話處置(NLP)停止模子構建,完成逆分解反映道路的拓展,基于此方式已開闢了BioNavi-NP、基于酶EC號的猜測模子等算法或軟件。
基于反映規定的逆分解design成果中,經由過程反映數據庫—反映規定數據庫的映射關系可以供給猜測道路的酶參考信息,可以基于已有信息停止酶的數字化design,但design的道路受限于反映規定數據庫。而無模板逆分解design方式經由過程機械進修,極年夜拓展了酶促反映空間,但由于酶促反映數據量對于機械進修而言依然較小,其正確性仍有待進步。而基于深度進修開闢的半模板逆分解design軟件,如RetroPrime、G2Retro則經由過程分子圖捕獲分子構造特征,處理了無模板方式中已有SMILES式為獨一輸出使得模子無法懂得分子構造信息的題目。半模板方式經由過程猜測反映中間進步了模子的可說明性,并經由過程深度進修包管了逆分解猜測的拓展才能和多樣性。
基因線路數字化design調控基因時序表達
為了知足細胞工場基因表達的時序調控、分歧代謝模塊之間的代謝通量調理等需求,需求停止基因的邏輯、時序、定量表達調控、多基因同時表達調控等邏輯門基因線路design。完成這些design需求應用引誘型啟動子、基于特定DNA序列靶向卵白的啟動子克制、轉錄因子等轉錄調控東西。面臨多基因的邏輯構建等復雜題目,手動design時光本錢高、正確性低,而基因線路主動化design(GDA)可以疾速將尺度化基因元件組裝和design成具有所需效能的基因線路。
GDA基于尺度化元件庫,完成基因線路的數字化design。研討職員應用分解生物學開放說話(SBOL)、體系生物學標誌說話(SBML)等方式構建了SynBioHub、Addgene、iGEM等尺度化基因元件數據庫。基于這些數據庫,開闢了SBOLCanvas、iBioSim、Cello、SynBioSuite等GDA軟件,完成基因線路疾速精準數字化design,此中Cello軟件的基因線路design在年夜腸桿菌、酵母菌、多形擬桿菌等細胞工場中已有普遍的利用。
細胞工場發酵工藝與經過歷程數字化
取得高機能細胞工場后,為使其可以或許完成目的產品產業範圍發酵生孩子,需求將發酵系統逐級縮小以優化發酵工藝與經過歷程參數,完成產物的高效生孩子。面臨生物發酵系統復雜、缺少有用傳感器、測樣頻率低、檢測時光長招致時效性差等一系列題目,產業級發酵經過歷程的數字孿生與優化把持有助于發酵系統的把持和產量的進步(圖3)。
發酵系統縮小及發酵經過歷程把持數字化
在發酵工藝的design經過歷程中,縮小效應的存在致使工藝design與現實產業生孩子周遭的狀況不婚配,影響細胞工場分解效力。經由過程數字孿生,及其與常識圖譜聯合等數字化手腕,可對發酵經過歷程停止數字化模仿及及時監控,并對發酵經過歷程停止主動化把持,完成發酵工藝的優化。
在發酵工藝中,數字孿生經由過程接收發酵經過歷程發生的及時數據,如發酵系統溶氧(DO)、尾氣剖析、溫度等,停止仿真、猜測,剖析發酵狀況,并依據發酵狀況對發酵系統停止優化和決議計劃。經由過程人工智能,聯合現實發酵系統,可以完成中試級別、生孩子級別發酵系統的數字孿生模子構建,并完成產品產量的進步。將基于要害原因間關系專家常識的常識圖譜方式與數字孿生聯合,構建兩種方式的整合決議計劃模子,可以進步猜測正確性并加強把持機能。
發酵車間數字化治理體系design
在產業生孩子中,裝備、原料、人力等資本的時空調劑異樣是包管發酵工藝經過歷程、產業生孩子效力的主要原因。在“產業4.0”的概念基本下,對產業生孩子經過歷程停止信息化扶植,構建企業資本打算(ERP)體系,并聯合主動化體系,開闢了制造履行體系(MES),完成數據及時采集、治理,并停止資本、裝備的調劑,構建發酵車間條理的治理數字化軟件,完成了發酵經過歷程本錢下降及生孩子效力的進步。
數字細胞工場總結與瞻望
基于人工智能、模子構建等的數字化方式曾經在細胞工場構建的全流程中獲得了普遍的利用。比擬傳統細胞包養工場design方式,數字化design具有高效、節儉本錢等上風。在以細胞工場為焦點的綠色生物制造高速成長的佈景下,細胞工場design數字化過程正在不竭加速,構成了包含數據庫構建、細胞工場代謝design、發酵系統design、發酵經過歷程調控等的細胞工場全性命周期數字化design(圖1)。跟著將來盤算才能的晉陞及更深刻的學科穿插,全性命周期數字化細胞工場design將向更正確、更疾速、更高效、全流程的標的目的成長,賦能綠色生物制造。
(作者:孟繁澤、秦磊,清華年夜學化學工程系 清華年夜學產業生物催化教導部重點試驗室 清華年夜學分解與體系生物學中間;曹銳,新疆年夜學智能迷信與技巧學院;胡冰,北京理工年夜學化學與化工學院生物化工研討所;李春,清華年夜學化學工程系清華年夜學產業生物催化教導部重點試驗室清華年夜學分解與體系生物學中間 北京理工年夜學化學與化工學院生物化工研討所。《中國迷信院院刊》供稿)
發佈留言