高分子材料大數(shù)據(jù)研究:共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)
高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時(shí),也成為全球人類可持續(xù)發(fā)展和環(huán)境保護(hù)的主要挑戰(zhàn)之一. 高分子材料的機(jī)械熱、光電聲磁、分離、降解和加工性質(zhì)是設(shè)計(jì)、生產(chǎn)和應(yīng)用的聚焦內(nèi)容,其柔性可設(shè)計(jì)的特征,有力地支撐著社會(huì)的多樣化發(fā)展,對(duì)密切相關(guān)的組成、加工、結(jié)構(gòu)及其性質(zhì)關(guān)系的認(rèn)識(shí)也在不斷完善中. 在對(duì)高分子材料個(gè)性化、智能化生產(chǎn)和應(yīng)用的驅(qū)動(dòng)下,傳統(tǒng)經(jīng)驗(yàn)理論提供的定性指導(dǎo)模型漸不能滿足,而對(duì)支撐給定性質(zhì)實(shí)現(xiàn)材料逆設(shè)計(jì)的定量決策模型產(chǎn)生大量需求. 特別是人們對(duì)于給定目標(biāo)性質(zhì)實(shí)現(xiàn)對(duì)材料組成工藝精準(zhǔn)定位“逆設(shè)計(jì)”的渴求,迫切需要對(duì)高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進(jìn)展. 基于我們4年前對(duì)材料基因組學(xué)研究的梳理[
1 材料大數(shù)據(jù)研究的共性基礎(chǔ)
眾所周知,人類探索未知世界存在4種認(rèn)知范式,即以實(shí)驗(yàn)試錯(cuò)法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計(jì)算模擬仿真為主的第三范式,和以數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新為主的第四范式. 這4種范式都可以產(chǎn)生基礎(chǔ)可用的數(shù)據(jù),在數(shù)據(jù)基礎(chǔ)上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識(shí),進(jìn)一步凝練出法則(principle)從而獲得智慧,即科學(xué)認(rèn)知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在該框架中,人類生活生產(chǎn)和研究長(zhǎng)期匯集的基礎(chǔ)科學(xué)數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開(kāi)共享,機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)和大數(shù)據(jù)(注:這4個(gè)專業(yè)名詞的內(nèi)涵具有高度重疊的共同知識(shí),但有不同的側(cè)重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術(shù)手段,正快速地發(fā)展并重塑著生產(chǎn)力和生活模式. 統(tǒng)計(jì)力學(xué)和貝葉斯統(tǒng)計(jì)學(xué)與多個(gè)學(xué)科交叉,先后形成了生物信息學(xué)、化學(xué)信息學(xué)和材料信息學(xué)3個(gè)前沿學(xué)科. 目前生物信息學(xué)發(fā)展的典型代表是AlphaFold2[
高分子材料的大數(shù)據(jù)研究是材料信息學(xué)的前沿核心內(nèi)容,而材料信息學(xué)的研究存在如
Fig. 1 The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).
在工藝方面,主要包含對(duì)配方組分的反應(yīng)、分散和融合3類操作. 反應(yīng)是化學(xué)鍵的變化,涉及物質(zhì)本征屬性改變,包括物質(zhì)的合成、修飾改性、化學(xué)交聯(lián)、降解等,常見(jiàn)的因素包括手性、異構(gòu)、鍵生成斷裂平衡、活性、選擇性以及與反應(yīng)關(guān)聯(lián)的小分子產(chǎn)物,反應(yīng)過(guò)程伴隨的物質(zhì)和能量擴(kuò)散和傳遞的調(diào)節(jié)控制等. 分散是通過(guò)對(duì)體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達(dá)到熱力學(xué)平衡狀態(tài)(一般是熵增過(guò)程),或者使物質(zhì)分布達(dá)到具有特定分布結(jié)構(gòu)的穩(wěn)態(tài)狀態(tài). 融合主要是破壞或黏合熱力學(xué)不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實(shí)現(xiàn)結(jié)構(gòu)錨定(藥物篩選的原則之一)等. 這些工藝涉及較多人為經(jīng)驗(yàn)性因素,易造成精細(xì)層面的可重復(fù)性低,對(duì)復(fù)雜、精密、長(zhǎng)期或在極端條件服役的材料體系,在生產(chǎn)和應(yīng)用之前一般會(huì)引入宏觀尺度的計(jì)算機(jī)輔助設(shè)計(jì)/制造(CAD/CAM). 在實(shí)際CAD建模計(jì)算模擬仿真中,常常需要引入材料中組分的體相宏觀性質(zhì),如密度、模量、泊松比以及可以描述物質(zhì)相態(tài)的本構(gòu)方程等[
性質(zhì)分為組分、材料和器件性質(zhì),組分性質(zhì)一般接近其本征性質(zhì),但在材料的多組分作用下,其性質(zhì)可能發(fā)生大幅變化. 在高分子材料體系里,無(wú)論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質(zhì)都很難用組分性質(zhì)直接或者加權(quán)平均近似[
不同于小分子、金屬、無(wú)機(jī)非金屬材料,利用大數(shù)據(jù)研究實(shí)現(xiàn)從性質(zhì)到分子結(jié)構(gòu)的“逆設(shè)計(jì)”已有不少成功報(bào)道[
2 高分子材料結(jié)構(gòu)定量數(shù)據(jù)其中,C,P,S,M,D分別代表組成、工藝、結(jié)構(gòu)、表征生產(chǎn)應(yīng)用條件和分布函數(shù),x則代表組成工藝中的某一可控變量,{ }代表集合.分布函數(shù)D = {ρi} 可以是熱力學(xué)平衡分布(高斯分布、玻爾茲曼分布等),也可以是偏倚分布(對(duì)數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等),或者是描述材料內(nèi)部組成基元在正、倒空間(傅里葉變換)的分布. 性質(zhì)Z可表述為在具有一定結(jié)構(gòu)S和測(cè)試應(yīng)用條件M下可由材料的組成C和加工成型工藝P改變,或者表述為材料在特定條件M下結(jié)構(gòu)及其變化對(duì)外場(chǎng)響應(yīng)而表達(dá)出性質(zhì)Z. 結(jié)構(gòu)S則可以表述為參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動(dòng)量
一般地,材料結(jié)構(gòu)的定義為組成基元的時(shí)空間分布,組成基元可以是電子、原子、離子、基團(tuán)、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達(dá)為笛卡爾坐標(biāo)、極坐標(biāo)、內(nèi)坐標(biāo)或傅里葉倒空間的基元豐度,或者場(chǎng)模型中的概率密度. 基元的屬性和分布可以隨時(shí)間發(fā)生變化,存在內(nèi)部的熱漲落或?qū)ν獠康拇碳ろ憫?yīng),從而通過(guò)表征手段獲得信號(hào)或表達(dá)出材料的不同性質(zhì). 結(jié)構(gòu)是一系列探測(cè)手段與材料作用的譜學(xué)信號(hào),而性質(zhì)也是材料對(duì)外部的刺激響應(yīng)結(jié)果. 因此,材料的定量結(jié)構(gòu)活性/性質(zhì)關(guān)系(QSAR/QSPR)在本質(zhì)上是不同譜學(xué)信號(hào)的相互關(guān)聯(lián),當(dāng)某些表征信號(hào)可以比較完備地描述性質(zhì)時(shí),該表征手段常被作為性質(zhì)的代理量(surrogate). 如利用某種試劑盒的UV特征吸收表達(dá)物質(zhì)的生物活性,用楊氏模量刻畫(huà)材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等. 因?yàn)榻Y(jié)構(gòu)可由組成和工藝共同決定,并通過(guò)物理、化學(xué)的知識(shí)闡明機(jī)理,因而結(jié)構(gòu)性質(zhì)關(guān)系常用結(jié)構(gòu)特征建立性質(zhì)的代理模型或代理量,從而用于理解、設(shè)計(jì)和調(diào)節(jié)控制材料的宏觀性質(zhì).
從理論和計(jì)算模擬仿真角度來(lái)看,高分子材料的結(jié)構(gòu)僅包括化學(xué)結(jié)構(gòu)和聚集結(jié)構(gòu)兩方面. 化學(xué)結(jié)構(gòu)用于區(qū)分組成物質(zhì)的屬性,其定量化是化學(xué)信息學(xué)研究的核心內(nèi)容. 主要包含化學(xué)語(yǔ)言的定量描述,包括編碼與解碼,比較成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系統(tǒng). 化學(xué)結(jié)構(gòu)的圖論和圖特征表達(dá)這類有長(zhǎng)久歷史的方法也存在一定程度應(yīng)用和發(fā)展[
另一方面是精確力場(chǎng)的發(fā)展,受高通量藥物和精準(zhǔn)催化劑設(shè)計(jì)的驅(qū)動(dòng),經(jīng)典的通用力場(chǎng)如CHARMM[
該計(jì)算難題同樣也存在高分子材料多尺度結(jié)構(gòu)的實(shí)驗(yàn)表征中,特別是聚集結(jié)構(gòu)的定量解析實(shí)現(xiàn)還需要長(zhǎng)時(shí)間的努力. 化學(xué)結(jié)構(gòu)、晶體結(jié)構(gòu)或單分散結(jié)構(gòu)通過(guò)X光衍射、NMR、冷凍電鏡、小角散射等可以較準(zhǔn)確解析,而在計(jì)算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實(shí)際材料至多有半定量數(shù)據(jù). 常見(jiàn)的材料結(jié)構(gòu)實(shí)驗(yàn)表征和計(jì)算方法的共性認(rèn)識(shí)如
Fig. 2 The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.
3 大數(shù)據(jù)研究的數(shù)據(jù)和算法進(jìn)展
材料大數(shù)據(jù)研究的主要流程可參考綜述文獻(xiàn)[
Table 1 List of representative data resources for the big data study of polymer materials.
Sources | Name | Type |
---|---|---|
Book | Polymers: a property database[ | Experimental |
Handbook of polymers[ | Experimental | |
Properties of polymers[ | Experimental | |
Prediction of polymer properties[ | Experimental | |
Polymer synthesis: theory and practice[ | Experimental | |
Polymer handbook[ | Experimental | |
Phase equilibria and thermodynamic data of aqueous polymer solutions[ | Experimental | |
Online | PoLyInfo (polymer.nims.go.jp/en) | Experimental |
CROW: polymer properties database (polymerdatabase.com) | Experimental | |
Polymers: a property database (poly.chemnetbase.com) | Experimental | |
CAMPUS plastics (campusplastics.com) | Experimental | |
Landolt-B?rnstein (materials.springer.com) | Experimental | |
Polymer property predictor and database (NIST) (pppdb.uchicago.edu) | Mixed | |
Khazana database (khazana.gatech.edu) | Simulation | |
Identify database (www.ringgold.com/identify) | Experimental |
在機(jī)器學(xué)習(xí)的算法方面,如
Fig. 3 List of representative machine learning and deep learning algorithms.
在強(qiáng)化學(xué)習(xí)算法方面,其原理類似于給定模型的計(jì)算模擬仿真,通過(guò)打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型. 典型的強(qiáng)化學(xué)習(xí)算法有Q-learning方法(如深度Q-網(wǎng)絡(luò)[
特別值得一提的是近幾年深度學(xué)習(xí)對(duì)整個(gè)機(jī)器學(xué)習(xí)算法、人工智能和大數(shù)據(jù)從基礎(chǔ)研究到生產(chǎn)應(yīng)用都帶來(lái)了極大的沖擊. 人工智能自動(dòng)編程,機(jī)器學(xué)習(xí)數(shù)據(jù)自動(dòng)生成等的急速發(fā)展與深度學(xué)習(xí)算法的高速發(fā)展密切相關(guān),在廣泛應(yīng)用的機(jī)器學(xué)習(xí)編程語(yǔ)言Python,R,Matlab的基礎(chǔ)上,新產(chǎn)生了一些建??蚣埽鏟ytorch,TensorFlow,MxNet等. 一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt[
4 高分子材料大數(shù)據(jù)研究的代表性進(jìn)展
4.1 進(jìn)展分類
高分子材料大數(shù)據(jù)研究是材料基因組學(xué)或材料信息學(xué)中極具挑戰(zhàn)的重要課題,當(dāng)前階段材料基因組學(xué)強(qiáng)調(diào)高通量計(jì)算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對(duì)于高分子材料實(shí)現(xiàn)起來(lái)存在諸多困難,源于高分子材料多分散和多尺度關(guān)聯(lián)等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對(duì)象的生物信息學(xué)最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應(yīng)不明顯. 近年來(lái)仍在高速發(fā)展的化學(xué)信息學(xué),聚焦化學(xué)語(yǔ)言數(shù)值化、微觀結(jié)構(gòu)多角度精確計(jì)量等極大地促進(jìn)了材料信息學(xué)的發(fā)展,特別是在小尺寸強(qiáng)關(guān)聯(lián)體系用化學(xué)信息學(xué)方法可直接指導(dǎo)材料的“逆設(shè)計(jì)”.
為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展,在CPSPPr中,主要按材料應(yīng)用性質(zhì)分類,包含新型高分子合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)等材料分類. 在大數(shù)據(jù)計(jì)算方法、數(shù)據(jù)集,以及計(jì)算預(yù)測(cè)與實(shí)驗(yàn)驗(yàn)證迭代的方法和思路的進(jìn)展也將融合到這些具體材料分類中. 整體來(lái)說(shuō),得益于化學(xué)信息學(xué)對(duì)物質(zhì)化學(xué)屬性和近程作用的精確刻畫(huà),光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無(wú)機(jī)非金屬材料方面的成功應(yīng)用,但其他性質(zhì)的高分子材料大數(shù)據(jù)研究還缺乏能夠推動(dòng)行業(yè)研究和生產(chǎn)模式發(fā)生改變的顯著成果. 在組成工藝決定結(jié)構(gòu)、結(jié)構(gòu)性質(zhì)關(guān)系(QSPR/QSAR)以及性質(zhì)性能3類主要關(guān)系中,結(jié)構(gòu)性質(zhì)關(guān)系研究較多,而結(jié)構(gòu)多數(shù)限于化學(xué)結(jié)構(gòu),對(duì)高分子材料聚集結(jié)構(gòu)的關(guān)聯(lián)關(guān)系研究報(bào)道非常少見(jiàn). 高分子材料大數(shù)據(jù)研究的實(shí)際應(yīng)用如配方工藝優(yōu)化、材料新性質(zhì)發(fā)現(xiàn),以及材料組成工藝決定結(jié)構(gòu)的基礎(chǔ)研究這些方面的報(bào)道也較少. 下面我們將圍繞材料性質(zhì)分類對(duì)近幾年的代表性進(jìn)展進(jìn)行簡(jiǎn)要回顧介紹.
4.2 高分子合成與自組裝
高分子合成的大數(shù)據(jù)研究主要集中在催化劑設(shè)計(jì)、聚合反應(yīng)中的物料配比投料、小分子和熱量管理,產(chǎn)物的自動(dòng)分離表征和實(shí)驗(yàn)方案協(xié)同調(diào)整等方面. Cooper小組開(kāi)發(fā)出一種合成機(jī)器人,能夠使用機(jī)器學(xué)習(xí)算法對(duì)實(shí)驗(yàn)迭代改進(jìn),實(shí)現(xiàn)目標(biāo)光催化劑的精準(zhǔn)合成[
在高分子的自組裝相圖預(yù)測(cè)方面,F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經(jīng)網(wǎng)絡(luò)的打分函數(shù),極大地促進(jìn)了函數(shù)解析的收斂速度,通過(guò)深度學(xué)習(xí)建立了密度分布函數(shù)鞍點(diǎn)對(duì)高分子結(jié)構(gòu)和組成參數(shù)的依賴性,實(shí)現(xiàn)了自組裝相圖的快速計(jì)算[
4.3 機(jī)械熱性質(zhì)
由于高分子材料一般隨溫度升高經(jīng)歷玻璃化轉(zhuǎn)變溫度(Tg)和熔點(diǎn)(Tm)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體,其機(jī)械性質(zhì)發(fā)生明顯改變. 因此,無(wú)論是高分子均聚物、共聚物、共混體系還是復(fù)合材料,其機(jī)械和熱性質(zhì)是密不可分的. 在熱性質(zhì)方面,常被看作高分子本征性質(zhì)的Tg,Tm以及結(jié)晶、玻璃化轉(zhuǎn)變熱焓等與高分子的化學(xué)、立構(gòu)和拓?fù)浣Y(jié)構(gòu)密切相關(guān),也是機(jī)器學(xué)習(xí)長(zhǎng)期關(guān)注的預(yù)測(cè)目標(biāo). 在機(jī)械性質(zhì)方面,主要包括楊氏模量、拉伸模量、損耗角(tanδ)等源于高分子材料形變中的應(yīng)力-應(yīng)變關(guān)系既是理論計(jì)算方法,即本構(gòu)模型關(guān)注的重點(diǎn),也因其非線性、非單調(diào)性等特點(diǎn)成為機(jī)器學(xué)習(xí)挑戰(zhàn)的難題.
對(duì)高分子的Tg和Tm的機(jī)器學(xué)習(xí)預(yù)測(cè)已經(jīng)有較長(zhǎng)的研究歷史. 早期的流行方法是通過(guò)van Kervelen提出的基于基團(tuán)加和性方法來(lái)預(yù)測(cè)[
通過(guò)拉伸曲線和動(dòng)態(tài)力學(xué)曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長(zhǎng)率和能量耗散等重要力學(xué)性質(zhì)參數(shù),由于這些量與材料多尺度多因素相關(guān),可用機(jī)器學(xué)習(xí)來(lái)建立定量的組成與性質(zhì)聯(lián)系. Jin等[
一種變通的路線是將機(jī)器學(xué)習(xí)與計(jì)算模擬或本構(gòu)方程結(jié)合起來(lái). 例如:錢(qián)虎軍等[
4.4 光電聲磁性質(zhì)
由于光電聲磁性質(zhì)往往是通過(guò)幾個(gè)納米尺度以內(nèi)官能團(tuán)的相互作用體現(xiàn),即使是包含聚集熒光猝滅(ACQ)、聚集誘導(dǎo)發(fā)光(AIE)等前沿究熱點(diǎn),近程相互作用保障了其性質(zhì)的信號(hào)或代理量可以利用化學(xué)信息學(xué)方法較為準(zhǔn)確地計(jì)算和預(yù)測(cè). 這類性質(zhì)預(yù)測(cè)的核心是將機(jī)器學(xué)習(xí)與高通量第一性原理計(jì)算相結(jié)合,據(jù)此來(lái)設(shè)計(jì)具有特定光電聲磁性質(zhì)的高分子材料已有不少報(bào)道. 部分代表性工作包括Lu等[
在高分子光伏材料方面,Saeki等[
4.5 分離性質(zhì)預(yù)測(cè)
高分子材料在物質(zhì)分離領(lǐng)域具有廣泛而重要的應(yīng)用. 物質(zhì)分離主要有相變(如蒸餾、升華、沉淀、結(jié)晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過(guò)濾、離心等)、離子交換和膜分離等方法. 在此聚焦聚合物分離膜方面,按應(yīng)用場(chǎng)景可分為氣體、水處理、離子膜、能源膜和有機(jī)分離膜等,按分離物質(zhì)尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等,膜的組成、微結(jié)構(gòu)和表面是性能調(diào)控的核心因素. 而分離膜的性能指標(biāo)包含驅(qū)動(dòng)力種類和能耗、通量、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素,分離物質(zhì)需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應(yīng)性等,聚合物膜的組成、制備工藝和使用條件都會(huì)對(duì)膜性能產(chǎn)生重要影響. 因此,利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨(dú)特的優(yōu)勢(shì). 我們通過(guò)對(duì)聚合物質(zhì)子交換膜(PEM)的CPSPPr的開(kāi)展了一系列大數(shù)據(jù)研究,包括溫度、水含量、復(fù)合材料對(duì)全氟磺酸(PFSA)膜[
在全世界可持續(xù)發(fā)展,我國(guó)的“碳達(dá)峰,碳中和”等的政策趨勢(shì)引導(dǎo)下,氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長(zhǎng). 模型氣體分離對(duì)包含CH4/CO2,CO2/N2,O2/N2等也過(guò)渡到較難的分離如多組分混合氣體、C1~C4混合氣和烯烴烷烴混合氣等,經(jīng)典的材料體系分子篩、多酸和MOF等仍占主流,高分子材料則聚焦在聚酰亞胺、芳綸、聚硅烷等對(duì)氣體具有不同滲透系數(shù)的致密膜材料. 利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿?zé)狳c(diǎn),Kumar等[
在能源膜領(lǐng)域,伴隨著鋰離子電池快速增長(zhǎng)的巨大市場(chǎng),聚合物鋰離子隔膜的研究也大量地豐富起來(lái). Oyaizu等[
聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報(bào)道,值得一提的還有Razmjou等[
5 難題與挑戰(zhàn)
如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學(xué)本質(zhì)上是譜學(xué)數(shù)據(jù)的預(yù)測(cè). 目前基于量化計(jì)算對(duì)小分子的多尺度譜學(xué)數(shù)據(jù)已能較為準(zhǔn)確的計(jì)算和預(yù)測(cè),對(duì)于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結(jié)構(gòu)和生物活性利用生物信息學(xué)的一體化建模(information-driven integrative modeling)已經(jīng)能夠提供可與人類專家媲美的準(zhǔn)確預(yù)測(cè). 蛋白與核酸結(jié)構(gòu)定量化的成功與PDB的長(zhǎng)期建設(shè)密不可分,但對(duì)于高分子,由于其二面角旋轉(zhuǎn)位壘與熱漲落能量1 kBT相當(dāng),并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結(jié)構(gòu)數(shù)據(jù)不能夠用原子坐標(biāo)的辦法直接描述,需要更復(fù)雜的構(gòu)象集合來(lái)表示,但目前還缺少公認(rèn)可靠高效的概念和框架. 在實(shí)際的高分子材料體系,往往還包括一定量的復(fù)合成分、添加劑或助劑,這些物質(zhì)分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長(zhǎng)程作用的芳環(huán)堆砌、靜電作用等對(duì)構(gòu)象、聚集和性質(zhì)的影響規(guī)律往往還依賴計(jì)算模擬近似分析,缺少可遷移利用的基礎(chǔ)定量數(shù)據(jù). 總的來(lái)說(shuō),對(duì)于具有典型的多分散、局域精度高和大尺度準(zhǔn)確、存在非線性、非單調(diào)性累積協(xié)同效應(yīng)的高分子材料體系,從近程作用化學(xué)異構(gòu)和拓?fù)浣Y(jié)構(gòu)的化學(xué)信息學(xué)定量描述到跨尺度關(guān)聯(lián),大數(shù)據(jù)研究仍面臨權(quán)衡. 這些問(wèn)題在傳統(tǒng)研究中長(zhǎng)期存在,常見(jiàn)表述為臨界現(xiàn)象、相變和相轉(zhuǎn)變、標(biāo)度行為、多級(jí)弛豫等概念模型. 理論模型中會(huì)采用了多種近似,如假定結(jié)構(gòu)分布在平均場(chǎng)背景中、或假定高分子鏈長(zhǎng)或拓?fù)浣Y(jié)構(gòu)滿足高斯分布、或假定物質(zhì)聚集可用隨機(jī)相近似(random phase approximation,RPA),或假定結(jié)構(gòu)和性質(zhì)關(guān)系在多層次具有自相似性(self similarity),或在臨界點(diǎn)附近如
其次,隨著研究論文報(bào)告數(shù)量快速增長(zhǎng),高分子材料多方面的一手?jǐn)?shù)據(jù)已相當(dāng)豐富但某些關(guān)注性質(zhì)仍趨于在較窄的分布區(qū)間,在利用大數(shù)據(jù)構(gòu)建CPSPPr過(guò)程中極有可能出現(xiàn)多重簡(jiǎn)并,在機(jī)器學(xué)習(xí)的“黑盒子”算法中出現(xiàn)非唯一解. 在沒(méi)有高分子專家深入?yún)⑴c的情況下,有相當(dāng)一部分研究報(bào)道過(guò)分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalization error),再加上機(jī)器學(xué)習(xí)黑盒子的特點(diǎn),需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準(zhǔn)性、偏差-方差權(quán)衡等方面,合理控制預(yù)測(cè)性能和可解釋性. 然而近幾年報(bào)道的相當(dāng)一部分機(jī)器學(xué)習(xí)模型的解釋性非常差,甚至某些參量因素可能與目標(biāo)預(yù)測(cè)量形成與常規(guī)共識(shí)相悖的關(guān)系,這些預(yù)測(cè)模型可能對(duì)后續(xù)研究產(chǎn)生誤導(dǎo). 這類現(xiàn)象正是高分子材料局域弱效應(yīng),長(zhǎng)程作用累積強(qiáng)響應(yīng)的典型特征寫(xiě)照. 另外,在高分子材料大數(shù)據(jù)研究的更多場(chǎng)景,由于研究或應(yīng)用的關(guān)注點(diǎn)不同,每種高分子材料各方面的性質(zhì)屬性往往存在缺失. 目前通用的一些數(shù)據(jù)缺失值處理方法,如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性,特別是當(dāng)材料體系在相轉(zhuǎn)變臨界點(diǎn)附近等. 因此,大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一. 目前已有一些科學(xué)家注意到這類問(wèn)題,如基于博弈理論的Shapley值法[
歸功于量化計(jì)算和化學(xué)信息學(xué)的進(jìn)展,目前針對(duì)小分子、金屬材料和無(wú)機(jī)非金屬材料的“逆設(shè)計(jì)”已能實(shí)現(xiàn)高通量計(jì)算和高通量篩選. 但對(duì)于高分子材料,由于其多分散、多尺度響應(yīng)的特點(diǎn),高效可靠的計(jì)算方法仍未實(shí)現(xiàn). 筆者看來(lái),高分子材料要實(shí)現(xiàn)“逆設(shè)計(jì)”,首先需要建立一系列可靠的基準(zhǔn)數(shù)據(jù)集(benchmark dataset),這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結(jié)構(gòu)和性質(zhì)表征方法,對(duì)CPSPPr中各要素有準(zhǔn)確描述,且對(duì)某類聚焦性質(zhì)、聚合物種類、加工方法等具有完備性和代表性. 這些數(shù)據(jù)集的建設(shè)一方面需要支持科研人員對(duì)商品或?qū)嶒?yàn)樣品開(kāi)展批量的測(cè)試表征獲得一致性數(shù)據(jù),另一方面需要支持理論計(jì)算人員將已有的大量分散數(shù)據(jù)匯集起來(lái),建立不同源數(shù)據(jù)之間的關(guān)聯(lián)和定量轉(zhuǎn)換關(guān)系. 特別是要改變工業(yè)和工程材料數(shù)據(jù)與實(shí)驗(yàn)室測(cè)試數(shù)據(jù)脫節(jié),通用報(bào)告標(biāo)準(zhǔn)缺乏,相互不能參考,數(shù)據(jù)陷入不同標(biāo)準(zhǔn)中離散不可用的現(xiàn)狀. 即使是同領(lǐng)域的學(xué)術(shù)論文中,由于缺乏對(duì)數(shù)據(jù)、特征和實(shí)驗(yàn)細(xì)節(jié)的充分表述,對(duì)后續(xù)研究和重復(fù)性驗(yàn)證造成障礙. 如在高分子材料制備、加工過(guò)程數(shù)據(jù)的收集和預(yù)測(cè),類似不飽和聚酯溶液黏度[
在生產(chǎn)方面、無(wú)論是原材料合成、母料制備還是器件生產(chǎn)裝配的上中下游企業(yè),如何將大量生產(chǎn)數(shù)據(jù)利用大數(shù)據(jù)先進(jìn)算法和系統(tǒng)分析,推動(dòng)生產(chǎn)力革新. 目前的狀況是企業(yè)的生產(chǎn)自動(dòng)化、物料和能量管理流通、測(cè)試和質(zhì)檢等部門(mén)數(shù)據(jù)分散且歸屬于不同的軟件管理系統(tǒng),這些數(shù)據(jù)存在不同編碼并防止批量導(dǎo)出等限制,前期需要企業(yè)投入相當(dāng)大的人力物力實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一流通. 由于大數(shù)據(jù)技術(shù)的人才培養(yǎng)群體還未成規(guī)模,大多數(shù)企業(yè)缺乏相關(guān)專業(yè)人才能夠高效地利用這些生產(chǎn)數(shù)據(jù),受權(quán)限和保密要求,生產(chǎn)數(shù)據(jù)與企業(yè)外的合作還需對(duì)數(shù)據(jù)進(jìn)一步脫密. 因此,面向生產(chǎn)的大數(shù)據(jù)研究和開(kāi)發(fā)應(yīng)用首先要突破數(shù)據(jù)源的壁壘,此外在兼顧連續(xù)性生產(chǎn)的前提下,應(yīng)謹(jǐn)慎引入聚焦組成配方設(shè)計(jì)、工藝優(yōu)化、檢測(cè)質(zhì)檢一體化的相關(guān)預(yù)測(cè)模型的部署和更新. 在高分子材料領(lǐng)域,筆者認(rèn)為當(dāng)前大數(shù)據(jù)的模式、技術(shù)的成熟度還無(wú)法全面支撐智能制造工業(yè)4.0的實(shí)現(xiàn),但與現(xiàn)代生產(chǎn)制造企業(yè)的ERP,MES,CRM和BTO等管理和生產(chǎn)系統(tǒng)結(jié)合開(kāi)發(fā)數(shù)據(jù)價(jià)值,在逐步提升制造模式和生產(chǎn)力水平的變革中一定會(huì)帶來(lái)正面的收益.
6 結(jié)語(yǔ)與展望
高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段,可以預(yù)見(jiàn)在未來(lái)幾年中,相關(guān)的研究報(bào)道和生產(chǎn)應(yīng)用實(shí)踐將急劇增加. 得益于生物信息學(xué)較為成熟的多學(xué)科交叉深入合作和數(shù)據(jù)共享模式,化學(xué)信息學(xué)對(duì)物質(zhì)屬性的覆蓋度和準(zhǔn)確率的提升,以及應(yīng)對(duì)復(fù)雜體系和模糊語(yǔ)義的機(jī)器學(xué)習(xí)算法發(fā)展,材料信息學(xué)在金屬、無(wú)機(jī)非金屬和有機(jī)小分子材料研究中取得了廣泛的成功,也切實(shí)推動(dòng)了高分子材料的大數(shù)據(jù)研究. 由于高分子材料描述模糊和歧義命名等長(zhǎng)期歷史積累問(wèn)題,以及高分子的多分散、多尺度、非線性協(xié)同效應(yīng)顯著、長(zhǎng)程弱關(guān)聯(lián)強(qiáng)響應(yīng)等特點(diǎn),對(duì)高分子材料的準(zhǔn)確定量數(shù)據(jù)和高通量計(jì)算難以實(shí)現(xiàn),是造成高分子材料大數(shù)據(jù)研究進(jìn)展滯后的主要因素. 在數(shù)據(jù)的標(biāo)準(zhǔn)化和可共享流通方面,生產(chǎn)應(yīng)用數(shù)據(jù)與實(shí)驗(yàn)室研究數(shù)據(jù)嚴(yán)重脫節(jié)、工業(yè)化和原料供應(yīng)數(shù)據(jù)不透明造成大量重復(fù)表征測(cè)試,基于不同關(guān)注點(diǎn)對(duì)高分子的基礎(chǔ)表征數(shù)據(jù)和性質(zhì)測(cè)試方法等關(guān)鍵信息缺失,使高分子材料可用的數(shù)據(jù)庫(kù)遠(yuǎn)未達(dá)到諸如CSD,Reaxys,PDB,UniProt等規(guī)模水平,但專一聚焦的高分子材料數(shù)據(jù)庫(kù)已有許多在路上. 高分子材料大數(shù)據(jù)研究基礎(chǔ)的數(shù)據(jù)源建設(shè)發(fā)展方向,很可能類似當(dāng)前計(jì)算模擬領(lǐng)域的通用力場(chǎng)和專用力場(chǎng)修正的發(fā)展模式,即通用高分子多譜學(xué)數(shù)據(jù)與功能高分子特殊結(jié)構(gòu)性質(zhì)數(shù)據(jù)的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府機(jī)構(gòu)(如NIST, NIMS等)以及跨國(guó)公司等已廣泛布局?jǐn)?shù)據(jù)的匯集和價(jià)值開(kāi)發(fā),數(shù)據(jù)已成為重要資源. 數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展,在頂層設(shè)計(jì)和支持下對(duì)具有多種應(yīng)用場(chǎng)景的高分子材料具有高覆蓋度、精細(xì)分辨,支持高通量快速分析,提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享. 同時(shí)在面向特定應(yīng)用和研究興趣,前沿領(lǐng)域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉,在高分子新材料研發(fā)或經(jīng)典問(wèn)題的研究中產(chǎn)生突破進(jìn)展.
另一方面,大數(shù)據(jù)研究的核心方法進(jìn)展是機(jī)器學(xué)習(xí),傳統(tǒng)的理論和計(jì)算模擬方法進(jìn)展目前僅限于力場(chǎng)的發(fā)展,對(duì)于較大尺度的模擬仿真手段如何與大數(shù)據(jù)方法深度融合,極有可能是高分子經(jīng)典的多尺度難題取得突破的關(guān)鍵. 在高分子材料大數(shù)據(jù)研究的核心組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系中,應(yīng)鼓勵(lì)研究人員共享新材料多方面的表征數(shù)據(jù)、行業(yè)專家牽頭整理專業(yè)材料或應(yīng)用領(lǐng)域標(biāo)準(zhǔn)、系統(tǒng)開(kāi)展不同標(biāo)準(zhǔn)下數(shù)據(jù)的轉(zhuǎn)換,建設(shè)一定規(guī)模的基準(zhǔn)數(shù)據(jù)集. 對(duì)于單獨(dú)小數(shù)據(jù)規(guī)?;蛘植嫉拇髷?shù)據(jù)模型要謹(jǐn)慎對(duì)待,客觀評(píng)價(jià),避免為預(yù)測(cè)而預(yù)測(cè),或“蹭熱度”的拼湊研究,可能會(huì)誤導(dǎo)后續(xù)研究. 同時(shí)也要著力培養(yǎng)交叉學(xué)科人才,從數(shù)據(jù)挖掘特別是高分子專業(yè)語(yǔ)言的可計(jì)算處理、機(jī)器學(xué)習(xí)算法、專業(yè)數(shù)據(jù)分析與可視化、模型評(píng)價(jià)和理論可解釋性解析等多方面合作,共同推進(jìn)高分子材料大數(shù)據(jù)研究的快速發(fā)展,從而提升材料和產(chǎn)品設(shè)計(jì)、生產(chǎn)制造的智能化水平.
欄目分類
- 游戲教學(xué)法在網(wǎng)球教學(xué)中的應(yīng)用
- 心理素質(zhì)在網(wǎng)球比賽中的作用
- 綠色科技視角下企業(yè)環(huán)境績(jī)效指標(biāo)體系構(gòu)建
- 節(jié)約型基礎(chǔ)上的綠色財(cái)政稅收政策研究
- 財(cái)政投資項(xiàng)目竣工決算存在的問(wèn)題及對(duì)策
- 基于精細(xì)化管理視域探析公立醫(yī)院成本管控優(yōu)化策略
- 農(nóng)村信用社在金融市場(chǎng)中的營(yíng)銷技巧探究
- 實(shí)現(xiàn)我國(guó)糧食增產(chǎn)增收的財(cái)稅政策分析
- 離子色譜法同時(shí)測(cè)定卷煙紙中幾種金屬離子的含量
- IC厭氧反應(yīng)器處理造紙廢水效率的時(shí)間分布特征研究
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- 重磅!CSSCI來(lái)源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!