亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動端logo

神經(jīng)符號回歸:從數(shù)據(jù)中提取科學

2022-08-15 10:05:054636

宇宙嘈雜而混亂,復雜到讓預測變得困難。人類的智慧和直覺有助于對我們周圍世界的一些活動有基本的了解。他們做得很好,足以在個人和小團體的有限視角的宏觀空間和時間尺度上對事件有基本的認識。

人類史前史和早期歷史的自然哲學家大多局限于常識合理化和猜測檢驗。這些方法的局限性,特別是對于太大或太復雜的事情,在迷信和神奇思維的流行和影響中顯而易見。

不是貶低猜測和檢查(這是現(xiàn)代科學方法的基礎),而是要看到人類調(diào)查和理解能力的變化是由將物理現(xiàn)象提煉成數(shù)學表達式的愿望和工具所激發(fā)的。

這在牛頓和其他人導致啟蒙運動之后尤其明顯,盡管古代也有分析還原論的痕跡。從觀察到數(shù)學方程(以及這些方程做出的預測)的能力是科學探索和進步的一個組成部分。

神經(jīng)符號回歸:從數(shù)據(jù)中提取科學

深度學習從根本上講也是關于學習與輸入輸出觀察相關的轉換,就像人類科學家試圖以數(shù)學表達式的形式學習輸入和輸出之間的函數(shù)關系一樣。

當然,不同之處在于深度神經(jīng)網(wǎng)絡學習的輸入-輸出關系(通用逼近定理的結果)由一個不可解釋的數(shù)值參數(shù)“黑匣子”組成,主要是權重、偏差和節(jié)點他們連接。

通用逼近定理指出,滿足非常寬松標準的神經(jīng)網(wǎng)絡應該能夠非常接近任何表現(xiàn)良好的函數(shù)。在實踐中,當表示由簡單而精確的基礎方程產(chǎn)生的輸入-輸出關系時,神經(jīng)網(wǎng)絡是一種脆弱且易泄漏的抽象。

除非特別注意訓練模型(或模型集合)以預測不確定性,否則神經(jīng)網(wǎng)絡在對其訓練的分布之外進行預測時往往表現(xiàn)很差。

深度學習預測也不能很好地做出可證偽的預測,即開箱即用的構成科學方法基礎的假設。因此,雖然深度學習是一種經(jīng)過充分驗證的工具,擅長擬合數(shù)據(jù),但它在可以說是人類最追求的追求之一——通過科學方法探索我們周圍的宇宙——中的效用卻受到了限制。

盡管深度學習在人類科學事業(yè)中存在各種缺點,但如果忽視深度學習在科學學科中的巨大擬合能力和眾多成功,我們將是愚蠢的。

現(xiàn)代科學產(chǎn)生了大量數(shù)據(jù),個人(甚至一小群人)無法查看輸出并直觀地從嘈雜的數(shù)據(jù)躍遷到清晰的數(shù)學方程。

為此,我們求助于符號回歸,這是一種將數(shù)據(jù)簡化為方程的自動化或半自動化方法。

當前的黃金標準:進化方法

在我們將現(xiàn)代深度學習應用于符號回歸進行一些令人興奮的近期研究之前,我們必須首先了解將數(shù)據(jù)集轉化為方程的進化方法的當前狀態(tài)。最常提到的符號回歸軟件包是基于遺傳算法的Eureqa。

Eureqa最初是作為HodLipson小組的康奈爾大學的一個研究項目開發(fā)的,并作為Nutonian的專有軟件提供,后來被DataRobot收購。Eureqa已集成到Datarobot平臺中,由Eureqa的合著者兼Datarobot Michael Schmidt的首席技術官負責。

Eureqa和類似的符號回歸工具使用遺傳算法同時優(yōu)化一組方程,以實現(xiàn)準確性和簡單性。

TuringBot是基于模擬退火的替代符號回歸包。模擬退火是一種優(yōu)化算法,類似于用于改變金屬物理性質(zhì)的冶金退火。

在模擬退火中,選擇優(yōu)化問題的候選解決方案時“溫度”會降低,其中較高的溫度對應于接受較差的解決方案,并用于促進早期探索,從而能夠搜索全局最優(yōu)值并提供能量以逃避局部最佳。

TuringBot作為免費版本提供,但數(shù)據(jù)集大小和復雜性有很大限制,并且代碼不開放修改。

雖然商業(yè)符號回歸軟件(尤其是Eureqa)在開發(fā)符號回歸的新工具時提供了重要的比較基準,但閉源程序的效用是有限的。

一種名為PySR的開源替代方案,在Apache2.0許可下發(fā)布,由普林斯頓大學博士領導。學生MilesCranmer分享了準確性和簡約性(簡單性)的優(yōu)化目標以及Eureqa和TuringBot使用的組合方法。

除了提供用于執(zhí)行符號回歸的免費且可自由修改的軟件庫外,PySR從軟件的角度來看也很有趣:它是用Python編寫的,但使用Julia編程語言作為快速后端。

雖然遺傳算法通常被認為是符號回歸的當前最先進技術,但在過去幾年中,新的符號回歸策略出現(xiàn)了令人興奮的爆炸式增長。

這些新發(fā)展中的許多都利用了現(xiàn)代深度學習模型,或者作為多步過程中的函數(shù)逼近組件,或者以基于大型變壓器模型的端到端方式,最初是為自然語言處理而開發(fā)的,以及介于兩者之間的任何東西。

除了基于深度學習的新符號回歸工具之外,概率和統(tǒng)計方法也出現(xiàn)了復興,尤其是貝葉斯統(tǒng)計。

結合現(xiàn)代計算能力,新的符號回歸軟件不僅本身就是有趣的研究,而且為包含大數(shù)據(jù)集和綜合實驗的科學學科提供了真正的實用性和貢獻。

以深度神經(jīng)網(wǎng)絡作為函數(shù)逼近器的符號回歸

由于Cybenko和Hornik在1980年代末/1990年代初描述和研究的通用逼近定理,我們可以預期具有至少一個非線性激活隱藏層的神經(jīng)網(wǎng)絡能夠逼近任何表現(xiàn)良好的數(shù)學函數(shù)。

在實踐中,我們傾向于在更復雜或更復雜的問題上使用更深層次的神經(jīng)網(wǎng)絡獲得更好的性能。然而,原則上,你只需要一個隱藏層來逼近各種函數(shù)。

受物理啟發(fā)的AIFeynman算法將通用逼近定理作為一個更復雜難題的一部分。

AIFeynman(及其繼任者AIFeynman2.0)由物理學家Silviu-Marian Udrescu和MaxTegmark(以及一些同事)開發(fā)。AIFeynman反映了作者的背景,利用了許多物理方程中的函數(shù)特性,例如平滑度、對稱性和組合性以及其他一些特性。

神經(jīng)網(wǎng)絡作為函數(shù)逼近器發(fā)揮作用,學習數(shù)據(jù)集中表示的輸入-輸出變換對(或他們所說的“神秘”),并通過在相同的函數(shù)變換下生成合成數(shù)據(jù)來促進對這些屬性的研究。

AIFeynman用來解決問題的函數(shù)特性在物理學方程中很常見,但并未任意應用于所有可能的數(shù)學函數(shù)的空間。但是,它們?nèi)匀皇窃谂c現(xiàn)實世界相對應的各種函數(shù)中尋找的合理假設。

與前面描述的遺傳算法和模擬退火方法一樣,AIFeynman從頭開始??擬合每個新數(shù)據(jù)集。不涉及泛化或預訓練,深度神經(jīng)網(wǎng)絡僅構成一個更大的、物理信息豐富的系統(tǒng)中精心編排的一部分。

AIFeynman符號回歸在破譯The Feynman Lectureson Physics中的一組100個方程(或奧秘)方面表現(xiàn)出色,但缺乏泛化意味著每個新數(shù)據(jù)集(對應于一個新方程)都需要大量的計算預算。

用于符號回歸的一組新的深度學習策略利用了非常成功的Transformer模型系列,最初由Vaswani等人作為自然語言模型引入。這些新方法并不完美,但使用預訓練可以在推理時節(jié)省大量計算。

基于自然語言模型的第一代符號回歸

鑒于基于注意力的超大型Transformer模型在計算機視覺、音頻、強化學習、推薦系統(tǒng)和許多其他領域(除了基于文本的自然語言處理的原始角色)的各種任務上取得了巨大成功,這并不奇怪變壓器模型最終也將應用于符號回歸。

雖然數(shù)字輸入-輸出對到符號序列的領域需要一些仔細的工程,但數(shù)學表達式基于序列的性質(zhì)自然適用于變換器方法。

至關重要的是,使用轉換器生成數(shù)學表達式使他們能夠利用對數(shù)百萬個自動生成的方程的結構和數(shù)值含義進行預訓練。

這也為通過擴大規(guī)模來改進模型奠定了基礎。縮放是深度學習的主要優(yōu)勢之一,其中更大的模型和更多的數(shù)據(jù)繼續(xù)提高模型性能,遠遠超出過擬合的經(jīng)典統(tǒng)計學習限制。

縮放是Biggio等人的論文的主要優(yōu)勢。標題為“可縮放的神經(jīng)符號回歸”,我們將其稱為NSRTS。NSRTS轉換器模型使用專門的編碼器將輸入輸出對的每個數(shù)據(jù)集轉換為潛在空間。編碼的潛在空間具有固定的大小,與編碼器的輸入大小無關。

NSRTS解碼器然后構建一個令牌序列來表示一個方程,條件是編碼的潛在空間和到目前為止生成的符號。至關重要的是,解碼器僅輸出數(shù)字常量的占位符,但在其他方面使用與預訓練方程數(shù)據(jù)集相同的詞匯表。

NSRTS使用PyTorch和PyTorchLightning,可在寬松的開源MIT許可證下使用。

在生成無常數(shù)方程(稱為方程骨架)之后,NSRTS使用梯度下降來優(yōu)化常數(shù)。這種方法在序列生成之上分層了一個通用優(yōu)化算法,由Valipour等人同時開發(fā)的所謂的“SymbolicGPT”共享。

Valipour等人沒有像NSRTS方法中那樣使用基于注意力的編碼器。使用了一個基于斯坦福點云模型PointNet的松散模型,為變壓器解碼器生成一組固定維度的特征,用于生成方程。與NSRT一樣,SymbolicGPT使用BFGS來查找轉換器解碼器生成的方程骨架的數(shù)值常數(shù)。

基于自然語言模型的第二代符號回歸

雖然最近的出版物描述了使用NLP轉換器來實現(xiàn)符號回歸的泛化和可擴展性,但上述模型并不是真正的端到端,因為它們不估計數(shù)值常數(shù)。

這可能是一個嚴重的缺陷:想象一個模型可以生成具有1000個不同頻率的正弦基的方程。使用BFGS優(yōu)化每個項的系數(shù)可能會非常適合大多數(shù)輸入數(shù)據(jù)集,但實際上,它只是執(zhí)行傅里葉分析的一種緩慢而迂回的方式。

就在2022年春季,第二代基于變壓器的符號回歸模型已在ArXiv上由Vastl等人在SymFormer上發(fā)布,而另一個端到端變壓器由Kamienny及其同事發(fā)表。

這些和以前基于轉換器的符號回歸模型之間的重要區(qū)別在于它們預測數(shù)字常數(shù)以及符號數(shù)學序列。

SymFormer利用雙頭變壓器解碼器來完成端到端的符號回歸。一個頭產(chǎn)生數(shù)學符號,第二個頭學習數(shù)值回歸任務,即估計出現(xiàn)在方程中的數(shù)值常數(shù)。

Kamienny和Vastl的端到端模型在細節(jié)上有所不同,例如數(shù)值估計的精度,但兩組的解決方案仍然依賴于后續(xù)的優(yōu)化步驟進行細化。

即便如此,根據(jù)作者的說法,它們比以前的方法具有更快的推理時間并產(chǎn)生更準確的結果,產(chǎn)生更好的方程骨架,并為細化優(yōu)化步驟提供了良好的起點和估計的常數(shù)。

象征性回歸的時代來臨

在大多數(shù)情況下,符號回歸一直是一種挑剔且計算密集型的機器學習方法,在過去十年左右的時間里,它比一般的深度學習受到的關注要少得多。

這在一定程度上是由于遺傳或概率方法的“即用即失”方法,對于每個新數(shù)據(jù)集,它們必須從頭開始,這一特征與深度學習到符號回歸(如AIFeynman)的中間應用共享.

在符號回歸中使用轉換器作為整體組件,使得最近的模型能夠利用大規(guī)模的預訓練,從而減少推理時的能量、時間和計算硬件需求。

新模型進一步擴展了這一趨勢,這些模型可以估計數(shù)值常數(shù)并預測數(shù)學符號,從而實現(xiàn)更快的推理和據(jù)說更高的準確性。

生成可反過來用于生成可檢驗假設的符號表達式的任務是一項非常人性化的任務,并且是科學的核心。在過去的二十年里,符號回歸的自動化方法繼續(xù)取得令人感興趣的技術進步,但真正的考驗是它們是否對從事真正科學研究的研究人員有用。

符號回歸開始在技術演示之外產(chǎn)生越來越多的可發(fā)表的科學結果。符號回歸的貝葉斯方法生成了用于預測細胞分裂的新數(shù)學模型。

另一個研究小組使用稀疏回歸模型生成了海洋湍流的合理方程,為改進多尺度氣候模型鋪平了道路。

一個將圖神經(jīng)網(wǎng)絡和符號回歸與Eureqa的遺傳算法相結合的項目概括了描述多體引力的表達式,并從傳統(tǒng)模擬器中推導出了一個描述暗物質(zhì)分布的新方程。

符號回歸算法的未來

符號回歸正在成為科學家工具箱中的強大工具?;谧儔浩鞯姆椒ǖ姆夯?、可擴展能力仍然是熱門話題,還沒有時間滲透到一般的科學實踐中。然而,隨著越來越多的研究人員適應和改進模型,它有望進一步增強科學發(fā)現(xiàn)的能力。

其中許多項目是在許可的開源許可下提供的,因此我們可以預期它們將在幾年內(nèi)產(chǎn)生影響,而不是幾十年,而且它們的采用可能比Eureqa和TuringBot等專有軟件更廣泛。

符號回歸是對深度學習模型通常神秘且臭名昭著的難以解釋的輸出的自然補充,而數(shù)學語言中更易于理解的輸出有助于產(chǎn)生新的可檢驗假設并推動直觀的飛躍。

這些特征和最新一代符號回歸算法的直接能力有望為尤里卡時刻提供相當多的機會。