2022 將迎來機器學習 ML 的大浪潮 - HubSpot 代理商與自動化行銷服務 Marketing automation

2021年，機器學習在機器學習領域大放異彩。本文將總結圖機器學習過去一年的亮點，並預測其在2022年的發展。讓我們一起來看看行業大牛們是怎麼說的吧

01超越消息傳遞

麥吉爾大學助理教授和米拉（Mila）的CIFAR主席，GraphSAGE的作者威爾·漢密爾頓（Will Hamilton）

2020年，圖機器學習領域迎來了消息傳遞範例的基本局限。

這些局限性包括

1.瓶頸”問題

2.過度平滑的問題

3.表徵能力方面的理論限制

展望未來，我希望在2021年我們能為圖機器學習找到下一個重要範例。我不知道下一代圖機器學習算法到底會是什麼樣的。但是我相信，要取得進展，就必須擺脫在2020年及之前主導該領域的消息傳遞方案。

我也希望在2021年能看到圖機器學習能進入更具影響力和挑戰性的應用程序領域。最近過多的研究集中在簡單的，同質的節點分類任務上。我也希望看到方法學在更複雜的算法推理的任務上取得進展，例如涉及知識圖，強化學習和組合優化的任務。

02算法推理

2020年無疑使圖表示學習成為機器學習領域重要組成部分。

2020年取得的重要成果太多，難以一一列舉，但是我個人對神經算法推理取得的成果最為興奮。

神經網絡一向在插值方式上非常強大，但也被公認不是一個好的外推器，因而推理能力不足（推理的重要特徵是能夠發揮out-of-distribution功能）。

推理任務很可能是進一步發展GNN的理想選擇，因為它們不僅被公認非常適合此類任務，而且許多現實世界的圖形任務表現出同質性，這意味著最具影響力和可擴展性的方法將會有更簡單的GNN形式。

基於神經執行器的成功案例，例如神經圖靈機和可微分神經計算機，以及現在經常能用到的圖機器學習工具箱，2020年發表的幾項相關工作探索了神經執行器的理論極限，基於GNN衍生出來強大的推理結構，並且在神經推理任務上展現出強大的泛化能力。

儘管這樣的架構在2021年可以自然實現組合優化，但我個人最興奮的是，預訓練的算法執行器可以讓我們將經典算法應用於過於原始或不適合該算法的輸入。

例如我們的XLVIN代理恰好使用了這些概念，以允許在不知道底層MDP細節的情況下，利用GNN在強化學習管道中執行值迭代樣式的算法。我相信2021年時機已成熟，GNN應用程序將普遍應用於強化學習。

![]()![]() img指針圖網絡結合了經典計算機科學中的結構歸納偏差。

03關係結構發現

![]()![]()![]()![]() imgGoogle Brain的研究科學家，圖卷積網絡的作者托馬斯·基普夫（Thomas Kipf）

自從最近基於GNN的模型被廣泛採用以來，圖機器學習社區中一個值得特別注意的趨勢是將計算結構與數據結構分離。

在最近的一次ICML研討會演講中，我將這種趨勢稱為“關係結構發現”。通常，我們設計圖神經網絡以在數據集提供的固定（或時間演進）結構上傳遞消息，即將數據集的節點和邊作為模型計算結構或消息傳遞結構的黃金標準。

在2020年，人們對於能夠適應計算結構的模型的興趣日益濃厚，也就是說，它們超越了簡單的基於注意力的模型，可以動態地選擇使用哪些組件作為節點，以及在哪些節點對上進行消息傳遞。過去一年有影響力的例子有

1.攤銷因果發現，利用神經關係推理從時間序列數據中推論因果圖（並用其推理）

2.具有可學習指針的GNN

3.關聯機制

4.學習具有自適應計算圖的基於網格的物理模擬器

5.學習推斷抽象節點的模型

這種發展具有廣泛的意義，因為它使我們能夠有效利用其他領域（例如文本或視頻處理）中的GNN架構提供的對稱性（例如節點置換等方差）和歸納偏差（例如成對交互函數建模）。

展望未來，我希望我們可以在不依賴明確監督的情況下，能夠更好地在給定一些數據和任務的情況下學習最佳計算圖結構（無論是節點還是關係）。對這種學習的結構的檢查可以讓我們更好地解釋學習模型進行的計算，並且可能使我們能夠對因果推理作進一步的類比。

GNN允許學習一個狀態轉換圖（右側），來解釋複雜的多粒子系統（左側）

04表徵能力

![]()![]()Nvidia的研究科學家，《可證明表達的高維圖神經網絡》的作者Haggai Maron

有許多優秀的論文討論了各種GNN架構的表達能力，並展示了在深度和寬度受到限制時GNN的基本表達極限，描述了可以使用GNN進行檢測和計數的結構類型，這表明使用固定數量的GNN對許多圖任務沒有意義，並建議使用迭代GNN學習自適應地終止消息傳遞過程。

在2021年，我希望以下方面有所進步

1.圖生成模型的原理方法

2.利用GNN進行圖匹配與其表達能力之間的聯繫

3.類似於圖像和音頻的結構化數據的學習圖

4.在GNN社區和研究場景圖的計算機視覺社區之間建立更強的聯繫。

05可擴展性

![]()![]() img![]()![]()多特蒙德工業大學的博士學位學生，PyTorch幾何圖形和開放圖基準測試的開發人員Matthias Fey

2020年Graph ML研究中最熱門的主題之一是解決GNN的可擴展性問題

有幾種方法依賴於預測與傳播的解耦來簡化基礎計算。有許多論文簡單地將不可訓練的傳播方案與圖形不可知的模塊結合在一起，作為前處理或後處理步驟。這樣運行時間會很短，並且顯著地提高了同構圖的同等性能。我們要研究的數據集越來越大，所以我想知道怎樣能利用可擴展、可表達的傳播。

06動態圖

![]()![]() img![]()![]()Twitter的ML研究員，倫敦帝國大學的博士生，Temporal Graph Networks的作者Emanuele Rossi

許多有趣的圖機器學習應用程序本質上都是動態的，其中圖拓撲和屬性都隨著時間而發展。

社交網絡、金融交易網絡、user-item交互網絡就是這種情況。一直到最近為止，對於圖機器學習的研究主要集中在靜態圖上。少部分研究動態圖的工作主要考慮離散時間動態圖，即一系列固定間隙的圖快照。在2020年，我們看到了很多有關一種更普遍的類別——連續時間動態圖的研究，可以將其視為定時時間的異步流。此外，動態圖模型的第一個有趣、成功的應用也出現了：假帳戶檢測，欺詐檢測、流行病傳播控制。

我認為我們在這個令人振奮的方向上也只是摸索而已，還有很多問題懸而未決。這些重要的開放性難題有：

1.可擴展性

2.對動態模型更好的理論理解

3.在單個框架中結合訊息的時空擴散

4.更可靠、更具挑戰性的基準以更好地評估和跟踪進展

最後，我希望看到動態圖神經架構的更多成功應用，尤其是在工業上。

動態圖

07新型硬件

![]()![]() img![]()![]()Graphcore的ML工程師Mark Saroufim

我無法想像曾與我合作的某客戶，他既沒有在生產中部署GNN，也沒有這個計劃。

這種趨勢的部分原因是，人們忽略了諸如NLP，蛋白質設計或分子特性預測等應用程序中的自然圖結構，而將數據視為適合現有和完善的ML模型（如Transformers）的序列。但是，我們知道，transformers不過是注意力被用作鄰域聚集函數的GNN。在計算中，某些算法獲勝不是因為它們非常適合解決這個特定問題，而是因為它們在現有硬件上運行良好的現像被稱為“Hardware Lottery” ，而在GPU上運行的Transformers就是這種情況。在Graphcore，我們建立了具有1472個內核的新MIMD體系結構，該體系結構可以並行運行共8832個程序，我們稱之為智能處理單元（IPU）。該架構非常適合加速GNN。我們的Poplar軟件堆棧利用稀疏性將圖計算的不同節點分配給不同的核心。對於可容納IPU 900 MB片上內存的型號，我們的架構可大大提高GPU的吞吐量。否則，僅需幾行代碼，就可以在數千個IPU上分發模型。我很高興看到我們的客戶利用我們的體系結構進行大量的研究，包括諸如SLAM的束調整，使用本地更新訓練深層網絡或加快粒子物理學中的各種問題之類的應用。我希望在2021年有更多的研究人員利用我們先進的機器學習硬件。

半導體公司Graphcore，正在開髮用於圖數據的新硬件。

08工業應用

![]()![]() img![]()![]()Sritey Ivanov，Criteo的研究科學家，圖機器學習通訊的編輯

對於圖機器學習研究來說，這是令人震驚的一年。在所有主要的機器學習會議上，有關該領域的所有論文中約佔全部的10％至20％。在如此規模下，每個人都可以找到自己感興趣的有趣的圖主題來研究。

Google Graph Mining團隊出席了NeurIPS。翻閱312頁的演示文稿，可以說Google在生產中使用圖方面比其他任何人都更加先進。他們使用Graph ML解決的應用程序包括使用時空GNN建模COVID-19，欺詐檢測，隱私保護等。此外，DeepMind在生產中推出了GNN，用於在Google Maps中進行全球旅行時間預測。他們的方法中一個有趣的細節是將RL模型集成到一個批次中，以選擇相似的採樣子圖來訓練GNN的參數。這種先進的超參數調整功能使實時到達時間估算的精度提高了50％以上。

GNN中另一個值得注意的應用是在Magic Leap上完成的，Magic Leap專門研究3D計算機生成的圖形。他們的SuperGlue架構將GNN應用於圖像中的特徵匹配-3D重建，位置識別，定位和製圖的重要課題。這種端到端的特徵表示與最佳的運輸優化相結合，在實時的室內和室外姿態估計中脫穎而出。而這些結果也僅僅是2020年所取得成就的表面。

明年，我相信我們將在工業環境中看到圖機器學習開發的更多應用。例如生產管道和框架，新的開源圖形數據集，以及為電子商務，工程設計和製藥行業大規模部署的GNN。

SuperGlue，使用GNN解決了計算機視覺中的特徵匹配問題

09物理學應用

![]()![]()![]()![]() img紐約大學物理學教授凱爾·克蘭默（Kyle Cranmer），希格斯玻色子的發現者之一

我看到圖機器學習在過去兩年中如何在物理領域變得非常流行，這真是太神奇了。

早期在粒子物理學中進行深度學習的工作，通常是使數據成為可與CNN一起使用的圖像表示形式，這是不自然的，因為我們的數據並非本機呈網格狀，且圖像表示非常稀疏。圖能更自然地表示我們的數據。大型強子對撞機的研究人員現在正在努力將圖機器學習集成到每秒處理數十億次碰撞的實時數據處理系統中。通過部署推理服務器以將圖機器學習與實時數據採集系統集成在一起，正在努力實現這一目標，並努力在FPGA和其他特殊硬件上實現這些算法。

圖機器學習在2020年的另一個亮點是證明其歸納偏置可以與符號方法配對。例如，我們使用GNN來學習如何預測各種動力學系統，然後對沿著邊緣發送的消息進行符號回歸。我們不僅能夠為那些動力系統恢復地面真力定律，而且還能在沒有地面真相的情況下提取方程式。令人驚訝的是，提取出的符號方程式可以重新引入到GNN中，從而代替原始的學習組件，並且我們可以更好地歸納出分佈數據。

粒子噴射可以表示為一個圖。研究人員正在探索使用GNN來檢測粒子物理學中的發現。圖片來源：LHC

10醫學應用

![]()![]()![]()![]() imgAnes Kazi，TUM的博士生，撰寫過多篇有關醫學成像中的機器學習的論文

在醫學領域，圖機器學習改變了分析多模態數據的方式，這種方式與專家如何從臨床常規中所有可用維度看待患者的狀況非常相似。

最近，在醫學成像和醫療保健應用中，與圖機器學習相關的研究出現了巨大的發展，包括腦分割，使用針對疾病預測的MRI / fMRI數據進行腦結構分析以及藥物作用分析。

在圖機器學習的主題中，有以下方面在2020年在醫學領域中脫穎而出。

1.潛在的圖學習一直是通過經驗定義給定數據的圖，直到那時才是實現最佳結果的瓶頸。通過自動學習潛圖結構的方法解決。

2.數據插補，因為丟失數據是醫學領域許多數據集中的一個常備問題，因此基於圖的方法已根據來自圖鄰的關係幫助進行了數據插補。

3.圖機器學習模型的可解釋性，因為對於臨床和技術專家來說，重點在於推理圖機器學習模型的結果以將其可靠地合併到CADx系統中非常重要。 2020年醫學領域的另一個重要亮點當然是冠狀病毒大流行，並且使用圖機器學習方法檢測Covid-19 。

到2021年，圖機器學習可以用於進一步提昇機器學習模型的可解釋性，從而做出更好的決策。其次，已經觀察到圖機器學習方法仍然對圖結構敏感，因此，對圖擾動和對抗攻擊的魯棒性是重要的主題。最後，將自我監督學習與圖機器學習的集成應用於醫療領域將是很有趣的。 ”

GNN 可以利用人口圖進行疾病分類

11蛋白質結構預測

![]()![]()![]()![]() imgBruno Correia，EPFL的助理教授，蛋白質設計和免疫工程實驗室的負責人，MaSIF的開發商之一

到2020年，蛋白質結構預測已取得令人興奮的進展，這是生物訊息學中的關鍵問題。最終顯示在這些分子表面的化學和幾何圖案對於蛋白質功能至關重要。

基於分子表面的表示的研究已使用了數十年，但它們給機器學習方法帶來了挑戰。幾何深度學習領域的方法為蛋白質建模領域帶來了令人印象深刻的功能，因為它們具有處理不規則數據的能力，尤其適合蛋白質表示。在MaSIF中，我們在基於網格的分子表面表示上使用了幾何深度學習，以學習可預測蛋白質與其他分子（蛋白質和代謝物）相互作用的模式，並將對接計算速度提高了幾個數量級。反過來，這可以促進更大範圍的蛋白質-蛋白質相互作用網絡的預測。

在MaSIF框架的進一步發展中，我們設法動態生成了表面和化學特徵，從而避免了所有預計算階段。我預計這些進展將為蛋白質和小分子設計帶來變革，從長遠來看將有助於更快地開發生物藥物。

使用幾何機器學習架構MaSIF設計的不同蛋白結合劑，用於腫瘤靶向治療。

12生命科學

![]()![]() img![]()![]()Marinka Zitnik，哈佛醫學院生物醫學訊息學助理教授，Decagon的作者。

很高興看到圖機器學習在2020年進入生命科學領域。

我們已經看到，圖神經網絡不僅在精心設計的基準數據集上勝過先前的方法，而且可以為開發新藥從根本上幫助人們和理解自然開闢途徑。重點包括單細胞生物學，蛋白質和結構生物學以及藥物發現和重新定位的進展。

幾個世紀以來，科學方法（科學家用來系統和邏輯地解釋自然世界的科學基本實踐）一直保持不變。我希望在2021年，我們將在使用圖機器學習改變這一點。為此，我認為我們需要設計能夠優化和操縱網絡系統並預測其行為的方法，例如基因組學（自然界對人的實驗）如何在疾病背景下影響人類特徵。此類方法需要使用微擾和乾預數據（不僅要攝取我們世界的觀測數據）。另外，我希望我們能開發更多的方法來學習可操作的表示形式，這些方法很容易適用於科學中可操作的假設。這種方法可以在高風險環境（例如化學測試，粒子物理學，人類臨床試驗）中進行決策，在這些環境中，我們需要可以進行有意義解釋的精確而可靠的預測。

在Decagon中使用GNN，來預測藥物的副作用。