IBM發布模擬人類大腦運行，號稱性能超越4納米GPU的AI推論晶片

IBM Research上周五（10/20）發布了全新的AI晶片NorthPole，其靈感來自人類大腦的運行，號稱性能超越最先進的4納米GPU，儘管它只能用在推論上，但研究人員認為，需要即時處理大量數據的邊緣應用可能非常適合NorthPole。該研究成果已登上《科學》（Science）期刊。

贊助商廣告

該研究是由IBM Research類人腦運算的首席科學家Dharmendra Modha所主導，他曾於2014年發布模擬人腦運行的TrueNorth晶片，而NorthPole即是TrueNorth的延伸。

在傳統的半導體產業中，電腦晶片主要遵循相同的基本架構，處理單元與儲存資訊的記憶體是分開的，該架構雖然簡化了設計與擴展，卻也因素據傳輸速度趕不上處理速度而出現了馮紐曼瓶頸（von Neumann Bottleneck），而Modha則認為，人腦是目前所知最節能的處理器，因而持續尋找以數字方式複製它的方法。

歷經8年研發的NorthPole最大的不同點在於它所有的記憶體都在晶片上，而不必額外連接記憶體，沒有了馮紐曼瓶頸，它的AI推論能力就能優於市場上的其它晶片。此外，它採用12納米製程，於800平方毫米上安置了220億個電晶體，它擁有256個核心，於8-bit精度下每核心每個周期可執行2,048次操作，若是在4-bit或2-bit精度下，操作次數則可翻倍。Modha說，這等於是一個晶片上擁有整個網路。

圖片來源_IBM

在架構上，NorthPole模糊了運算與記憶體之間的界線。從個別核心的角度來看，它如同記憶體接近運算（memory-near-compute），從輸入與輸出的角度來看，它又是個主動記憶體。這讓NorthPole容易集成至系統，且明顯減少了主機的負載。

IBM Research在ResNet-50模型上測試NorthPole，相較於同樣基於12納米製程的GPU，NorthPole每秒識別幀數的能源效率是GPU的25倍，而且不管是在延遲或運算空間的要求上，表現都優於所有主流架構，甚至超越基於4納米製程的先進GPU。

不過，NorthPole的優勢同時也是它的限制，它只能輕鬆自晶片上的記憶體訪問，若必須訪問其它地方的資訊，所有的速度都會被削弱，因此，若要支持更大的神經網路，便必須將神經網路拆解成更小的子網路以迎合NorthPole的記憶體設計，再藉由眾多的NorthPole晶片串聯這些子網路。

贊助商廣告

Modha表示，儘管NorthPole無法用來執行GPT-4，但應該可滿足許多企業所需的模型，不過，NorthPole只能用在推論上。

NorthPole在性能上的優勢代表它不需要龐大的液體冷卻系統就能運行，只需要風扇與散熱器，也可部署於狹小的空間中，目前IBM Research仍在研究NorthPole的適用領域，猜測許多需要即時處理大量數據的邊緣應用可能非常適合NorthPole，例如可成為幫助自動駕駛汽車導航的設備，讓衛星監控農業與野生動物，監控車輛及貨運以避免道路過於擁堵，讓機器人的操作更安全，或是用來偵測網路威脅等。