作者:Wenbo Yin,TetraMem公司IC設計副總
簡介
人工智慧在越來越多的硬體應用中快速擴散,推動了對傳統Von Neumann架構無法滿足專業運算加速的前所未有的需求。在眾多競爭性替代方案中,最有前景的一種方案是類比記憶體運算 (in-memory computing, IMC)。釋放多級Resistive RAM (RRAM) 的潛力讓這一承諾在今天比以往更加真實,矽谷新創公司TetraMem公司引領這一發展,正在解決阻礙此一解決方案發展的根本挑戰。該公司的獨特IMC採用多級RRAM技術,提供更高效、低延遲的AI處理,滿足AR/VR、移動設備、物聯網等現代應用不斷增長的需求。
半導體產業背景
過去幾十年來,半導體產業取得了顯著進步,特別是在滿足人工智慧和機器學習不斷增長的需求方面。晶片設計的創新突破了性能和效率的界限。然而,一些固有的持續挑戰仍然存在,例如Von Neumann瓶頸和記憶體牆 (memory wall),限制了CPU和記憶體之間的資料傳輸速率,以及與先進節點技術相關的不斷升級的功耗和熱管理問題。
IMC代表了一種突破性的計算方法轉變,改變了資料處理的方式。傳統的運算架構將記憶體和處理單元分開,產生大量的資料傳輸負擔,特別是對於以資料為中心的人工智慧應用程式。另一方面,IMC將記憶體和處理器整合在同一實體位置,透過交叉陣列架構實現更快、更有效率的資料運算,進一步消除矩陣運算中的大量中間資料。這種方法對於大規模資料處理和即時分析至關重要的人工智慧和機器學習應用特別有益。
為IMC選擇合適的儲存裝置至關重要。 SRAM和DRAM等傳統記憶體技術由於其裝置和單元限制及其易失性特性,並未針對記憶體中操作進行最佳化。RRAM憑藉其高密度、多級功能和非揮發性以及卓越的保持能力,無需刷新即可克服這些挑戰。RRAM的工作原理是透過控制電壓或電流來調整儲存單元的電阻水平,模仿人類大腦中突觸的行為,此功能使RRAM特別適合類比IMC。
TetraMem專注於多級RRAM(memristor, 記憶阻抗器)技術,與傳統的單級單元儲存技術相比,該技術具有多種優勢。 RRAM能夠在每個單元中存儲多個位元,並在原地執行高效的矩陣乘法運算,這使其成為IMC的理想選擇。該技術解決了傳統數位運算的許多限制,例如帶寬限制和能效不足等問題。
RRAM可程式電路元件會記住其最後的穩定電阻水平,此電阻水平可以透過施加電壓或電流來調節,施加在元件上的電壓和電流的大小和方向變化會改變其導電性,從而改變其電阻率。類似人類神經元的功能,這種機制有多種應用:記憶體、類比神經元,以及TetraMem的記憶體運算IMC。 RRAM的操作由離子驅動,透過控制導電絲的尺寸、離子濃度和高度,可以精確實現不同的單元電阻多級水平。
資料在與儲存相同的實體位置進行處理,中間資料移動和儲存最少,從而實現低功耗。透過具有設備級顆粒核心的交叉陣列架構進行大規模平行運算可產生高吞吐量。通過物理定律(Ohm’s law and Kirchhoff’s current law, 歐姆定律和基爾霍夫電流定律)進行運算,實現低延遲。TetraMem的非易失性記憶體運算單元相比傳統的數位Von Neumann架構可大幅降低功耗。
顯著成就
TetraMem在RRAM技術的發展中取得了重要的里程碑。值得注意的是,該公司展示了一個前所未有的設備,每個單元具有11 位元,在單個元件中實現了2,000多個訊號等級,這一精度水平代表了記憶運算IMC技術的重大突破。
近期在Nature《1》和Science《2》等著名期刊上發表的文章強調了TetraMem的創新方法。提高單元抗噪聲性能和增強多級訊號IMC運算技術是其重要的進展領域。例如,TetraMem開發了專有算法來抑制隨機電報噪聲 (telegraph noise),從而使 RRAM單元具有更優越的記憶保持和耐久性特徵。
記憶體運算 (IMC) 的運作
TetraMem的IMC技術採用交叉架構,其中陣列中的每個交點對應於一個可編程的RRAM記憶單元。這種配置允許高度並行操作,這對神經網絡計算至關重要。在向量矩陣乘法 (Vector-Matrix Multiplication, VMM) 操作期間,輸入啟動會應用於交叉開關陣列,並且計算結果被收集到位元線上 (bit lines)。這種方法大大減少了在記憶體和處理單元之間傳輸資料的需求,從而提高了計算效率。
實際應用
TetraMem通過商業晶圓廠製造的首款評估SoC,MX100晶片(見下圖)展示了其IMC技術的實際應用。該晶片已在多個晶片內演示中展示了其能力,展示了其在現實場景中的功能。一個值得注意的演示是瞳孔中心網絡(Pupil Center Net, PCN),展示了該晶片在AR/VR中的應用,用於自動駕駛車輛中的面部追蹤和身份驗證監控。
為了促進其技術的採用,TetraMem提供了全面的軟體開發套件(Software Development Kit , SDK)。此SDK使開發者能夠無縫地定義邊緣AI模型。此外,與晶心科技的NX27V RISC-V CPU及其向量擴展功能的整合簡化了操作,讓客戶更輕鬆地將TetraMem的解決方案部署到其產品中。
TetraMem IMC設計非常適合矩陣乘法,但在向量或標量運算等其他功能上效率不高。這些運算在神經網絡中經常使用,為了支持這些功能,晶心科技提供了 CPU加向量引擎的靈活性,並擁有現有的SoC參考設計以及成熟的編譯器和函式庫,以加快我們的市場推廣時間。
TetraMem與晶心科技合作,將其IMC技術與晶心的RISC-V CPU和向量擴展集成在一起。這一合作提升了整體系統性能,為各種 AI任務提供了強大的平台。結合的解決方案充分利用了兩家公司的優勢,提供了一個靈活且高效的架構。
展望未來,TetraMem準備推出基於 22nm技術的MX200晶片,這款晶片承諾將提供更大的性能和效率。該晶片專為邊緣推理應用而設計,提供低功耗、低延遲的AI處理。MX200預計將開拓新的市場機會,特別是在能源效率至關重要的電池供電的人工智慧設備中。
結論
TetraMem在IMC方面的進展代表了AI硬體領域的一次重大飛躍。通過解決傳統計算的基本挑戰,TetraMem正在為更高效和可擴展的AI解決方案鋪平道路。隨著公司不斷創新並與晶心科技等行業領導者合作,AI處理的未來看起來充滿希望。TetraMem的解決方案不僅提升了性能,還降低了採用尖端AI技術的門檻。
《1》”在 CMOS上單片整合記憶阻抗器的數千個電導等級”,Nature,2023年3月 https://rdcu.be/c8GWo
《2》“以任意高精度編程記憶阻抗器陣列以進行類比計算”,Science,2024年2月 https://www.science.org/doi/10.1126/science.adi9405