日产精品久久久_m麻豆传媒映画_激情久久久久_久久爆操_久久在草_亚洲a久久

報告服務(wù)熱線400-068-7188

“存算一體”是大模型AI芯片的破局關(guān)鍵?

分享到:
20 科技云報到 ? 2024-01-08 09:51:22  來源:科技云報到 E6113G0

1

圖源:攝圖網(wǎng)

作者|科技云報道 來源|科技云報到(ID:ITCloud-BD)

在AI發(fā)展歷史上,曾有兩次“圣杯時刻”。

第一次發(fā)生在2012年10月,卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法憑借比人眼識別更低的錯誤率,打開了計算機視覺的應(yīng)用盛世。

第二次是2016年3月,DeepMind研發(fā)的AI程序AlphaGo,戰(zhàn)勝世界圍棋冠軍李世石,讓全世界驚嘆于“人工智能”的實力。

這兩次“圣杯時刻”的幕后,都有芯片創(chuàng)新的身影。適配通用算法的英偉達GPGPU(通用圖形處理單元)芯片,以及走專業(yè)化路線谷歌TPU(張量處理單元)芯片都在這兩次大發(fā)展中大放異彩。

如今大模型的興起,正在逼近第三次“圣杯時刻”。但隨著模型參數(shù)越來越大,芯片在提供算力支持上逐漸陷入瓶頸。

數(shù)據(jù)顯示,在GPT-2之前的模型時代,GPU內(nèi)存還能滿足AI大模型的需求。

近年來,隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型大小每兩年平均增長240倍,GPT-3等大模型的參數(shù)增長已經(jīng)超過了GPU內(nèi)存的增長。

在大算力激增的需求下,越來越多行業(yè)人士認識到,新的計算架構(gòu)或許才是算力破局的關(guān)鍵。

01

芯片發(fā)展面臨“三座大山”

當(dāng)前AI技術(shù)的快速更新迭代對芯片提出了多個挑戰(zhàn),尤其繞不過“存儲墻”、“能耗墻”和“編譯墻”三座大山。

首先,在傳統(tǒng)馮·諾依曼架構(gòu)下,芯片在執(zhí)行計算密集型任務(wù)時面臨“存儲墻”問題,這導(dǎo)致計算芯片的功耗和性能都受限于處理器和存儲器之間的數(shù)據(jù)搬運,嚴重限制了AI芯片在計算規(guī)模、密度、效率等方面的提升。

其次,由于“存儲墻”的存在,數(shù)據(jù)需要頻繁搬運,在存儲、計算單元間來回轉(zhuǎn)移,導(dǎo)致嚴重的功耗損失,撞到“能耗墻”上。

英特爾的研究表明,當(dāng)半導(dǎo)體工藝達到 7nm 時,數(shù)據(jù)搬運功耗高達 35pJ/bit,占總功耗的63.7%。另有統(tǒng)計表明,在大算力的AI應(yīng)用中,數(shù)據(jù)搬運操作消耗90%的時間和功耗,數(shù)據(jù)搬運的功耗是運算的650倍。

最后,“編譯墻”隱于二者之中,極短時間下的大量數(shù)據(jù)搬運使得編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,手動優(yōu)化又消耗了大量時間。

過去,憑借先進制程不斷突破,這三座“大山”的弊病還能通過快速提升的算力來彌補。

但一個殘酷的現(xiàn)實是,過去數(shù)十年間,通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——

摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯(lián)等傳統(tǒng)“解法”也“治標不治本”,晶體管微縮越來越難,提升算力性能兼具降低功耗這條路越走越艱辛。

隨著大模型時代來臨,激增的數(shù)據(jù)計算,無疑進一步放大了“三道墻”的影響。

02

大模型呼喚“存算一體”

大模型的出現(xiàn),促使AI對大規(guī)模芯片算力的需求更加強烈,按照傳統(tǒng)技術(shù)路線簡單堆砌芯片無法實現(xiàn)期待的算力規(guī)模增長。

同時,芯片能效問題變得更加突出。當(dāng)前AI芯片能效依然低下,大模型每次訓(xùn)練和推斷的電費成本昂貴,導(dǎo)致當(dāng)前大模型的應(yīng)用經(jīng)濟性較低。

雖然說現(xiàn)在很多大模型訓(xùn)練使用GPU,但GPU的架構(gòu)演進并未解決大算力和大模型的挑戰(zhàn)。

一方面,存儲在GPU中所占比例越來越大。從GPU架構(gòu)的演進趨勢,可以看到存儲在計算芯片中所占的比例越來越大。計算芯片從以計算單元為核心演變到以存儲/數(shù)據(jù)流為核心的架構(gòu)設(shè)計理念。

另一方面,數(shù)據(jù)傳輸功耗仍是提升算力和算力密度的瓶頸,本質(zhì)上就是馮·諾依曼計算機體系結(jié)構(gòu)計算與存儲的分離設(shè)計所致。

總體而言,大模型對于算力的需求呈現(xiàn)指數(shù)型增長,但GPU又貴功耗又高,GPU集群的線性度也隨規(guī)模增大而下降,探索非馮諾依曼架構(gòu)已經(jīng)非?;馃帷?/p>

AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示,下一代技術(shù)的儲備和演進的方向是在“存算一體”技術(shù)架構(gòu)中尋找新的發(fā)展動能。

例如,阿里達摩院就曾表示,相比傳統(tǒng)CPU計算系統(tǒng),存算一體芯片的性能可以提升10倍以上,能效提升超過300倍。

那么,“存算一體”技術(shù)到底有何優(yōu)勢?

存算一體與經(jīng)典的馮諾依曼架構(gòu)不同,它是在存儲器中嵌入計算能力,將存儲單元和計算單元合為一體,省去了計算過程中數(shù)據(jù)搬運環(huán)節(jié),消除了由于數(shù)據(jù)搬運帶來的功耗和延遲,從而進一步提升計算能效。

同時,由于計算編程模型被降低,編譯器也可以感知每一層的數(shù)據(jù)狀態(tài),編譯效率也將大幅度提升,“編譯墻”的問題也得到了解決,具體而言:

 首先,運算的性能更高 

存算一體芯片的計算能力取決于存儲器的容量規(guī)模。所有電子設(shè)備當(dāng)中都會集成存儲器,存儲與計算相伴而行,有運算的地方就需要對數(shù)據(jù)進行存儲。

如果采用存算一體芯片,隨著存儲容量規(guī)模的提高,其運算能力也會隨之提高。

 其次,功耗更低 

由于數(shù)據(jù)傳輸路徑的優(yōu)化,存算一體技術(shù)在提高傳輸效率的同時,節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗,帶來更好的能效比、低功耗。在相同算力下,AI部分能效比將有2-3個數(shù)量級的提升,更低散熱成本,更高可靠性。

 最后,成本更低 

單位算力成本遠低于傳統(tǒng)計算芯片。同時,存算一體可以采用更成熟的制造工藝,大算力芯片往往需要采用先進工藝,這使存算一體芯片的晶圓成本低得多。

再考慮到配套的外圍芯片、元器件等因素,整個系統(tǒng)成本將有5倍左右降低。

正是因為這些基于基礎(chǔ)架構(gòu)革新所帶來的性能提升,存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn)。

特別是針對大模型的推理,存算一體保持權(quán)重的特點與大模型中大規(guī)模的參數(shù)部署需求相匹配,可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場景之一。

03

“存算一體”存在多條路徑

目前,全球的存算一體玩家,主要可以劃分為兩大陣營:

一類是國際巨頭,比如英特爾、IBM、特斯拉、三星、阿里等,巨頭對存算技術(shù)布局較早,代表存儲器未來趨勢的磁性存儲器(MRAM)、憶阻器(RRAM)等產(chǎn)品也相繼在頭部代工廠傳出量產(chǎn)消息。

另一類是國內(nèi)外的初創(chuàng)企業(yè),比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋芯科技等。

由于積淀不同、優(yōu)勢不同、目標場景不同,各家的存算一體方案也不盡相同,主要體現(xiàn)在三大差異上:技術(shù)路徑、存儲介質(zhì)、以及采用的是模擬還是數(shù)字技術(shù)。

 差異一:技術(shù)路徑 

根據(jù)存儲單元與計算單元融合的程度,可以分為近存計算和存內(nèi)計算兩類:

近存計算,本質(zhì)上仍是存算分離架構(gòu),只不過計算模塊通常安放在存儲陣列(memory cell array)附近,數(shù)據(jù)更靠近計算單元,從而縮小了數(shù)據(jù)移動的延遲和功耗。

近存計算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達摩院使用混合鍵合3D堆疊技術(shù)實現(xiàn)的存算一體芯片等,還有國外創(chuàng)業(yè)公司Graphcore、芯片大神Jim Keller加入的創(chuàng)業(yè)公司Tenstorrent等,他們目前推出的存算一體芯片都屬于近存計算的范疇。

存內(nèi)計算,存儲單元和計算單元完全融合,沒有獨立的計算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內(nèi)部的存儲單元完成計算操作。

狹義上講,這才是真正的存算一體,或者說,基于器件層面實現(xiàn)的存算一體才真正打破了存算分離架構(gòu)的壁壘。

一般來看,近存計算是巨頭的首選,因為符合“實用、落地快”的預(yù)期,而初創(chuàng)企業(yè)不存在路徑依賴和歷史包袱,反而可以另辟蹊徑,直接選擇存內(nèi)計算,以期向更高性能、更通用的算力場景進行突圍。

 差異二:存儲介質(zhì) 

存算一體依托的存儲介質(zhì)呈現(xiàn)多樣化,比如以SRAM、DRAM為代表的易失性存儲器、以Flash為代表的非易失性存儲器等。綜合來看,不同存儲介質(zhì)各有各的優(yōu)點和短板。

發(fā)展較為成熟的有NOR Flash、DRAM、 SRAM等。

NOR FLASH屬于非易失性存儲介質(zhì),具有低成本、高可靠性優(yōu)勢,但工藝制程有瓶頸;DRAM成本低、容量大,但是速度慢,且需要電力不斷刷新;SRAM在速度方面有優(yōu)勢,但容量密度小,價格高,在大陣列運算的同時保證運算精度具有挑戰(zhàn)。

目前多數(shù)廠商當(dāng)前傾向于技術(shù)成熟的SRAM設(shè)計存算一體芯片,但部分廠商也會采用“多駕馬車”并驅(qū)的發(fā)展路線布局未來。

 差異三:數(shù)字or模擬?

按照電路技術(shù)路徑分類,存算一體計算有數(shù)字存算和模擬存算的區(qū)分,兩者也有各自的優(yōu)缺點:

數(shù)字存算,更適合大規(guī)模高計算精度芯片的實現(xiàn),運算靈活性較好,更適合通用性場景,但要求存儲單元內(nèi)容必須以數(shù)字信號形式呈現(xiàn)。

模擬存算,在計算精度比較固定且較低的條件下,可以獲得更高的能量效率,同時可以搭載任意存儲單元實現(xiàn)。

但其關(guān)鍵模擬模塊(如A/D轉(zhuǎn)換器)的轉(zhuǎn)換精度要求相對固定,且由于不同模擬計算方式可能具有不同的計算誤差,因而這種技術(shù)路徑的擴展性略顯不足。

近些年來,學(xué)術(shù)界在存算一體的各個方面都進行了大量探索,提出了眾多存算一體加速器架構(gòu),中科院微電子所、清華大學(xué)、斯坦福大學(xué)等單位制備出了存算一體芯片原型。

國內(nèi)也涌現(xiàn)出了一批存算一體初創(chuàng)企業(yè),包括知存科技、后摩智能、億鑄科技、蘋芯科技等等,它們研發(fā)了基于SRAM、閃存、RRAM等存儲器的存算一體芯片,且已有產(chǎn)品問世。

04

存算一體芯片面臨多重挑戰(zhàn)

雖然存算一體芯片被認為是下一代芯片,但目前還處于起步階段,受限于成熟度,應(yīng)用范圍不夠廣泛,面臨著諸多挑戰(zhàn),例如:

在芯片設(shè)計方面,架構(gòu)設(shè)計的難度和復(fù)雜度要求很高,同時市面上也缺乏成熟的存算一體軟件編譯器的快速部署、專用EDA工具輔助設(shè)計和仿真驗證。

在芯片測試方面,流片之后,同樣缺乏成熟的工具協(xié)助測試。

在生態(tài)方面,缺乏相應(yīng)的與之匹配的軟件生態(tài)。

現(xiàn)階段各廠商開發(fā)的存算一體芯片均基于自行定義的編程接口,缺乏統(tǒng)一的編程接口,造成了存算一體軟件生態(tài)的分散,不同廠商開發(fā)的上層軟件無法互相通用,極大的影響了存算一體芯片的大規(guī)模使用。  

總體而言,現(xiàn)階段的存算一體研發(fā)多數(shù)以零散的技術(shù)攻關(guān)為主,缺乏面向大算力方向的整體布局,也缺乏主導(dǎo)的應(yīng)用需求牽引,因此距離大規(guī)模進入市場還有一定距離。

不過,大模型的到來,必將極大推動存算一體的技術(shù)落地,其未來應(yīng)用潛力和部署規(guī)模都讓人期待。

面向大模型部署,從業(yè)者需要對存算一體進行體系化布局,從算法、框架、編譯器、工具鏈、指令集、架構(gòu)、電路等跨層次協(xié)同設(shè)計,形成全棧式體系、工具鏈及生態(tài)鏈。

長期來看,設(shè)計方法論、測試、量產(chǎn)、軟件、場景的選擇等全方位競爭,將是各大廠商存算一體芯片發(fā)展和落地的關(guān)鍵。

編者按:本文轉(zhuǎn)載自微信公眾號:科技云報到(ID:ITCloud-BD),作者:科技云報道 

本文來源科技云報到,內(nèi)容僅代表作者本人觀點,不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問題,請聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p12 q0 我要投稿

分享:

品牌、內(nèi)容合作請點這里:尋求合作 ››

前瞻經(jīng)濟學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫
企查貓
作者 科技云報到
自媒體
39678
關(guān)注
92
文章
2
前瞻經(jīng)濟學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟學(xué)家互動交流讓您成為更懂趨勢的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟學(xué)人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經(jīng)濟學(xué)人APP下載二維碼

下載前瞻經(jīng)濟學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號

掃一掃關(guān)注我們

我要投稿

×
J
主站蜘蛛池模板: 91国精品人一区二区三区 | 亚州av专区 | 久久99精品国产99久久 | 亚洲黄色av | 99爱精品 | 伊人91在线 | 成人网视频在线观看 | 欧美视频日韩视频 | AV不卡在线永久免费观看 | 狠狠色伊人亚洲综合第8页 日日干天夜夜 | xvideos官网入口 | 欧美大片欧美激情性色a∨在线 | 天天干天天草天天射亚洲 | 国产大屁股喷水视频在线观看 | 日本高清一区二区三 | 色婷婷美国农夫综合激情亚洲 | 曰本人做爰大片免费观看一老师 | 亚州AⅤ中文Aⅴ无码Aⅴ | 久激情内射婷内射蜜桃 | 深夜福利在线看 | 精品国产欧美日韩在线不卡 | 美女wwwwwwwwww| 欧美一级淫片免费 | 亚洲国产一区二区精品专区 | 在线免费观看中文字幕 | 娇小TEEN乱子伦精品 | 亚州国产精品久久久 | 日本aa毛片a级毛片免费观看 | 四虎永久免费 | 久久精品国产99精品亚洲 | 日日骚av | 九九精品成人免费国产片 | www.68av蜜桃亚洲精品 | 色AV综合AV综合无码网站 | 午夜免费福利视频 | 综合成人亚洲偷自拍色 | 亚洲欧洲高清 | 久久精品30 | 国产乱码在线观看 | 亚洲精品无码MV在线观看软件 | 国产精品一区二区久久国产 |