共讀好書
張志偉 田果 王世權(quán)
摘要:
AI芯片是被專門設(shè)計(jì)用于加速人工智能計(jì)算任務(wù)的集成電路。在過去幾十年里,AI芯片經(jīng)歷了持續(xù)的演進(jìn)和突破,促進(jìn)著人工智能領(lǐng)域的發(fā)展。文章探討了AI芯片的發(fā)展史、主流技術(shù)和應(yīng)用場(chǎng)景,以及面臨的挑戰(zhàn)和問題。進(jìn)而提出采用Chiplet技術(shù),將不同的功能模塊獨(dú)立集成為獨(dú)立的Chiplet,并融合在一個(gè)AI芯片上,從而實(shí)現(xiàn)更高的計(jì)算能力。該設(shè)計(jì)不僅允許獨(dú)立開發(fā)和升級(jí)各個(gè)模塊,還可在封裝過程中將它們巧妙組合起來(lái),使得AI芯片能夠隨著人工智能技術(shù)的不斷優(yōu)化而持續(xù)發(fā)展。
1 AI芯片發(fā)展的歷史與現(xiàn)狀
AI(人工智能)芯片是被專門設(shè)計(jì)用于加速人工智能計(jì)算任務(wù)的集成電路。在過去幾十年里,AI芯片經(jīng)歷了持續(xù)的演進(jìn)和突破,為人工智能領(lǐng)域發(fā)展作出了巨大貢獻(xiàn)。
1.1 AI芯片演進(jìn)與重大突破
AI芯片的歷史可以追溯到20世紀(jì)80年代初。最早的AI計(jì)算任務(wù)是采用通用微處理器進(jìn)行人工智能計(jì)算而完成的,但由于計(jì)算需求與通用處理器性能之間不匹配,計(jì)算效率并不高。隨著人工智能領(lǐng)域的迅速發(fā)展,社會(huì)對(duì)高效計(jì)算的需求越來(lái)越迫切,AI芯片研究逐漸受到重視。在20世紀(jì)90年代,圖形處理單元(GPU)成為AI計(jì)算的主要加速器。GPU在圖形渲染方面表現(xiàn)出色,但其架構(gòu)對(duì)于一些特定的AI計(jì)算任務(wù)并不高效。然而,GPU的并行計(jì)算能力為AI芯片發(fā)展奠定了基礎(chǔ)。隨著人工智能的興起,20世紀(jì)末和21世紀(jì)初一些專用AI加速硬件出現(xiàn)了,如FPGA(現(xiàn)場(chǎng)可編程門陣列)和ASIC(專用集成電路)。這些芯片采用定制化的架構(gòu),能夠更好地滿足AI計(jì)算的需求,但設(shè)計(jì)和生產(chǎn)成本較高,限制了其廣泛應(yīng)用。
2010年,深度學(xué)習(xí)興起推動(dòng)了AI芯片技術(shù)重大突破。GPU在深度學(xué)習(xí)中的應(yīng)用取得了巨大成功,但為了更好地適應(yīng)深度學(xué)習(xí)模型的特點(diǎn),研究人員開始探索新的AI芯片架構(gòu)。ASIC出現(xiàn)進(jìn)一步提高了AI計(jì)算的性能和能效,諸如Google的TPU(張量處理單元)和NVIDIA的Tensor Cores就是這一時(shí)期的代表。
1.2 當(dāng)前的主流AI芯片技術(shù)與其應(yīng)用場(chǎng)景
目前,AI芯片技術(shù)呈現(xiàn)多樣化的發(fā)展趨勢(shì),主要包括以下幾種類型。
(1)圖形處理單元。GPU因其并行計(jì)算能力成為早期AI計(jì)算的主流加速器?,F(xiàn)代GPU在深度學(xué)習(xí)訓(xùn)練和推理方面表現(xiàn)出色,廣泛應(yīng)用于計(jì)算機(jī)視覺、自然語(yǔ)言處理等領(lǐng)域。
(2)張量處理單元。TPU是Google推出的專用AI加速器,特別優(yōu)化了張量計(jì)算。TPU在大規(guī)模深度學(xué)習(xí)模型訓(xùn)練中表現(xiàn)出色,廣泛應(yīng)用于云端AI服務(wù)。
(3)神經(jīng)處理單元(NPU)。NPU是一類專門用于神經(jīng)網(wǎng)絡(luò)計(jì)算的AI芯片,廣泛應(yīng)用于智能手機(jī)和移動(dòng)設(shè)備中,用于加速圖像識(shí)別、語(yǔ)音識(shí)別等任務(wù)。
(4)量子芯片。量子芯片是一種革命性的AI芯片,利用量子位來(lái)進(jìn)行計(jì)算。盡管目前處于早期階段,但量子芯片在解決某些特定問題上顯示出巨大潛力,如優(yōu)化問題和密碼學(xué)。
(5)腦神經(jīng)芯片。腦神經(jīng)芯片研發(fā)受到人腦神經(jīng)元結(jié)構(gòu)的啟發(fā),試圖模擬神經(jīng)元之間的連接和信息傳遞。這種芯片在模擬類腦計(jì)算和智能機(jī)器方面具有潛在應(yīng)用。
從廣義上講,能運(yùn)行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法,但執(zhí)行效率有巨大的差異。CPU可以快速執(zhí)行復(fù)雜的數(shù)學(xué)計(jì)算,但同時(shí)執(zhí)行多項(xiàng)任務(wù)時(shí),CPU性能開始下降,目前行業(yè)內(nèi)基本確認(rèn)CPU不適用于AI計(jì)算。CPU+xPU的異構(gòu)方案成為大算力場(chǎng)景標(biāo)配,GPU為應(yīng)用最廣泛的AI芯片。目前業(yè)內(nèi)廣泛認(rèn)同的AI芯片類型包括GPU、FPGA、NPU等。當(dāng)前主流AI芯片廣泛應(yīng)用于各個(gè)領(lǐng)域,包括但不限于自動(dòng)駕駛、智能語(yǔ)音助手、醫(yī)療圖像識(shí)別、金融風(fēng)控等。隨著技術(shù)的不斷進(jìn)步,AI芯片的應(yīng)用場(chǎng)景將進(jìn)一步拓展。
1.3 ChatGPT引燃AI及半導(dǎo)體產(chǎn)業(yè)及資本市場(chǎng)熱情
瑞銀集團(tuán)(UBS)發(fā)布的研究報(bào)告顯示,ChatGPT在2023年1月份的月活躍用戶數(shù)已達(dá)1億,對(duì)比各大熱門平臺(tái)月活躍用戶數(shù)破億所需時(shí)長(zhǎng),ChatGPT只花了2個(gè)月的時(shí)間(見圖1),成為史上用戶數(shù)增長(zhǎng)最快的消費(fèi)者應(yīng)用。在資本市場(chǎng)上,知情人士透露,聊天機(jī)器人ChatGPT背后的研究實(shí)驗(yàn)室OpenAI正談判以收購(gòu)要約的形式出售現(xiàn)有股份,交易對(duì)該公司的估值達(dá)到290億美元左右,使其在沒有收入的情況下成為賬面上最值錢的美國(guó)初創(chuàng)公司之一。國(guó)內(nèi)外科技巨頭都非常重視ChatGPT引發(fā)的科技浪潮,積極布局生成式AI。與此同時(shí),全球半導(dǎo)體資本市場(chǎng)也迎來(lái)大幅上漲,費(fèi)城半導(dǎo)體指數(shù)自2023年1月至今已上漲約30%(見圖2)。
1.4 短期內(nèi)GPU增量與市場(chǎng)規(guī)模
參考OpenAI算法,假設(shè)每日1億用戶,每人進(jìn)行10條交互,每個(gè)問題的回答長(zhǎng)度為50詞,算力利用率30%,則單個(gè)大語(yǔ)言模型(LLM)的日常需求有望帶來(lái)2.13萬(wàn)片A100芯片的增量,對(duì)應(yīng)市場(chǎng)規(guī)模2.13億美元。假設(shè)有5家大企業(yè)推出此類LLM,則總增量為10.7萬(wàn)片
A100芯片,對(duì)應(yīng)市場(chǎng)規(guī)模10.7億美元。短期服務(wù)器增量與市場(chǎng)規(guī)模:?jiǎn)蝹€(gè)服務(wù)器包含8個(gè)GPU,因此單個(gè)LLM帶來(lái)2 669臺(tái)服務(wù)器需求,對(duì)應(yīng)市場(chǎng)規(guī)模3.39億美元,5家大企業(yè)共需要13 345臺(tái),對(duì)應(yīng)市場(chǎng)規(guī)模20億美元。長(zhǎng)期市場(chǎng)空間:參考谷歌,若每日訪問30億次,需要106.74萬(wàn)片A100芯片,對(duì)應(yīng)13.3萬(wàn)臺(tái)服務(wù)器DGX A100,帶來(lái)市場(chǎng)空間200億美元。根據(jù)Verified Market Research數(shù)據(jù),2020年,全球GPU市場(chǎng)規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不斷增長(zhǎng),預(yù)計(jì)到2027年全球?qū)⑦_(dá)到1 853億美元,年復(fù)合增長(zhǎng)率為32.82%,如圖3(左)。2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億美元,GPU市場(chǎng)廠商NVIDIA、Intel、AMD份額占比分別為79%、1%、20%,如圖3(右),預(yù)計(jì)2027年將超過345.57億美元。
1.5 AI芯片發(fā)展所面臨的挑戰(zhàn)與問題
雖然AI芯片在過去幾十年取得了顯著的進(jìn)展,但在其發(fā)展過程中仍然面臨一些挑戰(zhàn)與問題。
(1)復(fù)雜的算法與模型。隨著深度學(xué)習(xí)等復(fù)雜算法的出現(xiàn),其對(duì)AI芯片計(jì)算能力和存儲(chǔ)要求提出了更高的挑戰(zhàn)。一些大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型需要海量的計(jì)算資源才能高效運(yùn)行,因此,如何在芯片設(shè)計(jì)中實(shí)現(xiàn)高度并行和高效的計(jì)算,是亟待解決的問題。
(2)能耗和散熱問題。隨著AI芯片計(jì)算規(guī)模的增加,能耗和散熱問題變得日益嚴(yán)峻。高功耗會(huì)導(dǎo)致芯片發(fā)熱過多,進(jìn)而影響計(jì)算性能和穩(wěn)定性。因此,如何在保證性能的同時(shí)降低能耗,并解決散熱問題,是AI芯片發(fā)展中需要攻克的難題。
(3)可編程性與定制化。通用處理器如GPU雖然在AI計(jì)算中有一定的應(yīng)用,但其可編程性相對(duì)較弱,不能完全適應(yīng)各類AI任務(wù)的需求。與此同時(shí),定制化AI芯片雖然能提供更高效的計(jì)算性能,但其開發(fā)和生產(chǎn)成本較高。如何在可編程性與定制化之間找到平衡,是AI芯片發(fā)展的一個(gè)重要課題。
(4)安全與隱私問題。AI芯片在智能設(shè)備和云端服務(wù)中廣泛應(yīng)用,但這也帶來(lái)了安全和隱私方面的問題。一些AI算法可能會(huì)面臨對(duì)抗攻擊,導(dǎo)致模型輸出錯(cuò)誤。同時(shí),個(gè)人隱私保護(hù)也成為AI芯片應(yīng)用的一大挑戰(zhàn)。
(5)國(guó)際競(jìng)爭(zhēng)與政策制約。AI芯片領(lǐng)域的競(jìng)爭(zhēng)日益激烈,許多國(guó)家都在加大投入進(jìn)行技術(shù)研發(fā)。在國(guó)際競(jìng)爭(zhēng)中,如何保持技術(shù)領(lǐng)先優(yōu)勢(shì),以及應(yīng)對(duì)不同國(guó)家對(duì)AI芯片技術(shù)的政策限制,都是需要面對(duì)的問題。
2 先進(jìn)封裝Chiplet技術(shù)概述
2.1Chiplet技術(shù)的定義與特性
Chiplet是一種先進(jìn)封裝技術(shù),它將芯片功能分割成多個(gè)獨(dú)立的模塊,稱為Chiplet(小芯片)。每個(gè)Chiplet都具有特定的功能,例如處理器核心、存儲(chǔ)器控制器或其他外圍設(shè)備。這些獨(dú)立的Chiplet可以單獨(dú)設(shè)計(jì)、測(cè)試和生產(chǎn),并在封裝過程中組合在一起,形成一個(gè)完整的芯片。這種模塊化的設(shè)計(jì)使得芯片開發(fā)更具靈活性和可擴(kuò)展性,同時(shí)也提高了生產(chǎn)效率。
2.2Chiplet的主要應(yīng)用與發(fā)展趨勢(shì)
Chiplet技術(shù)在現(xiàn)代半導(dǎo)體行業(yè)中具有廣泛的應(yīng)用和良好的發(fā)展趨勢(shì)。其中一個(gè)主要應(yīng)用領(lǐng)域是高性能計(jì)算領(lǐng)域,例如數(shù)據(jù)中心和超級(jí)計(jì)算機(jī)。通過組合多個(gè)特定功能的Chiplet,可以實(shí)現(xiàn)更高的計(jì)算能力和效能。此外,將芯片分割成多個(gè)模塊還可以提高整體芯片的可靠性和可維護(hù)性。另一個(gè)重要的應(yīng)用是在物聯(lián)網(wǎng)(IoT)設(shè)備和移動(dòng)設(shè)備中。這些設(shè)備通常需要集成多種功能,如無(wú)線通信、傳感器、處理器和存儲(chǔ)器。通過使用Chiplet技術(shù),可以獨(dú)立開發(fā)和升級(jí)不同功能的模塊,從而提供更大的靈活性和可擴(kuò)展性。
2.3 與傳統(tǒng)芯片封裝的比較
相比傳統(tǒng)的單一芯片封裝方式,Chiplet技術(shù)具有一些顯著的優(yōu)勢(shì)。首先,可以實(shí)現(xiàn)更高的整體芯片集成度,因?yàn)椴煌哪K可以在較小的面積上組合。其次,芯片的開發(fā)周期可以更短(見表1),因?yàn)楦鱾€(gè)功能模塊可以同步開發(fā)和測(cè)試,而不需要等待整個(gè)芯片的開發(fā)完成。此外,由于不同模塊可以由不同的制造商提供,因此可以實(shí)現(xiàn)更多元化的供應(yīng)鏈(見圖4),從而提高生產(chǎn)效率并降低成本。使用Chiplet技術(shù)將不同設(shè)計(jì)公司中的不同Wafer 制程的芯片集成為一個(gè)系統(tǒng)或子系統(tǒng)中。
3 AI芯片與Chiplet結(jié)合
3.1 解決AI芯片發(fā)展問題的Chiplet方案隨著人工智能應(yīng)用的不斷發(fā)展,AI芯片面臨著一些挑戰(zhàn),例如計(jì)算能力提升、能源效率提高和更高的集成度要求。在這些挑戰(zhàn)中,Chiplet技術(shù)可以提供解決方案。例如,TSMC工藝和Xilinx的新一代Virtex系列FPGA產(chǎn)品(見圖5),基于硅基板進(jìn)行集成。通過將不同的功能模塊作為獨(dú)立的Chiplet集成在一個(gè)AI芯片上,可以實(shí)現(xiàn)更高的計(jì)算能力。例如,將處理器核心、神經(jīng)網(wǎng)絡(luò)加速器和存儲(chǔ)器控制器作為獨(dú)立的模塊,可以獨(dú)立開發(fā)和升級(jí),同時(shí)在封裝過程中組合在一起,形成一個(gè)高性能的AI芯片。
3.2 AI芯片與Chiplet結(jié)合的實(shí)例分析
GPU性能提升與功能豐富逐步滿足AI運(yùn)算需要。2010年NVIDIA提出的Fermi架構(gòu)是首個(gè)完整的GPU計(jì)算架構(gòu),其中提出的許多新概念沿用至今。Kepler架構(gòu)在硬件上擁有了雙精度計(jì)算單元(FP64),并提出GPU Direct技術(shù),繞過CPU/System Memory,與其他GPU直接進(jìn)行數(shù)據(jù)交互。Pascal架構(gòu)應(yīng)用了第一代NVLink。Volta架構(gòu)開始應(yīng)用Tensor Core,對(duì)AI計(jì)算加速具有重要意義。簡(jiǎn)要回顧NVIDIA GPU硬件變革歷程,工藝、計(jì)算核心數(shù)增加等基礎(chǔ)特性的升級(jí)持續(xù)推動(dòng)性能提升,同時(shí)每一代架構(gòu)所包含的功能特性也在不斷豐富,逐漸更好地適配AI運(yùn)算的需要。
目前已經(jīng)有一些實(shí)際的AI芯片與Chiplet技術(shù)結(jié)合的實(shí)例。AMD公司的與Chiplet技術(shù)結(jié)合的實(shí)例是AMD在其Zen 2架構(gòu)的Ryzen 3000系列CPU中采用了Chiplet設(shè)計(jì) [6] 。該設(shè)計(jì)允許AMD將更多的CPU核心集成到單個(gè)CPU中。同樣,AMD也計(jì)劃將Chiplet技術(shù)應(yīng)用于GPU設(shè)計(jì)中,以解決GPU制造中遇到的一些挑戰(zhàn),比如增加芯片尺寸導(dǎo)致產(chǎn)量下降和成本增加。在這個(gè)GPU的Chiplet設(shè)計(jì)中,AMD使用了高帶寬互連(HBX)來(lái)促進(jìn)不同Chiplet之間的通信,該互連類似于Zen 3 CPU中使用的互連方式。這種設(shè)計(jì)通過一個(gè)被稱為HBX的交叉連接來(lái)解決在GPU計(jì)算工作負(fù)載中并行性難以跨多個(gè)Chiplet傳輸?shù)膯栴}。而這種設(shè)計(jì)使得CPU與GPU交互時(shí),看起來(lái)就像是與一個(gè)大型的單一GPU通信,而不是與許多小型GPU通過控制器通信。
3.3 AI芯片與Chiplet結(jié)合展望
AI芯片與Chiplet技術(shù)結(jié)合在未來(lái)將繼續(xù)發(fā)展和擴(kuò)展。隨著人工智能應(yīng)用的不斷演進(jìn),對(duì)于更高的計(jì)算能力、更低的功耗和更高的集成度的需求將持續(xù)增加。因此,進(jìn)一步改進(jìn)和發(fā)展Chiplet技術(shù),并與AI芯片相結(jié)合,將是未來(lái)的發(fā)展方向。此外,隨著物聯(lián)網(wǎng)設(shè)備的普及,對(duì)于更靈活、可擴(kuò)展的芯片解決方案的需求也將增加。因此,將AI芯片與各種不同的Chiplet結(jié)合,以滿足不同物聯(lián)網(wǎng)設(shè)備的需求,將成為未來(lái)的一個(gè)重要發(fā)展方向。
4 結(jié)論
Chiplet技術(shù)是一種模塊化的封裝方法,其優(yōu)勢(shì)在于提供了更高的靈活性、可擴(kuò)展性和生產(chǎn)效率。AI芯片面臨著一些挑戰(zhàn),如計(jì)算能力提升、能源效率提高和更高的集成度要求。
為了更好地發(fā)展AI芯片與先進(jìn)封裝Chiplet技術(shù)結(jié)合,提出以下建議。
(1)加強(qiáng)合作。鼓勵(lì)芯片制造商、封裝技術(shù)供應(yīng)商和研究機(jī)構(gòu)之間合作,促進(jìn)技術(shù)共享和交流,以加速AI芯片與Chiplet技術(shù)結(jié)合發(fā)展。
(2)技術(shù)創(chuàng)新。持續(xù)投入研發(fā),不斷創(chuàng)新先進(jìn)封裝Chiplet技術(shù),以滿足AI芯片不斷提高的性能要求。
(3)標(biāo)準(zhǔn)化。制定相關(guān)的技術(shù)標(biāo)準(zhǔn),以確保不同廠商生產(chǎn)的芯片和Chiplet之間的互換性,推動(dòng)整個(gè)行業(yè)健康發(fā)展。
隨著人工智能應(yīng)用的不斷擴(kuò)展和技術(shù)的進(jìn)步,AI芯片與先進(jìn)封裝Chiplet技術(shù)結(jié)合將會(huì)得到更廣泛的應(yīng)用。這種結(jié)合將不僅僅用于高性能計(jì)算領(lǐng)域,也將廣泛應(yīng)用于物聯(lián)網(wǎng)設(shè)備、智能手機(jī)和其他各種人工智能應(yīng)用中,為人們的生活和工作帶來(lái)更多的便利。
審核編輯 黃宇
-
芯片
+關(guān)注
關(guān)注
455文章
50697瀏覽量
423046 -
封裝
+關(guān)注
關(guān)注
126文章
7867瀏覽量
142881 -
AI
+關(guān)注
關(guān)注
87文章
30698瀏覽量
268853 -
人工智能
+關(guān)注
關(guān)注
1791文章
47164瀏覽量
238147 -
chiplet
+關(guān)注
關(guān)注
6文章
431瀏覽量
12583
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論