近來,對實時決策、降低數(shù)據(jù)吞吐量以及注重隱私的需求,已將人工智能處理的很大一部分工作轉移到邊緣。這一轉變催生了大量邊緣人工智能應用,每種應用都有著不同的要求,面臨著不同的挑戰(zhàn)。
據(jù)預測,2025年人工智能SoC市場規(guī)模將達到500億美元(資料來源:Pitchbook Emerging Tech Research),邊緣人工智能芯片預計將在這一市場中占據(jù)重要地位。
人工智能處理向邊緣轉移及提高能效勢在必行
人工智能處理向邊緣轉移標志著一系列應用(從物聯(lián)網(wǎng)傳感器到自主系統(tǒng))進入了實時決策的新時代。這一轉移有助于:減少延遲,這對即時響應起到?jīng)Q定性作用;通過本地處理提高數(shù)據(jù)隱私保證;支持離線功能,確保在遠程或具有挑戰(zhàn)性的環(huán)境中不間斷運行。由于這些邊緣應用在電池供電的設備上運行,能效有限,因此能效在這一變革中會成為焦點。
邊緣人工智能工作負載本質多元
確保邊緣人工智能處理能效的關鍵難題之一是工作負載本質多元。不同應用的工作負載大不相同,帶來獨特挑戰(zhàn)??傮w而言,所有人工智能處理工作負載可大致分為TinyML、ML-DSP及深度學習工作負載。
TinyML:聲音分類、關鍵詞識別及人體存在檢測等任務需要在傳感器附近進行低延遲、實時處理。此處涉及的工作負載稱為TinyML,牽涉到在資源有限的邊緣設備上運行輕量級機器學習模型。TinyML模型專為特定硬件定制,支持順利執(zhí)行人工智能任務。定制硬件處理器和高度優(yōu)化的軟件庫對于滿足TinyML嚴格至極的功耗要求至關重要。
深度學習:相較而言,深度學習應用程序是一種計算密集型工作負載。此類應用程序涉及運行復雜的計算,通常出現(xiàn)在高級計算機視覺、自然語言處理及其他經(jīng)典和生成式人工智能密集型任務中。深度學習具有計算密集型特性,通常需要專門的硬件,如神經(jīng)處理單元 (NPU)。NPU采用多層神經(jīng)網(wǎng)絡結構,能夠高效地處理各種復雜的計算任務。NPU可為高級人工智能任務提供所需的計算能力,而且能效很高。
ML-DSP:介于上述兩類工作負載之間的是ML-DSP工作負載,涉及DSP處理、過濾及清理信號,然后才能執(zhí)行人工智能感知任務。雷達屬于此類工作負載,是一種涉及點云圖像分析的常見應用。
工作負載決定采用的架構
為了應對邊緣人工智能工作負載的多面性及其帶來的能效挑戰(zhàn),人們開發(fā)了各種架構和硬件引擎。為各工作負載選擇有針對性的架構和硬件是為了在提供最佳計算性能的同時最大限度地降低功耗。就此而言,TOPS/Watt(每秒萬億次運算/瓦)是常用的能效指標。選擇合適的架構來處理TinyML、ML-DSP及深度學習工作負載,是滿足所需能效指標的關鍵。
標量處理架構最適合TinyML工作負載,此類負載通常涉及用戶界面管理、基于時間數(shù)據(jù)制定決策以及非密集型計算需求。矢量處理架構非常適合同時處理多個數(shù)據(jù)元素的運算,及在人工智能感知之前涉及信號處理的工作負載。張量和矩陣處理架構是涉及復雜矩陣運算、圖像識別、計算機視覺及自然語言處理等深度學習任務的理想選擇。能夠以盡量高的能效高效處理涉及大型矩陣和神經(jīng)網(wǎng)絡的任務。人工智能處理器通常結合利用這些架構來高效處理各種任務。請參閱下圖。
CEVA提供一系列產(chǎn)品,希望滿足TinyML、ML-DSP 及深度學習工作負載的需求。我們的產(chǎn)品包括CEVA-BX、SensPro2及NeuPro-M,品質優(yōu)越,既能支持搭載人工智能功能的邊緣設備,也能確保能效。
CEVA-BX處理器高度靈活,能夠根據(jù)具體應用配置和優(yōu)化,包括音頻、語音處理及人工智能相關的工作負載。其架構旨在實現(xiàn)性能和能效平衡,因此適用于廣泛的邊緣計算應用。
CEVA的SensPro2是一種高度可配置且獨立的矢量DSP架構,針對浮點和整數(shù)數(shù)據(jù)類型進行標量和矢量處理。專為計算機視覺和其他傳感器中的并行高帶寬數(shù)據(jù)應用而設計。能夠高效處理多達5 TOPS的人工智能工作負載,集成多達1,000個MAC。SensPro2是需要高帶寬數(shù)據(jù)和人工智能處理能力的視覺和雷達系統(tǒng)的合適選擇。
CEVA的NeuPro-M是一款神經(jīng)處理單元(NPU)IP,涵蓋在CEVA深度學習人工智能處理器NeuPro系列中。NeuPro-M旨在處理當今大多數(shù)經(jīng)典和生成式人工智能網(wǎng)絡模型,包括Transformer。專門針對低功耗、高效率處理優(yōu)化,包括一個矢量處理單元(VPU)和許多其他異構處理引擎,如稀疏性、壓縮和激活邏輯。隨著人工智能網(wǎng)絡模型快速發(fā)展,NeuPro-M憑借內(nèi)置VPU,可以為邊緣人工智能應用提供經(jīng)得起未來考驗的功能。NeuPro-M目前無法處理的更新、更復雜的人工智能網(wǎng)絡層,可以利用VPU得到高效管理。
CEVA的音頻人工智能處理器、傳感器中樞 DSP、NeuPro-M NPU IP以及相關軟件工具和開發(fā)套件可滿足所有邊緣人工智能處理工作負載的需求。
本文作者:Moshe Sheier, Vice President of Marketing, CEVA
關于CEVA
CEVA是排名前列的無線連接和智能傳感技術以及集成IP解決方案授權商,旨在打造更智能、更安全、互聯(lián)的世界。我們?yōu)閭鞲衅魅诤稀D像增強、計算機視覺、語音輸入和人工智能應用提供數(shù)字信號處理器、人工智能處理器、無線平臺、加密內(nèi)核和配套軟件。許多世界排名前列的半導體廠商、系統(tǒng)公司和OEM利用我們的技術和芯片設計技能,為移動、消費、汽車、機器人、工業(yè)、航天國防和物聯(lián)網(wǎng)等各種終端市場開發(fā)高能效、智能、安全的互聯(lián)設備。
我們基于DSP的解決方案包括移動、物聯(lián)網(wǎng)和基礎設施中的5G基帶處理平臺;攝像頭設備的高級影像技術和計算機視覺;適用于多個物聯(lián)網(wǎng)市場的音頻/語音/話音應用和超低功耗的始終開啟/感應應用。對于傳感器融合,我們的Hillcrest Labs傳感器處理技術為耳機、可穿戴設備、AR/VR、PC機、機器人、遙控器、物聯(lián)網(wǎng)等市場提供廣泛的傳感器融合軟件和慣性測量單元 (“IMU”) 解決方案。在無線物聯(lián)網(wǎng)方面,我們的藍牙(低功耗和雙模)、Wi-Fi 4/5/6/6E (802.11n/ac/ax)、超寬帶(UWB)、NB-IoT和GNSS 平臺是業(yè)內(nèi)授權較為廣泛的連接平臺。
-
dsp
+關注
關注
553文章
7984瀏覽量
348711 -
CEVA
+關注
關注
1文章
177瀏覽量
75933 -
ML
+關注
關注
0文章
149瀏覽量
34639 -
深度學習
+關注
關注
73文章
5500瀏覽量
121100 -
TinyML
+關注
關注
0文章
42瀏覽量
1225
原文標題:提高TinyML、ML-DSP和深度學習工作負載的能效
文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論