1. ChatGPT爆火背后:AI芯片迎接算力新挑戰(zhàn)
原文:
https://www.163.com/dy/article/HT7BHN3C05199NPP.html
ChatGPT的出圈走紅為AIGC打開(kāi)全新市場(chǎng)增量,催生了更高的算力需求。
作為人工智能三大核心要素之一,算力也被譽(yù)為人工智能“發(fā)動(dòng)機(jī)”。華泰證券研報(bào)顯示,根據(jù)OpenAI測(cè)算,自2012年以來(lái),全球頭部AI模型訓(xùn)練算力需求3-4個(gè)月翻一番,每年頭部訓(xùn)練模型所需算力增長(zhǎng)幅度高達(dá)10倍。AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限,也對(duì)芯片設(shè)計(jì)廠商提出了更高要求。
由此可見(jiàn),AIGC未來(lái)進(jìn)一步的應(yīng)用和普及離不開(kāi)算力的強(qiáng)勁支撐。受下游算力需求高漲消息影響,2月9日,半導(dǎo)體及元件板塊再度轉(zhuǎn)頭向上,整體上漲4.58%。截至當(dāng)日收盤,半導(dǎo)體及元件板塊近一周漲幅2.53%。
板塊走勢(shì)的分化也體現(xiàn)出市場(chǎng)對(duì)AI芯片的態(tài)度。近日,在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí),多家AI芯片廠商表示,AIGC等相關(guān)業(yè)務(wù)需要結(jié)合下游最終端應(yīng)用的實(shí)際情況考慮。
“大模型動(dòng)輒千萬(wàn)美元起步的基礎(chǔ)設(shè)施建設(shè)投入和海量的訓(xùn)練數(shù)據(jù)需求,也注定了它極高的研發(fā)門檻?!卑俣壤鲂痉矫嫦?1世紀(jì)經(jīng)濟(jì)報(bào)道記者指出,“(大模型)對(duì)計(jì)算的要求主要體現(xiàn)在三個(gè)方面,一是算力,二是互聯(lián),三是通用性,對(duì)于昆侖芯來(lái)說(shuō),場(chǎng)景需求一直是架構(gòu)研發(fā)、產(chǎn)品迭代的最重要的‘指南針’?!?/span>
科技新賽道
AIGC(Artificial Intelligence Generated Content)指的是人工智能系統(tǒng)生成的內(nèi)容,是繼 UGC、PGC 之后的新型內(nèi)容創(chuàng)作方式,包括文字、圖像、音頻或視頻等。AIGC可以通過(guò)自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等技術(shù)幫助AI系統(tǒng)識(shí)別理解輸入內(nèi)容,并生成“創(chuàng)作”全新的內(nèi)容。
目前,AIGC已在多應(yīng)用領(lǐng)域?qū)崿F(xiàn)落地,2022年更是被AI業(yè)內(nèi)人士稱作AIGC“元年”。2022年8月,文本生成圖像模型Stable Diffusion火爆出圈,催生了AI作畫(huà)的熱潮;12月,OpenAI推出的人工智能聊天機(jī)器人模型 ChatGPT ,可以使用大量訓(xùn)練數(shù)據(jù)模擬人類語(yǔ)言行為,通過(guò)語(yǔ)義分析生成文本從而與用戶進(jìn)行自然交互,在全球范圍內(nèi)掀起AIGC的熱潮。
隨著人工智能應(yīng)用向縱深發(fā)展,對(duì)AI模型訓(xùn)練所需要的算力支持提出了更高要求。
作為算力的硬件基石,AI芯片是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。信達(dá)證券發(fā)布研究報(bào)告稱,在技術(shù)架構(gòu)層面,AI芯片可以分為 GPU(圖形處理器)、FPGA(現(xiàn)場(chǎng)可編程門陣列)、ASIC(專用集成電路)和類腦芯片,同時(shí)CPU也可用以執(zhí)行通用AI計(jì)算。
在應(yīng)用層面,AI芯片又可以劃分為云端、邊緣端和終端三個(gè)類型,不同場(chǎng)景對(duì)芯片的算力和功耗的要求不同,單一芯片難以滿足實(shí)際應(yīng)用的需求。
在云端層面,由于大多數(shù)AI訓(xùn)練和推理工作負(fù)載都在此進(jìn)行,需要運(yùn)算巨量、復(fù)雜的數(shù)據(jù)信息,因此對(duì)于 AI 芯片的性能和算力要求最高;邊緣端是指處理云端和終端之間的傳輸網(wǎng)絡(luò),承擔(dān)著匯集、分析處理和通信傳輸數(shù)據(jù)的功能,一定程度上分擔(dān)云端的壓力,降低成本、提升效率。
終端AI芯片由于直面下游產(chǎn)品,大多以實(shí)際需求為導(dǎo)向,主要應(yīng)用于消費(fèi)電子、智能駕駛、智能家居和智慧安防等領(lǐng)域,終端產(chǎn)品類型和出貨量的增加,也相應(yīng)刺激了對(duì)芯片的需求。
信達(dá)證券研究團(tuán)隊(duì)總結(jié)稱,AIGC 推動(dòng) AI 產(chǎn)業(yè)化由軟件向硬件切換,半導(dǎo)體+AI 生態(tài)逐漸清晰,AI芯片產(chǎn)品將實(shí)現(xiàn)大規(guī)模落地。據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),我國(guó)人工智能芯片的市場(chǎng)規(guī)模增速驚人,到2024 年,將達(dá)到785 億元。
2. 不出所料,自動(dòng)駕駛向ChatGPT下手了!
原文:
https://mp.weixin.qq.com/s/a5A2mfG8WQElIuo5vT2s7w
ChatGPT 的技術(shù)思路與自動(dòng)駕駛能碰撞出什么樣的火花呢?
去年底,ChatGPT 橫空出世。真實(shí)自然的人機(jī)對(duì)話、比擬專家的回答以及一本正經(jīng)的胡說(shuō)八道,使它迅速走紅,風(fēng)靡全世界。
不像之前那些換臉、捏臉、詩(shī)歌繪畫(huà)生成等紅極一時(shí)又很快熱度退散的 AIGC 應(yīng)用,ChatGPT 不僅保持了熱度,而且還有全面爆發(fā)的趨勢(shì)?,F(xiàn)如今,谷歌、百度的 AI 聊天機(jī)器人已經(jīng)在路上。
比爾蓋茨如此盛贊:「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。
為什么呢?
首先,人機(jī)對(duì)話實(shí)在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計(jì)的「圖靈測(cè)試」,就是試圖通過(guò)人機(jī)對(duì)話的方式來(lái)檢驗(yàn)人工智能是否已經(jīng)騙過(guò)人類。能從人機(jī)問(wèn)題中就能獲得準(zhǔn)確答案,這可比搜索引擎給到一大堆推薦網(wǎng)頁(yè)和答案更貼心了。要知道懶惰乃人類進(jìn)步的原動(dòng)力。
其次,ChatGPT 實(shí)在是太能打了。不僅在日常語(yǔ)言當(dāng)中,ChatGPT 能夠像人類一樣進(jìn)行聊天對(duì)話,還能生成各種新聞、郵件、論文,甚至進(jìn)行計(jì)算和編寫代碼,這簡(jiǎn)直就像小朋友抓到一只「哆啦 A 夢(mèng)」—— 有求必應(yīng)了。
除了看看熱鬧,我們也可以弱弱地問(wèn)一句:ChatGPT 為啥這么能打呢?希望大家可以在原文中找到答案。
3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V
原文:
https://mp.weixin.qq.com/s/qQWahKqVkkS7bToN7-eHQQ
在去年底由晶心科技舉辦的RISC-V CON上,英特爾RISC-V投資部門的總經(jīng)理Vijay Krishnan闡述了自己的Pathfinder for RISC-V計(jì)劃。通過(guò)搭建這個(gè)平臺(tái),英特爾將助力解決RISC-V軟件開(kāi)發(fā)生態(tài)上的挑戰(zhàn),并表示首先側(cè)重于AIoT和邊緣端市場(chǎng)。
但我們也都知道這一計(jì)劃持續(xù)不到半年就被砍了,可即便如此,RISC-V在AIoT領(lǐng)域的探索也早早就已經(jīng)處于進(jìn)行時(shí)了。針對(duì)AIoT和邊緣側(cè)AI開(kāi)發(fā)的RISC-V芯片、開(kāi)發(fā)板也都紛紛上市,為RISC-V搶占這一市場(chǎng)的份額添磚加瓦。
GreenWave-GAP9
法國(guó)公司GreenWave作為一家面向電池供電IoT設(shè)備市場(chǎng)的廠商,主要產(chǎn)品就是超低功耗的RISC-V應(yīng)用處理器,GAP系列。他們率先推出的GAP8就是一個(gè)用于大規(guī)模智能邊緣設(shè)備部署的IoT應(yīng)用處理器,但由于算力并不高,所以只能負(fù)責(zé)一些占用管理、人臉識(shí)別、關(guān)鍵詞識(shí)別之類的簡(jiǎn)單任務(wù)。
而他們的第二代產(chǎn)品GAP9則是一款為TWS降噪耳機(jī)設(shè)計(jì)的RISC-V芯片,做到超低延遲的同時(shí),使用神經(jīng)網(wǎng)絡(luò)來(lái)完成聲學(xué)場(chǎng)景檢測(cè)、降噪、3D環(huán)繞和ASRC等功能。其實(shí)用于高端TWS耳機(jī)主動(dòng)降噪的低延遲RISC-V早已面世并大規(guī)模出貨了,即中科藍(lán)訊的藍(lán)訊迅龍系列。而GreenWave的GAP9為了進(jìn)一步增加算力,則在其架構(gòu)中塞入了1個(gè)RISC-V控制器核心,9個(gè)RISC-V計(jì)算核心和AI加速器。
嘉楠-勘智K510
嘉楠的勘智K210作為2019年發(fā)布的一款RISC-V芯片,采用了雙核64位CPU的算力,在300mW的功耗下即實(shí)現(xiàn)了1TOPS的算力。而且在神經(jīng)網(wǎng)絡(luò)加速器KPU的助力下,該芯片可以直接在本地處理人臉識(shí)別、圖像識(shí)別等機(jī)器視覺(jué)任務(wù),可廣泛應(yīng)用于門禁、智能水電表等應(yīng)用中,陸吾智能甚至將其用于XGOmini這樣的四足機(jī)器狗中。
而嘉楠科技于2021年發(fā)布的勘智K510,則是一款定位中高端邊緣AI推理的芯片,將其神經(jīng)網(wǎng)絡(luò)加速器KPU升級(jí)到了2.0版本,不僅降低了芯片功耗,還將算力提升了3倍,單芯片算力高達(dá)2.5TFLOPS,支持INT8和BF16兩種精度,也支持TensorFlow、PyTorch等主流框架。
可以說(shuō),K510的出現(xiàn),進(jìn)一步增加了在AIoT和邊緣側(cè)AI上的算力和精度。而且由于K510還搭載了3D ISP,可以進(jìn)行圖像降噪、畸變矯正等處理任務(wù),對(duì)于AIoT和邊緣側(cè)AI常見(jiàn)的低照度環(huán)境和廣角鏡頭來(lái)說(shuō)起到了決定性的作用。像上面提到的機(jī)器狗應(yīng)用,也可以因?yàn)檫@龐大的算力來(lái)完成更復(fù)雜的手勢(shì)識(shí)別、人體姿態(tài)識(shí)別等工作。
小結(jié)
從RISC-V在AIoT目前的布局情況來(lái)看,產(chǎn)品主要面向TWS、音頻/圖像檢測(cè)與識(shí)別、智能抄表和智能家居等對(duì)AI算量不高的應(yīng)用,但它們?nèi)栽诶^續(xù)推進(jìn)更高的算力和更多的深度學(xué)習(xí)框架支持。相信在優(yōu)秀RISC-V IP核、低功耗、可編程和向量擴(kuò)展等優(yōu)勢(shì)的吸引下,未來(lái)我們能在該領(lǐng)域看到更多的RISC-V產(chǎn)品。
固然RISC-V在AIoT這個(gè)市場(chǎng)已經(jīng)取得了不小的進(jìn)展,也有了與主流的Arm生態(tài)一戰(zhàn)之力,但后者的智能生態(tài)依然是全方位的。在超低功耗的IoT設(shè)備和傳感器應(yīng)用上,RISC-V至少在性能上已經(jīng)不輸于人了。但到了智能設(shè)備、智能網(wǎng)關(guān)、本地服務(wù)器乃至云端,需要的AI算力是成倍提升的,雖然不少RISC-V IP廠商都已經(jīng)開(kāi)始主推AI核心了,但我們?nèi)匀恍枰嗦涞氐腞ISC-V AI處理器。
4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了?清華、北大等聯(lián)合發(fā)布TransformRL綜述
原文:
https://mp.weixin.qq.com/s/v7QJIAy7xctByJZ9lz9viQ
論文地址:
https://arxiv.org/pdf/2301.03044.pdf
強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一種數(shù)學(xué)形式,深度強(qiáng)化學(xué)習(xí)(DRL)近年來(lái)也取得巨大進(jìn)展。然而,樣本效率問(wèn)題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問(wèn)題,一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。
在深度強(qiáng)化學(xué)習(xí)中,函數(shù)逼近器是非常重要的。然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計(jì)相比,DRL 中的架構(gòu)設(shè)計(jì)問(wèn)題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如,在 DRL 中處理基于高維圖像的輸入,常見(jiàn)的做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測(cè)性(partial observability)圖像的常見(jiàn)做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。
近年來(lái),Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能,成為越來(lái)越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長(zhǎng)程(long-range)依賴關(guān)系進(jìn)行建模,并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā),人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣,希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。
Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究,其中自注意力(self-attention)機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后,許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí),以提取實(shí)體之間的關(guān)系,從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。
除了利用 Transformer 進(jìn)行表征學(xué)習(xí),之前的工作還使用 Transformer 捕獲多時(shí)序依賴,以處理部分可觀測(cè)性問(wèn)題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā),最近的研究表明,Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。
實(shí)際上,在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn),包括:
強(qiáng)化學(xué)習(xí)智能體(agent)的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性(non-stationarity);
現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過(guò)程中的設(shè)計(jì)選擇高度敏感,包括模型架構(gòu)和模型容量 [Henderson et al., 2018];
基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本,這使得 RL 學(xué)習(xí)過(guò)程中的訓(xùn)練和推理都很昂貴。
例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓(xùn)練性能)取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)(value network)的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。
為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展,來(lái)自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer(即 TransformRL)的綜述論文,歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn),并討論了未來(lái)的發(fā)展方向,作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。
論文的總體結(jié)構(gòu)如下:
第 2 章介紹了 RL 和 Transformer 的背景知識(shí),然后簡(jiǎn)要介紹了這兩者是如何結(jié)合在一起的;
第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變,以及長(zhǎng)期以來(lái) RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn);
第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類,并討論了目前具有代表性的方法;
第 5 章總結(jié)并指出了未來(lái)潛在的研究方向。
5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架:ResNet50 80.1%精度,訓(xùn)練加速30%
原文:
https://mp.weixin.qq.com/s/HWVpVOsYTOH98aU0tC_LzA
論文和項(xiàng)目網(wǎng)址:
http://zhiqiangshen.com/projects/FKD/index.html
代碼:
https://github.com/szq0214/FKD
知識(shí)蒸餾(KD)自從 2015 年由 Geoffrey Hinton 等人提出之后,在模型壓縮,視覺(jué)分類檢測(cè)等領(lǐng)域產(chǎn)生了巨大影響,后續(xù)產(chǎn)生了無(wú)數(shù)相關(guān)變種和擴(kuò)展版本,但是大體上可以分為以下幾類:vanilla KD,online KD,teacher-free KD 等。最近不少研究表明,一個(gè)最簡(jiǎn)單、樸素的知識(shí)蒸餾策略就可以獲得巨大的性能提升,精度甚至高于很多復(fù)雜的 KD 算法。但是 vanilla KD 有一個(gè)不可避免的缺點(diǎn):每次 iteration 都需要把訓(xùn)練樣本輸入 teacher 前向傳播產(chǎn)生軟標(biāo)簽 (soft label),這樣就導(dǎo)致很大一部分計(jì)算開(kāi)銷花費(fèi)在了遍歷 teacher 模型上面,然而 teacher 的規(guī)模通常會(huì)比 student 大很多,同時(shí) teacher 的權(quán)重在訓(xùn)練過(guò)程中都是固定的,這樣就導(dǎo)致整個(gè)知識(shí)蒸餾框架學(xué)習(xí)效率很低。
針對(duì)這個(gè)問(wèn)題,本文首先分析了為何沒(méi)法直接為每張輸入圖片產(chǎn)生單個(gè)軟標(biāo)簽向量然后在不同 iterations 訓(xùn)練過(guò)程中復(fù)用這個(gè)標(biāo)簽,其根本原因在于視覺(jué)領(lǐng)域模型訓(xùn)練過(guò)程數(shù)據(jù)增強(qiáng)的使用,尤其是 random-resize-cropping 這個(gè)圖像增強(qiáng)策略,導(dǎo)致不同 iteration 產(chǎn)生的輸入樣本即使來(lái)源于同一張圖片也可能來(lái)自不同區(qū)域的采樣,導(dǎo)致該樣本跟單個(gè)軟標(biāo)簽向量在不同 iterations 沒(méi)法很好的匹配。本文基于此,提出了一個(gè)快速知識(shí)蒸餾的設(shè)計(jì),通過(guò)特定的編碼方式來(lái)處理需要的參數(shù),繼而進(jìn)一步存儲(chǔ)復(fù)用軟標(biāo)簽(soft label),與此同時(shí),使用分配區(qū)域坐標(biāo)的策略來(lái)訓(xùn)練目標(biāo)網(wǎng)絡(luò)。通過(guò)這種策略,整個(gè)訓(xùn)練過(guò)程可以做到顯式的 teacher-free,該方法的特點(diǎn)是既快(16%/30% 以上訓(xùn)練加速,對(duì)于集群上數(shù)據(jù)讀取緩慢的缺點(diǎn)尤其友好),又好(使用 ResNet-50 在 ImageNet-1K 上不使用額外數(shù)據(jù)增強(qiáng)可以達(dá)到 80.1% 的精度)。
首先我們來(lái)回顧一下普通的知識(shí)蒸餾結(jié)構(gòu)是如何工作的,如下圖所示:
知識(shí)蒸餾框架包含了一個(gè)預(yù)訓(xùn)練好的 teacher 模型(蒸餾過(guò)程權(quán)重固定),和一個(gè)待學(xué)習(xí)的 student 模型, teacher 用來(lái)產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)??梢钥吹剑@個(gè)框架存在一個(gè)比較明顯的缺點(diǎn):當(dāng) teacher 結(jié)構(gòu)大于 student 的時(shí)候,訓(xùn)練圖像前饋產(chǎn)生的計(jì)算開(kāi)銷已經(jīng)超過(guò) student,然而 teacher 權(quán)重并不是我們學(xué)習(xí)的目標(biāo),導(dǎo)致這種計(jì)算開(kāi)銷本質(zhì)上是 “無(wú)用的”。本文的動(dòng)機(jī)正是在研究如何在知識(shí)蒸餾訓(xùn)練過(guò)程中避免或者說(shuō)重復(fù)利用這種額外的計(jì)算結(jié)果,該文章的解決策略是提前保存每張圖片不同區(qū)域的軟監(jiān)督信號(hào)(regional soft label)在硬盤上,訓(xùn)練 student 過(guò)程同時(shí)讀取訓(xùn)練圖片和標(biāo)簽文件,從而達(dá)到復(fù)用標(biāo)簽的效果。所以問(wèn)題就變成了:soft label 怎么來(lái)組織和存儲(chǔ)最為有效?請(qǐng)從原文中找到答案。
6. Google Brain提出基于Diffusion的新全景分割算法
原文:
https://mp.weixin.qq.com/s/CXMzZd0JP0XBJzEPhPmLvA
A Generalist Framework for Panoptic Segmentation of Images and Videos
標(biāo)題:
A Generalist Framework for Panoptic Segmentation of Images and Videos
作者:
Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet
原文鏈接:
https://arxiv.org/pdf/2210.06366.pdf
引言
首先回顧一下全景分割的設(shè)定。全景分割(PS,Panoptic Segmentation)的task format不同于經(jīng)典的語(yǔ)義分割,它要求每個(gè)像素點(diǎn)都必須被分配給一個(gè)語(yǔ)義標(biāo)簽(stuff、things中的各個(gè)語(yǔ)義)和一個(gè)實(shí)例id。具有相同標(biāo)簽和id的像素點(diǎn)屬于同一目標(biāo);對(duì)于stuff標(biāo)簽,不需要實(shí)例id。與實(shí)例分割相比,目標(biāo)的分割必須是非重疊的(non-overlapping),因此對(duì)那些每個(gè)目標(biāo)單獨(dú)標(biāo)注一個(gè)區(qū)域是不同的。雖然語(yǔ)義標(biāo)簽的類類別是先驗(yàn)固定的,但分配給圖像中對(duì)象的實(shí)例 ID 可以在不影響識(shí)別的實(shí)例的情況下進(jìn)行排列。因此,經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)實(shí)例 ID 的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)W習(xí)一對(duì)多映射,從單個(gè)圖像到多個(gè)實(shí)例 ID 分配。一對(duì)多映射的學(xué)習(xí)具有挑戰(zhàn)性,傳統(tǒng)方法通常利用涉及對(duì)象檢測(cè)、分割、合并多個(gè)預(yù)測(cè)的多個(gè)階段的管道這有效地將一對(duì)多映射轉(zhuǎn)換為基于識(shí)別匹配的一對(duì)一映射。這篇論文的作者將全景分割任務(wù)制定為條件離散數(shù)據(jù)生成問(wèn)題,如下圖所示。本文是大名鼎鼎的Hinton參與的工作,非常有意思,又是基于diffusion model模式的生成模型來(lái)完成全景分割,將mask其視為一組離散標(biāo)記,以輸入圖像為條件,預(yù)測(cè)得到完整的分割信息。
全景分割的生成式建模非常具有挑戰(zhàn)性,因?yàn)槿把诖a是離散的,或者說(shuō)是有類別的,并且模型可能非常大。例如,要生成 512×1024 的全景掩碼,模型必須生成超過(guò) 1M 的離散標(biāo)記(語(yǔ)義標(biāo)簽和實(shí)例標(biāo)簽)。這對(duì)于自回歸模型來(lái)說(shuō)計(jì)算開(kāi)銷是比較大的,因?yàn)?token 本質(zhì)上是順序的,很難隨著輸入數(shù)據(jù)的規(guī)模變化而變化。擴(kuò)散模型更擅長(zhǎng)處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)域而不是離散域。通過(guò)用模擬位表示離散數(shù)據(jù),本文作者表明可以直接在大型全景分割上完成diffusion的訓(xùn)練,而不需要在latent space進(jìn)行學(xué)習(xí)。這樣就使得模型 這對(duì)于自回歸模型來(lái)說(shuō)是昂貴的,因?yàn)樗鼈儽举|(zhì)上是順序的,隨著數(shù)據(jù)輸入的大小縮放不佳。diffusion model很擅長(zhǎng)處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)而非離散域。通過(guò)用模擬位表示離散數(shù)據(jù),論文表明可以直接在大型全景掩模上訓(xùn)練擴(kuò)散模型,而無(wú)需學(xué)習(xí)中間潛在空間。接下來(lái),我們來(lái)介紹本文提出的基于擴(kuò)散的全景分割模型,描述其對(duì)圖像和視頻數(shù)據(jù)集的廣泛實(shí)驗(yàn)。在這樣做的過(guò)程中,論文證明了所提出的方法在類似設(shè)置中與最先進(jìn)的方法相比具有競(jìng)爭(zhēng)力,證明了一種新的、通用的全景分割方法。
方法
擴(kuò)散模型采樣是迭代的,因此在推理過(guò)程中必須多次運(yùn)行網(wǎng)絡(luò)的前向傳遞。因此,如上圖,論文的結(jié)構(gòu)主要分為兩個(gè)部分:1)圖像編碼器;2)mask的解碼器。前者將原始像素?cái)?shù)據(jù)映射到高級(jí)表示向量,然后掩模解碼器迭代地讀出全景掩模。
實(shí)驗(yàn)
來(lái)看實(shí)驗(yàn)結(jié)果:
在 MS-COCO 數(shù)據(jù)集上,Pix2Seq-D 在基于 ResNet-50 的主干上的泛化質(zhì)量(PQ)與最先進(jìn)的方法相比有一定的競(jìng)爭(zhēng)力。與最近的其他通用模型如 UViM 相比,本文的模型表現(xiàn)明顯更好,同時(shí)效率更高。
而在無(wú)監(jiān)督數(shù)據(jù)集DAVIS上,也有更優(yōu)的表現(xiàn)。
結(jié)論
本文基于離散全景蒙版的條件生成模型,提出了一種用于圖像和視頻全景分割的新型通用框架。通過(guò)利用強(qiáng)大的Bit Diffusion 模型,我們能夠?qū)Υ罅侩x散token建模,這對(duì)于現(xiàn)有的通用模型來(lái)說(shuō)是困難的。
———————End———————
你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進(jìn)RT-Thread官方微信交流群!
愛(ài)我就給我點(diǎn)在看
點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)
原文標(biāo)題:【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V
文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
RT-Thread
+關(guān)注
關(guān)注
31文章
1285瀏覽量
40076
原文標(biāo)題:【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V
文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論