RM新时代官网网址,rm新时代爆单

1. ChatGPT爆火背后：AI 芯片迎接算力新挑戰(zhàn)

原文:
https://www.163.com/dy/article/HT7BHN3C05199NPP.html

ChatGPT的出圈走紅為AIGC打開(kāi)全新市場(chǎng)增量，催生了更高的算力需求。

作為人工智能三大核心要素之一，算力也被譽(yù)為人工智能“發(fā)動(dòng)機(jī)”。華泰證券研報(bào)顯示，根據(jù)OpenAI測(cè)算，自2012年以來(lái)，全球頭部AI模型訓(xùn)練算力需求3-4個(gè)月翻一番，每年頭部訓(xùn)練模型所需算力增長(zhǎng)幅度高達(dá)10倍。AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限，也對(duì)芯片設(shè)計(jì)廠商提出了更高要求。

由此可見(jiàn)，AIGC未來(lái)進(jìn)一步的應(yīng)用和普及離不開(kāi)算力的強(qiáng)勁支撐。受下游算力需求高漲消息影響，2月9日，半導(dǎo)體及元件板塊再度轉(zhuǎn)頭向上，整體上漲4.58%。截至當(dāng)日收盤，半導(dǎo)體及元件板塊近一周漲幅2.53%。

板塊走勢(shì)的分化也體現(xiàn)出市場(chǎng)對(duì)AI芯片的態(tài)度。近日，在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)，多家AI芯片廠商表示，AIGC等相關(guān)業(yè)務(wù)需要結(jié)合下游最終端應(yīng)用的實(shí)際情況考慮。

“大模型動(dòng)輒千萬(wàn)美元起步的基礎(chǔ)設(shè)施建設(shè)投入和海量的訓(xùn)練數(shù)據(jù)需求，也注定了它極高的研發(fā)門檻?！卑俣壤鲂痉矫嫦?1世紀(jì)經(jīng)濟(jì)報(bào)道記者指出，“（大模型）對(duì)計(jì)算的要求主要體現(xiàn)在三個(gè)方面，一是算力，二是互聯(lián)，三是通用性，對(duì)于昆侖芯來(lái)說(shuō)，場(chǎng)景需求一直是架構(gòu)研發(fā)、產(chǎn)品迭代的最重要的‘指南針’?！?/span>

科技新賽道

AIGC（Artificial Intelligence Generated Content）指的是人工智能系統(tǒng)生成的內(nèi)容，是繼 UGC、PGC 之后的新型內(nèi)容創(chuàng)作方式，包括文字、圖像、音頻或視頻等。AIGC可以通過(guò)自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等技術(shù)幫助AI系統(tǒng)識(shí)別理解輸入內(nèi)容，并生成“創(chuàng)作”全新的內(nèi)容。

目前，AIGC已在多應(yīng)用領(lǐng)域?qū)崿F(xiàn)落地，2022年更是被AI業(yè)內(nèi)人士稱作AIGC“元年”。2022年8月，文本生成圖像模型Stable Diffusion火爆出圈，催生了AI作畫(huà)的熱潮；12月，OpenAI推出的人工智能聊天機(jī)器人模型 ChatGPT ，可以使用大量訓(xùn)練數(shù)據(jù)模擬人類語(yǔ)言行為，通過(guò)語(yǔ)義分析生成文本從而與用戶進(jìn)行自然交互，在全球范圍內(nèi)掀起AIGC的熱潮。

隨著人工智能應(yīng)用向縱深發(fā)展，對(duì)AI模型訓(xùn)練所需要的算力支持提出了更高要求。

作為算力的硬件基石，AI芯片是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。信達(dá)證券發(fā)布研究報(bào)告稱，在技術(shù)架構(gòu)層面，AI芯片可以分為 GPU（圖形處理器）、FPGA（現(xiàn)場(chǎng)可編程門陣列）、ASIC（專用集成電路）和類腦芯片，同時(shí)CPU也可用以執(zhí)行通用AI計(jì)算。

在應(yīng)用層面，AI芯片又可以劃分為云端、邊緣端和終端三個(gè)類型，不同場(chǎng)景對(duì)芯片的算力和功耗的要求不同，單一芯片難以滿足實(shí)際應(yīng)用的需求。

在云端層面，由于大多數(shù)AI訓(xùn)練和推理工作負(fù)載都在此進(jìn)行，需要運(yùn)算巨量、復(fù)雜的數(shù)據(jù)信息，因此對(duì)于 AI 芯片的性能和算力要求最高；邊緣端是指處理云端和終端之間的傳輸網(wǎng)絡(luò)，承擔(dān)著匯集、分析處理和通信傳輸數(shù)據(jù)的功能，一定程度上分擔(dān)云端的壓力，降低成本、提升效率。

終端AI芯片由于直面下游產(chǎn)品，大多以實(shí)際需求為導(dǎo)向，主要應(yīng)用于消費(fèi)電子、智能駕駛、智能家居和智慧安防等領(lǐng)域，終端產(chǎn)品類型和出貨量的增加，也相應(yīng)刺激了對(duì)芯片的需求。

信達(dá)證券研究團(tuán)隊(duì)總結(jié)稱，AIGC 推動(dòng) AI 產(chǎn)業(yè)化由軟件向硬件切換，半導(dǎo)體+AI 生態(tài)逐漸清晰，AI芯片產(chǎn)品將實(shí)現(xiàn)大規(guī)模落地。據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù)，我國(guó)人工智能芯片的市場(chǎng)規(guī)模增速驚人，到2024 年，將達(dá)到785 億元。

2. 不出所料，自動(dòng)駕駛向ChatGPT下手了！

原文:
https://mp.weixin.qq.com/s/a5A2mfG8WQElIuo5vT2s7w

ChatGPT 的技術(shù)思路與自動(dòng)駕駛能碰撞出什么樣的火花呢？

去年底，ChatGPT 橫空出世。真實(shí)自然的人機(jī)對(duì)話、比擬專家的回答以及一本正經(jīng)的胡說(shuō)八道，使它迅速走紅，風(fēng)靡全世界。

不像之前那些換臉、捏臉、詩(shī)歌繪畫(huà)生成等紅極一時(shí)又很快熱度退散的 AIGC 應(yīng)用，ChatGPT 不僅保持了熱度，而且還有全面爆發(fā)的趨勢(shì)?，F(xiàn)如今，谷歌、百度的 AI 聊天機(jī)器人已經(jīng)在路上。

比爾蓋茨如此盛贊：「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。

為什么呢？

首先，人機(jī)對(duì)話實(shí)在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計(jì)的「圖靈測(cè)試」，就是試圖通過(guò)人機(jī)對(duì)話的方式來(lái)檢驗(yàn)人工智能是否已經(jīng)騙過(guò)人類。能從人機(jī)問(wèn)題中就能獲得準(zhǔn)確答案，這可比搜索引擎給到一大堆推薦網(wǎng)頁(yè)和答案更貼心了。要知道懶惰乃人類進(jìn)步的原動(dòng)力。

其次，ChatGPT 實(shí)在是太能打了。不僅在日常語(yǔ)言當(dāng)中，ChatGPT 能夠像人類一樣進(jìn)行聊天對(duì)話，還能生成各種新聞、郵件、論文，甚至進(jìn)行計(jì)算和編寫代碼，這簡(jiǎn)直就像小朋友抓到一只「哆啦 A 夢(mèng)」—— 有求必應(yīng)了。

除了看看熱鬧，我們也可以弱弱地問(wèn)一句：ChatGPT 為啥這么能打呢？希望大家可以在原文中找到答案。

3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V

原文:
https://mp.weixin.qq.com/s/qQWahKqVkkS7bToN7-eHQQ

在去年底由晶心科技舉辦的RISC-V CON上，英特爾RISC-V投資部門的總經(jīng)理Vijay Krishnan闡述了自己的Pathfinder for RISC-V計(jì)劃。通過(guò)搭建這個(gè)平臺(tái)，英特爾將助力解決RISC-V軟件開(kāi)發(fā)生態(tài)上的挑戰(zhàn)，并表示首先側(cè)重于AIoT和邊緣端市場(chǎng)。

但我們也都知道這一計(jì)劃持續(xù)不到半年就被砍了，可即便如此，RISC-V在AIoT領(lǐng)域的探索也早早就已經(jīng)處于進(jìn)行時(shí)了。針對(duì)AIoT和邊緣側(cè)AI開(kāi)發(fā)的RISC-V芯片、開(kāi)發(fā)板也都紛紛上市，為RISC-V搶占這一市場(chǎng)的份額添磚加瓦。

GreenWave-GAP9

法國(guó)公司GreenWave作為一家面向電池供電 IoT設(shè)備市場(chǎng)的廠商，主要產(chǎn)品就是超低功耗的RISC-V應(yīng)用處理器，GAP系列。他們率先推出的GAP8就是一個(gè)用于大規(guī)模智能邊緣設(shè)備部署的IoT應(yīng)用處理器，但由于算力并不高，所以只能負(fù)責(zé)一些占用管理、人臉識(shí)別、關(guān)鍵詞識(shí)別之類的簡(jiǎn)單任務(wù)。

而他們的第二代產(chǎn)品GAP9則是一款為TWS降噪耳機(jī)設(shè)計(jì)的RISC-V芯片，做到超低延遲的同時(shí)，使用神經(jīng)網(wǎng)絡(luò)來(lái)完成聲學(xué)場(chǎng)景檢測(cè)、降噪、3D環(huán)繞和ASRC等功能。其實(shí)用于高端TWS耳機(jī)主動(dòng)降噪的低延遲RISC-V早已面世并大規(guī)模出貨了，即中科藍(lán)訊的藍(lán)訊迅龍系列。而GreenWave的GAP9為了進(jìn)一步增加算力，則在其架構(gòu)中塞入了1個(gè)RISC-V控制器核心，9個(gè)RISC-V計(jì)算核心和AI加速器。

嘉楠-勘智K510

嘉楠的勘智K210作為2019年發(fā)布的一款RISC-V芯片，采用了雙核64位CPU的算力，在300mW的功耗下即實(shí)現(xiàn)了1TOPS的算力。而且在神經(jīng)網(wǎng)絡(luò)加速器KPU的助力下，該芯片可以直接在本地處理人臉識(shí)別、圖像識(shí)別等機(jī)器視覺(jué)任務(wù)，可廣泛應(yīng)用于門禁、智能水電表等應(yīng)用中，陸吾智能甚至將其用于XGOmini這樣的四足機(jī)器狗中。

而嘉楠科技于2021年發(fā)布的勘智K510，則是一款定位中高端邊緣AI推理的芯片，將其神經(jīng)網(wǎng)絡(luò)加速器KPU升級(jí)到了2.0版本，不僅降低了芯片功耗，還將算力提升了3倍，單芯片算力高達(dá)2.5TFLOPS，支持INT8和BF16兩種精度，也支持TensorFlow、PyTorch等主流框架。

可以說(shuō)，K510的出現(xiàn)，進(jìn)一步增加了在AIoT和邊緣側(cè)AI上的算力和精度。而且由于K510還搭載了3D ISP，可以進(jìn)行圖像降噪、畸變矯正等處理任務(wù)，對(duì)于AIoT和邊緣側(cè)AI常見(jiàn)的低照度環(huán)境和廣角鏡頭來(lái)說(shuō)起到了決定性的作用。像上面提到的機(jī)器狗應(yīng)用，也可以因?yàn)檫@龐大的算力來(lái)完成更復(fù)雜的手勢(shì)識(shí)別、人體姿態(tài)識(shí)別等工作。

小結(jié)

從RISC-V在AIoT目前的布局情況來(lái)看，產(chǎn)品主要面向TWS、音頻/圖像檢測(cè)與識(shí)別、智能抄表和智能家居等對(duì)AI算量不高的應(yīng)用，但它們?nèi)栽诶^續(xù)推進(jìn)更高的算力和更多的深度學(xué)習(xí)框架支持。相信在優(yōu)秀RISC-V IP核、低功耗、可編程和向量擴(kuò)展等優(yōu)勢(shì)的吸引下，未來(lái)我們能在該領(lǐng)域看到更多的RISC-V產(chǎn)品。

固然RISC-V在AIoT這個(gè)市場(chǎng)已經(jīng)取得了不小的進(jìn)展，也有了與主流的Arm生態(tài)一戰(zhàn)之力，但后者的智能生態(tài)依然是全方位的。在超低功耗的IoT設(shè)備和傳感器應(yīng)用上，RISC-V至少在性能上已經(jīng)不輸于人了。但到了智能設(shè)備、智能網(wǎng)關(guān)、本地服務(wù)器乃至云端，需要的AI算力是成倍提升的，雖然不少RISC-V IP廠商都已經(jīng)開(kāi)始主推AI核心了，但我們?nèi)匀恍枰嗦涞氐腞ISC-V AI處理器。

4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

原文：
https://mp.weixin.qq.com/s/v7QJIAy7xctByJZ9lz9viQ
論文地址：
https://arxiv.org/pdf/2301.03044.pdf

強(qiáng)化學(xué)習(xí)（RL）為順序決策提供了一種數(shù)學(xué)形式，深度強(qiáng)化學(xué)習(xí)（DRL）近年來(lái)也取得巨大進(jìn)展。然而，樣本效率問(wèn)題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問(wèn)題，一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中，函數(shù)逼近器是非常重要的。然而，與監(jiān)督學(xué)習(xí)（SL）中的架構(gòu)設(shè)計(jì)相比，DRL 中的架構(gòu)設(shè)計(jì)問(wèn)題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如，在 DRL 中處理基于高維圖像的輸入，常見(jiàn)的做法是引入卷積神經(jīng)網(wǎng)絡(luò)（CNN）[LeCun et al., 1998; Mnih et al., 2015]；處理部分可觀測(cè)性（partial observability）圖像的常見(jiàn)做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)（RNN） [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來(lái)，Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能，成為越來(lái)越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長(zhǎng)程（long-range）依賴關(guān)系進(jìn)行建模，并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā)，人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣，希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究，其中自注意力（self-attention）機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后，許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí)，以提取實(shí)體之間的關(guān)系，從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí)，之前的工作還使用 Transformer 捕獲多時(shí)序依賴，以處理部分可觀測(cè)性問(wèn)題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā)，最近的研究表明，Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ，并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實(shí)際上，在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn)，包括：

強(qiáng)化學(xué)習(xí)智能體（agent）的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù)，這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性（non-stationarity）；
現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過(guò)程中的設(shè)計(jì)選擇高度敏感，包括模型架構(gòu)和模型容量 [Henderson et al., 2018]；
基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本，這使得 RL 學(xué)習(xí)過(guò)程中的訓(xùn)練和推理都很昂貴。

例如，在用于視頻游戲的 AI 中，樣本生成的效率（在很大程度上影響訓(xùn)練性能）取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)（value network）的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展，來(lái)自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer（即 TransformRL）的綜述論文，歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn)，并討論了未來(lái)的發(fā)展方向，作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。

論文的總體結(jié)構(gòu)如下：

第 2 章介紹了 RL 和 Transformer 的背景知識(shí)，然后簡(jiǎn)要介紹了這兩者是如何結(jié)合在一起的；
第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變，以及長(zhǎng)期以來(lái) RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn)；
第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類，并討論了目前具有代表性的方法；
第 5 章總結(jié)并指出了未來(lái)潛在的研究方向。

5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架：ResNet50 80.1%精度，訓(xùn)練加速30%

原文:
https://mp.weixin.qq.com/s/HWVpVOsYTOH98aU0tC_LzA

論文和項(xiàng)目網(wǎng)址：
http://zhiqiangshen.com/projects/FKD/index.html
代碼：
https://github.com/szq0214/FKD

知識(shí)蒸餾（KD）自從 2015 年由 Geoffrey Hinton 等人提出之后，在模型壓縮，視覺(jué)分類檢測(cè)等領(lǐng)域產(chǎn)生了巨大影響，后續(xù)產(chǎn)生了無(wú)數(shù)相關(guān)變種和擴(kuò)展版本，但是大體上可以分為以下幾類：vanilla KD，online KD，teacher-free KD 等。最近不少研究表明，一個(gè)最簡(jiǎn)單、樸素的知識(shí)蒸餾策略就可以獲得巨大的性能提升，精度甚至高于很多復(fù)雜的 KD 算法。但是 vanilla KD 有一個(gè)不可避免的缺點(diǎn)：每次 iteration 都需要把訓(xùn)練樣本輸入 teacher 前向傳播產(chǎn)生軟標(biāo)簽 (soft label)，這樣就導(dǎo)致很大一部分計(jì)算開(kāi)銷花費(fèi)在了遍歷 teacher 模型上面，然而 teacher 的規(guī)模通常會(huì)比 student 大很多，同時(shí) teacher 的權(quán)重在訓(xùn)練過(guò)程中都是固定的，這樣就導(dǎo)致整個(gè)知識(shí)蒸餾框架學(xué)習(xí)效率很低。

針對(duì)這個(gè)問(wèn)題，本文首先分析了為何沒(méi)法直接為每張輸入圖片產(chǎn)生單個(gè)軟標(biāo)簽向量然后在不同 iterations 訓(xùn)練過(guò)程中復(fù)用這個(gè)標(biāo)簽，其根本原因在于視覺(jué)領(lǐng)域模型訓(xùn)練過(guò)程數(shù)據(jù)增強(qiáng)的使用，尤其是 random-resize-cropping 這個(gè)圖像增強(qiáng)策略，導(dǎo)致不同 iteration 產(chǎn)生的輸入樣本即使來(lái)源于同一張圖片也可能來(lái)自不同區(qū)域的采樣，導(dǎo)致該樣本跟單個(gè)軟標(biāo)簽向量在不同 iterations 沒(méi)法很好的匹配。本文基于此，提出了一個(gè)快速知識(shí)蒸餾的設(shè)計(jì)，通過(guò)特定的編碼方式來(lái)處理需要的參數(shù)，繼而進(jìn)一步存儲(chǔ)復(fù)用軟標(biāo)簽（soft label），與此同時(shí)，使用分配區(qū)域坐標(biāo)的策略來(lái)訓(xùn)練目標(biāo)網(wǎng)絡(luò)。通過(guò)這種策略，整個(gè)訓(xùn)練過(guò)程可以做到顯式的 teacher-free，該方法的特點(diǎn)是既快（16%/30% 以上訓(xùn)練加速，對(duì)于集群上數(shù)據(jù)讀取緩慢的缺點(diǎn)尤其友好），又好（使用 ResNet-50 在 ImageNet-1K 上不使用額外數(shù)據(jù)增強(qiáng)可以達(dá)到 80.1% 的精度）。

首先我們來(lái)回顧一下普通的知識(shí)蒸餾結(jié)構(gòu)是如何工作的，如下圖所示：

知識(shí)蒸餾框架包含了一個(gè)預(yù)訓(xùn)練好的 teacher 模型（蒸餾過(guò)程權(quán)重固定），和一個(gè)待學(xué)習(xí)的 student 模型, teacher 用來(lái)產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)?？梢钥吹剑@個(gè)框架存在一個(gè)比較明顯的缺點(diǎn)：當(dāng) teacher 結(jié)構(gòu)大于 student 的時(shí)候，訓(xùn)練圖像前饋產(chǎn)生的計(jì)算開(kāi)銷已經(jīng)超過(guò) student，然而 teacher 權(quán)重并不是我們學(xué)習(xí)的目標(biāo)，導(dǎo)致這種計(jì)算開(kāi)銷本質(zhì)上是 “無(wú)用的”。本文的動(dòng)機(jī)正是在研究如何在知識(shí)蒸餾訓(xùn)練過(guò)程中避免或者說(shuō)重復(fù)利用這種額外的計(jì)算結(jié)果，該文章的解決策略是提前保存每張圖片不同區(qū)域的軟監(jiān)督信號(hào)（regional soft label）在硬盤上，訓(xùn)練 student 過(guò)程同時(shí)讀取訓(xùn)練圖片和標(biāo)簽文件，從而達(dá)到復(fù)用標(biāo)簽的效果。所以問(wèn)題就變成了：soft label 怎么來(lái)組織和存儲(chǔ)最為有效？請(qǐng)從原文中找到答案。

6. Google Brain提出基于Diffusion的新全景分割算法

原文:
https://mp.weixin.qq.com/s/CXMzZd0JP0XBJzEPhPmLvA
A Generalist Framework for Panoptic Segmentation of Images and Videos
標(biāo)題：
A Generalist Framework for Panoptic Segmentation of Images and Videos
作者：
Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet
原文鏈接：
https://arxiv.org/pdf/2210.06366.pdf

引言

首先回顧一下全景分割的設(shè)定。全景分割（PS，Panoptic Segmentation）的task format不同于經(jīng)典的語(yǔ)義分割，它要求每個(gè)像素點(diǎn)都必須被分配給一個(gè)語(yǔ)義標(biāo)簽（stuff、things中的各個(gè)語(yǔ)義）和一個(gè)實(shí)例id。具有相同標(biāo)簽和id的像素點(diǎn)屬于同一目標(biāo)；對(duì)于stuff標(biāo)簽，不需要實(shí)例id。與實(shí)例分割相比，目標(biāo)的分割必須是非重疊的（non-overlapping），因此對(duì)那些每個(gè)目標(biāo)單獨(dú)標(biāo)注一個(gè)區(qū)域是不同的。雖然語(yǔ)義標(biāo)簽的類類別是先驗(yàn)固定的，但分配給圖像中對(duì)象的實(shí)例 ID 可以在不影響識(shí)別的實(shí)例的情況下進(jìn)行排列。因此，經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)實(shí)例 ID 的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)W習(xí)一對(duì)多映射，從單個(gè)圖像到多個(gè)實(shí)例 ID 分配。一對(duì)多映射的學(xué)習(xí)具有挑戰(zhàn)性，傳統(tǒng)方法通常利用涉及對(duì)象檢測(cè)、分割、合并多個(gè)預(yù)測(cè)的多個(gè)階段的管道這有效地將一對(duì)多映射轉(zhuǎn)換為基于識(shí)別匹配的一對(duì)一映射。這篇論文的作者將全景分割任務(wù)制定為條件離散數(shù)據(jù)生成問(wèn)題，如下圖所示。本文是大名鼎鼎的Hinton參與的工作，非常有意思，又是基于diffusion model模式的生成模型來(lái)完成全景分割，將mask其視為一組離散標(biāo)記，以輸入圖像為條件，預(yù)測(cè)得到完整的分割信息。

全景分割的生成式建模非常具有挑戰(zhàn)性，因?yàn)槿把诖a是離散的，或者說(shuō)是有類別的，并且模型可能非常大。例如，要生成 512×1024 的全景掩碼，模型必須生成超過(guò) 1M 的離散標(biāo)記（語(yǔ)義標(biāo)簽和實(shí)例標(biāo)簽）。這對(duì)于自回歸模型來(lái)說(shuō)計(jì)算開(kāi)銷是比較大的，因?yàn)?token 本質(zhì)上是順序的，很難隨著輸入數(shù)據(jù)的規(guī)模變化而變化。擴(kuò)散模型更擅長(zhǎng)處理高維數(shù)據(jù)，但它們最常應(yīng)用于連續(xù)域而不是離散域。通過(guò)用模擬位表示離散數(shù)據(jù)，本文作者表明可以直接在大型全景分割上完成diffusion的訓(xùn)練，而不需要在latent space進(jìn)行學(xué)習(xí)。這樣就使得模型這對(duì)于自回歸模型來(lái)說(shuō)是昂貴的，因?yàn)樗鼈儽举|(zhì)上是順序的，隨著數(shù)據(jù)輸入的大小縮放不佳。diffusion model很擅長(zhǎng)處理高維數(shù)據(jù)，但它們最常應(yīng)用于連續(xù)而非離散域。通過(guò)用模擬位表示離散數(shù)據(jù)，論文表明可以直接在大型全景掩模上訓(xùn)練擴(kuò)散模型，而無(wú)需學(xué)習(xí)中間潛在空間。接下來(lái)，我們來(lái)介紹本文提出的基于擴(kuò)散的全景分割模型，描述其對(duì)圖像和視頻數(shù)據(jù)集的廣泛實(shí)驗(yàn)。在這樣做的過(guò)程中，論文證明了所提出的方法在類似設(shè)置中與最先進(jìn)的方法相比具有競(jìng)爭(zhēng)力，證明了一種新的、通用的全景分割方法。

方法

擴(kuò)散模型采樣是迭代的，因此在推理過(guò)程中必須多次運(yùn)行網(wǎng)絡(luò)的前向傳遞。因此，如上圖，論文的結(jié)構(gòu)主要分為兩個(gè)部分：1）圖像編碼器；2）mask的解碼器。前者將原始像素?cái)?shù)據(jù)映射到高級(jí)表示向量，然后掩模解碼器迭代地讀出全景掩模。

實(shí)驗(yàn)

來(lái)看實(shí)驗(yàn)結(jié)果：

在 MS-COCO 數(shù)據(jù)集上，Pix2Seq-D 在基于 ResNet-50 的主干上的泛化質(zhì)量（PQ）與最先進(jìn)的方法相比有一定的競(jìng)爭(zhēng)力。與最近的其他通用模型如 UViM 相比，本文的模型表現(xiàn)明顯更好，同時(shí)效率更高。

而在無(wú)監(jiān)督數(shù)據(jù)集DAVIS上，也有更優(yōu)的表現(xiàn)。

結(jié)論

本文基于離散全景蒙版的條件生成模型，提出了一種用于圖像和視頻全景分割的新型通用框架。通過(guò)利用強(qiáng)大的Bit Diffusion 模型，我們能夠?qū)Υ罅侩x散token建模，這對(duì)于現(xiàn)有的通用模型來(lái)說(shuō)是困難的。

———————End———————

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進(jìn)RT-Thread官方微信交流群！

愛(ài)我就給我點(diǎn)在看

點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)

原文標(biāo)題：【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

文章出處：【微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

RT-Thread

RT-Thread

+關(guān)注

關(guān)注
31

文章
1285

瀏覽量
40076

原文標(biāo)題：【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

文章出處：【微信號(hào)：RTThread，微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

直播預(yù)約 |開(kāi)源芯片系列講座第25期：RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)

與挑戰(zhàn)報(bào)告簡(jiǎn)介隨著以AI應(yīng)用為代表的高性能算力芯片應(yīng)用場(chǎng)景不斷產(chǎn)生多樣化需求，RISC-V架構(gòu)正依靠其開(kāi)放開(kāi)源的優(yōu)勢(shì)，成為算

發(fā)表于 12-13 17:01 ?90次閱讀

直播預(yù)約 |開(kāi)源芯片系列講座<b class='flag-5'>第</b>25<b class='flag-5'>期</b>：<b class='flag-5'>RISC-V</b>架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)

RISC-V，即將進(jìn)入應(yīng)用的爆發(fā)期

我們會(huì)迎來(lái)前所未見(jiàn)的AI軟件應(yīng)用，而RISC-V有望打造出下一代的AI引擎。” 達(dá)摩院院長(zhǎng)張建鋒此前在3月2024玄鐵RISC-V生態(tài)大會(huì)表示，隨著新型

發(fā)表于 10-31 16:06

RISC-V在AI領(lǐng)域的發(fā)展前景怎么樣？

隨著人工智能的不斷發(fā)展，現(xiàn)在的視覺(jué)機(jī)器人，無(wú)人駕駛等智能產(chǎn)品的不斷更新迭代，發(fā)現(xiàn)ARM占用很大的市場(chǎng)份額，推出的ARM Cortex M85性能也是杠杠的，不知道RISC-V在AI領(lǐng)域有哪些參考方案？

發(fā)表于 10-25 19:13

預(yù)售啟動(dòng)！昉·星光 2 AI套件正式發(fā)布，基于RISC-V構(gòu)建AI算力

10月24日，昉·星光2（VisionFive2）AI套件正式開(kāi)啟預(yù)售。該套件由中國(guó)RISC-V軟硬件生態(tài)領(lǐng)導(dǎo)者賽昉科技攜手邊緣人工智能(AI)處理器的領(lǐng)先芯片制造商Hailo共同推出

發(fā)表于 10-25 08:05 ?201次閱讀

預(yù)售啟動(dòng)！昉·星光 2 <b class='flag-5'>AI</b>套件正式發(fā)布，基于<b class='flag-5'>RISC-V</b>構(gòu)建<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>

RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫(kù)？

RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫(kù)？還請(qǐng)壇友們多多指教一下。

發(fā)表于 10-10 22:24

芯原聯(lián)合主辦RISC-V和生成式AI論壇

隨著生成式AI技術(shù)的快速演進(jìn)，相關(guān)應(yīng)用已開(kāi)始向各行業(yè)滲透，AI模型在云側(cè)進(jìn)行訓(xùn)練、端側(cè)進(jìn)行推理和微調(diào)時(shí)，產(chǎn)生了巨大的算

發(fā)表于 09-29 09:48 ?250次閱讀

Banana Pi BPI-F3 進(jìn)迭時(shí)空RISC-V架構(gòu)下，AI融合算力及其軟件棧實(shí)踐

面對(duì)未來(lái)大模型（LLM）、AIGC等智能化浪潮的挑戰(zhàn)，進(jìn)迭時(shí)空在RISC-V方向全面布局，通過(guò)精心設(shè)計(jì)的RISC-V DSA架構(gòu)以及軟硬一體的優(yōu)化策略，將全力為未來(lái)打造高效且易用的AI

發(fā)表于 09-07 14:01 ?1216次閱讀

Banana Pi BPI-F3 進(jìn)迭時(shí)空<b class='flag-5'>RISC-V</b>架構(gòu)下，<b class='flag-5'>AI</b>融合算<b class='flag-5'>力</b>及其軟件棧實(shí)踐

RISC-V最重要的方向是AI，但如何構(gòu)建RISC-V+AI生態(tài)系統(tǒng)？

普遍認(rèn)為RISC-V+AI是未來(lái)的大方向。在第四屆滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇上，圓桌論壇環(huán)節(jié)也著重聊到了RISC-V+AI這個(gè)話題。 ? 隨著AI落地的深入，應(yīng)用方面遇到的挑戰(zhàn)也隨

發(fā)表于 08-19 14:02 ?1195次閱讀

北京大學(xué)謝濤:基于RISC-V構(gòu)建AI算力的優(yōu)勢(shì)和兩種模式

電子發(fā)燒友網(wǎng)報(bào)道（文/吳子鵬）第四屆滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇上，北京大學(xué)講席教授、RISC-V國(guó)際基金會(huì)人工智能與機(jī)器學(xué)習(xí)專委會(huì)主席謝濤教授進(jìn)行了題為《萬(wàn)物智聯(lián)時(shí)代的RISC-V+AI算

發(fā)表于 08-19 10:41 ?1204次閱讀

RISC-V在中國(guó)的發(fā)展機(jī)遇有哪些場(chǎng)景？

聯(lián)網(wǎng)市場(chǎng)的重要參與者，擁有龐大的用戶基數(shù)和豐富的應(yīng)用場(chǎng)景。RISC-V在中國(guó)的發(fā)展將受益于這一市場(chǎng)需求的增長(zhǎng)。 2. 人工智能（AI） AI算力

發(fā)表于 07-29 17:14

科華數(shù)據(jù)攜手希姆計(jì)算，推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI算力快速發(fā)展

的AI服務(wù)，滿足各行各業(yè)對(duì)AI算力和AI解決方案的需求。同時(shí)，基于希姆計(jì)算的開(kāi)源RISC-V

發(fā)表于 06-30 08:36 ?544次閱讀

科華數(shù)據(jù)攜手希姆計(jì)算，推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI算力快速發(fā)展

的AI服務(wù)，滿足各行各業(yè)對(duì)AI算力和AI解決方案的需求。同時(shí)，基于希姆計(jì)算的開(kāi)源RISC-V

發(fā)表于 06-26 08:36 ?542次閱讀

risc-v多核芯片在AI方面的應(yīng)用

得RISC-V多核芯片能夠更好地適應(yīng)AI算法的不同需求，包括深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等，從而提高芯片的性能和效率，降低成本，使AI邊緣計(jì)算晶片更具競(jìng)爭(zhēng)力

發(fā)表于 04-28 09:20

解鎖RISC-V技術(shù)力量丨曹英杰：RISC-V與大模型探索

4月12日，第二期“大家來(lái)談芯|解鎖RISC-V技術(shù)力量”在上海臨港新片區(qū)頂科永久會(huì)址舉辦，本期沙龍聚焦RISC-V技術(shù)，圍繞AI時(shí)代的RISC-V

發(fā)表于 04-16 08:16 ?696次閱讀

RISC-V廠商正在AI領(lǐng)域積極布局！

、精簡(jiǎn)、可拓展的優(yōu)勢(shì)，為發(fā)展高性能、低功耗的邊緣側(cè)、端側(cè)AI推理芯片提供了充足空間。 ? AI

發(fā)表于 04-09 00:13 ?4452次閱讀

RM新时代网站-首页

搜索歷史

【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

1. ChatGPT爆火背后：AI 芯片迎接算力新挑戰(zhàn)

2. 不出所料，自動(dòng)駕駛向ChatGPT下手了！

3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V

4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架：ResNet50 80.1%精度，訓(xùn)練加速30%

6. Google Brain提出基于Diffusion的新全景分割算法

評(píng)論

直播預(yù)約 |開(kāi)源芯片系列講座第25期：RISC-V架構(gòu)在高性能領(lǐng)域的進(jìn)展與挑戰(zhàn)

RISC-V，即將進(jìn)入應(yīng)用的爆發(fā)期

RISC-V在AI領(lǐng)域的發(fā)展前景怎么樣？

預(yù)售啟動(dòng)！昉·星光 2 AI套件正式發(fā)布，基于RISC-V構(gòu)建AI算力

RISC-V如何支持不同的AI和機(jī)器學(xué)習(xí)框架和庫(kù)？

芯原聯(lián)合主辦RISC-V和生成式AI論壇

Banana Pi BPI-F3 進(jìn)迭時(shí)空RISC-V架構(gòu)下，AI融合算力及其軟件棧實(shí)踐

RISC-V最重要的方向是AI，但如何構(gòu)建RISC-V+AI生態(tài)系統(tǒng)？

北京大學(xué)謝濤:基于RISC-V構(gòu)建AI算力的優(yōu)勢(shì)和兩種模式

RISC-V在中國(guó)的發(fā)展機(jī)遇有哪些場(chǎng)景？

科華數(shù)據(jù)攜手希姆計(jì)算，推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI算力快速發(fā)展

科華數(shù)據(jù)攜手希姆計(jì)算，推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI算力快速發(fā)展

risc-v多核芯片在AI方面的應(yīng)用

解鎖RISC-V技術(shù)力量丨曹英杰：RISC-V與大模型探索

RISC-V廠商正在AI領(lǐng)域積極布局！

搜索歷史

【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

1. ChatGPT爆火背后：AI芯片迎接算力新挑戰(zhàn)

2. 不出所料，自動(dòng)駕駛向ChatGPT下手了！

3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V

4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架：ResNet50 80.1%精度，訓(xùn)練加速30%

6. Google Brain提出基于Diffusion的新全景分割算法

評(píng)論

【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

1. ChatGPT爆火背后：AI 芯片迎接算力新挑戰(zhàn)

2. 不出所料，自動(dòng)駕駛向ChatGPT下手了！

4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架：ResNet50 80.1%精度，訓(xùn)練加速30%