rm新时代理财官网有限公司,RM新时代平台靠谱平台入口

與2D視覺和NLP相比，基于基礎(chǔ)的視覺計算在3D社區(qū)中發(fā)展滯后。提出以下問題：是什么使得3D表示學(xué)習(xí)比2D視覺或NLP更具挑戰(zhàn)性？

深度學(xué)習(xí)的成功在很大程度上依賴于具有全面標簽的大規(guī)模數(shù)據(jù)，在獲取3D數(shù)據(jù)方面比2D圖像或自然語言更昂貴且耗時。這促使我們有可能利用用于不同模態(tài)知識轉(zhuǎn)移的以3D數(shù)據(jù)為基礎(chǔ)的預(yù)訓(xùn)練模型作為教師。

本文以統(tǒng)一的知識蒸餾方式重新考慮了掩碼建模，并且展示了基于2D圖像或自然語言預(yù)訓(xùn)練的基礎(chǔ)Transformer模型如何通過訓(xùn)練作為跨模態(tài)教師的自編碼器（ACT）來幫助無監(jiān)督學(xué)習(xí)的3D表示學(xué)習(xí)。

本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí)，而無需訪問任何2D、語言數(shù)據(jù)或3D下游標注。

筆者個人體會

這篇論文的動機是解決3D數(shù)據(jù)表示學(xué)習(xí)中存在的挑戰(zhàn)，即3D數(shù)據(jù)與2D圖像或語言具有不同的結(jié)構(gòu)，使得在細粒度知識的關(guān)聯(lián)方面存在困難。作者希望通過自監(jiān)督學(xué)習(xí)的方式，將來自圖像領(lǐng)域的豐富知識應(yīng)用于3D數(shù)據(jù)的表示學(xué)習(xí)中，從而提高3D任務(wù)的性能。作者提出一種自監(jiān)督學(xué)習(xí)框架，用于跨模態(tài)的知識傳遞和特征蒸餾，以改善3D數(shù)據(jù)的表示學(xué)習(xí)和下游任務(wù)性能。

核心創(chuàng)新點是框架中的ACT（Autoencoding Cross-Transformers），它將預(yù)訓(xùn)練的基礎(chǔ)Transformer模型轉(zhuǎn)化為跨模態(tài)的3D教師模型，并通過自編碼和掩碼建模將教師模型的特征蒸餾到3D Transformer學(xué)生模型中。

作者通過以下方式設(shè)計和實現(xiàn)ACT框架：

首先，使用3D自編碼器將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為3D教師模型。這個自編碼器通過自監(jiān)督訓(xùn)練從3D數(shù)據(jù)中學(xué)習(xí)特征表示，并生成語義豐富的潛在特征。
接著，設(shè)計了掩碼建模方法，其中教師模型的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標。學(xué)生模型通過優(yōu)化掩碼建模任務(wù)來學(xué)習(xí)表示，以捕捉3D數(shù)據(jù)中的重要特征。
使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型，因為它們在2D圖像領(lǐng)域表現(xiàn)出色，并且作者認為它們可以學(xué)習(xí)遷移的3D特征。

ACT框架包括以下主要部分：

預(yù)訓(xùn)練的2D圖像或語言Transformer：作為基礎(chǔ)Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎(chǔ)模型，例如Vision Transformers (ViTs) 或者語言模型（如BERT）。

訓(xùn)練：使用大規(guī)模的2D圖像或語言數(shù)據(jù)集進行預(yù)訓(xùn)練，通過自監(jiān)督學(xué)習(xí)任務(wù)（如自編碼器或掩碼建模）來學(xué)習(xí)模型的特征表示能力。
3D自動編碼器：通過自監(jiān)督學(xué)習(xí)，將2D圖像或語言Transformer調(diào)整為3D自動編碼器，用于學(xué)習(xí)3D幾何特征。作者將預(yù)訓(xùn)練的2D圖像或語言Transformer模型轉(zhuǎn)換為3D自動編碼器。通過將2D模型的參數(shù)復(fù)制到3D模型中，并添加適當(dāng)?shù)膶踊蚰K來處理3D數(shù)據(jù)。

使用3D數(shù)據(jù)集進行自監(jiān)督學(xué)習(xí)，例如預(yù)測點云數(shù)據(jù)的遮擋部分、點云重建或其他3D任務(wù)。通過自監(jiān)督學(xué)習(xí)任務(wù)，3D自動編碼器可以學(xué)習(xí)到3D數(shù)據(jù)的幾何特征。
跨模態(tài)教師模型：將預(yù)訓(xùn)練的3D自動編碼器作為跨模態(tài)教師模型，通過掩碼建模的方式將潛在特征傳遞給3D Transformer學(xué)生模型。

特征傳遞：通過掩碼建模的方式，將3D自動編碼器的潛在特征傳遞給3D Transformer學(xué)生模型。教師模型生成的潛在特征被用作學(xué)生模型的蒸餾目標，以引導(dǎo)學(xué)生模型學(xué)習(xí)更好的3D表示。
3D Transformer學(xué)生模型：接收來自教師模型的潛在特征，并用于學(xué)習(xí)3D數(shù)據(jù)的表示。

特征蒸餾：學(xué)生模型通過特征蒸餾的方式，利用教師模型的潛在特征作為監(jiān)督信號，從而學(xué)習(xí)到更準確和具有豐富語義的3D表示。

這種設(shè)計和實現(xiàn)帶來了多個好處：

ACT框架能夠?qū)崿F(xiàn)跨模態(tài)的知識傳遞，將來自圖像領(lǐng)域的知識應(yīng)用于3D數(shù)據(jù)中的表示學(xué)習(xí)，提高了3D任務(wù)的性能。
通過使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型，ACT能夠利用圖像領(lǐng)域已有的豐富特征表示，提供更有語義的特征編碼。
自編碼和掩碼建模任務(wù)使得學(xué)生模型能夠通過無監(jiān)督學(xué)習(xí)捕捉3D數(shù)據(jù)中的重要特征，從而更好地泛化到不同的下游任務(wù)。

總的來說，ACT框架的核心創(chuàng)新在于將自監(jiān)督學(xué)習(xí)和特征蒸餾方法應(yīng)用于3D數(shù)據(jù)中，實現(xiàn)了知識傳遞和表示學(xué)習(xí)的改進，為跨模態(tài)學(xué)習(xí)和深度學(xué)習(xí)模型的發(fā)展提供了新的思路和方法。

摘要

深度學(xué)習(xí)的成功在很大程度上依賴于具有全面標簽的大規(guī)模數(shù)據(jù)，在獲取3D數(shù)據(jù)方面比2D圖像或自然語言更昂貴且耗時。這促使我們有可能利用用于不同模態(tài)知識轉(zhuǎn)移的以3D數(shù)據(jù)為基礎(chǔ)的預(yù)訓(xùn)練模型作為教師。

本文以統(tǒng)一的知識蒸餾方式重新考慮了掩碼建模，并且展示了基于2D圖像或自然語言預(yù)訓(xùn)練的基礎(chǔ)Transformer模型如何通過訓(xùn)練作為跨模態(tài)教師的自編碼器（ACT）來幫助無監(jiān)督學(xué)習(xí)的3D表示學(xué)習(xí)。

預(yù)訓(xùn)練的Transformer模型通過使用離散變分自編碼的自監(jiān)督來作為跨模態(tài)的3D教師進行轉(zhuǎn)移，在此過程中，Transformer模型被凍結(jié)并進行提示調(diào)整，以實現(xiàn)更好的知識傳承。
由3D教師編碼的潛在特征被用作掩碼點建模的目標，其中暗知識被提煉到作為基礎(chǔ)幾何理解的3D Transformer學(xué)生中。

預(yù)訓(xùn)練的ACT 3D學(xué)習(xí)者在各種下游基準測試中實現(xiàn)了最先進的泛化能力，例如在ScanObjectNN上的％整體準確率。

圖1 ACT框架的概述。

（a）ACT利用在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的Transformer模型，例如使用2D圖像預(yù)訓(xùn)練的ViT或使用語言預(yù)訓(xùn)練的BERT。

（b）ACT的第一階段（第4.1節(jié)），預(yù)訓(xùn)練的Transformer模型通過帶提示的自監(jiān)督3D自編碼進行微調(diào)。

（c）ACT的第二階段（第4.2節(jié)），3D自編碼器編碼器被用作跨模態(tài)教師，將潛在特征編碼為掩碼點建模目標，用于3D Transformer學(xué)生的表示學(xué)習(xí)。

一、引言

近年來，數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)在人工智能系統(tǒng)中得到廣泛應(yīng)用。計算硬件的進步極大地推動了機器智能的發(fā)展，并促進了一種新興的范式，即基于廣泛數(shù)據(jù)訓(xùn)練的模型的知識轉(zhuǎn)移。

自然語言處理 (NLP) 取得了巨大的成功，其中的模型旨在通過對極大規(guī)模數(shù)據(jù)進行自監(jiān)督學(xué)習(xí)來獲取通用表示。
自從Transformer在視覺領(lǐng)域取得成功后，人們已經(jīng)做出了許多努力，將這種趨勢從NLP領(lǐng)域擴展到基于2D視覺理解的基礎(chǔ)模型中。

與2D視覺和NLP相比，基于基礎(chǔ)的視覺計算在3D社區(qū)中發(fā)展滯后。提出以下問題：是什么使得3D表示學(xué)習(xí)比2D視覺或NLP更具挑戰(zhàn)性？

從以下三個角度提供一些分析性答案：

i. 架構(gòu)不統(tǒng)一。先驅(qū)性架構(gòu)如PointNet只能對3D坐標進行編碼，而無法應(yīng)用于在NLP和2D視覺中取得成功的掩碼去噪自編碼（DAE）。然而，Transformer架構(gòu)現(xiàn)在已經(jīng)彌補了這種架構(gòu)上的差距，實現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示，并為擴展3D中的DAE帶來了巨大潛力。

ii. 數(shù)據(jù)稀缺。與圖像和自由形式語言相比，收集和標注3D或4D數(shù)據(jù)更加困難，通常需要更昂貴且密集的工作。此外，考慮到數(shù)據(jù)規(guī)模，3D數(shù)據(jù)嚴重匱乏。這促使了跨模態(tài)知識轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進行聯(lián)合訓(xùn)練以實現(xiàn)更有效的對比，要么直接對在圖像數(shù)據(jù)上預(yù)訓(xùn)練的2D Transformers進行微調(diào)。

iii. 模式差異。表1顯示了語言、2D圖像和3D點云的數(shù)據(jù)模式比較?？梢杂^察到：

（i）3D點云通常是非結(jié)構(gòu)化的，包含稀疏語義，不同于語言。這導(dǎo)致在點云上進行掩碼去噪自編碼更加困難；
（ii）2D圖像在網(wǎng)格上均勻分布，而3D點云則是從對象表面不規(guī)則采樣。這種結(jié)構(gòu)上的差異導(dǎo)致了單模態(tài)增強和跨模態(tài)對應(yīng)的對比目標構(gòu)建的困難；
（iii）如何設(shè)計具有豐富語義的更好表示成為自監(jiān)督3D理解的主要目標。

在上述分析的推動下，作者提出了將Autoencoders作為跨模態(tài)教師進行訓(xùn)練。

ACT利用基于2D圖像或自然語言預(yù)訓(xùn)練的基礎(chǔ)Transformers作為跨模態(tài)教師，具有豐富的知識和強大的表示能力。通過這種方式，3D中的數(shù)據(jù)稀缺問題得到緩解。
Transformer被用作通用的3D學(xué)習(xí)器，彌補了掩碼建模表示學(xué)習(xí)方面的架構(gòu)差距。通過以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練的Transformers作為自編碼器，Transformers可以將3D點云轉(zhuǎn)化為具有豐富語義的表示形式。為了保留和繼承預(yù)訓(xùn)練的基礎(chǔ)知識，使用了提示微調(diào)。

因此，ACT使預(yù)訓(xùn)練的Transformers成為自發(fā)的跨模態(tài)教師，為3D點云提供了語義豐富的掩碼建模目標。

由于預(yù)訓(xùn)練的Transformers被微調(diào)為3D自編碼器，在這種跨模態(tài)Transformer轉(zhuǎn)移過程中不需要任何圖像、語言數(shù)據(jù)或3D下游標注。
此外，由于調(diào)整后的Transformers僅用作3D Transformer學(xué)生的教師，該方法在下游特征轉(zhuǎn)移過程中不會引入額外的計算或存儲成本。

此外，進行了各種任務(wù)的大量實驗證明了ACT預(yù)訓(xùn)練3D Transformers具有出色的泛化性能。

例如，在ScanObjectNN數(shù)據(jù)集上實現(xiàn)了平均準確率提高%。

據(jù)知，本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí)，而無需訪問任何2D、語言數(shù)據(jù)或3D下游標注。ACT是一個自監(jiān)督的框架，可以推廣到其他模態(tài)和任務(wù)，期望這能夠推動更多類似ACT風(fēng)格的表示學(xué)習(xí)的探索。

表1: 數(shù)據(jù)模式比較

二、相關(guān)背景

自監(jiān)督的3D幾何處理表示學(xué)習(xí)

自監(jiān)督的3D幾何處理表示學(xué)習(xí)目前在學(xué)術(shù)界引起了極大的興趣。

傳統(tǒng)方法是基于重建的幾何理解預(yù)任務(wù)構(gòu)建的，例如點云部分重排序，方向估計，局部和全局重建，流一致性，變形和遮擋。
與此同時，Xie等人在PointContrast中提出了學(xué)習(xí)增強點云之間的區(qū)分性視角一致性的方法。在這個方向上，還提出了許多相關(guān)工作。

最近，許多工作提出了應(yīng)用點云Transformer的自編碼器（DAE）預(yù)訓(xùn)練的方法，并取得了顯著的成功。

Yu等人通過擴展BERT-style預(yù)訓(xùn)練的思想，結(jié)合全局對比目標，開創(chuàng)了這個方向。
Liu等人提出了添加一些噪聲點，并對每個掩碼位置的掩碼標記進行真假分類的方法，這與Selfie的模式相似，后者對掩碼圖像塊進行真假分類。
Pang等人提出了通過對3D點云坐標進行掩碼建模，在點云上探索MAE的方法。

作者遵循這種DAE-style表示學(xué)習(xí)范式，但與之前的方法不同，工作旨在使用由預(yù)訓(xùn)練基礎(chǔ)Transformer編碼的潛在特征作為掩碼建模目標。

跨模態(tài)的3D表示學(xué)習(xí)

跨模態(tài)的3D表示學(xué)習(xí)旨在利用除了3D點云之外的更多模態(tài)內(nèi)在的學(xué)習(xí)信號，例如，2D圖像被認為具有豐富的上下文和紋理知識，而自由形式的語言則具有密集的語義信息。主流方法基于全局特征匹配的對比學(xué)習(xí)進行開發(fā)。

例如，Jing等人提出了一種判別性中心損失函數(shù)，用于點云、網(wǎng)格和圖像的特征對齊。
Afham等人提出了一種在增強的點云和相應(yīng)渲染的2D圖像之間進行的模態(tài)內(nèi)和模態(tài)間對比學(xué)習(xí)框架。

通過利用幾何先驗信息進行密集關(guān)聯(lián)，另一項工作探索了細粒度的局部特征匹配。

Liu等人提出了一種對比知識蒸餾方法，用于對齊細粒度的2D和3D特征。
Li等人提出了一個簡單的對比學(xué)習(xí)框架，用于模態(tài)內(nèi)和模態(tài)間的密集特征對比，并使用匈牙利算法進行更好的對應(yīng)。

最近，通過直接使用經(jīng)過監(jiān)督微調(diào)的預(yù)訓(xùn)練2D圖像編碼器取得了很大的進展。

Image2Point 提出了通過卷積層膨脹來傳遞預(yù)訓(xùn)練權(quán)重的方法。
P2P 提出了將3D點云投影到2D圖像，并通過可學(xué)習(xí)的上色模塊將其作為圖像主干網(wǎng)絡(luò)的輸入。

一些工作也探索了預(yù)訓(xùn)練基礎(chǔ)模型是否可以幫助3D學(xué)習(xí)。然而，本文作者的方法：

（1）不使用預(yù)訓(xùn)練的2D或語言模型作為推斷的主干模型；

（2）在無下游3D標注的自監(jiān)督預(yù)訓(xùn)練過程中探索使用來自其他模態(tài)的預(yù)訓(xùn)練基礎(chǔ)模型；

（3）不需要成對的點-圖像或點-語言數(shù)據(jù)。

除了2D圖像之外，還有一些工作提出利用自然語言進行對比的3D表示學(xué)習(xí)，零樣本學(xué)習(xí)，以及場景理解。

三、預(yù)備知識

3.1 基于`Transformer`的3D點云表示

與規(guī)則網(wǎng)格上的圖像不同，點云被認為是不規(guī)則和結(jié)構(gòu)較弱的。許多工作致力于為點云數(shù)據(jù)設(shè)計深度學(xué)習(xí)架構(gòu)，利用點集的排列和平移不變性進行特征學(xué)習(xí)。

不僅僅依賴于這樣的專門主干，還利用Transformer主干，這樣更容易與其他模態(tài)（如圖像和語言）統(tǒng)一，并促進跨模態(tài)的知識傳遞。
使用專門的點網(wǎng)絡(luò)計算局部幾何塊嵌入，并將其饋送給Transformer以輸出更有效的幾何表示。

局部幾何塊嵌入

假設(shè)有一個點云，其中N個坐標編碼在笛卡爾空間中，

按照Yu等人（2022）的方法，首先使用最遠點采樣（FPS）選擇個種子點。
然后將點云 P 分組為個鄰域，其中種子點集的中心作為組的中心。每個鄰域包含 K 個點，這些點是通過搜索對應(yīng)種子點的K個最近鄰點生成的。
在每個種子點周圍計算局部幾何特征，通過在鄰域內(nèi)對每個點的特征進行最大池化得到：

其中：

是一個具有參數(shù) 的點特征提取器，例如中的逐點MLP，是鄰域中第 j 個鄰點的特征。
將鄰域特征作為標記特征，用于輸入接下來的Transformer塊。

Transformer點特征編碼

使用標準的Transformer塊作為編碼器，進一步轉(zhuǎn)換局部塊嵌入，其中C是嵌入大小。

按照Yu等人的方法，使用一個具有可學(xué)習(xí)參數(shù)ρ的兩層MLP 作為位置嵌入，應(yīng)用于每個塊以實現(xiàn)穩(wěn)定的訓(xùn)練。

式中，MSA表示多頭自注意的交替層，LN表示分層范數(shù)，MLP為兩層，其中GELU為非線性。是一種可學(xué)習(xí)的全局表示嵌入，以作為其可學(xué)習(xí)的位置嵌入。

3.2 知識蒸餾：掩碼建模的統(tǒng)一視角

掩碼建?？梢钥醋魇墙?jīng)典自編碼器（DAE）的擴展，其中采用了掩碼損失，最近已經(jīng)在語言模型和視覺領(lǐng)域進行了探索。

形式上，給定一個由個 token 組成的序列，例如RGB圖像或點云數(shù)據(jù)的標記嵌入。
目標是訓(xùn)練一個學(xué)生編碼器來預(yù)測/重建來自教師編碼器的輸出，其中教師可以是離散變分自編碼器（dVAE）或簡單的恒等映射。

通過這種方式，學(xué)生在教師的指導(dǎo)下學(xué)習(xí)數(shù)據(jù)中的深層知識。

為了損壞輸入數(shù)據(jù)，為每個位置生成一組掩碼，指示標記是否被掩碼。
使用可學(xué)習(xí)的損壞嵌入來替換被掩碼的位置，將損壞的表示輸入到編碼器或解碼器。這里，表示Hadamard乘積，是指示函數(shù)。

在某個度量空間中定義了距離函數(shù) ，作為解碼器，目標是最小化以下距離：

解碼器隨著建模目標的不同而變化，例如，它是BERT的非線性投影，帶有softmax ，其中度量函數(shù)變成交叉熵?？梢钥醋魇茄谀＝５慕y(tǒng)一公式。

因此，考慮如何在掩碼3D建模中建立一個知識淵博的老師是很自然的。作者的想法是利用2D或語言基礎(chǔ)模型中的跨模式教師。

四、`ACT`: 自編碼器作為跨模態(tài)教師

目標是通過預(yù)訓(xùn)練的2D圖像或語言Transformer來促進3D表示學(xué)習(xí)，該模型具備從大規(guī)模數(shù)據(jù)中吸收的深層知識。

然而，3D點云與2D圖像或語言具有不同的結(jié)構(gòu)，這使得細粒度知識的關(guān)聯(lián)變得困難。

為了解決這個問題，采用了一個兩階段的訓(xùn)練過程。ACT框架的概述如圖1所示。

階段I：調(diào)整預(yù)訓(xùn)練的2D或語言Transformer作為3D自編碼器，通過自監(jiān)督的提示調(diào)整來學(xué)習(xí)理解3D幾何。
階段II：使用預(yù)訓(xùn)練的3D自編碼器作為跨模態(tài)教師，通過掩碼建模將潛在特征蒸餾到3D點云Transformer學(xué)生中。

4.1 3D自編碼與預(yù)訓(xùn)練基礎(chǔ)Transformer

Transformer是最近在各個領(lǐng)域中主導(dǎo)的架構(gòu)，可以以統(tǒng)一的方式對任何模態(tài)的序列數(shù)據(jù)進行建模。

因此，可以直接使用預(yù)訓(xùn)練的Transformer塊，將順序標記與輸入點云的3D位置嵌入一起進行輸入。
本文使用輕量級的DGCNN對點云進行處理，其中的邊緣卷積層通過參數(shù) 表示。

跨模態(tài)嵌入與提示

首先，使用DGCNN風(fēng)格的補丁嵌入網(wǎng)絡(luò)對點云進行編碼，產(chǎn)生一組標記嵌入：。
然后，通過提示這些標記嵌入，并將其輸入到預(yù)訓(xùn)練且凍結(jié)的Transformer塊的D層中，例如2D Transformer：。在這里，使用來表示 2DTransformer 的第層。

使用個可學(xué)習(xí)的提示嵌入，應(yīng)用于Transformer 的每一層。具體來說，Transformer的第層將隱含表示從第層轉(zhuǎn)換為，如下所示:

使用這種參數(shù)高效的快速調(diào)整策略，能夠調(diào)整預(yù)訓(xùn)練的基礎(chǔ)Transformer，同時保留盡可能多的預(yù)訓(xùn)練知識。

點云自編碼

另一個DGCNN網(wǎng)絡(luò) 用于從基礎(chǔ)Transformer嵌入的隱藏表示中提取局部幾何特征。然后，利用FoldingNet 對輸入點云進行重構(gòu)。

將以上3D自編碼器作為離散變分自編碼器（dVAE）進行訓(xùn)練，以最大化對數(shù)似然。這里表示原始和重構(gòu)的點云。

整體優(yōu)化目標是最大化證據(jù)下界（ELBO），當(dāng)時成立：

其中：

表示離散的3D dVAE tokenizer；
是給定離散點標記的dVAE解碼器；
以自編碼方式重構(gòu)輸入點云。

4.2 掩碼點建模作為跨模態(tài)的知識蒸餾

通過訓(xùn)練3D自編碼器，預(yù)訓(xùn)練Transformer的強表示被轉(zhuǎn)化為3D特征空間，使自編碼器自動成為一個跨模態(tài)教師。

將在4.1節(jié)中介紹的預(yù)訓(xùn)練點云編碼器作為教師，將3D Transformer 作為學(xué)生。

通過掩碼建模作為跨模態(tài)知識蒸餾，最小化編碼后的教師特征與學(xué)生特征之間的負余弦相似度 :

五、實驗

5.1下游任務(wù)遷移學(xué)習(xí)

遷移學(xué)習(xí)設(shè)置

在分類任務(wù)中使用遷移學(xué)習(xí)的三種變體:

(a) FULL: 通過更新所有骨干和分類頭來微調(diào)預(yù)訓(xùn)練模型。

(b) MLP- linear: 分類頭是單層線性MLP，只在微調(diào)時更新該分類頭參數(shù)。

3D真實數(shù)據(jù)集分類

首先展示了在具有挑戰(zhàn)性的現(xiàn)實數(shù)據(jù)集ScanObjectNN上對3D形狀識別的評估。結(jié)果如表2所示，其中可以觀察到:

(i) 與FULL調(diào)優(yōu)協(xié)議下從頭開始的Transformer基線相比，ACT在三個不同的ScanObjectNN基準測試上平均獲得了+10.4%的顯著改進。此外，通過簡單的點云旋轉(zhuǎn)，ACT實現(xiàn)了+11.9%的平均改進;

(ii) 與明確以三維幾何理解為目的設(shè)計的方法相比，ACT`始終取得更好的結(jié)果。

(iii) 與其他自監(jiān)督學(xué)習(xí)(SSL)方法相比，在ScanObjectNN上，ACT在所有方法中實現(xiàn)了最好的泛化。此外，在ScanObjectNN上使用純3D Transformer架構(gòu)的方法中，ACT成功地達到了最先進(SOTA)的性能，例如，在最具挑戰(zhàn)性的PB_T50_RS基準測試中，ACT比Point-MAE的準確率高出+3.0%。

表2:ScanObjectNN上的分類結(jié)果。our1:沒有數(shù)據(jù)增強的訓(xùn)練結(jié)果。

Ours2:簡單點云旋轉(zhuǎn)訓(xùn)練的結(jié)果。DA:在微調(diào)訓(xùn)練期間使用數(shù)據(jù)增強。報告總體精度，即OA(%)。

3D場景分割

大規(guī)模3D場景的語義分割具有挑戰(zhàn)性，需要對上下文語義和局部幾何關(guān)系的理解。在表4中，報告了S3DIS數(shù)據(jù)集的結(jié)果?？梢钥吹?

(i) ACT顯著提高了從零開始的基線，mAcc和mIoU分別提高了+2.5%和+1.2%。

(ii) ACT比SSL對應(yīng)的Point-MAE分別高出+1.2%和+0.4%的mAcc和mIoU，在大場景數(shù)據(jù)集上顯示出優(yōu)越的傳輸能力。

(iii) 僅使用幾何輸入xyz, ACT可以實現(xiàn)與使用xyz+rgb數(shù)據(jù)進行細致設(shè)計的架構(gòu)相當(dāng)或更好的性能，包括3d特定的Transformer架構(gòu)。

表4:S3DIS區(qū)域5上的語義分割結(jié)果。報告了所有類別的平均準確性和平均IoU，即mAcc(%)和mIoU(%)。使用Xyz:點云坐標。xyz+rgb:同時使用坐標和rgb顏色。

3D合成數(shù)據(jù)集分類

展示了在合成數(shù)據(jù)集ModelNet40上對三維形狀分類的評估。為了證明在有限的訓(xùn)練樣例下ACT的數(shù)據(jù)效率特性，首先遵循Sharma & Kaul(2020)來評估 few-shot 學(xué)習(xí)。

從表5中，可以看到:

(i) 與從頭開始的FULL轉(zhuǎn)移基線相比，ACT在四種設(shè)置下分別帶來了+9.0%，+4.7%，+8.7%，+6.2%的顯著改進。

(ii) 與其他SSL方法相比，ACT始終實現(xiàn)最佳性能。

然后，在表3中展示了完整數(shù)據(jù)集上的結(jié)果，在表3中我們觀察到，與FULL協(xié)議下的從頭基線相比，ACT實現(xiàn)了+2.5%的準確率提高，并且結(jié)果與所有協(xié)議中的其他自監(jiān)督學(xué)習(xí)方法相當(dāng)或更好。

表3:ModelNet40數(shù)據(jù)集上的分類結(jié)果。報告總體精度，即OA(%)。[ST]:標準Transformer架構(gòu)。

表5:在ModelNet40上的Few-shot分類，報告了總體準確率(%)。

5.2 消融研究

解碼器深度

表6展示了使用不同解碼器深度的ACT在ScanObjectNN上的平均微調(diào)準確率?？梢钥闯觯阅軐獯a器深度不敏感，我們發(fā)現(xiàn)具有2個塊的解碼器取得了最高的結(jié)果。

需要注意的是，當(dāng)解碼器深度為0時，我們采用了類似BERT的掩碼建模架構(gòu)，其中沒有解碼器，編碼器可以看到所有的標記，包括被掩碼的標記。
我們發(fā)現(xiàn)這導(dǎo)致了較差的結(jié)果，與在2D上觀察到的數(shù)據(jù)的低語義性需要一個非平凡解碼器的觀察一致。

表6: 預(yù)訓(xùn)練解碼器深度的消融研究。

圖2: 掩碼比消融研究和跨模 Transformer 教師選擇。

掩碼策略和教師選擇

圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調(diào)準確率。

可以觀察到，使用隨機掩碼的較高掩碼比例會產(chǎn)生更好的結(jié)果，而塊掩碼則對較低掩碼比例更為適用。
需要注意的是，當(dāng)掩碼比例為零時，對所有標記使用基準知識蒸餾，并且導(dǎo)致性能較差。
圖2(b)展示了使用不同教師Transformer的ACT在ScanObjectNN上的平均微調(diào)準確率，包括Vision Transformers、全MLP架構(gòu)、語言模型和視覺語言模型。觀察到較大的教師模型始終能夠獲得更好的性能。

此外，令人驚訝的是，ACT使用語言模型BERTB（即BERTbase）作為跨模態(tài)教師，可以達到平均準確率85.12±0.54%（最高可達85.88%），這表明ACT可以推廣到任何模態(tài)。

表7: dVAE標記器不同訓(xùn)練策略的消融研究。

報告了F-Score，使用l1范數(shù)和l2范數(shù)的倒角距離，即CD- l1和CD- l2

3D自編碼器訓(xùn)練

表7展示了使用預(yù)訓(xùn)練的2D圖像Transformer進行不同訓(xùn)練配置的3D自編碼器的重構(gòu)結(jié)果。觀察到：

(i)帶有預(yù)訓(xùn)練圖像Transformer的3D dVAE模型在重構(gòu)結(jié)果上明顯優(yōu)于Point-BERT。這表明預(yù)訓(xùn)練的2D圖像Transformer具有強大的對3D的表示能力。

(ii) 提示調(diào)整或凍結(jié)模型可以獲得比完全調(diào)整更好的結(jié)果，我們認為這是因為某些預(yù)訓(xùn)練的2D知識被遺忘了，而提示調(diào)整有效地解決了這個問題。重構(gòu)可視化結(jié)果可以在附錄D中找到。

六、討論

6.1 是所需要更強大的標記器嗎?

為了了解預(yù)訓(xùn)練的2D圖像Transformer在3D dVAE模型中的必要性，我們用不同的dVAE教師和掩模建模配置進行了實驗。

從表8中，可以看到:

(i) 當(dāng)使用沒有預(yù)訓(xùn)練的2D圖像變壓器的Point-BERT dVAE模型時，通過提取潛在特征而不是離散令牌，可以實現(xiàn)+0.62%的改進。分析認為，離散令牌識別學(xué)習(xí)起來更具挑戰(zhàn)性3D數(shù)據(jù)。

(ii) 當(dāng)使用Point-BERT離散標記作為掩碼建模目標時，通過應(yīng)用帶有預(yù)訓(xùn)練2D圖像Transformer的dVAE模型，得到了最差的性能。這表明，無論標記器有多強大，離散標記都不適用于語義稀疏的點云數(shù)據(jù)。

(iii) 當(dāng)使用ACT時，性能顯著提高。這表明，帶有預(yù)訓(xùn)練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語義的特征，更適合于掩碼點建模。

表10: 二維圖像轉(zhuǎn)換器在dVAE模型中不同位置嵌入的研究。

(a)無:不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標的位置嵌入。

(c) 3D:所有3D xyz坐標的位置嵌入。

報告了F-Score，使用l1范數(shù)和l2范數(shù)的倒角距離，即CD- l1和CD-l2，以及ScanObjectNN上的OA。

6.2 `ACT`是否可以用作輔助知識蒸餾方法？

由于ACT使用編碼特征作為掩碼建模目標，它具有將我們的方法作為輔助特征蒸餾的潛力。

表9顯示了在Point-MAE模型中，使用ACT作為中間特征的輔助深度監(jiān)督訓(xùn)練的結(jié)果，其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。

可以觀察到，ACT能夠顯著提高Point-MAE在ScanObjectNN上的準確率，提高了0.87%，表明ACT作為一種知識蒸餾方法具有可擴展性和有效性。

6.3 2D Vision `Transformer`如何理解3D點云？

為了更好地理解2D圖像Transformer如何通過自編碼器訓(xùn)練理解3D輸入，研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出：

(i) 在沒有任何位置嵌入的情況下，預(yù)訓(xùn)練的ViT仍然可以學(xué)習(xí)可遷移的3D特征（準確率為84.21±0.45%）。我們認為這是因為位置幾何信息已經(jīng)包含在輸入的3D坐標中，預(yù)訓(xùn)練的2D Transformer可以通過幾何特征純粹處理3D數(shù)據(jù)，而不需要顯式的位置提示。

(ii) 當(dāng)僅使用2D xy平面坐標的位置嵌入時，準確率顯著提高了0.89%。我們認為2D位置嵌入是為了適應(yīng)凍結(jié)的圖像Transformer而學(xué)習(xí)的，使圖像Transformer能夠?qū)?D輸入編碼為具有高語義的預(yù)訓(xùn)練2D特征空間。

(iii) 當(dāng)使用所有3D坐標進行位置嵌入時，2D圖像Transformer成功利用了附加坐標信息來進行更好的特征編碼。

七、總結(jié)

本文提出了一種自監(jiān)督學(xué)習(xí)框架ACT，通過預(yù)訓(xùn)練的基礎(chǔ)Transformer進行掩碼建模，將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過自監(jiān)督的3D自編碼將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為跨模態(tài)的3D教師模型。

然后，來自調(diào)整后的3D自編碼器的語義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標，展現(xiàn)了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監(jiān)督學(xué)習(xí)框架，相信ACT可以輕松擴展到除3D數(shù)據(jù)之外的其他模態(tài)。

這種自監(jiān)督方式展示了跨模態(tài)知識轉(zhuǎn)移的巨大潛力，這可能在數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)時代極大地促進了基礎(chǔ)建模的發(fā)展。

附錄：

可視化

圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結(jié)果。

實驗結(jié)果表明，所設(shè)計的三維自編碼器能夠高質(zhì)量地重建物體細節(jié)。
對于一些相對簡單的物體，如第二行矩形表，我們的方法和Point-BERT都可以很好地重建它們。然而，對于細節(jié)相對復(fù)雜的點集，如第三排的薄架子和扶手椅，我們的方法仍然可以用詳細的局部幾何信息重建物體。
這些定性觀察結(jié)果與表7中的定量結(jié)果一致。

圖4顯示了t-SNE在ShapeNet上進行預(yù)訓(xùn)練并在ModelNet40和ScanObjectNN PB_T50_RS數(shù)據(jù)集上進行微調(diào)后的模型特征可視化。

可以觀察到:

(i) 在ShapeNet上進行預(yù)訓(xùn)練后，由于相對較小的域間隙，模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。

(ii) 在對下游數(shù)據(jù)集進行微調(diào)后，在ModelNet40和具有挑戰(zhàn)性的ScanObjectNN數(shù)據(jù)集上都獲得了判別特征。

(iii) Shapenet預(yù)訓(xùn)練ACT在ScanObjectNN上提取的特征分布看起來不那么判別性。我們認為有兩個原因?qū)е滤? (i)合成的ShapeNet和真實的ScanObjectNN數(shù)據(jù)集之間的大域差距，以及(ii) ACT使用的不是對比損失，例如區(qū)分(例如，Point-BERT使用的MoCo損失)。有趣的是，這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%，而Point-BERT為83.07%)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3225

瀏覽量
48803
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24686
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
143

瀏覽量
5995

原文標題：ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？

文章出處：【微信號：3D視覺工坊，微信公眾號：3D視覺工坊】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

針對顯示屏的2D/3D觸摸與手勢開發(fā)工具包DV102014

包（DV102014），這是業(yè)內(nèi)第一款專門針對在顯示屏上集成2D投射電容式觸摸（PCAP）與3D手勢識別功能的開發(fā)工具包。有了這款工具包，設(shè)計人員可以十分方便地訪問Microchip擁有專利的

發(fā)表于 11-07 10:45

如何同時獲取2d圖像序列和相應(yīng)的3d點云？

如何同時獲取2d圖像序列和相應(yīng)的3d點云？以上來自于谷歌翻譯以下為原文How to obtain the sequence of 2d image and corresponding 3d

發(fā)表于 11-13 11:25

為什么3D與2D模型不能相互轉(zhuǎn)換？

AD17.1.5軟件，3D與2D模型不能相互轉(zhuǎn)換，按3可以進入3D模型，按2不

發(fā)表于 09-20 05:35

2D到3D視頻自動轉(zhuǎn)換系統(tǒng)

完成系統(tǒng)界面的設(shè)置及控制、顯示等功能，其DSP處理器實現(xiàn)圖像分割和渲染等核心算法，實現(xiàn)了1個高效的2D到3D視頻的視頻轉(zhuǎn)換系統(tǒng)。2D轉(zhuǎn)3D技術(shù)可把現(xiàn)有的大量傳統(tǒng)

發(fā)表于 03-06 14:20 ?1次下載

適用于顯示屏的2D多點觸摸與3D手勢模塊

本視頻將展示結(jié)合多點觸摸與3D手勢模塊的Microchip顯示解決方案。支持2D/3D功能的顯示屏是Microchip基于GestIC?技術(shù)的最新解決方案。顯示屏上結(jié)合了3D手勢與

發(fā)表于 06-06 02:45 ?5128次閱讀

如何把OpenGL中3D坐標轉(zhuǎn)換成2D坐標

在OpenGL中，一切事物都在3D空間中，但我們的屏幕坐標確實2D像素數(shù)組，OpenGL大部分工作就是把3D坐標轉(zhuǎn)換成適應(yīng)屏幕的2D像素。3D

發(fā)表于 07-09 10:40 ?8584次閱讀

阿里研發(fā)全新3D AI算法，2D圖片搜出3D模型

AI技術(shù)的研究正在從2D走向更高難度的3D。12月3日，記者獲悉，阿里技術(shù)團隊研發(fā)了全新3D AI算法，可基于2D圖片精準搜索出相應(yīng)的

發(fā)表于 12-04 15:49 ?3524次閱讀

3d人臉識別和2d人臉識別的區(qū)別

首先是3d人臉識別和2d人臉識別圖像數(shù)據(jù)獲取不同。3D人臉識別是以3D攝像頭立體成像，而2D是以2D

發(fā)表于 02-05 16:00 ?4.5w次閱讀

基于神經(jīng)網(wǎng)絡(luò)的2D到3D的機器學(xué)習(xí)

FSD beta所采用的voxel 3D NN的技術(shù)細節(jié)并未得到披露，從類似的一般性的公開方法來說，從2D單個圖像中恢復(fù)出voxel 3D信息的方法是基于標準的Encoder—Decoder結(jié)構(gòu)的。小編以一篇公開論文（V

發(fā)表于 10-11 15:32 ?749次閱讀

探討一下2D和3D拓撲絕緣體

這樣的物理規(guī)范，具有很高的普適性，applicable 到所有維度空間。對二維 2D 拓撲絕緣體 (2D - TI) 和三維 3D 拓撲絕緣體 (3D - TI)，其體 - 邊對應(yīng)性由

發(fā)表于 11-23 10:23 ?2478次閱讀

基于深度學(xué)習(xí)的3D點云實例分割方法

3D實例分割（3DIS）是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點云表示的 3D 場景，我們尋求為每

發(fā)表于 11-13 10:34 ?2308次閱讀

2D與3D視覺技術(shù)的比較

作為一個多年經(jīng)驗的機器視覺工程師，我將詳細介紹2D和3D視覺技術(shù)的不同特點、應(yīng)用場景以及它們能夠解決的問題。在這個領(lǐng)域內(nèi)，2D和3D視覺技術(shù)是實現(xiàn)自動化和智能制造的關(guān)鍵技術(shù)，它們在工業(yè)

發(fā)表于 12-21 09:19 ?1115次閱讀

一文了解3D視覺和2D視覺的區(qū)別

一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式，其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細闡述這些區(qū)別，并解釋為什么

發(fā)表于 12-25 11:15 ?3005次閱讀

介紹一種使用2D材料進行3D集成的新方法

美國賓夕法尼亞州立大學(xué)的研究人員展示了一種使用2D材料進行3D集成的新穎方法。

發(fā)表于 01-13 11:37 ?1057次閱讀

有了2D NAND，為什么要升級到3D呢？

2D NAND和3D NAND都是非易失性存儲技術(shù)（NVM Non-VolatileMemory），屬于Memory（存儲器）的一種。

發(fā)表于 03-17 15:31 ?1004次閱讀

搜索歷史

2D Transformer 可以幫助3D表示學(xué)習(xí)嗎？