VILA 是 NVIDIA 研究部門與麻省理工學院共同開發(fā)的高性能視覺語言模型系列。最大的模型約有 400 億參數(shù),最小的模型約有 30 億參數(shù),并且完全開源(包括模型檢查點、訓練代碼和訓練數(shù)據(jù))。
本文將比較 VILA 與其他模型在提供邊緣 AI 2.0 方面的表現(xiàn)。
最初幾個版本的邊緣 AI 需要在邊緣設備上部署經(jīng)過壓縮的 AI 模型。該階段被稱為邊緣 AI 1.0,側(cè)重于特定任務模型,這種方法的挑戰(zhàn)在于需要用不同的數(shù)據(jù)集來訓練不同的模型,而其中的負樣本難以采集,離群情況也很難處理。這一過程非常耗時,因此需要適應性更強、通用性更好的 AI 解決方案。
邊緣 AI 2.0:生成式 AI 的興起
邊緣 AI 2.0 標志著向增強泛化的轉(zhuǎn)變,由基礎視覺語言模型(VLM)提供支持。
VILA 等視覺語言模型具有驚人的多功能性,能夠理解復雜的指令并迅速適應新場景,這種靈活性使其成為諸多應用中的重要工具。它們可以優(yōu)化自動駕駛汽車的決策,在物聯(lián)網(wǎng)和智能物聯(lián)網(wǎng)環(huán)境中創(chuàng)建個性化交互,進行事件檢測,提升智能家居體驗等。
VLM 的核心優(yōu)勢在于其在語言預訓練過程中獲得的世界知識,以及用戶使用自然語言進行查詢的能力。這就為由 AI 驅(qū)動的智能相機提供了動態(tài)處理能力,而無需對定制的視覺管道進行硬編碼。
邊緣 VLM:
VILA 與 NVIDIA Jetson Orin
要實現(xiàn)邊緣 AI 2.0,VLM 必須具有高性能且易于部署。VILA 通過以下方式實現(xiàn)這兩點:
精心設計的訓練管道和高質(zhì)量的混合數(shù)據(jù)
精度損失可忽略不計的 AWQ 4 位量化
圖 1. VILA 模型架構和訓練配方
VILA 是一種可將視覺信息引入大語言模型(LLM)的視覺語言模型。VILA 模型由視覺編碼器、LLM 和投影儀組成,可連接兩種模態(tài)的嵌入。為了充分利用功能強大的 LLM,VILA 使用視覺編碼器將圖像或視頻編碼為視覺 token,然后將這些視覺 token 作為外語輸入 LLM。這種設計可以處理任意數(shù)量的交錯圖像-文本輸入。
VILA 的成功源于經(jīng)過增強的預訓練配方。通過對視覺語言模型預訓練選擇的深入研究,我們獲得了三個重要發(fā)現(xiàn):
在預訓練過程中凍結(jié) LLM 可以實現(xiàn)不錯的零點性能,但缺乏語境學習能力,而這需要解凍 LLM;
交錯的預訓練數(shù)據(jù)是有益的,而單獨的圖像-文本對并不是最佳選擇;
在指令微調(diào)過程中,將純文本指令數(shù)據(jù)與圖像-文本數(shù)據(jù)重新混合,不僅能彌補純文本任務的不足,還能提高 VLM 任務的準確性。
我們觀察到,該預訓練過程解鎖了模型的幾項引人矚目的能力:
多圖像推理,盡管模型在 SFT 期間只能看到單個圖像-文本對(監(jiān)督微調(diào))
更強的語境學習能力
增進的世界知識
NVIDIA Jetson Orin 具有無與倫比的 AI 計算、大容量統(tǒng)一內(nèi)存和全面的 AI 軟件堆棧,是在高能效邊緣設備上部署 VILA 的完美平臺。Jetson Orin 能夠快速推理采用 transformer 架構的任何生成式 AI 模型,在 MLPerf 基準測試中展現(xiàn)出領先的邊緣性能。
AWQ 量化
為了在 Jetson Orin 上部署 VILA,我們集成了激活感知權重量化(AWQ)以實現(xiàn) 4 位量化。AWQ 使我們能夠?qū)?VILA 量化到精度損失可忽略不計的 4 位精度,這為 VLM 在保持性能標準的同時還能深入改變邊緣計算鋪平了道路。
盡管采用了 AWQ 等先進技術,但在邊緣設備上部署大語言和視覺模型仍然是一項復雜的任務。4 位權重缺乏字節(jié)對齊,需要專門的計算才能達到最佳效率。
TinyChat 是專為邊緣設備上的 LLM 和 VLM 設計的高效推理框架。無論是 NVIDIA RTX 4070 筆記本電腦 GPU 還是 NVIDIA Jetson Orin,TinyChat 的適應性使其能夠在各種硬件平臺上運行,這引發(fā)了開源社區(qū)的極大興趣。
現(xiàn)在,TinyChat 擴大了對 VILA 的支持,實現(xiàn)了對視覺數(shù)據(jù)的重要理解和推理。TinyChat 在結(jié)合文本和視覺處理方面具有出眾的效率和靈活性,使邊緣設備能夠執(zhí)行最前沿的多模態(tài)任務。
基準測試
下表顯示了 VILA 1.5-3B 的基準測試結(jié)果。就其規(guī)模而言,它在圖像質(zhì)量保證和視頻質(zhì)量保證基準測試中均表現(xiàn)出色。您還可以看到,AWQ 4 位量化并沒有降低精度,而且通過與 Scaling on Scales (S2) 集成,它可以感知更高分辨率的圖像,并進一步提高性能。
表 1. 模型在圖像質(zhì)量保證基準測試中的
評估結(jié)果(量化前/后)
表 2. 模型在視頻質(zhì)量保證基準測試中的評估結(jié)果
部署在 Jetson Orin 和 NVIDIA RTX 上
隨著攝像頭和視覺系統(tǒng)在現(xiàn)實環(huán)境中的應用日益普及,在邊緣設備上推理 VILA 已成為一項重要的任務。根據(jù)模型的規(guī)模,從入門級 AI 到七種 Jetson Orin 高性能模塊,您都可以選擇,來靈活地為智能家居設備、醫(yī)療儀器、自主機器人和視頻分析構建那些用戶可以動態(tài)地重新配置和查詢的生成式 AI 應用。
圖 3 顯示了在 Jetson AGX Orin 和 Jetson Orin Nano 上運行 VILA 的端到端多模態(tài)管道性能,兩者都在視頻流上達到了交互速率。
圖 3. VILA 推理速度比較
這些基準測試包含查詢 1 幀圖像的總體時間,包括視覺編碼(使用 CLIP 或 SigLIP)、多模態(tài)投影、聊天嵌入組裝、使用 4 位量化生成語言模型輸出等測試。VILA-1.5 模型包括一個新型適配器,可將用于表示每個圖像嵌入的 token 數(shù)從 729 個減少到 196 個,這不僅提高了性能,而且在視覺編碼器空間分辨率提高的情況下保持了準確性。
這一高度優(yōu)化的 VLM 管道是開源的,并且集成了多模態(tài) RAG 和單樣本圖像標記等先進功能,能夠?qū)D像嵌入高效率地重復用于整個系統(tǒng)中的其他視覺相關任務。
圖 4. 在 Jetson Orin 上運行的 VILA-3B(4 位)
在消費級 GPU 上的體驗
VILA 還可以部署在筆記本電腦和 PC 工作站上的 NVIDIA RTX 等消費級 GPU 中,以提高用戶的工作效率和交互體驗。
圖 5. 在 NVIDIA RTX 4090 上運行的 VILA-3B(4 位)
多圖像推理
TinyChat 的最新版本使用了 VILA 令人印象深刻的多圖像推理功能,使您能夠同時上傳多張圖像來增強交互,帶來令人興奮的創(chuàng)新可能性。
圖 6 顯示 VILA 可以理解圖像序列的內(nèi)容和順序,為創(chuàng)造性應用開辟了新途徑。
圖 6. VILA-3B(4 位)在多圖像理解方面的表現(xiàn)
語境學習
VILA 還具有出色的語境學習能力。無需明確的系統(tǒng)提示,VILA 就能從以前的圖像-文本對中無縫推理出模式,為新的圖像輸入生成相關文本。
在圖 7 中,VILA 成功識別了 NVIDIA 的徽標,并按照之前示例的風格輸出了 NVIDIA 最著名的產(chǎn)品。
圖 7. VILA-3B(4 位)在語境學習任務中的表現(xiàn)
開始使用 VILA
我們計劃繼續(xù)對 VILA 進行創(chuàng)新,包括擴展上下文長度、提高分辨率以及為視覺和語言對齊策劃更好的數(shù)據(jù)集。
-
NVIDIA
+關注
關注
14文章
4968瀏覽量
102927 -
模型
+關注
關注
1文章
3206瀏覽量
48793 -
邊緣AI
+關注
關注
0文章
92瀏覽量
4976 -
LLM
+關注
關注
0文章
283瀏覽量
321
原文標題:視覺語言智能和邊緣 AI 2.0
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論