RM新时代平台靠谱平台入口-百度知道 ,RM新时代-RM平台-RM新时代app下载

VILA 是 NVIDIA 研究部門與麻省理工學院共同開發(fā)的高性能視覺語言模型系列。最大的模型約有 400 億參數(shù)，最小的模型約有 30 億參數(shù)，并且完全開源（包括模型檢查點、訓練代碼和訓練數(shù)據(jù)）。

本文將比較 VILA 與其他模型在提供邊緣 AI 2.0 方面的表現(xiàn)。

最初幾個版本的邊緣 AI 需要在邊緣設備上部署經(jīng)過壓縮的 AI 模型。該階段被稱為邊緣 AI 1.0，側(cè)重于特定任務模型，這種方法的挑戰(zhàn)在于需要用不同的數(shù)據(jù)集來訓練不同的模型，而其中的負樣本難以采集，離群情況也很難處理。這一過程非常耗時，因此需要適應性更強、通用性更好的 AI 解決方案。

邊緣 AI 2.0：生成式 AI 的興起

邊緣 AI 2.0 標志著向增強泛化的轉(zhuǎn)變，由基礎視覺語言模型(VLM)提供支持。

VILA 等視覺語言模型具有驚人的多功能性，能夠理解復雜的指令并迅速適應新場景，這種靈活性使其成為諸多應用中的重要工具。它們可以優(yōu)化自動駕駛汽車的決策，在物聯(lián)網(wǎng)和智能物聯(lián)網(wǎng)環(huán)境中創(chuàng)建個性化交互，進行事件檢測，提升智能家居體驗等。

VLM 的核心優(yōu)勢在于其在語言預訓練過程中獲得的世界知識，以及用戶使用自然語言進行查詢的能力。這就為由 AI 驅(qū)動的智能相機提供了動態(tài)處理能力，而無需對定制的視覺管道進行硬編碼。

邊緣 VLM：

VILA 與 NVIDIA Jetson Orin

要實現(xiàn)邊緣 AI 2.0，VLM 必須具有高性能且易于部署。VILA 通過以下方式實現(xiàn)這兩點：

精心設計的訓練管道和高質(zhì)量的混合數(shù)據(jù)

精度損失可忽略不計的 AWQ 4 位量化

圖 1. VILA 模型架構和訓練配方

VILA 是一種可將視覺信息引入大語言模型（LLM）的視覺語言模型。VILA 模型由視覺編碼器、LLM 和投影儀組成，可連接兩種模態(tài)的嵌入。為了充分利用功能強大的 LLM，VILA 使用視覺編碼器將圖像或視頻編碼為視覺 token，然后將這些視覺 token 作為外語輸入 LLM。這種設計可以處理任意數(shù)量的交錯圖像-文本輸入。

VILA 的成功源于經(jīng)過增強的預訓練配方。通過對視覺語言模型預訓練選擇的深入研究，我們獲得了三個重要發(fā)現(xiàn)：

在預訓練過程中凍結(jié) LLM 可以實現(xiàn)不錯的零點性能，但缺乏語境學習能力，而這需要解凍 LLM；

交錯的預訓練數(shù)據(jù)是有益的，而單獨的圖像-文本對并不是最佳選擇；

在指令微調(diào)過程中，將純文本指令數(shù)據(jù)與圖像-文本數(shù)據(jù)重新混合，不僅能彌補純文本任務的不足，還能提高 VLM 任務的準確性。

我們觀察到，該預訓練過程解鎖了模型的幾項引人矚目的能力：

多圖像推理，盡管模型在 SFT 期間只能看到單個圖像-文本對（監(jiān)督微調(diào)）

更強的語境學習能力

增進的世界知識

NVIDIA Jetson Orin 具有無與倫比的 AI 計算、大容量統(tǒng)一內(nèi)存和全面的 AI 軟件堆棧，是在高能效邊緣設備上部署 VILA 的完美平臺。Jetson Orin 能夠快速推理采用 transformer 架構的任何生成式 AI 模型，在 MLPerf 基準測試中展現(xiàn)出領先的邊緣性能。

AWQ 量化

為了在 Jetson Orin 上部署 VILA，我們集成了激活感知權重量化（AWQ）以實現(xiàn) 4 位量化。AWQ 使我們能夠?qū)?VILA 量化到精度損失可忽略不計的 4 位精度，這為 VLM 在保持性能標準的同時還能深入改變邊緣計算鋪平了道路。

盡管采用了 AWQ 等先進技術，但在邊緣設備上部署大語言和視覺模型仍然是一項復雜的任務。4 位權重缺乏字節(jié)對齊，需要專門的計算才能達到最佳效率。

TinyChat 是專為邊緣設備上的 LLM 和 VLM 設計的高效推理框架。無論是 NVIDIA RTX 4070 筆記本電腦 GPU 還是 NVIDIA Jetson Orin，TinyChat 的適應性使其能夠在各種硬件平臺上運行，這引發(fā)了開源社區(qū)的極大興趣。

現(xiàn)在，TinyChat 擴大了對 VILA 的支持，實現(xiàn)了對視覺數(shù)據(jù)的重要理解和推理。TinyChat 在結(jié)合文本和視覺處理方面具有出眾的效率和靈活性，使邊緣設備能夠執(zhí)行最前沿的多模態(tài)任務。

基準測試

下表顯示了 VILA 1.5-3B 的基準測試結(jié)果。就其規(guī)模而言，它在圖像質(zhì)量保證和視頻質(zhì)量保證基準測試中均表現(xiàn)出色。您還可以看到，AWQ 4 位量化并沒有降低精度，而且通過與 Scaling on Scales (S2) 集成，它可以感知更高分辨率的圖像，并進一步提高性能。

表 1. 模型在圖像質(zhì)量保證基準測試中的

評估結(jié)果（量化前/后）

表 2. 模型在視頻質(zhì)量保證基準測試中的評估結(jié)果

部署在 Jetson Orin 和 NVIDIA RTX 上

隨著攝像頭和視覺系統(tǒng)在現(xiàn)實環(huán)境中的應用日益普及，在邊緣設備上推理 VILA 已成為一項重要的任務。根據(jù)模型的規(guī)模，從入門級 AI 到七種 Jetson Orin 高性能模塊，您都可以選擇，來靈活地為智能家居設備、醫(yī)療儀器、自主機器人和視頻分析構建那些用戶可以動態(tài)地重新配置和查詢的生成式 AI 應用。

圖 3 顯示了在 Jetson AGX Orin 和 Jetson Orin Nano 上運行 VILA 的端到端多模態(tài)管道性能，兩者都在視頻流上達到了交互速率。

圖 3. VILA 推理速度比較

這些基準測試包含查詢 1 幀圖像的總體時間，包括視覺編碼（使用 CLIP 或 SigLIP）、多模態(tài)投影、聊天嵌入組裝、使用 4 位量化生成語言模型輸出等測試。VILA-1.5 模型包括一個新型適配器，可將用于表示每個圖像嵌入的 token 數(shù)從 729 個減少到 196 個，這不僅提高了性能，而且在視覺編碼器空間分辨率提高的情況下保持了準確性。

這一高度優(yōu)化的 VLM 管道是開源的，并且集成了多模態(tài) RAG 和單樣本圖像標記等先進功能，能夠?qū)D像嵌入高效率地重復用于整個系統(tǒng)中的其他視覺相關任務。

圖 4. 在 Jetson Orin 上運行的 VILA-3B（4 位）

在消費級 GPU 上的體驗

VILA 還可以部署在筆記本電腦和 PC 工作站上的 NVIDIA RTX 等消費級 GPU 中，以提高用戶的工作效率和交互體驗。

圖 5. 在 NVIDIA RTX 4090 上運行的 VILA-3B（4 位）

多圖像推理

TinyChat 的最新版本使用了 VILA 令人印象深刻的多圖像推理功能，使您能夠同時上傳多張圖像來增強交互，帶來令人興奮的創(chuàng)新可能性。

圖 6 顯示 VILA 可以理解圖像序列的內(nèi)容和順序，為創(chuàng)造性應用開辟了新途徑。

圖 6. VILA-3B（4 位）在多圖像理解方面的表現(xiàn)

語境學習

VILA 還具有出色的語境學習能力。無需明確的系統(tǒng)提示，VILA 就能從以前的圖像-文本對中無縫推理出模式，為新的圖像輸入生成相關文本。

在圖 7 中，VILA 成功識別了 NVIDIA 的徽標，并按照之前示例的風格輸出了 NVIDIA 最著名的產(chǎn)品。

圖 7. VILA-3B（4 位）在語境學習任務中的表現(xiàn)

開始使用 VILA

我們計劃繼續(xù)對 VILA 進行創(chuàng)新，包括擴展上下文長度、提高分辨率以及為視覺和語言對齊策劃更好的數(shù)據(jù)集。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
4968

瀏覽量
102927
模型

模型

+關注

關注
1

文章
3206

瀏覽量
48793
邊緣AI

邊緣AI

+關注

關注
0

文章
92

瀏覽量
4976
LLM

LLM

+關注

關注
0

文章
283

瀏覽量
321

原文標題：視覺語言智能和邊緣 AI 2.0

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

邊緣AI應用越來越普遍，AI模型在邊緣端如何部署？

大模型在端側(cè)的部署也成了業(yè)界關注的焦點。 ? 如何把AI 模型在邊緣端部署 ? 首先得軟硬件適配

發(fā)表于 07-04 00:11 ?2614次閱讀

<b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應用越來越普遍，<b class='flag-5'>AI</b><b class='flag-5'>模型</b><b class='flag-5'>在</b><b class='flag-5'>邊緣</b>端如何部署？

risc-v多核芯片在AI方面的應用

應用中的成本。最后，RISC-V多核芯片不僅可以應用于AI邊緣計算領域，還可以擴展到其他領域，如數(shù)據(jù)中心、云計算、自動駕駛、機器人等，為這些領域提供高效、靈活和安全的解決方案。總的

發(fā)表于 04-28 09:20

硬件幫助將AI移動到邊緣

雖然人工智能和機器學習計算通常在數(shù)據(jù)中心中大規(guī)模地執(zhí)行，但是最新的處理設備使得能夠?qū)?b class='flag-5'>AI / ML能力嵌入到網(wǎng)絡邊緣的IoT設備中。邊緣的AI可以快速響應，無需等待云的響應。如果可以

發(fā)表于 05-29 10:38

EdgeBoard FZ5 邊緣AI計算盒及計算卡

科技攜手百度，推出系列高性能及高性價比EdgeBoard 邊緣AI計算卡/計算盒，助力AI項目落地?？伸`活適配海量的且不斷迭代的AI模型，并

發(fā)表于 08-31 14:12

網(wǎng)絡邊緣實施AI的原因

將AI推向邊緣的影響通過在邊緣運行ML模型可以使哪些具體的AI項目更容易運行？

發(fā)表于 02-23 06:21

嵌入式邊緣AI應用開發(fā)指南

擴展和量化感知培訓工具可幫助您優(yōu)化自己的DNN模型。第3步：評估模型性能在開發(fā)邊緣AI應用之前，需要在實際硬件上評估模型性能。TI

發(fā)表于 11-03 06:53

ST MCU邊緣AI開發(fā)者云 - STM32Cube.AI

道：“STM32Cube.AI 開發(fā)者云為我們的數(shù)據(jù)科學家和嵌入式開發(fā)人員提供了一種簡單的方法來協(xié)作和分享他們在嵌入式神經(jīng)網(wǎng)絡方面的知識，這有助于簡化我們的開發(fā)流程?；鶞蕼y試功能還使我

發(fā)表于 02-02 09:52

NVIDIA收購ARM，加速了RISC－V在邊緣AI的神經(jīng)網(wǎng)路方面的應用

近日，F(xiàn)acebook的首席AI科學家Yann LeCun在法國CEA－Leti研究實驗室的創(chuàng)新日上指出，由于美國限制中國半導體產(chǎn)業(yè)、以及NVIDIA并購ARM的動作，正加速RISC－V在邊緣

發(fā)表于 10-23 11:35 ?2349次閱讀

全球金融機構在使用AI方面的主要趨勢

2022 年調(diào)查確定了全球金融機構在使用 AI 方面的主要趨勢。

發(fā)表于 04-25 11:39 ?1548次閱讀

邊緣AI的模型壓縮技術

在某個時間點，人們認為大型和復雜的模型表現(xiàn)更好，但現(xiàn)在它幾乎是一個神話。隨著邊緣AI的發(fā)展，越來越多的技術將大型復雜

發(fā)表于 10-19 14:22 ?1037次閱讀

邊緣AI的模型壓縮技術

模型壓縮是在計算能力和內(nèi)存較低的邊緣設備上部署SOTA（最先進的）深度學習模型的過程，而不會影響模型在

發(fā)表于 05-05 09:54 ?860次閱讀

NVIDIA在加速識因智能AI大模型落地應用方面的重要作用介紹

本案例介紹了 NVIDIA 在加速識因智能 AI 大模型落地應用方面的重要作用。生成式大模型已廣泛應用于各領域，通過學習人類思維方式，能快速

發(fā)表于 03-29 15:28 ?605次閱讀

Llama 3 模型與其他AI工具對比

Llama 3模型與其他AI工具的對比可以從多個維度進行，包括但不限于技術架構、性能表現(xiàn)、應用場景、定制化能力、開源與成本等方面。以下是對L

發(fā)表于 10-27 14:37 ?335次閱讀

AI模型托管原理分析

AI模型托管是指將訓練好的AI模型部署在云端或邊緣服務器上，由第三

發(fā)表于 11-07 09:33 ?140次閱讀

AI在環(huán)境可持續(xù)發(fā)展方面的作用

近日，《聯(lián)合國氣候變化框架公約》締約方會議第二十九次會議（COP29）在阿塞拜疆巴庫落下帷幕，與會者們齊聚于此，共同應對氣候變化。AI 在環(huán)境可持續(xù)發(fā)展

發(fā)表于 11-27 11:24 ?257次閱讀

RM新时代网站-首页

搜索歷史

VILA與其他模型在提供邊緣AI 2.0方面的表現(xiàn)

評論

邊緣AI應用越來越普遍，AI模型在邊緣端如何部署？

risc-v多核芯片在AI方面的應用

硬件幫助將AI移動到邊緣

EdgeBoard FZ5 邊緣AI計算盒及計算卡

網(wǎng)絡邊緣實施AI的原因

嵌入式邊緣AI應用開發(fā)指南

ST MCU邊緣AI開發(fā)者云 - STM32Cube.AI

NVIDIA收購ARM，加速了RISC－V在邊緣AI的神經(jīng)網(wǎng)路方面的應用

全球金融機構在使用AI方面的主要趨勢

邊緣AI的模型壓縮技術

邊緣AI的模型壓縮技術

NVIDIA在加速識因智能AI大模型落地應用方面的重要作用介紹

Llama 3 模型與其他AI工具對比

AI模型托管原理分析

AI在環(huán)境可持續(xù)發(fā)展方面的作用