RM新时代手机版,新时代软件下载

GPT-4o 提供的全雙工語音對(duì)話帶來了一股研究熱潮，目前諸多工作開始研究如何利用 LLM 來實(shí)現(xiàn)端到端的語音到語音（Speech-to-Speech）對(duì)話能力，但是目前大部分開源方案存在以下兩個(gè)問題：

LLM 災(zāi)難性遺忘：由于現(xiàn)有方案在語音模態(tài)與 LLM 進(jìn)行對(duì)齊時(shí)，會(huì)或多或少對(duì) LLM 進(jìn)行微調(diào)，但由于要采集到與 LLM 本身訓(xùn)練的文本數(shù)據(jù)同等量級(jí)的語音數(shù)據(jù)是非常困難的，所以這一微調(diào)過程往往會(huì)導(dǎo)致 LLM 出現(xiàn)遺忘現(xiàn)象，造成 LLM 的聰明度下降

語音問答（Spoken Question Answering）任務(wù)的評(píng)估：多數(shù)工作對(duì)于語音問答的準(zhǔn)確性并沒有進(jìn)行定量評(píng)估，從已有的一些評(píng)估結(jié)果也可以看出同一模型語音問答和文本問答相比準(zhǔn)確性會(huì)有明顯的差距

針對(duì)上述這些問題，近日騰訊&西工大&南大的研究人員提出了一種低延遲的端到端語音雙工對(duì)話模型 Freeze-Omni（VITA 大模型系列第二個(gè)工作），其可以在完全凍結(jié) LLM 的情況下，為 LLM 接入語音輸入和輸出，使其能夠支持端到端的語音對(duì)話能力，且通過一系列優(yōu)化使得其具備低延遲的雙工對(duì)話能力，其主要特性如下：

在整個(gè)訓(xùn)練過程中，LLM 的參數(shù)被完全凍結(jié)，確保大型語言模型的知識(shí)能力被完全保留；

訓(xùn)練過程中所依賴的數(shù)據(jù)規(guī)模較小，消耗的計(jì)算資源也較少。Freeze-Omni 僅需要文本-語音配對(duì)數(shù)據(jù)（如 ASR 和 TTS 訓(xùn)練數(shù)據(jù)，比較容易獲得）以及僅少量的文本模態(tài)的問答數(shù)據(jù)，語音問答準(zhǔn)確性顯著超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型；

Freeze-Omni 可以支持任何具有文本模態(tài)的（多模態(tài)）大語言模型，能夠保留基底大語言模型的能力，如提示服從和角色扮演等。此外，如果有必要改變大語言模型的領(lǐng)域或者回應(yīng)方式，只需要用相應(yīng)的文本數(shù)據(jù)對(duì)大語言模型進(jìn)行微調(diào)即可，不需要采集大量語音的問答和對(duì)話數(shù)據(jù)。

論文標(biāo)題：

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

論文鏈接：

https://arxiv.org/abs/2411.00774

項(xiàng)目主頁：

https://freeze-omni.github.io/

開源代碼：

https://github.com/VITA-MLLM/Freeze-Omni

三階段訓(xùn)練策略實(shí)現(xiàn)語音輸入輸出能力

Freeze-Omni 的整體結(jié)構(gòu)如圖 1 所示，其包含有語音編碼器（Speech Encoder）和語音解碼器（Speech Decoder）以及基底 LLM 三部分。在運(yùn)行過程中，流式的語音輸入通過語音編碼器形成分塊（Chunk）特征，然后通過 Adapter 連接到 LLM，LLM 生成的 Hidden State 和文本 Token 的在分塊分割后，分別以塊的形式送入非自回歸前綴語音解碼器（NAR Prefix Speech Decoder）和非自回歸語音解碼器（NAR Speech Decoder）以進(jìn)行 Prefill 操作。最后自回歸語音解碼器（AR Speech Decoder）將會(huì)完成 Generate 操作以生成語音 Token，并由 Codec Decoder 將其流式解碼為語音信號(hào)輸出。

▲ 圖1. Freeze-Omni框架圖 Freeze-Omni 各個(gè)模塊的三階段訓(xùn)練策略如下：流式語音編碼器的三階段訓(xùn)練：如圖 2 所示，第一階段（a）會(huì)先使用 ASR 數(shù)據(jù)訓(xùn)練一個(gè)具有 ASR 能力的語音編碼。第二階段（b）會(huì)以 ASR 任務(wù)為優(yōu)化目標(biāo)，將語音編碼器與 LLM 做模態(tài)對(duì)齊，這個(gè)過程中 LLM 是處于凍結(jié)狀態(tài)的。第三階段（c）會(huì)使用由 TTS 系統(tǒng)合成的語音輸入-文本回答的多輪 QA 數(shù)據(jù)進(jìn)行訓(xùn)練，這里會(huì)使用第二階段訓(xùn)練好的語音編碼器，但是其參數(shù)保持凍結(jié)以保留其語音魯棒性，而可訓(xùn)練的參數(shù)只有每個(gè)問題前的 Prompt Embedding，用于指導(dǎo) LLM 從 ASR 任務(wù)遷移到 QA 任務(wù)中。

▲ 圖2. 流式語音編碼器的三階段訓(xùn)練示意圖流式語音解碼器的三階段訓(xùn)練：如圖 3 所示，第一階段（a）會(huì)先訓(xùn)練一個(gè)單碼本的語音編解碼模型，使用單碼本的目的主要是為了降低計(jì)算復(fù)雜度和時(shí)延。第二階段（b）將會(huì)訓(xùn)練 NAR 語音編碼器和 AR 語音編碼器，這里會(huì)使用文本-語音的 TTS 數(shù)據(jù)，其文本會(huì)通過基底 LLM 的 Tokenizer 轉(zhuǎn)化為 Token，再經(jīng)過基底 LLM 的 Embedding 層轉(zhuǎn)化為文本特征，這個(gè)過程中 Embedding 的參數(shù)是凍結(jié)的，訓(xùn)練目標(biāo)的語音 Token 是由第一階段的語音編碼器提供。第三階段（c）將會(huì)凍結(jié)第二階段訓(xùn)練得到的所有網(wǎng)絡(luò)，但同時(shí)加入了一個(gè) NAR Prefix 語音編碼器，其用于接受 LLM 輸出的 Hidden State，并將輸出的 kv-cache 作為第二階段模型的初始 kv-cache，該過程使用的數(shù)據(jù)是文本輸入-語音輸出的 QA 數(shù)據(jù)，主要目的是為了使得語音編碼器遷移到 LLM 的輸出領(lǐng)域中。

▲ 圖3. 流式語音解碼器的三階段訓(xùn)練示意圖雙工對(duì)話的狀態(tài)標(biāo)簽訓(xùn)練：如圖 4 所示，為了實(shí)現(xiàn)雙工交互，F(xiàn)reeze-Omni 在語音編碼器訓(xùn)練的第三階段中，會(huì)為每個(gè) Chunk 的最后一個(gè)語音幀對(duì)應(yīng)的 LLM 輸出 Hidden State 加入一個(gè)額外的分類層進(jìn)行多任務(wù)訓(xùn)練，其目的主要是為了輸出狀態(tài)標(biāo)簽。當(dāng)使用 VAD 激活語音流輸入后，狀態(tài)標(biāo)簽 0 表示 LLM 將會(huì)繼續(xù)接受語音 Chunk 的輸入，狀態(tài)標(biāo)簽 1 表示 LLM 將會(huì)停止接收語音，且會(huì)打斷用戶并進(jìn)入 LLM 的 Generate 階段輸出回復(fù)，狀態(tài)標(biāo)簽 2 表示 LLM 也會(huì)停止接收語音，但不會(huì)打斷用戶，相當(dāng)于對(duì)這次語音激活做了拒識(shí)。

▲ 圖4. 全雙工對(duì)話的狀態(tài)標(biāo)簽訓(xùn)練示意圖

模型性能測(cè)評(píng)

訓(xùn)練配置：Freeze-Omni 在訓(xùn)練過程中，使用了開源 Qwen2-7B-Instruct 作為基底模型，語音編碼器在訓(xùn)練過程中使用了 11 萬小時(shí)中文英文混合的 ASR 數(shù)據(jù)，語音解碼器訓(xùn)練過程使用了 3000 小時(shí)由 TTS 系統(tǒng)合成的文本-語音數(shù)據(jù)，所提到的 QA 數(shù)據(jù)是由 6 萬條從 moss-003-sft-data 中抽取的多輪對(duì)話經(jīng)過 TTS 系統(tǒng)合成得到的。語音輸入理解能力評(píng)估：Freeze-Omni 提供了其在常見的英文測(cè)試集上的 ASR 性能測(cè)試結(jié)果，從中可以看出，其 ASR 準(zhǔn)確性處于較為領(lǐng)先的水平。

▲ 圖5. 語音理解能力評(píng)估語音輸出質(zhì)量評(píng)估：Freeze-Omni 提供了其在 1000 條 LLM 輸出的 Hidden State 與 Text Token 上語音解碼器生成的語音在使用 ASR 模型測(cè)試得到的詞錯(cuò)誤率（CER），從結(jié)果中可以看出 NAR Prefix 語音解碼器的引入會(huì)有效降低詞錯(cuò)誤率，提高生成語音的質(zhì)量。

▲ 圖6. 語音輸出質(zhì)量評(píng)估語音問答準(zhǔn)確性評(píng)估：Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三個(gè)集合上的語音問答準(zhǔn)確率評(píng)估。從結(jié)果中可以看出 Freeze-Omni 的準(zhǔn)確率具有絕對(duì)的領(lǐng)先水平，超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型，并且其語音模態(tài)下的準(zhǔn)確率相比其基底模型 Qwen2-7B-Instruct 的文本問答準(zhǔn)確率而言，差距明顯相比 Moshi 與其文本基底模型 Helium 的要小，足以證明 Freeze-Omni 的訓(xùn)練方式可以使得 LLM 在接入語音模態(tài)之后，聰明度和知識(shí)能力受到的影響最低。

▲ 圖7. 語音問答準(zhǔn)確性評(píng)估系統(tǒng)延遲評(píng)估：Freeze-Omni 還提供了端到端時(shí)延分析（即用戶說完后到 LLM 輸出音頻的時(shí)間差），作者將其分為了可統(tǒng)計(jì)時(shí)延和不可統(tǒng)計(jì)時(shí)延兩部分，其中可統(tǒng)計(jì)時(shí)延的總時(shí)長平均數(shù)僅為 745ms，而作者也提到如果經(jīng)過測(cè)量考慮到網(wǎng)絡(luò)延遲和不可統(tǒng)計(jì)時(shí)延部分，則系統(tǒng)的平均響應(yīng)時(shí)延在 1.2s 左右，在行業(yè)內(nèi)仍為領(lǐng)先水平。

▲ 圖8. 系統(tǒng)延遲評(píng)估

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3226

瀏覽量
48806
LLM

LLM

+關(guān)注

關(guān)注
0

文章
286

瀏覽量
327

原文標(biāo)題：準(zhǔn)確性超Moshi和GLM-4-Voice！端到端語音雙工模型Freeze-Omni

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

階躍星辰發(fā)布國內(nèi)首個(gè)千億參數(shù)端到端語音大模型

近日，階躍星辰在官方公眾號(hào)上宣布了一項(xiàng)重大突破——推出Step-1o千億參數(shù)端到端語音大模型。該模型

發(fā)表于 12-17 13:43 ?121次閱讀

利用OpenVINO部署GLM-Edge系列SLM模型

近期智譜發(fā)布了其最新的GLM-Edge系列SLM模型，GLM-Edge 系列是智譜在面向端側(cè)真實(shí)落地使用的場(chǎng)景下的一次嘗試，由兩種尺寸的大語言對(duì)話模

發(fā)表于 12-09 16:12 ?729次閱讀

智譜推出四個(gè)全新端側(cè)模型攜英特爾按下AI普及加速鍵

，GLM-Edge-4B-chat、GLM-Edge-1.5B-chat為端側(cè)大語言模型，GLM-Edge-V-5B、

發(fā)表于 12-02 17:13 ?195次閱讀

如何提升ASR模型的準(zhǔn)確性

提升ASR（Automatic Speech Recognition，自動(dòng)語音識(shí)別）模型的準(zhǔn)確性是語音識(shí)別技術(shù)領(lǐng)域的核心挑戰(zhàn)之一。以下是一些提升ASR

發(fā)表于 11-18 15:14 ?741次閱讀

連接視覺語言大模型與端到端自動(dòng)駕駛

端到端自動(dòng)駕駛在大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練，展現(xiàn)出很強(qiáng)的決策規(guī)劃能力，但是面對(duì)復(fù)雜罕見的駕駛場(chǎng)景，依然存在局限性，這是因?yàn)?b class='flag-5'>端到

發(fā)表于 11-07 15:15 ?223次閱讀

如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過程，因?yàn)樗婕?b class='flag-5'>到多個(gè)因素，包括但不限于數(shù)據(jù)的質(zhì)量和多樣性、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致

發(fā)表于 10-25 17:48 ?571次閱讀

端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

的，這需要大量的計(jì)算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBand（IB）網(wǎng)絡(luò)作為高性能計(jì)算和AI模型訓(xùn)練的理想選擇，發(fā)揮著重要作用。在本文中，我們將深入探討大型語言

發(fā)表于 10-23 11:26 ?378次閱讀

<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

以太網(wǎng)端口雙工模式是什么意思

以太網(wǎng)端口雙工模式是指以太網(wǎng)端口在數(shù)據(jù)傳輸過程中，能夠同時(shí)發(fā)送和接收數(shù)據(jù)的能力或方式。雙工模式對(duì)于網(wǎng)絡(luò)性能和數(shù)據(jù)傳輸效率具有重要影響。以下是關(guān)于以太網(wǎng)端口雙工模式的詳細(xì)介紹，包括其定義、分類、配置方式、注意事項(xiàng)以及應(yīng)用場(chǎng)景等方面

發(fā)表于 10-08 10:14 ?756次閱讀

端到端測(cè)試用例怎么寫

測(cè)試方法，旨在驗(yàn)證整個(gè)應(yīng)用程序從前端到后端的流程是否能夠按照預(yù)期工作。它涉及多個(gè)系統(tǒng)組件和接口的交互，確保業(yè)務(wù)流程的完整性和正確性。二、編寫端到

發(fā)表于 09-20 10:29 ?438次閱讀

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

到output1?！?鏈路2: 可通過web對(duì)話頁調(diào)用大模型節(jié)點(diǎn)，最終將大模型結(jié)果輸出到對(duì)話頁面上?！?鏈路3: 可通過開發(fā)板調(diào)用大模型節(jié)點(diǎn)，最終將大模型輸出的結(jié)果進(jìn)行

發(fā)表于 08-21 19:13

四端電阻的電流端和電壓端是如何區(qū)分的

四端電阻，又稱為四端測(cè)量電阻或凱爾文電阻，是一種特殊的電阻器，主要用于精密測(cè)量電路中的電阻值。四端電阻的電流端和電壓端的區(qū)分對(duì)于測(cè)量的

發(fā)表于 08-05 10:48 ?1150次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語音識(shí)別中的應(yīng)用

, LSTM）和門控循環(huán)單元（Gated Recurrent Unit, GRU）等，展現(xiàn)了強(qiáng)大的性能。本文將深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語音識(shí)別中的應(yīng)用，包括其背景、核心算法原理、具

發(fā)表于 07-08 11:09 ?570次閱讀

小鵬汽車發(fā)布端到端大模型

小鵬汽車近日宣布，其成功研發(fā)并發(fā)布了“國內(nèi)首個(gè)量產(chǎn)上車”的端到端大模型，該模型可直接通過傳感器輸入內(nèi)容來控制車輛，標(biāo)志著智能駕駛技術(shù)的新突破

發(fā)表于 05-21 15:09 ?675次閱讀

理想汽車自動(dòng)駕駛端到端模型實(shí)現(xiàn)

理想汽車在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化，最終實(shí)現(xiàn)了端到端的模型。這種模型不僅

發(fā)表于 04-12 12:17 ?446次閱讀

Sparse4D-v3：稀疏感知的性能優(yōu)化及端到端拓展

上限，解決更多的corner case，讓系統(tǒng)更加魯棒。因此，在Sparse4D-v3中，我們主要做了兩部分工作，其一是進(jìn)一步提升模型的檢測(cè)性能，另一是將Sparse4D拓展為一個(gè)端

發(fā)表于 01-23 10:20 ?1363次閱讀

RM新时代网站-首页

搜索歷史

準(zhǔn)確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

評(píng)論

階躍星辰發(fā)布國內(nèi)首個(gè)千億參數(shù)端到端語音大模型

利用OpenVINO部署GLM-Edge系列SLM模型

智譜推出四個(gè)全新端側(cè)模型攜英特爾按下AI普及加速鍵

如何提升ASR模型的準(zhǔn)確性

連接視覺語言大模型與端到端自動(dòng)駕駛

如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

端到端InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

以太網(wǎng)端口雙工模式是什么意思

端到端測(cè)試用例怎么寫

智能硬件接入主流大模型做語音交互（附文心一言、豆包、kimi、智譜glm、通義千問示例）

四端電阻的電流端和電壓端是如何區(qū)分的

循環(huán)神經(jīng)網(wǎng)絡(luò)在端到端語音識(shí)別中的應(yīng)用

小鵬汽車發(fā)布端到端大模型

理想汽車自動(dòng)駕駛端到端模型實(shí)現(xiàn)

Sparse4D-v3：稀疏感知的性能優(yōu)化及端到端拓展