RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

準(zhǔn)確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-12-17 10:21 ? 次閱讀

GPT-4o 提供的全雙工語音對(duì)話帶來了一股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實(shí)現(xiàn)端到端的語音到語音(Speech-to-Speech)對(duì)話能力,但是目前大部分開源方案存在以下兩個(gè)問題:

LLM 災(zāi)難性遺忘:由于現(xiàn)有方案在語音模態(tài)與 LLM 進(jìn)行對(duì)齊時(shí),會(huì)或多或少對(duì) LLM 進(jìn)行微調(diào),但由于要采集到與 LLM 本身訓(xùn)練的文本數(shù)據(jù)同等量級(jí)的語音數(shù)據(jù)是非常困難的,所以這一微調(diào)過程往往會(huì)導(dǎo)致 LLM 出現(xiàn)遺忘現(xiàn)象,造成 LLM 的聰明度下降

語音問答(Spoken Question Answering)任務(wù)的評(píng)估:多數(shù)工作對(duì)于語音問答的準(zhǔn)確性并沒有進(jìn)行定量評(píng)估,從已有的一些評(píng)估結(jié)果也可以看出同一模型語音問答和文本問答相比準(zhǔn)確性會(huì)有明顯的差距

針對(duì)上述這些問題,近日騰訊&西工大&南大的研究人員提出了一種低延遲的端到端語音雙工對(duì)話模型 Freeze-Omni(VITA 大模型系列第二個(gè)工作),其可以在完全凍結(jié) LLM 的情況下,為 LLM 接入語音輸入和輸出,使其能夠支持端到端的語音對(duì)話能力,且通過一系列優(yōu)化使得其具備低延遲的雙工對(duì)話能力,其主要特性如下:

在整個(gè)訓(xùn)練過程中,LLM 的參數(shù)被完全凍結(jié),確保大型語言模型的知識(shí)能力被完全保留;

訓(xùn)練過程中所依賴的數(shù)據(jù)規(guī)模較小,消耗的計(jì)算資源也較少。Freeze-Omni 僅需要文本-語音配對(duì)數(shù)據(jù)(如 ASR 和 TTS 訓(xùn)練數(shù)據(jù),比較容易獲得)以及僅少量的文本模態(tài)的問答數(shù)據(jù),語音問答準(zhǔn)確性顯著超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型;

Freeze-Omni 可以支持任何具有文本模態(tài)的(多模態(tài))大語言模型,能夠保留基底大語言模型的能力,如提示服從和角色扮演等。此外,如果有必要改變大語言模型的領(lǐng)域或者回應(yīng)方式,只需要用相應(yīng)的文本數(shù)據(jù)對(duì)大語言模型進(jìn)行微調(diào)即可,不需要采集大量語音的問答和對(duì)話數(shù)據(jù)。

04a1c67c-b61a-11ef-93f3-92fbcf53809c.png

論文標(biāo)題:

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

論文鏈接:

https://arxiv.org/abs/2411.00774

項(xiàng)目主頁:

https://freeze-omni.github.io/

開源代碼:

https://github.com/VITA-MLLM/Freeze-Omni

三階段訓(xùn)練策略實(shí)現(xiàn)語音輸入輸出能力

Freeze-Omni 的整體結(jié)構(gòu)如圖 1 所示,其包含有語音編碼器(Speech Encoder)和語音解碼器(Speech Decoder)以及基底 LLM 三部分。 在運(yùn)行過程中,流式的語音輸入通過語音編碼器形成分塊(Chunk)特征,然后通過 Adapter 連接到 LLM,LLM 生成的 Hidden State 和文本 Token 的在分塊分割后,分別以塊的形式送入非自回歸前綴語音解碼器(NAR Prefix Speech Decoder)和非自回歸語音解碼器(NAR Speech Decoder)以進(jìn)行 Prefill 操作。 最后自回歸語音解碼器(AR Speech Decoder)將會(huì)完成 Generate 操作以生成語音 Token,并由 Codec Decoder 將其流式解碼為語音信號(hào)輸出。

04b173c4-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖1. Freeze-Omni框架圖 Freeze-Omni 各個(gè)模塊的三階段訓(xùn)練策略如下: 流式語音編碼器的三階段訓(xùn)練:如圖 2 所示,第一階段(a)會(huì)先使用 ASR 數(shù)據(jù)訓(xùn)練一個(gè)具有 ASR 能力的語音編碼。 第二階段(b)會(huì)以 ASR 任務(wù)為優(yōu)化目標(biāo),將語音編碼器與 LLM 做模態(tài)對(duì)齊,這個(gè)過程中 LLM 是處于凍結(jié)狀態(tài)的。 第三階段(c)會(huì)使用由 TTS 系統(tǒng)合成的語音輸入-文本回答的多輪 QA 數(shù)據(jù)進(jìn)行訓(xùn)練,這里會(huì)使用第二階段訓(xùn)練好的語音編碼器,但是其參數(shù)保持凍結(jié)以保留其語音魯棒性,而可訓(xùn)練的參數(shù)只有每個(gè)問題前的 Prompt Embedding,用于指導(dǎo) LLM 從 ASR 任務(wù)遷移到 QA 任務(wù)中。

04c4933c-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖2. 流式語音編碼器的三階段訓(xùn)練示意圖 流式語音解碼器的三階段訓(xùn)練:如圖 3 所示,第一階段(a)會(huì)先訓(xùn)練一個(gè)單碼本的語音編解碼模型,使用單碼本的目的主要是為了降低計(jì)算復(fù)雜度和時(shí)延。 第二階段(b)將會(huì)訓(xùn)練 NAR 語音編碼器和 AR 語音編碼器,這里會(huì)使用文本-語音的 TTS 數(shù)據(jù),其文本會(huì)通過基底 LLM 的 Tokenizer 轉(zhuǎn)化為 Token,再經(jīng)過基底 LLM 的 Embedding 層轉(zhuǎn)化為文本特征,這個(gè)過程中 Embedding 的參數(shù)是凍結(jié)的,訓(xùn)練目標(biāo)的語音 Token 是由第一階段的語音編碼器提供。 第三階段(c)將會(huì)凍結(jié)第二階段訓(xùn)練得到的所有網(wǎng)絡(luò),但同時(shí)加入了一個(gè) NAR Prefix 語音編碼器,其用于接受 LLM 輸出的 Hidden State,并將輸出的 kv-cache 作為第二階段模型的初始 kv-cache,該過程使用的數(shù)據(jù)是文本輸入-語音輸出的 QA 數(shù)據(jù),主要目的是為了使得語音編碼器遷移到 LLM 的輸出領(lǐng)域中。

04e17d44-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖3. 流式語音解碼器的三階段訓(xùn)練示意圖 雙工對(duì)話的狀態(tài)標(biāo)簽訓(xùn)練:如圖 4 所示,為了實(shí)現(xiàn)雙工交互,F(xiàn)reeze-Omni 在語音編碼器訓(xùn)練的第三階段中,會(huì)為每個(gè) Chunk 的最后一個(gè)語音幀對(duì)應(yīng)的 LLM 輸出 Hidden State 加入一個(gè)額外的分類層進(jìn)行多任務(wù)訓(xùn)練,其目的主要是為了輸出狀態(tài)標(biāo)簽。 當(dāng)使用 VAD 激活語音流輸入后,狀態(tài)標(biāo)簽 0 表示 LLM 將會(huì)繼續(xù)接受語音 Chunk 的輸入,狀態(tài)標(biāo)簽 1 表示 LLM 將會(huì)停止接收語音,且會(huì)打斷用戶并進(jìn)入 LLM 的 Generate 階段輸出回復(fù),狀態(tài)標(biāo)簽 2 表示 LLM 也會(huì)停止接收語音,但不會(huì)打斷用戶,相當(dāng)于對(duì)這次語音激活做了拒識(shí)。

050cf406-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖4. 全雙工對(duì)話的狀態(tài)標(biāo)簽訓(xùn)練示意圖

模型性能測(cè)評(píng)

訓(xùn)練配置:Freeze-Omni 在訓(xùn)練過程中,使用了開源 Qwen2-7B-Instruct 作為基底模型,語音編碼器在訓(xùn)練過程中使用了 11 萬小時(shí)中文英文混合的 ASR 數(shù)據(jù),語音解碼器訓(xùn)練過程使用了 3000 小時(shí)由 TTS 系統(tǒng)合成的文本-語音數(shù)據(jù),所提到的 QA 數(shù)據(jù)是由 6 萬條從 moss-003-sft-data 中抽取的多輪對(duì)話經(jīng)過 TTS 系統(tǒng)合成得到的。 語音輸入理解能力評(píng)估:Freeze-Omni 提供了其在常見的英文測(cè)試集上的 ASR 性能測(cè)試結(jié)果,從中可以看出,其 ASR 準(zhǔn)確性處于較為領(lǐng)先的水平。

05343ed0-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖5. 語音理解能力評(píng)估 語音輸出質(zhì)量評(píng)估:Freeze-Omni 提供了其在 1000 條 LLM 輸出的 Hidden State 與 Text Token 上語音解碼器生成的語音在使用 ASR 模型測(cè)試得到的詞錯(cuò)誤率(CER),從結(jié)果中可以看出 NAR Prefix 語音解碼器的引入會(huì)有效降低詞錯(cuò)誤率,提高生成語音的質(zhì)量。

0555afac-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖6. 語音輸出質(zhì)量評(píng)估 語音問答準(zhǔn)確性評(píng)估:Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三個(gè)集合上的語音問答準(zhǔn)確率評(píng)估。 從結(jié)果中可以看出 Freeze-Omni 的準(zhǔn)確率具有絕對(duì)的領(lǐng)先水平,超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型,并且其語音模態(tài)下的準(zhǔn)確率相比其基底模型 Qwen2-7B-Instruct 的文本問答準(zhǔn)確率而言,差距明顯相比 Moshi 與其文本基底模型 Helium 的要小,足以證明 Freeze-Omni 的訓(xùn)練方式可以使得 LLM 在接入語音模態(tài)之后,聰明度和知識(shí)能力受到的影響最低。

05601294-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖7. 語音問答準(zhǔn)確性評(píng)估 系統(tǒng)延遲評(píng)估:Freeze-Omni 還提供了端到端時(shí)延分析(即用戶說完后到 LLM 輸出音頻的時(shí)間差),作者將其分為了可統(tǒng)計(jì)時(shí)延和不可統(tǒng)計(jì)時(shí)延兩部分,其中可統(tǒng)計(jì)時(shí)延的總時(shí)長平均數(shù)僅為 745ms,而作者也提到如果經(jīng)過測(cè)量考慮到網(wǎng)絡(luò)延遲和不可統(tǒng)計(jì)時(shí)延部分,則系統(tǒng)的平均響應(yīng)時(shí)延在 1.2s 左右,在行業(yè)內(nèi)仍為領(lǐng)先水平。

0592eb88-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖8. 系統(tǒng)延遲評(píng)估

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3226

    瀏覽量

    48806
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    286

    瀏覽量

    327

原文標(biāo)題:準(zhǔn)確性超Moshi和GLM-4-Voice!端到端語音雙工模型Freeze-Omni

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    階躍星辰發(fā)布國內(nèi)首個(gè)千億參數(shù)語音模型

    近日,階躍星辰在官方公眾號(hào)上宣布了一項(xiàng)重大突破——推出Step-1o千億參數(shù)語音模型。該模型
    的頭像 發(fā)表于 12-17 13:43 ?121次閱讀

    利用OpenVINO部署GLM-Edge系列SLM模型

    近期智譜發(fā)布了其最新的GLM-Edge系列SLM模型,GLM-Edge 系列是智譜在面向側(cè)真實(shí)落地使用的場(chǎng)景下的一次嘗試,由兩種尺寸的大語言對(duì)話
    的頭像 發(fā)表于 12-09 16:12 ?729次閱讀

    智譜推出四個(gè)全新側(cè)模型 攜英特爾按下AI普及加速鍵

    GLM-Edge-4B-chat、GLM-Edge-1.5B-chat為側(cè)大語言模型,GLM-Edge-V-5B、
    的頭像 發(fā)表于 12-02 17:13 ?195次閱讀
    智譜推出四個(gè)全新<b class='flag-5'>端</b>側(cè)<b class='flag-5'>模型</b> 攜英特爾按下AI普及加速鍵

    如何提升ASR模型準(zhǔn)確性

    提升ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)模型準(zhǔn)確性語音識(shí)別技術(shù)領(lǐng)域的核心挑戰(zhàn)之一。以下是一些提升ASR
    的頭像 發(fā)表于 11-18 15:14 ?741次閱讀

    連接視覺語言大模型自動(dòng)駕駛

    自動(dòng)駕駛在大規(guī)模駕駛數(shù)據(jù)上訓(xùn)練,展現(xiàn)出很強(qiáng)的決策規(guī)劃能力,但是面對(duì)復(fù)雜罕見的駕駛場(chǎng)景,依然存在局限性,這是因?yàn)?b class='flag-5'>端
    的頭像 發(fā)表于 11-07 15:15 ?223次閱讀
    連接視覺語言大<b class='flag-5'>模型</b>與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動(dòng)駕駛

    如何評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性

    評(píng)估 ChatGPT 輸出內(nèi)容的準(zhǔn)確性是一個(gè)復(fù)雜的過程,因?yàn)樗婕?b class='flag-5'>到多個(gè)因素,包括但不限于數(shù)據(jù)的質(zhì)量和多樣、模型的訓(xùn)練、上下文的理解、以及輸出內(nèi)容的邏輯一致
    的頭像 發(fā)表于 10-25 17:48 ?571次閱讀

    InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    的,這需要大量的計(jì)算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。InfiniBand(IB)網(wǎng)絡(luò)作為高性能計(jì)算和AI模型訓(xùn)練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言
    的頭像 發(fā)表于 10-23 11:26 ?378次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand網(wǎng)絡(luò)解決LLM訓(xùn)練瓶頸

    以太網(wǎng)端口雙工模式是什么意思

    以太網(wǎng)端口雙工模式是指以太網(wǎng)端口在數(shù)據(jù)傳輸過程中,能夠同時(shí)發(fā)送和接收數(shù)據(jù)的能力或方式。雙工模式對(duì)于網(wǎng)絡(luò)性能和數(shù)據(jù)傳輸效率具有重要影響。以下是關(guān)于以太網(wǎng)端口雙工模式的詳細(xì)介紹,包括其定義、分類、配置方式、注意事項(xiàng)以及應(yīng)用場(chǎng)景等方面
    的頭像 發(fā)表于 10-08 10:14 ?756次閱讀

    測(cè)試用例怎么寫

    測(cè)試方法,旨在驗(yàn)證整個(gè)應(yīng)用程序從前端后端的流程是否能夠按照預(yù)期工作。它涉及多個(gè)系統(tǒng)組件和接口的交互,確保業(yè)務(wù)流程的完整和正確。 二、編寫
    的頭像 發(fā)表于 09-20 10:29 ?438次閱讀

    智能硬件接入主流大模型語音交互(附文心一言、豆包、kimi、智譜glm、通義千問示例)

    到output1?!?鏈路2: 可通過web對(duì)話頁調(diào)用大模型節(jié)點(diǎn),最終將大模型結(jié)果輸出到對(duì)話頁面上?!?鏈路3: 可通過開發(fā)板調(diào)用大模型節(jié)點(diǎn),最終將大模型輸出的結(jié)果進(jìn)行
    發(fā)表于 08-21 19:13

    電阻的電流和電壓是如何區(qū)分的

    電阻,又稱為四測(cè)量電阻或凱爾文電阻,是一種特殊的電阻器,主要用于精密測(cè)量電路中的電阻值。四電阻的電流和電壓的區(qū)分對(duì)于測(cè)量的
    的頭像 發(fā)表于 08-05 10:48 ?1150次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用

    , LSTM)和門控循環(huán)單元(Gated Recurrent Unit, GRU)等,展現(xiàn)了強(qiáng)大的性能。本文將深入探討循環(huán)神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用,包括其背景、核心算法原理、具
    的頭像 發(fā)表于 07-08 11:09 ?570次閱讀

    小鵬汽車發(fā)布模型

    小鵬汽車近日宣布,其成功研發(fā)并發(fā)布了“國內(nèi)首個(gè)量產(chǎn)上車”的模型,該模型可直接通過傳感器輸入內(nèi)容來控制車輛,標(biāo)志著智能駕駛技術(shù)的新突破
    的頭像 發(fā)表于 05-21 15:09 ?675次閱讀

    理想汽車自動(dòng)駕駛模型實(shí)現(xiàn)

    理想汽車在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化,最終實(shí)現(xiàn)了模型。這種模型不僅
    發(fā)表于 04-12 12:17 ?446次閱讀
    理想汽車自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實(shí)現(xiàn)

    Sparse4D-v3:稀疏感知的性能優(yōu)化及拓展

    上限,解決更多的corner case,讓系統(tǒng)更加魯棒。因此,在Sparse4D-v3中,我們主要做了兩部分工作,其一是進(jìn)一步提升模型的檢測(cè)性能,另一是將Sparse4D拓展為一個(gè)
    的頭像 發(fā)表于 01-23 10:20 ?1363次閱讀
    Sparse<b class='flag-5'>4</b>D-v3:稀疏感知的性能優(yōu)化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展
    RM新时代网站-首页