RM新时代网站-首页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI同聲傳譯讓你瞬間掌握60種語言的那一天會發(fā)生什么事情?

科技訊息 ? 來源:科技訊息 ? 作者:科技訊息 ? 2024-10-10 09:33 ? 次閱讀

隨著AI技術(shù)的快速發(fā)展,語言不再是溝通的障礙。最新AI同聲傳譯技術(shù)的突破,讓每個人都可以在不同語言環(huán)境下無縫交流,不必?fù)?dān)心語言差異帶來的不便。這種技術(shù)讓每個普通人隨時“攜帶”一個專屬的同聲傳譯員出門成為可能。那么,隨著技術(shù)的成熟,哪些應(yīng)用場景將最先受到影響,成為我們?nèi)粘I畹囊徊糠?

當(dāng)下,許多人對AI翻譯軟件已經(jīng)不再陌生,這些軟件大多依托于文字翻譯技術(shù),并逐步融入了AI語音合成功能,來模擬同聲傳譯的體驗。例如,科大訊飛同傳、有道翻譯官和騰訊翻譯君等產(chǎn)品,都是這一領(lǐng)域的代表。這類軟件的工作原理一般是首先快速識別講話者的語音,并將其轉(zhuǎn)化為文字,再通過強大的自然語言處理算法對這些文字進(jìn)行翻譯,最后將翻譯后每個句子逐個轉(zhuǎn)化成語音并播放,實現(xiàn)“實時翻譯”的效果。

然而,這一系列流程不可避免地會帶來翻譯延遲問題。為了減少延遲,許多翻譯軟件選擇放棄語音播放功能,轉(zhuǎn)而只顯示翻譯后的文字。這種方式能夠?qū)崟r翻譯語音并以“字幕”的形式不斷更新,即便由于輸入的變化導(dǎo)致翻譯結(jié)果頻繁調(diào)整、推倒重來,也不會影響用戶的閱讀體驗。通過取消語音播放,更新后的翻譯內(nèi)容可以更迅速、連續(xù)地呈現(xiàn)在用戶面前,從而提升整體使用體驗。

而AI同聲傳譯模型則使用了完全不同的原理。

得益于近年AI模型的爆發(fā)性進(jìn)展,追求極低延遲的、直接將語音翻譯成語音的同聲傳譯模型在2024年開始逐漸出現(xiàn)。這類模型目的是直接或間接地將語音翻譯成目標(biāo)語言的語音。其中,三款表現(xiàn)出色的模型尤其受到關(guān)注,也是最接近真人同聲傳譯的方案:Meta(原Facebook)的Seamless-Streaming,中科院計算技術(shù)研究所的StreamSpeech,以及知了未來的同聲傳譯v3模型。這類模型的有別于傳統(tǒng)的AI翻譯軟件,它會嘗試模仿人類翻譯時的行為,不將發(fā)言人講話的內(nèi)容立馬翻譯出來,而是邊“聽”邊判斷當(dāng)前發(fā)言內(nèi)容是否足夠適合完整、是否需要聽取更多的內(nèi)容才能進(jìn)行翻譯。

Meta在AI領(lǐng)域擁有顯著的影響力,尤其是在開源貢獻(xiàn)和前沿技術(shù)研究方面。其AI研究部門Meta AI多個人工智能領(lǐng)域取得了重要突破,LLaMA(大型語言模型)作為其推出的開源模型,已經(jīng)在AI研究界廣泛使用;并且其推出的開源框架PyTorch已經(jīng)成為全球AI研究和應(yīng)用中的主流工具。其同聲傳譯模型Seamless-Streaming此次同樣開源,允許任何人訪問其核心原理,根據(jù)其發(fā)表的相關(guān)論文顯示(https://ai.meta.com/resources/models-and-libraries/seamless-communication-models/),Seamless-Streaming選擇使用“EMMA”策略來判斷翻譯機是否應(yīng)該立刻翻譯聽取到的內(nèi)容還是等待更多內(nèi)容的輸入。在測試使用中,Seamless-Streaming模型做到了3秒左右的延遲的準(zhǔn)確翻譯,簡單來說就是翻譯內(nèi)容滯后于原本發(fā)言3秒鐘左右。相較于傳統(tǒng)AI翻譯軟件“同聲傳譯”的15秒以上的延遲有了突破性的優(yōu)化,真正達(dá)到了真人同聲傳譯延遲的水準(zhǔn),但可惜準(zhǔn)確性相較于傳統(tǒng)AI翻譯仍有些不足。尤其是中文等復(fù)雜語言的翻譯測試中,時長出現(xiàn)會錯意、聽不懂“言下之意”的問題。

wKgZomcHLtGAHiPlAANw2-j7_3k278.png

而作為國內(nèi)最高學(xué)術(shù)機構(gòu)和綜合性科研中心,中科院同樣開源了其關(guān)于StreamSpeech模型的研究。根據(jù)其發(fā)表的論文顯示(https://arxiv.org/abs/2406.03049),StreamSpeech主要采用了檢查“Alignments”的方式來判斷翻譯機的等待與否。令人震驚的是,該翻譯模型的翻譯延遲達(dá)到了驚人的0.3秒,值得一提的是,這甚至于人類的平均反應(yīng)時間相當(dāng)。這一翻譯速度已經(jīng)遠(yuǎn)遠(yuǎn)超過真人能企及的水平,對于真人同聲傳譯員來說,從演講人說出單詞到聽到并理解到腦中的時間就已不止0.3秒??上壳霸撃P虚_源的部分中該模型僅支持英法、英西、英德的翻譯,暫時不支持中文。并且在低延遲模型的測試中,翻譯的流暢程度有些差強人意,翻譯出來的內(nèi)容更像是“逐字機翻”而非流暢的翻譯語句意思。這個問題的出現(xiàn)更多是因為延遲太低,導(dǎo)致翻譯機“被迫”翻譯一些還沒有完成的句子所造成的。

wKgaomcHLtKAZkkfAAERaoXIBVw615.png

不同于Meta與中科院,知了未來是一支位于倫敦的小型華人研發(fā)團(tuán)隊。該團(tuán)隊目前正在融資中,且并尚未開源其模型;其關(guān)于此模型公開信息僅有測試體驗窗口(https://translate.weil-ai.com/)與論文摘要。根據(jù)其公開的論文摘要顯示,知了未來的同聲傳譯v3模型相較于前兩家,創(chuàng)新之處在于其將“是否等待更多輸入”的功能直接交給了翻譯模型?,F(xiàn)在其正在內(nèi)測兩款模型:小(mini)模型以低延遲為首要目標(biāo),根據(jù)內(nèi)測其翻譯延遲平均為1-3秒,在發(fā)言人講話清晰時翻譯準(zhǔn)確率遠(yuǎn)超上述兩款模型。大(large)模型以高精度為特點,翻譯延遲平均為2-5秒,而翻譯準(zhǔn)確與流暢程度達(dá)到甚至超越了真人水準(zhǔn),甚至支持中英混合表達(dá)、古詩詞、方言與流行梗的準(zhǔn)確翻譯。美中不足的是該模型目前內(nèi)測名額有限,并且測試火爆經(jīng)常出現(xiàn)排隊使用的狀況;其網(wǎng)頁翻譯功能距離落地產(chǎn)品還有一段距離,目前更像一個“模型展示”的網(wǎng)頁。

綜上所述,AI同聲傳譯的技術(shù)突破已經(jīng)讓更多潛在的可能性進(jìn)入現(xiàn)實,我們距離電影《流浪地球》中的“兩個不同語言的人戴上耳機之后可以正常交流”的場景已經(jīng)肉眼可見的飛速接近。而當(dāng)下最接近這個場景的知了未來同聲傳譯等軟件還未開始任何的產(chǎn)品落地;到底會先在哪個場景看到它的使用?誰會是第一批用戶?成為了交給市場的下一個問題。

在思考這個問題之前,我們回看一下同聲傳譯即將實現(xiàn)的核心功能:將講話人的聲音作為實時輸入,將翻譯好的語音模擬講話人的音調(diào)作為實時輸出。那么給定這個功能下,我們想了一些非常好的例子在這里分享給大家,希望能激發(fā)大家的靈感:

一、空乘播報

在國際航班上,乘務(wù)員通常被要求會講兩國甚至是多國語言。除了更好的服務(wù)旅客,更重要的是在飛行途中對于旅程等信息的播報,例如“入境須知、航班轉(zhuǎn)機信息”等內(nèi)容需要讓不同國家的旅客聽明白的話就需要同時說不同的語言。而多語言對于空乘來說確實是一個不小的挑戰(zhàn),但凡口語表達(dá)的不清晰就會給旅客造成困擾。而AI同聲傳譯或許在這個時候就可以幫上忙,僅需要空乘會說一種語言,AI負(fù)責(zé)將其內(nèi)容以相同的音色傳入乘客的耳中,讓飛機上來自五湖四海的旅客都可以聽清楚聽明白、并且讓旅途更安心。

二、在線教育

隨著在線教育的全球化進(jìn)程加快,越來越多的教育平臺和機構(gòu)希望吸引來自世界各地的學(xué)生。然而,語言差異常常成為學(xué)生獲取優(yōu)質(zhì)教育資源的障礙。尤其是母語為小語種的學(xué)生,在學(xué)習(xí)非母語課程時,往往不僅難以理解,還影響到他們在數(shù)學(xué)、物理等核心學(xué)科的學(xué)習(xí)能力,許多有天賦的學(xué)生因此被埋沒。AI同聲傳譯技術(shù)恰好能夠打破這一壁壘,為講師提供實時翻譯服務(wù),使得無論講師使用何種語言授課,學(xué)生都能同步獲取翻譯內(nèi)容,從而在全球化的教育環(huán)境中不再受到語言的限制。

AI同聲傳譯技術(shù)能夠為這些場合提供實時、精準(zhǔn)的翻譯服務(wù),避免信息傳遞中的延遲與誤解,從而促進(jìn)更加高效的國際交流與合作。那除此之外,未來還有哪些可能的使用場景?或許下一個突破點,就藏在我們?nèi)粘I钪械哪硞€細(xì)節(jié)。隨著技術(shù)的不斷完善,AI同聲傳譯將逐步進(jìn)入更多的日常應(yīng)用場景,成為未來全球化溝通不可或缺的一部分。

未來已來,我們拭目以待。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30665

    瀏覽量

    268840
  • 語音合成
    +關(guān)注

    關(guān)注

    2

    文章

    89

    瀏覽量

    16155
收藏 人收藏

    評論

    相關(guān)推薦

    錄音筆芯片方案:NVF04M-SOP16高品質(zhì)錄音IC,捕捉每個音節(jié)

    概述錄音筆從最初的模擬錄音,到如今的數(shù)字高清錄音,再到集高清錄音、錄音轉(zhuǎn)文字、同聲傳譯、云端存儲等功能于體的智能錄音筆,其演變歷程見證了科技的飛速進(jìn)步?,F(xiàn)代錄音筆小巧輕便,易于攜帶,無論是在
    的頭像 發(fā)表于 10-25 16:07 ?264次閱讀
    錄音筆芯片方案:NVF04M-SOP16高品質(zhì)錄音IC,捕捉每<b class='flag-5'>一</b>個音節(jié)

    明明我說的是25G信號,卻讓我看12.5G的損耗?

    那一天,我問高速先生25G光模塊信號在主板上允許的損耗是多少,他們就告訴我在12.5G要滿足大概7.3dB,我當(dāng)時就懵了,明明我說的是25G啊,他跟我說12.5G干嘛!
    的頭像 發(fā)表于 10-23 09:08 ?1074次閱讀
    明明我說的是25G信號,<b class='flag-5'>你</b>卻讓我看12.5G的損耗?

    AI同聲傳譯技術(shù)的新興力量知了未來已推動跨語言溝通革新

    知了未來:AI同聲傳譯領(lǐng)域的創(chuàng)新力量 在AI同聲傳譯領(lǐng)域,大家可能首先想到的是行業(yè)巨頭,然而,家來自倫敦的小型華人研發(fā)團(tuán)隊——知了未來,憑
    的頭像 發(fā)表于 10-18 09:21 ?267次閱讀

    中興通訊全場景AI終端應(yīng)用與裸眼3D新品亮相

    ”的產(chǎn)品戰(zhàn)略與理念,終端業(yè)務(wù)六大AI主題展示吸引了眾多關(guān)注,內(nèi)容覆蓋全球領(lǐng)先的AI裸眼3D、AI同聲傳譯和方言互譯、AI安全反詐、
    的頭像 發(fā)表于 10-15 10:00 ?826次閱讀

    蓮偶科技發(fā)布XR新品系列

    帶來前所未有的流暢自然交互體驗。此外,L-Ring 2還融合了語音交互、同聲傳譯及腦圖生成會議記錄等智能功能,極大地提升了工作與生活的便捷性。
    的頭像 發(fā)表于 09-05 16:47 ?718次閱讀

    技術(shù)干貨驛站 ▏深入理解C語言掌握常量,的代碼更加穩(wěn)固高效!

    在C語言的世界中,常量是一種不可忽視的元素。無論是在編寫簡單的代碼,還是構(gòu)建復(fù)雜的系統(tǒng),常量都能為的程序帶來更高的穩(wěn)定性和可靠性。在這篇文章中,我們將深入探討C
    的頭像 發(fā)表于 08-29 13:59 ?2826次閱讀
    技術(shù)干貨驛站 ▏深入理解C<b class='flag-5'>語言</b>:<b class='flag-5'>掌握</b>常量,<b class='flag-5'>讓</b><b class='flag-5'>你</b>的代碼更加穩(wěn)固高效!

    使用ESP8266_NONOS_SDK_V1.5.2_16_01_29編寫了個簡單的眨眼probram,不怎么穩(wěn)定如何解決?

    不會恢復(fù)。 IO15直接接GND, IO2 用 10k 電阻上拉, IO0 用 10k 電阻上拉。 發(fā)生此問題的可能性約為 50%。 如果我在EN和GND之間添加個100uF的電容器,概率會下降到10%左右,但它仍然會發(fā)生
    發(fā)表于 07-22 07:31

    中興系列終端亮相2024世界人工智能大會

    業(yè)務(wù)圍繞AI裸眼3D、AI同聲傳譯與方言互譯、AI安全反詐、AI智慧商務(wù)與創(chuàng)作、紅魔AI游戲魔方
    的頭像 發(fā)表于 07-05 11:19 ?706次閱讀

    為什么幾乎所有ECU系統(tǒng)都同時使用外部WDG和內(nèi)部WDG?

    的功能和性能。 請問為什么幾乎所有 ECU 系統(tǒng)都同時使用外部 WDG 和內(nèi)部 WDG? 有什么事情是內(nèi)部能做而外部不能做的嗎?
    發(fā)表于 05-21 06:59

    三星Galaxy AI將支持19語言,覆蓋粵語及法語等

     截止當(dāng)前,三星Galaxy AI共支持13個語言,此舉將全球更多三星用戶享受到該產(chǎn)品的便利。此外,三星計劃至今年底再增加對羅馬尼亞語、土耳其語等8
    的頭像 發(fā)表于 04-15 15:56 ?992次閱讀

    英偉達(dá)H200性能顯著提升,年內(nèi)將推出B200新AI半導(dǎo)體

    一天,NVIDIA發(fā)布了H200的性能評估報告,表明在與美國Meta公司的大型語言模型——LLM“Llama 2”的對比中,H200使AI導(dǎo)出答案的處理速度最高提升了45%。
    的頭像 發(fā)表于 04-01 09:36 ?1397次閱讀

    寧德時代市值一天暴增千億

    寧德時代市值一天暴增千億 就在業(yè)界討論AI的盡頭是光伏和儲能之時,摩根士丹利上調(diào)寧德時代的評級至“超配”,并將寧德時代的目標(biāo)價上調(diào)14%,寧德時代的股價迎來久違的大漲,寧德時代市值一天暴增千億。 3
    的頭像 發(fā)表于 03-12 17:43 ?962次閱讀

    cy8c6347在release下使用Cy_SysLib_Delay()延時產(chǎn)生了混亂的原因?

    使用cy8c6347系列,在debug下使用Cy_SysLib_Delay()貌似延時正常,但是在release下使用Cy_SysLib_Delay()延時產(chǎn)生了混亂,甚至有些沒有形成延時的情況,請問Cy_SysLib_Delay()在延時中具體做了什么事情,為什么會產(chǎn)
    發(fā)表于 03-05 07:44

    琢磨了一天的CAN協(xié)議

    最新公司需要利用J1939的CAN協(xié)議進(jìn)行數(shù)據(jù)通信,琢磨了一天,才明白,現(xiàn)在整理成筆記,內(nèi)容如下:1.數(shù)據(jù)幀格式數(shù)據(jù)幀格式應(yīng)遵循CAN29位標(biāo)識符的擴展幀格式,CAN數(shù)據(jù)幀由很多域組成(仲裁域+控制
    的頭像 發(fā)表于 01-10 08:00 ?599次閱讀
    琢磨了<b class='flag-5'>一天</b>的CAN協(xié)議

    LTC1624在上電的一瞬間,電源芯片會發(fā)生異常如何解決?

    我用LTC1624設(shè)計了個24V轉(zhuǎn)5V的降壓電路,功率大概5V@1A。 偶爾會發(fā)生,在上電的一瞬間,電源芯片會發(fā)生異常,導(dǎo)致輸出電壓只有2點幾V。且需要斷電重啟,才能恢復(fù)。 請問是
    發(fā)表于 01-08 08:01
    RM新时代网站-首页