亚洲天堂99,伊人久久大香线蕉综合av,五月婷婷六月香

打開字節(jié)、阿里們的多模態(tài)能力地圖，每塊寶藏都標著"語音”。

近期，就在阿里通義千問團隊發(fā)布翻譯模型Qwen-MT的同一天，字節(jié)跳動旗下的火山引擎正式對外發(fā)布了豆包·同聲傳譯模型 Seed LiveInterpret 2.0，后者的模型在多個Benchmark測試中都獲得了大幅度領(lǐng)先，但其實該模型的首版發(fā)布已經(jīng)是去年的事了。

時隔一年，字節(jié)再次將這個模型端出來，并花大力氣更新?lián)Q代了一次，字節(jié)想做什么？

我們可以把時間線串聯(lián)起來看：字節(jié)豆包團隊于 2024 年推出了旗艦語音生成基礎(chǔ)模型 Seed-TTS，今年1月發(fā)布了豆包 Realtime Voice Model（首個端到端語音理解與生成模型），4月開源了中英雙語TTS模型MegaTTS3，1個月前則發(fā)布了豆包播客語音模型。

作為豆包多模態(tài)能力中的重要一環(huán)，字節(jié)將同聲傳譯補足到了語音能力之中。反觀阿里，去年也曾高調(diào)推出了新一代端到端語音翻譯大模型 Gummy，這回在翻譯能力上又進一步。如果將視野再打開，環(huán)顧國內(nèi)外，我們能看到阿里巴巴、字節(jié)、科大訊飛、Grok、OpenAI、Meta都在向語音類賽道瘋狂投入資源。

吸引一眾AI廠商紛紛加碼語音模型的背后，則是行業(yè)對新一代“語義交互”方式的競爭。

一旦突破“實時語音+實時翻譯+實時輸出”的技術(shù)體驗屏障，其將直接打開AI產(chǎn)品的商業(yè)化想象空間。

譬如AI硬件。新一代AI硬件浪潮正對語音翻譯技術(shù)產(chǎn)生著強烈的需求牽引。尤其是國內(nèi)正在打響的“百鏡大戰(zhàn)”。翻譯模型Qwen-MT亮相兩天后，阿里在WAIC上正式推出了首款AI眼鏡。字節(jié)也被爆將在年內(nèi)發(fā)布自家的AI眼鏡。

不同于電腦和手機等終端硬件的文字交互方式，沒有鍵盤的眼鏡，天然便適合語音交互這一新形式。不過，當下阻礙AI眼鏡普及的一大難點，也恰恰在語音交互體驗的不完備上。

從這個角度來說，字節(jié)和阿里對語音模型的押注，頗有點給自家AI眼鏡打好前站的意思。

那么，語音類賽道到底正在發(fā)生著什么？豆包同傳2.0表現(xiàn)如何？

讓我們先來看看這個產(chǎn)品的實際能力。

同聲傳譯已經(jīng)是各種圈子內(nèi)的“老需求”了，并不新鮮。不過此模型，仍然吸引了全網(wǎng)不小的注意。這主要在于大家通過這次模型的升級，意識到了其背后的“泛商業(yè)價值”。

這款語音模型已經(jīng)能夠以極低的延遲、更絲滑的效果，輸出與用戶音色相一致的英語翻譯。一邊接收源語言語音輸入，一邊 0 樣本聲音復刻用戶聲音，直接輸出目標語言的翻譯語音。

我們來試一試。字節(jié)官方提供了體驗地址，登錄該網(wǎng)址后，每日有20次體驗同聲翻譯的機會。

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

我們以在WAIC2025上進行的AI教父Geoffrey Hinton的演講為例。

該同傳大模型目前僅支持中英間轉(zhuǎn)錄，我們先來試試中文，Hinton談?wù)摯笳Z言模型的一段中文翻譯：

今天的大語言模型（LLM）可以看作是當年我所構(gòu)建的小型語言模型的后繼者，是自 1985 年以來語言技術(shù)演進中的一個重要里程碑。它們以更長的詞序列作為輸入，采用更復雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并在特征學習中建立了更精妙的交互機制。

正如我當初設(shè)計的小模型那樣，LLM 的基本原理與人類理解語言的方式本質(zhì)一致：將語言轉(zhuǎn)化為特征表示，并在多個層次上對這些特征進行精密的整合與重構(gòu)。這正是 LLM 在其各個神經(jīng)網(wǎng)絡(luò)層中所執(zhí)行的核心任務(wù)。

因此，我們有理由說，LLM 確實在某種意義上“理解”了它們所生成的語言。

在這段視頻中，你能非常清晰地聽到，該語音模型對于用戶輸入的自然語言短句的識別能力非常強，也非常迅速。即便只是一個很短的間隔，模型也能夠準確識別到，并根據(jù)這種間隔判斷如何翻譯。

像是下圖，模型會自動根據(jù)語境，而選擇不更改主語，在翻譯過程中，模型會根據(jù)上下文自動判斷是否需要重復主語：

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

除此之外，當我輸入語音的同時，它也在實時克隆我的音色，當然效果稱不上很好，但也確實有一些相似度。

我又測試了一段魯迅語錄，其中可能會有一些語病，你會更明顯地發(fā)現(xiàn)該模型在同傳過程中的延遲非常低。像是“有一份熱，便發(fā)一份光”“無窮的遠方，無數(shù)的人們”中間的簡短時間非常的短，幾近于連讀，而模型也依然覺察出來了：

我們再來試一試Hinton的英文講座，這回我們非常明顯地發(fā)現(xiàn)同傳模型對于音色的克隆效果大幅下降了，幾乎沒有相似度。但是在翻譯場景下的表現(xiàn)，包括低延遲、準確度、自然的斷句等等，依然比較好。

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

目前該模型主要聚焦中英文對話，這點上與 Meta 的SeamlessStreaming 等跨語種模型相比仍有差距。Meta 在2023年12月發(fā)布 Seamlessstreaming 時，就已經(jīng)能夠涵蓋近 100 種輸入語言和 36 種語音輸出語言。從"語言覆蓋面"這個角度，字節(jié)確實還有很長的路要走。

字節(jié)同步發(fā)布了基準測試成績，Streamlessstreaming仍舊停留在這張表上，不過SeedLiveInterpret 2.0成績很不錯。中英互譯平均翻譯質(zhì)量的人類評分達到 74.8（滿分 100，評估譯文準確率）

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

相比之下，其他大多廠商的語音同傳翻譯產(chǎn)品基本不支持實時的語音復刻，在體驗上基本維持在語音輸入文字輸出的交互方式，我們也就不再多進行類比。

客觀地說，體驗下來，目前的模型技術(shù)還存在一些明顯的局限。在不同語言方向上的音色克隆表現(xiàn)差異較大，技術(shù)的一致性還需要改進。對于特定領(lǐng)域的專業(yè)詞匯，翻譯準確度還有提升空間。不過，語音復刻雖然略顯稚嫩，但也確實帶來了更有意思的交互體感。

同傳語音模型相對于單純語音生成來說，難度可能已經(jīng)是Next Level了。同傳模型需要同時做三件事：聽懂你說的話（語音識別）、翻譯成另一種語言（機器翻譯）、再用自然的聲音說出來（語音合成）。

因此，這波字節(jié)語音翻譯模型的升級并不只是為了做一個“翻譯軟件”。它的核心價值在于"語音交互"能力已經(jīng)宣告成熟，翻譯只是其中一個應用場景。

這是關(guān)于“語義交互”方式的競爭。

豆包同傳模型2.0的推出，實際上是字節(jié)跳動在AI大模型生態(tài)布局中的重要一步?；仡櫼幌聲r間線：早在2024年，豆包就發(fā)布了初代同傳模型，但那時只能輸出文字翻譯結(jié)果。

當然，除了字節(jié)之外，無論是國內(nèi)還是國外，幾乎所有基礎(chǔ)大模型廠商都把目光投向了語音模型這個賽道。然而，生成語音很簡單，難的是“實時語音+實時翻譯+實時輸出”，許多大廠都正在攻堅。

比如，只談及“純血同傳翻譯”模型的話，大家自然會把目光轉(zhuǎn)向阿里巴巴。在2024年云棲大會上，阿里高調(diào)推出了新一代端到端語音翻譯大模型 Gummy，雖然無法實時語音復刻，但也可實時流式生成語音識別與翻譯結(jié)果。

其在多個維度中都獲得了SOTA級別的表現(xiàn)，翻譯延遲甚至降到了0.5s以下：

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

"賣體驗"比"賣翻譯功能"要更吸引人。

同傳翻譯模型2.0背后，大家的關(guān)注點更多的還是在于語音類模型背后的潛力，而非垂直翻譯能力，大家的興奮點并不在于它能把中文翻譯成英文有多準確。

如果，我們繼續(xù)將目光放寬一點，會發(fā)現(xiàn)專攻語音交互模型賽道的選手，已經(jīng)遍布整個市場了，它們正在從各個角度撬動用戶應用場景。

像是最近，在輿論場和資本場拿回一點聲量的“AI六小龍”之一—— MiniMax，也不甘示弱連續(xù)發(fā)布了MiniMax-Speech系列模型，特別是2025年5月推出的 Speech-02 模型，號稱是"全球第一的TTS語音模型"。

其在社交場上獲得聲量并引起關(guān)注的原因，追其根本，在于它單次輸入支持 200K 字符，支持 30 多種語言，擁有超逼真的語音克隆體驗。

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

OpenAI的高級語音模式就更不用提了，如果你翻看各種社媒產(chǎn)品，就會發(fā)現(xiàn)幾乎所有領(lǐng)域的用戶都在抱怨“Plus用戶的語音限額有點少的可憐”，這說明低延遲、實時語音、擬人性的需求非常高。

只不過，OpenAI做產(chǎn)品確實有點慢，尚未將手伸向一些明確的應用場景，不過倒是投了一批初創(chuàng)企業(yè)。像是語言學習語音交互平臺 Speak，2024 年年底OpenAI曾參與其 7,800 萬美元融資，并將自身語音技術(shù)模型融入進去，現(xiàn)在這家公司估值已經(jīng)突破 10 億美元了。

Elon Musk也早早布局，他xAI旗下的Grok模型最近也卷入了語音賽道：7月中旬，Grok應用新增了"伴侶模式"，上線了一位可互動的3D虛擬AI少女形象 Ani。這個虛擬角色可以用甜美的動漫嗓音與用戶對話，在日本網(wǎng)友中迅速走紅，被戲稱為"AI女友"。

Grok對語音能力的意識顯然要比其他大廠商超前一點，像是ElevenLabs等初創(chuàng)企業(yè)與Grok在腦機接口上的合作，為漸凍癥患者替換聲音的操作，自然而然為這類模型打了一個大大的廣告。

多方動向背后，說明業(yè)界對于實時語音在AI產(chǎn)品商業(yè)化中的價值形成了共識。

首先讓我們回顧下AI產(chǎn)品的發(fā)展軌跡，在多模態(tài)交互中，構(gòu)建從“語音到語音”的閉環(huán)體驗在過去兩年就被認為是下一個關(guān)鍵目標。過去的AI產(chǎn)品（無論是Chatbot還是AI 硬件）更多停留在文字和圖像處理層面，但在人類日常交流中，語音才是最自然、最高效的溝通方式。所以，語音交互能帶給用戶更好更佳更AI的體驗過程，而這正好意味著一片“痛點藍海”。

各大廠搶攻語音模型，正是為了搶占這一未來的藍海市場，其第一步就是搶占入口。

相信從過去一年的“Chatbot”入口界面爭奪戰(zhàn)中，許多基礎(chǔ)模型廠商都悟得了一個道理：單純文字對話的用戶體驗每上升1分，背后可能是100分的模型能力提升，10000分的算力、算法、架構(gòu)的投入。

因為語音交互不像搜索引擎那樣存在一個絕對的入口，用戶可能從任何一個點開始接觸，然后逐漸習慣這種交互方式，這背后的商業(yè)價值可以說高到難以想象。

這場語音賽道的集體押注，實際上是各大廠商對未來AI應用場景的一次集體下注。

從進入2025年以來，AI硬件產(chǎn)品已經(jīng)進入“井噴式領(lǐng)域”。各種形態(tài)的智能設(shè)備如雨后春筍般涌現(xiàn)。

從最原初的純剛需來看，跨國出?；蛘呤菚h場景是始終繞不過的一關(guān)。各種翻譯企業(yè)從機器翻譯、神經(jīng)網(wǎng)絡(luò)翻譯再到AI翻譯，已經(jīng)走過了一關(guān)又一關(guān)，商業(yè)成果進展緩慢，蛋糕做大困難。相比之下，如果實時語音同傳成熟化，這種體驗的商業(yè)價值是巨大的。

無論是這些硬需求，還是滿足用戶對于AI未來交互體驗的“軟需求”，都需要一個合適的載體 —— AI硬件，或許很多人對此嗤之以鼻，認為其全部是套殼產(chǎn)品。但現(xiàn)實是，新一代AI硬件浪潮對語音翻譯技術(shù)產(chǎn)生了強烈的需求牽引。硬件產(chǎn)品非常能夠激發(fā)市場去琢磨一個市場還存在哪些尚未被發(fā)現(xiàn)的隱秘機會。

同時，在國外各個主力AI模型都已經(jīng)開始開發(fā)不同的收費模式時，反觀國內(nèi)，除了AI Agent帶來了較為成體系的價格結(jié)構(gòu)之外，AI基礎(chǔ)模型廠商幾乎是“一片噤聲”，無人愿意提及。正如大家常說的：“光靠模型就能盈利，那是做夢”。

AI也需要一個載體。

2023年以來，從硅谷初創(chuàng)公司Humane推出的可佩戴顯示設(shè)備 AI Pin，到國內(nèi)創(chuàng)業(yè)團隊研發(fā)的 Rabbit R1 ，年收入近1億美金的AI錄音硬件 Plaude、TicNote、再到字節(jié)推出的Ola Friend耳機，各種形態(tài)的可穿戴AI助手層出不窮?？拼笥嶏w也推出了主打?qū)崟r多語種同傳功能的會議耳機和翻譯耳機，AI硬件已經(jīng)事實上成為了各家廠商將AI商業(yè)化的“救命稻草”。

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

OldFriend 這款勉強被稱為AI硬件的產(chǎn)品，可以通過喚醒詞 “豆包豆包” 激活其 AI 聊天助手豆包，從而將體驗的支撐角色轉(zhuǎn)移給豆包。但是，這種體驗缺乏真正的顛覆性使用場景。

既然是AI硬件，還是要從AI下手。

當字節(jié)宣布同傳大模型2.0發(fā)布時，同時提到了該模型將在8月迅速進入Old Friend耳機中，為其補足更多的語音交互能力。我們可以這么理解，語音翻譯模型帶來的"實時語音交互"體驗，正在成為AI硬件產(chǎn)品吸引用戶的新戰(zhàn)場。

當然，在語音這個大領(lǐng)域內(nèi)，還存在其他分支賽道。比如字節(jié)、MiniMax前段時間都火出圈的AI播客功能，以及專注情感陪伴的語音AI產(chǎn)品。各家AI創(chuàng)業(yè)公司正在瘋狂挖掘語音交互的潛力，大家逐漸發(fā)現(xiàn)了AI產(chǎn)品發(fā)展下半程的"引爆點"——語音交互市場。

此次字節(jié)豆包同傳模型的發(fā)布、官方迅速宣布該模型將立刻接入硬件，以及前段時間字節(jié)投入大力氣打造的播客模型等等，都在宣告著國內(nèi)“語音”市場的潛力才剛剛展現(xiàn)。

“搶占下一代AI產(chǎn)品交互入口之前，先把硬件造出來”是國內(nèi)普遍信奉的樸素商業(yè)道理。在此之上，AI廠商們在看到不斷有初創(chuàng)企業(yè)通過“較差”或者只是開源的AI大模型技術(shù)就已經(jīng)能發(fā)掘出這么多應用場景了，肯定會捫心自問：我何樂而不為呢？

尤其是AI實時語音交互賽道，尚且沒有將這項體驗完整融合到硬件市場的產(chǎn)品出現(xiàn)。作為擁有AI原生技術(shù)的字節(jié)——這個大廠的標桿之一，開始認真考慮：語音交互很可能成為下一個改變?nèi)藱C交互方式的關(guān)鍵技術(shù)。

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？

免費教學更多>>

豆包上新同聲傳譯，順便狙擊阿里AI眼鏡？