超碰a v在线_成人一级大片_中文字幕一区av_无码国模产在线观看免费_丝袜一二区_观看国产色欲色欲色欲www_男女高潮又爽又黄又无遮挡_日韩 亚洲 欧美 国产 精品_免费久久av_3d精品h动漫啪啪大神自制_亚州一级_谁有av网址_久久久精品人妻一区二区三区_精品国产品香蕉在线_欧美变态另类牲交zozo_肉大榛一进一出免费视频_国产欧美久久久久_丰满少妇熟女高潮流白浆_秋霞影视一区_亚洲婷婷综合网

首頁 > 生活分享 > 免費教學 > 豆包上新同聲傳譯,順便狙擊阿里AI眼鏡?

豆包上新同聲傳譯,順便狙擊阿里AI眼鏡?

發(fā)布時間:2025-07-29 17:55:31來源: 18536995560

打開字節(jié)、阿里們的多模態(tài)能力地圖,每塊寶藏都標著"語音”。

近期,就在阿里通義千問團隊發(fā)布翻譯模型Qwen-MT的同一天,字節(jié)跳動旗下的火山引擎正式對外發(fā)布了豆包·同聲傳譯模型 Seed LiveInterpret 2.0,后者的模型在多個Benchmark測試中都獲得了大幅度領(lǐng)先,但其實該模型的首版發(fā)布已經(jīng)是去年的事了。

時隔一年,字節(jié)再次將這個模型端出來,并花大力氣更新?lián)Q代了一次,字節(jié)想做什么?

我們可以把時間線串聯(lián)起來看:字節(jié)豆包團隊于 2024 年推出了旗艦語音生成基礎(chǔ)模型 Seed-TTS,今年1月發(fā)布了豆包 Realtime Voice Model(首個端到端語音理解與生成模型),4月開源了中英雙語TTS模型MegaTTS3,1個月前則發(fā)布了豆包播客語音模型。

作為豆包多模態(tài)能力中的重要一環(huán),字節(jié)將同聲傳譯補足到了語音能力之中。反觀阿里,去年也曾高調(diào)推出了新一代端到端語音翻譯大模型 Gummy,這回在翻譯能力上又進一步。如果將視野再打開,環(huán)顧國內(nèi)外,我們能看到阿里巴巴、字節(jié)、科大訊飛、Grok、OpenAI、Meta都在向語音類賽道瘋狂投入資源。

吸引一眾AI廠商紛紛加碼語音模型的背后,則是行業(yè)對新一代“語義交互”方式的競爭。

一旦突破“實時語音+實時翻譯+實時輸出”的技術(shù)體驗屏障,其將直接打開AI產(chǎn)品的商業(yè)化想象空間。

譬如AI硬件。新一代AI硬件浪潮正對語音翻譯技術(shù)產(chǎn)生著強烈的需求牽引。尤其是國內(nèi)正在打響的“百鏡大戰(zhàn)”。翻譯模型Qwen-MT亮相兩天后,阿里在WAIC上正式推出了首款AI眼鏡。字節(jié)也被爆將在年內(nèi)發(fā)布自家的AI眼鏡。

不同于電腦和手機等終端硬件的文字交互方式,沒有鍵盤的眼鏡,天然便適合語音交互這一新形式。不過,當下阻礙AI眼鏡普及的一大難點,也恰恰在語音交互體驗的不完備上。

從這個角度來說,字節(jié)和阿里對語音模型的押注,頗有點給自家AI眼鏡打好前站的意思。

那么,語音類賽道到底正在發(fā)生著什么?豆包同傳2.0表現(xiàn)如何?

讓我們先來看看這個產(chǎn)品的實際能力。

同聲傳譯已經(jīng)是各種圈子內(nèi)的“老需求”了,并不新鮮。不過此模型,仍然吸引了全網(wǎng)不小的注意。這主要在于大家通過這次模型的升級,意識到了其背后的“泛商業(yè)價值”。

這款語音模型已經(jīng)能夠以極低的延遲、更絲滑的效果,輸出與用戶音色相一致的英語翻譯。一邊接收源語言語音輸入,一邊 0 樣本聲音復刻用戶聲音,直接輸出目標語言的翻譯語音。

我們來試一試。字節(jié)官方提供了體驗地址,登錄該網(wǎng)址后,每日有20次體驗同聲翻譯的機會。

我們以在WAIC2025上進行的AI教父Geoffrey Hinton的演講為例。

該同傳大模型目前僅支持中英間轉(zhuǎn)錄,我們先來試試中文,Hinton談?wù)摯笳Z言模型的一段中文翻譯:

今天的大語言模型(LLM)可以看作是當年我所構(gòu)建的小型語言模型的后繼者,是自 1985 年以來語言技術(shù)演進中的一個重要里程碑。它們以更長的詞序列作為輸入,采用更復雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在特征學習中建立了更精妙的交互機制。

正如我當初設(shè)計的小模型那樣,LLM 的基本原理與人類理解語言的方式本質(zhì)一致:將語言轉(zhuǎn)化為特征表示,并在多個層次上對這些特征進行精密的整合與重構(gòu)。這正是 LLM 在其各個神經(jīng)網(wǎng)絡(luò)層中所執(zhí)行的核心任務(wù)。

因此,我們有理由說,LLM 確實在某種意義上“理解”了它們所生成的語言。

在這段視頻中,你能非常清晰地聽到,該語音模型對于用戶輸入的自然語言短句的識別能力非常強,也非常迅速。即便只是一個很短的間隔,模型也能夠準確識別到,并根據(jù)這種間隔判斷如何翻譯。

像是下圖,模型會自動根據(jù)語境,而選擇不更改主語,在翻譯過程中,模型會根據(jù)上下文自動判斷是否需要重復主語:

除此之外,當我輸入語音的同時,它也在實時克隆我的音色,當然效果稱不上很好,但也確實有一些相似度。

我又測試了一段魯迅語錄,其中可能會有一些語病,你會更明顯地發(fā)現(xiàn)該模型在同傳過程中的延遲非常低。像是“有一份熱,便發(fā)一份光”“無窮的遠方,無數(shù)的人們”中間的簡短時間非常的短,幾近于連讀,而模型也依然覺察出來了:

我們再來試一試Hinton的英文講座,這回我們非常明顯地發(fā)現(xiàn)同傳模型對于音色的克隆效果大幅下降了,幾乎沒有相似度。但是在翻譯場景下的表現(xiàn),包括低延遲、準確度、自然的斷句等等,依然比較好。

目前該模型主要聚焦中英文對話,這點上與 Meta 的SeamlessStreaming 等跨語種模型相比仍有差距 。Meta 在2023年12月發(fā)布 Seamlessstreaming 時,就已經(jīng)能夠涵蓋近 100 種輸入語言和 36 種語音輸出語言。從"語言覆蓋面"這個角度,字節(jié)確實還有很長的路要走。

字節(jié)同步發(fā)布了基準測試成績,Streamlessstreaming仍舊停留在這張表上,不過SeedLiveInterpret 2.0成績很不錯。中英互譯平均翻譯質(zhì)量的人類評分達到 74.8(滿分 100,評估譯文準確率)

相比之下,其他大多廠商的語音同傳翻譯產(chǎn)品基本不支持實時的語音復刻,在體驗上基本維持在語音輸入文字輸出的交互方式,我們也就不再多進行類比。

客觀地說,體驗下來,目前的模型技術(shù)還存在一些明顯的局限。 在不同語言方向上的音色克隆表現(xiàn)差異較大,技術(shù)的一致性還需要改進。 對于特定領(lǐng)域的專業(yè)詞匯,翻譯準確度還有提升空間。不過,語音復刻雖然略顯稚嫩,但也確實帶來了更有意思的交互體感。

同傳語音模型相對于單純語音生成來說,難度可能已經(jīng)是Next Level了。同傳模型需要同時做三件事:聽懂你說的話(語音識別)、翻譯成另一種語言(機器翻譯)、再用自然的聲音說出來(語音合成)。

因此,這波字節(jié)語音翻譯模型的升級并不只是為了做一個“翻譯軟件”。它的核心價值在于"語音交互"能力已經(jīng)宣告成熟,翻譯只是其中一個應用場景。

這是關(guān)于“語義交互”方式的競爭。

豆包同傳模型2.0的推出,實際上是字節(jié)跳動在AI大模型生態(tài)布局中的重要一步?;仡櫼幌聲r間線:早在2024年,豆包就發(fā)布了初代同傳模型,但那時只能輸出文字翻譯結(jié)果。

當然,除了字節(jié)之外,無論是國內(nèi)還是國外,幾乎所有基礎(chǔ)大模型廠商都把目光投向了語音模型這個賽道。然而,生成語音很簡單,難的是“實時語音+實時翻譯+實時輸出”,許多大廠都正在攻堅。

比如,只談及“純血同傳翻譯”模型的話,大家自然會把目光轉(zhuǎn)向阿里巴巴。在2024年云棲大會上,阿里高調(diào)推出了新一代端到端語音翻譯大模型 Gummy,雖然無法實時語音復刻,但也可實時流式生成語音識別與翻譯結(jié)果。

其在多個維度中都獲得了SOTA級別的表現(xiàn),翻譯延遲甚至降到了0.5s以下:

"賣體驗"比"賣翻譯功能"要更吸引人。

同傳翻譯模型2.0背后,大家的關(guān)注點更多的還是在于語音類模型背后的潛力,而非垂直翻譯能力,大家的興奮點并不在于它能把中文翻譯成英文有多準確。

如果,我們繼續(xù)將目光放寬一點,會發(fā)現(xiàn)專攻語音交互模型賽道的選手,已經(jīng)遍布整個市場了,它們正在從各個角度撬動用戶應用場景。

像是最近,在輿論場和資本場拿回一點聲量的“AI六小龍”之一—— MiniMax,也不甘示弱連續(xù)發(fā)布了MiniMax-Speech系列模型,特別是2025年5月推出的 Speech-02 模型,號稱是"全球第一的TTS語音模型"。

其在社交場上獲得聲量并引起關(guān)注的原因,追其根本,在于它單次輸入支持 200K 字符,支持 30 多種語言,擁有超逼真的語音克隆體驗。

OpenAI的高級語音模式就更不用提了,如果你翻看各種社媒產(chǎn)品,就會發(fā)現(xiàn)幾乎所有領(lǐng)域的用戶都在抱怨“Plus用戶的語音限額有點少的可憐”,這說明低延遲、實時語音、擬人性的需求非常高。

只不過,OpenAI做產(chǎn)品確實有點慢,尚未將手伸向一些明確的應用場景,不過倒是投了一批初創(chuàng)企業(yè)。像是語言學習語音交互平臺 Speak,2024 年年底OpenAI曾參與其 7,800 萬美元融資,并將自身語音技術(shù)模型融入進去,現(xiàn)在這家公司估值已經(jīng)突破 10 億美元了。

Elon Musk也早早布局,他xAI旗下的Grok模型最近也卷入了語音賽道:7月中旬,Grok應用新增了"伴侶模式",上線了一位可互動的3D虛擬AI少女形象 Ani。這個虛擬角色可以用甜美的動漫嗓音與用戶對話,在日本網(wǎng)友中迅速走紅,被戲稱為"AI女友"。

Grok對語音能力的意識顯然要比其他大廠商超前一點,像是ElevenLabs等初創(chuàng)企業(yè)與Grok在腦機接口上的合作,為漸凍癥患者替換聲音的操作,自然而然為這類模型打了一個大大的廣告。

多方動向背后,說明業(yè)界對于實時語音在AI產(chǎn)品商業(yè)化中的價值形成了共識。

首先讓我們回顧下AI產(chǎn)品的發(fā)展軌跡,在多模態(tài)交互中,構(gòu)建從“語音到語音”的閉環(huán)體驗在過去兩年就被認為是下一個關(guān)鍵目標。過去的AI產(chǎn)品(無論是Chatbot還是AI 硬件)更多停留在文字和圖像處理層面,但在人類日常交流中,語音才是最自然、最高效的溝通方式。所以,語音交互能帶給用戶更好更佳更AI的體驗過程,而這正好意味著一片“痛點藍海”。

各大廠搶攻語音模型,正是為了搶占這一未來的藍海市場,其第一步就是搶占入口。

相信從過去一年的“Chatbot”入口界面爭奪戰(zhàn)中,許多基礎(chǔ)模型廠商都悟得了一個道理:單純文字對話的用戶體驗每上升1分,背后可能是100分的模型能力提升,10000分的算力、算法、架構(gòu)的投入。

因為語音交互不像搜索引擎那樣存在一個絕對的入口,用戶可能從任何一個點開始接觸,然后逐漸習慣這種交互方式,這背后的商業(yè)價值可以說高到難以想象。

這場語音賽道的集體押注,實際上是各大廠商對未來AI應用場景的一次集體下注。

從進入2025年以來,AI硬件產(chǎn)品已經(jīng)進入“井噴式領(lǐng)域”。各種形態(tài)的智能設(shè)備如雨后春筍般涌現(xiàn)。

從最原初的純剛需來看,跨國出?;蛘呤菚h場景是始終繞不過的一關(guān)。各種翻譯企業(yè)從機器翻譯、神經(jīng)網(wǎng)絡(luò)翻譯再到AI翻譯,已經(jīng)走過了一關(guān)又一關(guān),商業(yè)成果進展緩慢,蛋糕做大困難。相比之下,如果實時語音同傳成熟化,這種體驗的商業(yè)價值是巨大的。

無論是這些硬需求,還是滿足用戶對于AI未來交互體驗的“軟需求”,都需要一個合適的載體 —— AI硬件,或許很多人對此嗤之以鼻,認為其全部是套殼產(chǎn)品。但現(xiàn)實是,新一代AI硬件浪潮對語音翻譯技術(shù)產(chǎn)生了強烈的需求牽引。硬件產(chǎn)品非常能夠激發(fā)市場去琢磨一個市場還存在哪些尚未被發(fā)現(xiàn)的隱秘機會。

同時,在國外各個主力AI模型都已經(jīng)開始開發(fā)不同的收費模式時,反觀國內(nèi),除了AI Agent帶來了較為成體系的價格結(jié)構(gòu)之外,AI基礎(chǔ)模型廠商幾乎是“一片噤聲”,無人愿意提及。正如大家常說的:“光靠模型就能盈利,那是做夢”。

AI也需要一個載體。

2023年以來,從硅谷初創(chuàng)公司Humane推出的可佩戴顯示設(shè)備 AI Pin,到國內(nèi)創(chuàng)業(yè)團隊研發(fā)的 Rabbit R1 ,年收入近1億美金的AI錄音硬件 Plaude、TicNote、再到字節(jié)推出的Ola Friend耳機,各種形態(tài)的可穿戴AI助手層出不窮??拼笥嶏w也推出了主打?qū)崟r多語種同傳功能的會議耳機和翻譯耳機,AI硬件已經(jīng)事實上成為了各家廠商將AI商業(yè)化的“救命稻草”。

OldFriend 這款勉強被稱為AI硬件的產(chǎn)品,可以通過喚醒詞 “豆包豆包” 激活其 AI 聊天助手豆包,從而將體驗的支撐角色轉(zhuǎn)移給豆包。但是,這種體驗缺乏真正的顛覆性使用場景。

既然是AI硬件,還是要從AI下手。

當字節(jié)宣布同傳大模型2.0發(fā)布時,同時提到了該模型將在8月迅速進入Old Friend耳機中,為其補足更多的語音交互能力。我們可以這么理解,語音翻譯模型帶來的"實時語音交互"體驗,正在成為AI硬件產(chǎn)品吸引用戶的新戰(zhàn)場。

當然,在語音這個大領(lǐng)域內(nèi),還存在其他分支賽道。比如字節(jié)、MiniMax前段時間都火出圈的AI播客功能,以及專注情感陪伴的語音AI產(chǎn)品。各家AI創(chuàng)業(yè)公司正在瘋狂挖掘語音交互的潛力,大家逐漸發(fā)現(xiàn)了AI產(chǎn)品發(fā)展下半程的"引爆點"——語音交互市場。

此次字節(jié)豆包同傳模型的發(fā)布、官方迅速宣布該模型將立刻接入硬件,以及前段時間字節(jié)投入大力氣打造的播客模型等等,都在宣告著國內(nèi)“語音”市場的潛力才剛剛展現(xiàn)。

“搶占下一代AI產(chǎn)品交互入口之前,先把硬件造出來”是國內(nèi)普遍信奉的樸素商業(yè)道理。在此之上,AI廠商們在看到不斷有初創(chuàng)企業(yè)通過“較差”或者只是開源的AI大模型技術(shù)就已經(jīng)能發(fā)掘出這么多應用場景了,肯定會捫心自問:我何樂而不為呢?

尤其是AI實時語音交互賽道,尚且沒有將這項體驗完整融合到硬件市場的產(chǎn)品出現(xiàn)。作為擁有AI原生技術(shù)的字節(jié)——這個大廠的標桿之一,開始認真考慮:語音交互很可能成為下一個改變?nèi)藱C交互方式的關(guān)鍵技術(shù)。

免費教學更多>>

七周年慶 歐拉品牌成都車展再啟新征程 高山7將于9月10日預售,魏牌發(fā)布下一代全動力智能超級平臺! 成都車展上,比亞迪秦L EV推云輦型配置,這下銷冠更穩(wěn)了 2025廣州車展:15萬級配5C充電 極狐阿爾法T5實拍 全球52萬用戶的選擇!歐拉七周年以“城市經(jīng)典”開啟新篇章 奇瑞成都車展發(fā)力:31 款車 + 三料冠軍 生態(tài)成新亮點 預售 2.5 萬臺的極狐 T1,用 “反套路” 撕開年輕市場口子 比亞迪2025H1財報:營收利潤再創(chuàng)新高 研發(fā)費用暴增100億 嵐圖汽車即將上市背后,它是最大“推手” 地平線征程芯片量產(chǎn)突破1000萬,持續(xù)引領(lǐng)智能駕駛普及新時代 2025款嵐圖知音蓉城煥新上市,重塑豪華純電出行新標桿 都說打江山容易守江山難,比亞迪該怎么應對?成都車展能看出答案 奧迪 E5 Sportback成都車展再度走紅,將于9月16日上市! 阿里對外賣大戰(zhàn)至今取得的業(yè)績非?!笣M意」,定性是等了太久的一次大勝仗 華爾街日報:阿里巴巴正開發(fā)新AI芯片,以填補英偉達空白 優(yōu)必選:2025上半年營收6.2億元同比增長27.5%,凈虧4.4億 “雪王”半年狂賺27億,河南首富兄弟“悶聲發(fā)大財” 和英仕派一起尋味城市煙火 有面有派·一城一味6站品質(zhì)接力圓滿收官! 又有3款車公布了售價!傳祺向往S9起售價25.99萬 量、價、利齊升,新央企新長安交出了一份寫給未來的財報 多虧有比亞迪宋,我讀懂了被誤讀的宋朝 東風風行星海V9越享系列上市,開啟20萬內(nèi)新能源豪華MPV新紀元 哈弗H9勇士版21.49萬起,比普拉多更大、性價比更高 史上最“冷清”成都車展,有哪些看點? 出口第一之外,奇瑞還有一個指標讓工信部“高度評價” 超豪華品牌集體缺席成都車展,消費稅起征點下調(diào)是導火索? 大電池/大油箱,國產(chǎn)增混車點對科技樹了嗎? 領(lǐng)克10 EM-P全系標配四驅(qū)與激光雷達,9月8日上市 純電遇阻,smart押注“EHD”尋突破 AM“吉”要來了!前臉酷似奔馳,125km純電續(xù)航,能7萬起售?
主站蜘蛛池模板: 营山县| 宁都县| 天全县| 岳阳县| 巢湖市| 苍山县| 安顺市| 于田县| 台东市| 尖扎县| 洪雅县| 广东省| 页游| 塔河县| 息烽县| 涪陵区| 衡阳县| 通州区| 扎鲁特旗| 蒲江县| 盘山县| 磴口县| 霍州市| 宜昌市| 柳林县| 桂阳县| 石景山区| 南城县| 靖宇县| 绥江县| 渝中区| 日照市| 象州县| 文安县| 拉萨市| 南汇区| 山丹县| 怀集县| 佛坪县| 灵丘县| 长顺县|