文章重點
- ElevenLabs於2026年2月4日完成5億美元D輪融資,由Sequoia Capital領投,估值達110億美元——較2025年1月翻逾三倍,創語音AI領域最大融資紀錄
- 公司2025年ARR突破3.3億美元,企業客戶(Deutsche Telekom、Revolut、Deliveroo等)成為核心增長引擎,從消費者工具成功轉型為企業級平台
- 新資金將用於拓展多模態AI能力——從語音合成延伸至語音轉文字、音效生成、AI配音、音樂創作及具備視頻理解能力的對話式AI代理
- 全球擴張聚焦亞太及拉美市場(印度、日本、新加坡、巴西、墨西哥),多語言能力成為其核心競爭壁壘,對香港粵語及多語言市場具深遠意義
- 語音AI賽道競爭白熱化:Deepgram以13億美元估值融資1.3億,Google挖角Hume AI核心團隊包括CEO Alan Cowen,語音正成為下一代AI交互的主流介面
一、110億美元估值背後:語音AI的「iPhone時刻」
2026年2月4日,總部位於紐約的語音AI公司ElevenLabs宣佈完成5億美元D輪融資,由矽谷頂級風投Sequoia Capital領投,Sequoia合夥人Andrew Reed將加入董事會。參與本輪的投資者陣容堪稱豪華:Andreessen Horowitz(a16z)、ICONIQ、BroadLight、NFDG、Valor Capital、AMP Coalition、Smash Capital、Lightspeed、Evantic Capital和Bond等一眾頂級基金聯手押注。公司估值從2025年1月的約30億美元飆升至110億美元,一年之間翻逾三倍。
自2022年創立至今,ElevenLabs累計完成五輪融資,總籌資額達7.81億美元。這個數字在AI創業公司中或許不算天文數字——畢竟OpenAI和Anthropic的融資規模以百億美元計——但在語音AI這個垂直賽道上,ElevenLabs的融資體量和估值水平已經遠遠領先於所有競爭對手,確立了無可爭議的行業龍頭地位。
更值得關注的是估值增長的加速度。從2022年成立到2025年1月約30億美元估值,ElevenLabs花了大約三年時間。而從30億到110億美元,僅用了13個月。這種非線性的估值躍遷通常意味着市場對一家公司的認知正在發生根本性轉變——投資者不再將ElevenLabs視為一家「語音合成工具公司」,而是重新定義它為一個多模態AI平台和下一代人機交互介面的基礎設施提供者。
二、從消費者玩具到企業基礎設施:商業模式的質變
ElevenLabs最初以消費者端的語音合成工具起家,讓創作者、播客主和內容製作者能夠生成逼真的AI語音。但真正推動公司估值飆升的,是其在企業市場的突破性進展。2025年,ElevenLabs的年度經常性收入(ARR)突破3.3億美元,其中企業客戶貢獻了核心增長動力。
從已公開的客戶名單可以窺見ElevenLabs企業業務的深度和廣度。Deutsche Telekom——歐洲最大的電信運營商——正在使用ElevenLabs的技術重構其客戶服務體系,以AI語音代理取代傳統的IVR(互動語音應答)系統。Revolut——歐洲最大的數位銀行之一——將ElevenLabs整合進其多語言客戶支援平台,為遍佈全球的用戶提供母語級別的語音服務。Deliveroo——英國領先的外賣配送平台——則運用ElevenLabs的技術優化騎手與餐廳之間的語音溝通流程。
這三個案例揭示了一個重要趨勢:語音AI正從「錦上添花」的內容創作工具,演變為「不可或缺」的企業運營基礎設施。當一家電信巨頭將AI語音嵌入其客戶服務核心系統時,這不再是一次性的工具採購,而是深度的技術整合——客戶遷移成本極高,續約率和LTV(客戶終身價值)遠非消費者訂閱可比。
企業客戶的湧入也從根本上改變了ElevenLabs的財務結構。消費者業務雖然能提供廣泛的用戶基礎和品牌知名度,但ARPU(每用戶平均收入)較低且流失率較高。企業合約則通常是年度或多年期的,合約金額從數十萬到數百萬美元不等,且隨着使用量的增長會自然擴展。這種「降落並擴展」(land and expand)的模式,是SaaS行業最被投資者看好的增長路徑。
「ElevenLabs的轉型軌跡讓人聯想到早期的Twilio——從開發者工具起步,逐步成為企業通訊基礎設施的核心組件。當企業開始將你的技術嵌入其關鍵業務流程時,你就不再是一個供應商,而是成為了基礎設施的一部分。」
三、超越語音:多模態擴張的戰略邏輯
ElevenLabs此輪融資的最大看點,不在於語音合成技術的持續精進,而在於其向多模態AI領域的全面擴張。根據公司披露的研發路線圖,新資金將重點投入以下方向:語音轉文字(Speech-to-Text)、音效生成(Sound Effects Generation)、AI配音(Dubbing)、音樂創作(Music Generation)、以及具備視頻理解能力的對話式AI代理。
這一擴張策略背後的邏輯清晰而具說服力。語音合成——將文字轉化為語音——只是人機語音交互鏈條中的一個環節。一個完整的語音AI生態需要同時掌握「聽」(語音轉文字)、「說」(語音合成)、「理解」(語義分析和上下文推理)和「互動」(對話管理和情感感知)四種能力。ElevenLabs的策略是沿着這條價值鏈縱向延伸,從單一的「說」擴展到完整的語音交互閉環。
更具前瞻性的是ElevenLabs向視頻領域的延伸。公司正在開發能夠「看見」和「理解」視頻內容的AI代理——這些代理不僅能聽懂用戶說什麼,還能理解用戶正在看什麼,從而提供更加情境化和智能化的交互體驗。這一能力在遠程客戶服務、教育、醫療諮詢等場景中具有巨大的應用價值。想像一個能夠看到用戶手機螢幕並進行語音指導的AI助手——這正是ElevenLabs多模態代理的目標形態。
音效生成和音樂創作的佈局則代表了另一層戰略考量。這些能力將ElevenLabs從「語音」擴展到更廣闘的「音頻」領域,觸及影視製作、遊戲開發、廣告創意等高價值市場。特別是AI配音功能——能夠將影片內容自動翻譯並配音為數十種語言——直接瞄準了全球化內容分發的龐大需求。對於Netflix、Disney+等流媒體平台,以及需要進行跨語言培訓內容製作的大型企業而言,AI配音能力具有立竿見影的商業價值。
ElevenLabs的多模態AI矩陣
語音合成(TTS):核心產品,支持32+種語言的高品質語音生成,可複製特定聲音特徵,廣泛用於內容創作和企業客戶服務。
語音轉文字(STT):將語音內容即時轉換為文字,支持多語言和口音識別,是構建完整對話式AI的基礎能力。
AI配音(Dubbing):自動將影片內容翻譯並配音為目標語言,保持說話者的聲音特徵和情感表達,革新影視和企業培訓的本地化流程。
音效與音樂生成:基於文字描述生成音效和音樂片段,面向影視、遊戲和廣告製作行業。
對話式AI代理:具備視頻理解能力的多模態智能代理,能夠進行即時語音對話並理解視覺上下文,面向客服、教育和醫療場景。
四、語音AI賽道的競爭格局:三股力量的角逐
ElevenLabs的巨額融資發生在語音AI領域競爭急劇升溫的背景下。觀察整個賽道,可以識別出三股正在角逐的主要力量。
第一股力量:專注語音AI的創業公司。除ElevenLabs外,Deepgram是這一陣營中最值得關注的玩家。Deepgram在2026年1月完成了1.3億美元融資,估值達到13億美元。與ElevenLabs側重語音生成不同,Deepgram的核心優勢在語音識別和理解領域——其API以低延遲和高準確率著稱,廣泛服務於需要即時語音轉文字功能的企業客戶。兩家公司的產品線正在逐步重疊,未來的正面競爭不可避免。另一家值得關注的公司是Hume AI,專注於情感語音AI——讓AI不僅能聽懂語言的內容,還能理解說話者的情緒和語氣。然而Hume AI近期遭遇了重大人才流失:Google挖走了其核心團隊,包括CEO Alan Cowen。這一事件從側面印證了語音AI人才的稀缺性和行業競爭的激烈程度。
第二股力量:科技巨頭的語音AI佈局。Google收編Hume AI團隊並非偶然——科技巨頭們正在將語音AI視為其AI生態系統的關鍵組成部分。Google的Gemini模型已經具備原生的語音交互能力,Apple Intelligence正在將語音理解深度整合至Siri和整個設備生態,而OpenAI的GPT-4o則展示了多模態語音交互的驚人潛力。對ElevenLabs而言,科技巨頭既是潛在的合作夥伴(其語音技術可以作為API嵌入巨頭的產品中),也是最終的競爭威脅——如果Google或OpenAI的內建語音能力達到足夠高的水平,為什麼企業還需要額外付費使用ElevenLabs?
第三股力量:開源語音AI社區。Meta的Voicebox、微軟的VALL-E及其後續版本等開源或半開源的語音模型正在快速縮小與商業產品的品質差距。開源模型對ElevenLabs的威脅不容忽視——就像Stable Diffusion衝擊了Midjourney的市場地位一樣,高品質的開源語音模型可能蠶食ElevenLabs在中小型客戶群體中的市場份額。不過,ElevenLabs的護城河在於其端到端的平台能力和企業級服務體系——開源模型可以提供基礎的語音合成能力,但難以複製ElevenLabs在低延遲、多語言支持、企業安全合規和客戶成功等方面的綜合優勢。
五、亞太擴張與多語言壁壘:香港市場的機遇與啟示
ElevenLabs此輪融資明確將全球擴張列為資金用途之一,特別點名了印度、日本、新加坡、巴西和墨西哥作為重點拓展市場。亞太地區在這一佈局中佔據了核心位置——印度、日本和新加坡分別代表了人口紅利市場、高端企業市場和東南亞區域樞紐。
對香港而言,ElevenLabs的亞太擴張具有多層面的意義。首先是多語言能力的直接價值。香港是全球少有的真正多語言商業環境——粵語、普通話和英語在商業場景中同時使用,而金融和法律領域還涉及大量的文件翻譯和口譯需求。ElevenLabs的多語言語音合成和AI配音能力,能夠直接服務於香港企業的跨語言溝通需求。一家香港銀行可以利用ElevenLabs的技術,將同一段客戶通知以粵語、普通話和英語三種語音同時發送給不同語言偏好的客戶群體。
其次是粵語AI語音的特殊挑戰和機遇。粵語作為一種聲調語言,其語音合成的技術難度遠高於英語等非聲調語言。粵語有六到九個聲調(取決於分類標準),加上大量的俚語、語氣詞和獨特的句式結構,使其成為AI語音技術的一塊「試金石」。目前市場上高品質的粵語AI語音解決方案仍然稀缺——這既是ElevenLabs進入香港市場的挑戰(需要投入大量資源訓練粵語模型),也是巨大的市場機遇(一旦突破,將在華南地區和全球粵語社群中建立難以逾越的先發優勢)。
第三是香港作為區域AI應用樞紐的角色。新加坡雖然被ElevenLabs列為亞太擴張的優先市場,但香港在金融科技和企業AI應用方面擁有獨特優勢。香港的國際金融機構——匯豐、渣打、中銀香港等——每天處理大量的跨語言客戶互動,是語音AI企業客戶的理想對象。同時,香港的監管環境(金管局和證監會已發佈AI使用指引但未實施嚴格限制)為AI技術的企業應用提供了相對友好的政策空間。
對於香港的AI創業者和技術團隊而言,ElevenLabs的成功路徑提供了重要啟示:在語音AI這樣的垂直賽道中,多語言能力——特別是對亞洲語言的深度支持——可以成為差異化的核心競爭力。與其在英語語音AI市場與ElevenLabs正面競爭,不如深耕粵語、普通話和其他亞洲語言的語音AI解決方案,服務於香港和大灣區的特定市場需求。
「語音是最自然的人機交互方式,而多語言是語音AI在亞洲市場成功的決定性因素。在香港這樣一個粵語、普通話和英語並用的城市,誰能率先提供無縫的三語AI語音體驗,誰就掌握了下一代客戶服務的入場券。」
六、通往IPO之路:財務分析與估值邏輯
ElevenLabs已公開表示正在為IPO做準備。以2025年3.3億美元以上的ARR和110億美元的估值計算,其估值倍數約為33倍ARR。這個倍數在當前市場環境下處於高位,但考慮到ElevenLabs的增長速度(ARR年增長率預計超過100%)、高毛利率(SaaS模式加上AI推理的邊際成本持續下降)和龐大的TAM(可觸及市場規模),這一估值並非不合理。
作為參照,Twilio在2016年IPO時的估值約為20倍營收,而當時Twilio的增長率已經放緩至50%左右。如果ElevenLabs能在2026-2027年將ARR推升至5億美元以上(以當前的增長軌跡來看完全可能),並保持70%以上的毛利率,那麼在2027年以150-200億美元的估值IPO是一個合理的預期。
但IPO之路並非坦途。ElevenLabs面臨的核心財務挑戰在於推理成本的控制。語音AI模型——特別是即時語音合成和對話式AI——需要大量的GPU算力。隨着企業客戶使用量的增長,ElevenLabs必須確保其單位經濟模型(unit economics)能夠在規模擴張中持續改善。如果推理成本下降的速度跟不上使用量增長的速度,毛利率可能受到擠壓,影響IPO的估值。
此外,ElevenLabs需要向公開市場投資者證明其客戶留存和淨收入擴張率的可持續性。企業SaaS的黃金指標是淨收入留存率(NRR)超過120%——即現有客戶的支出年增長率超過20%,足以抵消自然流失並實現淨增長。以Deutsche Telekom、Revolut等大型企業客戶為錨,ElevenLabs有望達到甚至超越這一標準,但這需要在產品深度和客戶成功體系上持續投入。
值得注意的是,ElevenLabs選擇在2025-2026年的融資窗口大量籌資,很可能是為了在IPO前建立足夠的現金儲備和市場規模。7.81億美元的累計融資為公司提供了充足的跑道——即使IPO市場出現波動,ElevenLabs也能從容等待最佳的上市時機,而不必像許多現金流緊張的創業公司那樣被迫在不利條件下IPO。
ElevenLabs融資歷程
ElevenLabs自2022年創立以來,以驚人的速度完成了五輪融資,累計籌集7.81億美元:
2022年:種子輪及早期融資,建立核心語音合成技術團隊
2024年1月:B輪融資8,000萬美元,估值突破10億美元(獨角獸)
2025年1月:C輪融資約2.5億美元,估值約30億美元
2026年2月:D輪融資5億美元,估值飆升至110億美元
從成立到超百億美元估值僅用約四年,ElevenLabs是AI領域中估值增長最快的創業公司之一。
七、語音作為下一代AI介面:行業範式轉移
ElevenLabs的崛起不僅是一個創業成功故事,更是一個行業範式轉移的信號:語音正在成為下一代AI交互的主流介面。
回顧人機交互的歷史,每一次介面的革新都催生了一代新的技術巨頭。命令行介面(CLI)孕育了微軟和IBM,圖形用戶介面(GUI)成就了蘋果和Windows,觸控介面催生了iPhone和移動互聯網生態,而現在,語音介面有望成為下一個「介面革命」。這並非純粹的未來主義預測——Amazon Alexa和Google Assistant已經證明了語音介面的消費者接受度,而ChatGPT的語音模式則展示了大語言模型加持下語音交互的質的飛躍。
語音介面的優勢在特定場景中是不可替代的。駕駛時、烹飪時、照顧幼兒時、視力不便時——所有雙手和眼睛被佔用的場景中,語音是唯一實用的交互方式。更重要的是,語音交互的門檻遠低於文字交互——全球仍有數億不識字或識字率有限的人口,而幾乎所有人都能說話。在印度、東南亞和非洲等市場,語音AI可能成為數億人首次接觸AI技術的途徑。
Google挖角Hume AI的CEO Alan Cowen及其核心團隊,印證了科技巨頭對語音AI人才的極度渴求。Hume AI專注的情感語音AI更是代表了語音交互的下一個前沿——不僅理解用戶說了什麼,還理解用戶的情緒狀態,並據此調整回應的語氣和內容。這種「共情式AI」在心理健康諮詢、老年人陪伴、兒童教育等敏感場景中具有獨特的價值。
對於企業而言,語音AI介面的價值在於其能夠顯著降低客戶服務成本的同時提升服務品質。一個AI語音代理能夠24/7全天候工作,同時處理數千個對話,以數十種語言服務全球客戶,不會疲倦、不會情緒化,而且每次互動的邊際成本僅為人工客服的幾分之一。這就是Deutsche Telekom、Revolut和Deliveroo等企業積極採用ElevenLabs的根本原因——不是因為技術新奇,而是因為有實實在在的成本節約和效率提升。
八、風險與挑戰:被忽視的另一面
在語音AI的光明前景之下,ElevenLabs和整個行業也面臨着不容忽視的風險和挑戰。
深度偽造風險:ElevenLabs的語音克隆技術——能夠以少量語音樣本高度逼真地複製任何人的聲音——是一把雙刃劍。這項技術在合法場景中具有巨大價值(為失去聲音的患者重建語音、為已故親人「留聲」等),但也為語音詐騙、政治操控和身份冒充提供了前所未有的工具。ElevenLabs已經建立了語音身份驗證和濫用檢測系統,但隨着技術的普及和開源替代品的出現,防範深度偽造的壓力只會越來越大。各國監管機構——包括歐盟的AI Act和各國的深度偽造專項立法——正在加強對語音生成技術的監管要求,這可能增加ElevenLabs的合規成本。
技術護城河的可持續性:AI領域的技術領先優勢往往是短暫的。語音合成技術已經從深度學習的早期階段進入了成熟期,各家的語音品質正在快速趨同。ElevenLabs的長期競爭力可能更多地依賴於其平台生態、企業關係和品牌認知,而非純粹的技術優勢。如何在技術民主化的大趨勢下維持差異化,是ElevenLabs必須持續回答的戰略問題。
版權和倫理爭議:語音AI——特別是語音克隆和AI配音——涉及複雜的版權和倫理問題。聲優和演員的聲音權利如何保護?AI生成的語音內容是否享有版權?使用AI替代人類配音員是否構成對創意工作者的不公平競爭?這些問題在好萊塢罷工後已經成為高度敏感的議題,可能影響ElevenLabs在某些市場和行業中的推廣。
定價壓力:隨着開源語音模型的品質提升和科技巨頭將語音AI能力打包進其雲服務平台,ElevenLabs面臨着長期的定價壓力。Google Cloud、AWS和Azure都在將語音合成和識別能力作為雲服務的標準組件提供,而且價格遠低於獨立供應商。ElevenLabs必須在品質、功能和客戶體驗上保持足夠的領先優勢,才能在定價上維持溢價。
「語音AI的終極考驗不是技術能力,而是信任。當AI能以任何人的聲音說出任何話時,我們如何區分真實與虛構?這不僅是一個技術問題,更是一個關乎社會信任基礎的根本性挑戰。ElevenLabs和整個語音AI行業必須在技術創新與責任建設之間找到平衡。」
ElevenLabs的5億美元D輪融資和110億美元估值,標誌着語音AI從邊緣技術正式進入AI行業的核心舞台。在短短四年間,ElevenLabs從一個小型語音合成工具成長為多模態AI平台的領軍企業,其發展軌跡濃縮了AI行業「從工具到平台、從消費者到企業、從單一模態到多模態」的核心進化路徑。
對於香港的企業決策者而言,語音AI不再是一個可以「等等再看」的新興技術——它正在以前所未有的速度重塑客戶服務、內容製作和跨語言溝通的行業標準。特別是在香港這樣一個多語言、國際化程度極高的市場中,率先擁抱語音AI能力的企業,將在客戶體驗和運營效率上建立顯著的先發優勢。而ElevenLabs向亞太市場的積極擴張,也意味着高品質的語音AI解決方案很快將觸手可及。關鍵的問題不是語音AI是否會改變你的行業,而是你是否已經準備好迎接這場變革。