文章重點
- Google在Gemini應用內原生推出最先進的AI音樂模型Lyria 3,18歲以上用戶可透過文字描述風格/情緒或上傳圖片/影片來生成30秒AI音樂
- 生成內容包含完整人聲、歌詞及封面藝術,首批支援桌面版並涵蓋8種語言,實現全球同步上線
- 所有AI生成音軌均嵌入SynthID數碼水印,即使經過編輯、壓縮或格式轉換仍可被偵測,建立AI內容溯源標準
- Gemini應用月活躍用戶已達7.5億,使Lyria 3成為歷來觸及人數最多的AI音樂生成工具
音樂創作的「ChatGPT時刻」
2026年2月19日,Google DeepMind正式在Gemini應用中推出了Lyria 3——該公司迄今最先進的AI音樂生成模型。這並非Google首次涉足AI音樂領域(Lyria最初於2023年在YouTube上進行限量測試),但這次的意義完全不同:Lyria 3被直接嵌入擁有7.5億月活躍用戶的Gemini應用,使其一夜之間成為全球觸及人數最多的AI音樂生成工具。
操作流程極其簡單。用戶只需在Gemini對話框中描述想要的音樂風格、情緒或場景——比如「一首帶有爵士鋼琴和溫柔女聲的雨天咖啡館歌曲」——Lyria 3就能在數十秒內生成一段30秒的完整音樂片段,包括人聲演唱、歌詞和配套的封面藝術。更進一步,用戶還可以上傳一張照片或一段影片,讓AI根據視覺內容的情緒和氛圍自動生成配樂。
如果說ChatGPT在2022年底讓普通人第一次感受到「AI可以寫作」,那麼Lyria 3在Gemini中的推出,就是讓7.5億人第一次意識到「AI可以作曲」的時刻。而這個時刻之所以如此震撼,是因為音樂一直被認為是人類創造力最本質的表達之一——它涉及旋律、和聲、節奏、歌詞和情感的複雜交織,遠不像文字生成那樣容易被AI「模仿」。
月活躍用戶
音樂時長
語言數量
溯源技術
Lyria 3的技術突破:為什麼它與眾不同
AI音樂生成並非新鮮事物。Suno和Udio在2024至2025年間已經在這個領域掀起了一場風暴,各自擁有數千萬用戶。但Lyria 3的推出標誌著一次質的飛躍,原因有幾個。
首先是音質和表現力的跨越。根據Google DeepMind公佈的技術細節,Lyria 3採用了一種新型的「階層式擴散-自迴歸混合架構」(Hierarchical Diffusion-Autoregressive Hybrid),先由自迴歸模組生成音樂的宏觀結構(調性、和聲進行、樂句劃分),再由擴散模組在每個層級填充音頻細節。這使得生成的音樂在結構連貫性和音頻品質上都有顯著提升。早期測試者報告,Lyria 3生成的音樂在盲聽測試中,已經很難與專業製作的demo級錄音區分。
其次是多模態輸入能力。這是Lyria 3相對於Suno和Udio的最大差異化優勢。得益於Gemini本身的多模態架構,Lyria 3能理解圖片、影片甚至文字對話的上下文,並據此生成情境匹配的音樂。例如,你可以上傳一段婚禮影片,AI會分析場景的情緒和節奏,自動生成一段適合的配樂。這種「所見即所聽」的體驗,在獨立AI音樂工具中是無法實現的。
第三是平台規模和分發優勢。Suno的月活躍用戶估計在3000至5000萬之間,Udio約在1500至2000萬。而Lyria 3直接面向Gemini的7.5億用戶群。這不是同一個量級的競爭。更關鍵的是,Gemini是用戶日常使用的通用AI助手,音樂生成只是其眾多功能之一。用戶不需要專門下載一個新應用或註冊一個新帳戶——他們在與Gemini的日常對話中就能自然地觸發音樂生成。
Lyria 3 vs Suno vs Udio:功能對比
Lyria 3(30秒/次、含人聲、多模態輸入、SynthID水印、免費使用);Suno V4.5(最長4分鐘、含人聲、純文字輸入、需訂閱付費方案);Udio V2(最長2分鐘、含人聲、文字及參考音頻輸入、免費增值模式)。在音樂時長方面Lyria 3暫時落後,但在平台整合度和觸及率方面遙遙領先。
SynthID:AI內容溯源的黃金標準
Lyria 3最具前瞻性的設計決策之一,是所有生成的音樂都強制嵌入Google DeepMind開發的SynthID數碼水印。SynthID不是一個簡單的元數據標記——它是一種嵌入到音頻信號本身的隱形水印,即使音樂被壓縮、轉碼、部分截取甚至經過一定程度的編輯,水印仍然可以被偵測到。
SynthID的技術原理值得深入了解。它利用深度學習在音頻的頻域中嵌入一組人耳無法察覺的微小擾動,這些擾動構成了一個獨特的「指紋」。偵測端使用配對的神經網絡,可以從音頻中提取這個指紋並驗證其來源。Google的內部測試顯示,SynthID音頻水印在經過MP3壓縮(128kbps)、速度變化(正負10%)和部分裁剪後仍能以超過95%的準確率被偵測。
這對整個AI生成內容生態系統的意義是深遠的。隨著AI生成的音樂、圖片和影片越來越接近人類創作的品質,區分「真」與「假」變得越來越困難。SynthID提供了一種技術手段,讓AI生成內容始終可被追溯——這對版權保護、新聞真實性和打擊虛假資訊都至關重要。
然而,SynthID並非沒有局限性。首先,它是Google的專有技術,其他AI音樂生成工具(如Suno和Udio)並未採用。這意味著只有Lyria 3生成的音樂可以被SynthID偵測,而其他來源的AI音樂仍然是不可追溯的。業界需要的是一個通用的、跨平台的AI內容水印標準,而非多個互不兼容的專有系統。其次,儘管SynthID對常見的音頻處理具有魯棒性,但對抗性攻擊者(有意去除水印的人)可能找到繞過的方法——這是一場永無止境的攻防戰。
音樂產業的地震:當每個人都是「作曲家」
Lyria 3在Gemini中的推出,對全球音樂產業的衝擊可能是深遠且多層次的。讓我們逐一分析。
對獨立音樂人的雙刃劍效應。一方面,AI音樂生成工具極大地降低了音樂創作的門檻。一位缺乏樂器演奏能力或錄音室資源的創作者,現在可以用一段文字描述獲得專業品質的配樂。這對YouTube創作者、Podcast主持人、獨立遊戲開發者和社交媒體內容創作者來說是一個巨大的賦能。另一方面,這也意味著音樂供給的爆炸式增長。當任何人都能「創作」音樂時,人類音樂人的作品將淹沒在AI生成內容的汪洋大海中,被發現和被聽到的難度將急劇上升。
對商業音樂製作的結構性衝擊。罐頭音樂(Stock Music)是一個年營收約20億美元的產業,涵蓋廣告配樂、企業影片背景音樂、電話等候音樂等。Lyria 3及其競爭對手的出現,可能在未來2至3年內摧毀這個市場的大部分份額。為什麼要花數百美元購買一首版權音樂授權,當你可以用AI在30秒內免費生成一首完全符合需求的原創配樂?
對頂級藝術家的影響則較為微妙。Taylor Swift或周杰倫的粉絲不會因為AI能生成類似風格的音樂就停止消費這些藝術家的作品。人類藝術家的價值不僅在於音樂本身,還在於其人格、故事和文化象徵。但在中間地帶——那些風格尚未確立、粉絲基礎尚未鞏固的新興音樂人——AI競爭將最為殘酷。
市場規模
產業營收
月活躍用戶
偵測準確率
版權的灰色地帶:法律追不上技術
AI音樂生成引發的版權問題可能是21世紀娛樂法律面臨的最棘手挑戰。核心問題是:當AI模型在數以百萬計的受版權保護的歌曲上進行訓練,然後生成「原創」音樂時,這究竟是合理使用(Fair Use)還是侵權?
Google在這個問題上的立場一直較為謹慎。與Suno和Udio不同——這兩家公司已經面臨環球音樂集團(UMG)、索尼音樂和華納音樂的集體訴訟——Google從一開始就選擇了一條更保守的路線。Lyria的訓練數據被稱為經過「仔細篩選」,Google也與多家唱片公司簽訂了授權協議。但具體的授權範圍和訓練數據構成仍未完全公開。
目前,全球主要司法管轄區對AI訓練的版權問題尚無定論。美國的Thomson Reuters v. Ross Intelligence案和紐約時報訴OpenAI案正在進行中,但判決尚未涉及音樂領域的具體問題。歐盟的《AI法案》要求AI開發者披露訓練數據中的版權材料,但執行細則仍在制定中。日本則採取了最寬鬆的立場,其2018年的版權法修訂明確允許將版權材料用於AI訓練。
AI音樂版權訴訟現狀
2024年6月,環球音樂集團(UMG)、索尼音樂和華納音樂聯合對Suno和Udio提起訴訟,指控其在未經授權的情況下使用受版權保護的錄音進行AI模型訓練,索賠金額高達數十億美元。兩案目前仍在審理中。2025年底,RIAA(美國唱片業協會)進一步擴大了法律行動,將多家較小的AI音樂初創公司納入訴訟範圍。Google的Lyria系列目前尚未成為訴訟目標,但版權持有者的律師團隊無疑在密切關注。
對於Lyria 3生成的音樂本身的版權歸屬,問題同樣複雜。在大多數司法管轄區,版權保護的前提是「人類作者」(Human Authorship)。美國版權局已明確表示,純粹由AI生成的作品不受版權保護。但如果人類通過提示詞(prompt)對AI的輸出進行了「足夠的創意控制」呢?這條界線在哪裏,目前沒有人知道。這意味著用Lyria 3生成的音樂,可能處於一個版權「無人區」——你可以使用它,但你可能無法阻止別人也使用它。
內容創作的範式轉移:從「製作」到「策劃」
Lyria 3在Gemini中的整合,揭示了一個更深層的趨勢:內容創作正在從「製作」(production)轉向「策劃」(curation)。當AI能夠在數秒內生成一首歌、一張圖片或一段影片時,人類創作者的核心價值不再是技術執行能力(演奏樂器、調音、混音),而是品味判斷、創意方向和情感共鳴的策劃能力。
這個轉變對教育體系的啟示尤其深刻。傳統的音樂教育強調技術訓練——和聲學、對位法、樂器演奏。但在AI時代,音樂教育或許更應該側重於培養學生的審美判斷力、跨學科思維和情感表達能力。知道如何彈奏一段和弦進行可能不再那麼重要,但知道什麼樣的和弦進行能觸動人心,以及為什麼——這種理解力在AI時代反而更有價值。
Lyria 3的「上傳圖片生成配樂」功能就是一個絕佳的例子。技術上,AI處理了所有的「製作」工作。但用戶需要做的——選擇哪張照片、描述什麼樣的情緒氛圍、在多個AI生成的結果中挑選最滿意的那一個——這些「策劃」決策,才是真正的創作行為。
對專業音樂人的現實影響:威脅與機遇並存
儘管AI音樂生成的進步令人印象深刻,但我們也需要避免過度誇大其對專業音樂人的短期威脅。Lyria 3生成的是30秒的音樂片段,而不是完整的3至5分鐘歌曲。它擅長的是背景音樂和氛圍配樂,而非需要深層情感敘事和複雜編曲的藝術作品。在現場演出、即興創作和與觀眾的即時互動方面,AI仍然無法取代人類音樂人。
更重要的是,AI音樂工具也為專業音樂人提供了新的機遇。音樂製作人可以使用Lyria 3快速生成demo和靈感草稿,大幅縮短創作過程中最耗時的「空白頁面」階段。影視配樂師可以在數秒內生成多個方案供導演選擇,然後在此基礎上進行精細化的人工編輯。唱片公司可以利用AI分析市場趨勢,預測什麼風格的音樂在特定地區和時段最受歡迎。
但從中長期來看,AI音樂生成的品質和時長將不可避免地持續提升。如果18個月後Lyria 4能生成5分鐘的完整歌曲,且品質接近專業錄音室水準呢?音樂產業需要從現在開始認真思考如何應對這個未來,而不是寄望於法律訴訟能永遠阻擋技術進步。
音樂人如何適應AI時代?
業界專家提出了幾個方向:(1)強化「真人」品牌價值——現場演出、個人故事和真實情感連結是AI無法複製的;(2)將AI作為創作工具而非競爭對手——用AI加速靈感發想和初稿製作;(3)探索AI無法觸及的領域——沉浸式現場體驗、跨媒體敘事、社區互動;(4)積極參與版權立法討論,確保音樂人的訓練數據權利得到保護。
Gemini的7.5億用戶:Google的平台戰略
不能忽視的是,Lyria 3的推出也是Google更大平台戰略的一部分。Gemini應用的月活躍用戶已達7.5億——這個數字在短短一年內翻了將近一倍(2025年初約為4億)。通過不斷為Gemini添加新功能——從文字對話到圖像生成,從程式碼輔助到如今的音樂創作——Google正在將Gemini打造成一個無所不能的「AI瑞士軍刀」。
這個策略與OpenAI的ChatGPT形成了直接競爭。ChatGPT目前的周活躍用戶約為5億(換算成月活躍用戶可能在6至7億之間),與Gemini已非常接近。兩者都在爭奪成為用戶日常使用的「預設AI入口」——而音樂生成功能正是Google在這場爭奪中打出的最新差異化牌。目前,ChatGPT尚未提供原生的音樂生成功能。
更深層地看,Gemini中的每一項新功能都在強化Google的數據飛輪。當7.5億用戶開始使用Lyria 3生成音樂時,他們的提示詞、偏好選擇和使用模式將為Google提供寶貴的訓練數據和用戶洞察。這些數據反過來將被用於改進Lyria的下一代版本,形成一個良性循環。這也是為什麼Google選擇將Lyria 3免費提供給所有18歲以上的Gemini用戶——短期內放棄直接營收,換取長期的數據和平台優勢。
香港視角:粵語音樂與本地影響
Lyria 3首批支援的8種語言中是否包含粵語,Google尚未完全明確。但即使初始版本僅支援普通話或英語,對香港的創意產業仍有顯著影響。
香港一直是華語流行音樂的重要發源地之一。從1980年代的「四大天王」到近年的獨立音樂場景,音樂是香港文化身份的重要組成部分。AI音樂生成工具的普及,將為香港的年輕創作者提供前所未有的工具——一位缺乏錄音室資源的學生音樂人,現在可以用AI生成demo,專注於歌詞和情感表達的創作。
但這也引發了關於文化保育的思考。粵語音樂有其獨特的聲調系統(九聲六調)、押韻規則和表達方式,這些是英語或普通話AI模型不太可能完美捕捉的。如果AI音樂生成工具在粵語方面的表現不夠好,它可能反而推動創作者使用英語或普通話創作,間接加速粵語音樂的邊緣化。反之,如果Google或其他公司投資開發高品質的粵語音樂AI模型,這可能成為保育和復興粵語音樂文化的強大工具。
對於香港的影視、廣告和數碼內容產業而言,Lyria 3的實際影響將是立竿見影的。一間中小型廣告公司可以在幾分鐘內為客戶生成多個配樂方案,而無需支付音樂版權費用或聘請配樂師。YouTube和社交媒體創作者可以為每一條影片量身定制背景音樂。這將大幅降低高品質內容製作的成本門檻,但同時也會壓縮專業配樂師的市場空間。
前路展望:AI音樂的下一個前沿
Lyria 3的推出只是AI音樂革命的開端。展望未來12至18個月,幾個趨勢值得關注。
首先,生成時長和品質的持續提升。30秒目前是Lyria 3的限制,但這幾乎可以肯定會在後續版本中延長。Suno已經能生成長達4分鐘的歌曲,Google不太可能長期落後。當AI能穩定生成5至10分鐘的高品質完整歌曲時,它對音樂產業的衝擊將進入一個全新的量級。
其次,互動式和即時音樂生成。目前的AI音樂工具都是「批量生成」模式——提交請求,等待結果。未來的方向是即時生成:AI根據用戶的動態輸入(語音哼唱、手勢、環境音等)實時調整和生成音樂。想像一下在VR環境中,背景音樂隨著你的移動和情緒自動變化——這是遊戲和元宇宙應用的終極音頻體驗。
第三,AI與人類音樂人的協作工具。最終,AI音樂生成的最大價值可能不在於完全取代人類創作,而在於成為人類音樂人的「超級助手」。一個能理解音樂理論、即時編曲、自動混音的AI副駕駛,將使每位音樂人的創作效率提升數倍。
音樂產業正站在一個歷史性的十字路口。Lyria 3在Gemini中的全球推出,將這場已經在進行中的AI音樂革命加速到了一個不可忽視的臨界點。對於音樂人、唱片公司、版權持有者和消費者而言,接下來的選擇將決定未來數十年音樂創作和消費的面貌。唯一確定的是,這個行業再也不會回到從前。