AI研究

Microsoft推三款自研基礎模型:語音轉錄、語音生成與圖像模型全面上架

從分發平台走向自建模型供應,意圖掌握成本與能力曲線,並擴大企業級多模態布局。

產品組合:一次推出三種高商業價值模態

Microsoft推出三款自研基礎模型,涵蓋語音轉文字、文字轉語音與圖像生成,並可透過Microsoft Foundry與新的MAI Playground即時使用。這種同時覆蓋多模態的做法,顯示公司不再只依賴單一合作夥伴提供核心模型,而是嘗試建立可控的自有模型供應鏈,支援企業場景所需的穩定性與成本預期。

對企業客戶而言,多模態能力意味著可把會議轉錄、客服語音、品牌內容素材等工作流串連到同一平台。

競爭焦點:以效能與成本結構搶企業採用

語音轉錄模型被描述為在多語言測試上取得很低錯誤率,並支援常見音訊格式與大型檔案;語音生成模型主打可快速生成長段自然語音並維持聲線一致;圖像模型則強調生成速度與在產品中的落地,並逐步推向搜尋與簡報等使用場景。

這類產品策略背後,是把模型能力轉化為可銷售的企業服務,並透過自研降低推理成本。對香港市場的啟示是:未來企業採購會更看重「同一供應商的端到端堆疊」——從模型、工具鏈到治理與計費,整合度可能比單點最強模型更重要。