Microsoft推三款自研基礎模型：語音轉錄、語音生成與圖像模型全面上架

產品組合：一次推出三種高商業價值模態

Microsoft推出三款自研基礎模型，涵蓋語音轉文字、文字轉語音與圖像生成，並可透過Microsoft Foundry與新的MAI Playground即時使用。這種同時覆蓋多模態的做法，顯示公司不再只依賴單一合作夥伴提供核心模型，而是嘗試建立可控的自有模型供應鏈，支援企業場景所需的穩定性與成本預期。

對企業客戶而言，多模態能力意味著可把會議轉錄、客服語音、品牌內容素材等工作流串連到同一平台。

競爭焦點：以效能與成本結構搶企業採用

語音轉錄模型被描述為在多語言測試上取得很低錯誤率，並支援常見音訊格式與大型檔案；語音生成模型主打可快速生成長段自然語音並維持聲線一致；圖像模型則強調生成速度與在產品中的落地，並逐步推向搜尋與簡報等使用場景。

這類產品策略背後，是把模型能力轉化為可銷售的企業服務，並透過自研降低推理成本。對香港市場的啟示是：未來企業採購會更看重「同一供應商的端到端堆疊」——從模型、工具鏈到治理與計費，整合度可能比單點最強模型更重要。