OpenAI 推出 Privacy Filter：可本地運行的開源權重 PII 遮罩模型

產品定位：把私隱保護變成資料管線的「預設功能」

不少企業在訓練、索引、記錄或審核文本資料時，往往混入電郵、電話、住址、帳號、密碼或 API Key 等敏感內容，最終導致合規與外洩風險。OpenAI 近日推出 Privacy Filter，主打可在本地或私有環境運行，用來自動偵測並遮罩文字中的個人可識別資料（PII）與各類機密字串，讓團隊在不改變核心流程的前提下，先把「該遮的」遮掉，再進一步做後續處理。

技術特點：長上下文、小型模型、適合高吞吐

Privacy Filter 採用雙向 token 分類架構，總參數 1.5B、活躍參數約 50M，可支援最高 128,000 tokens 的長文本處理；這代表它可應付長文件、混合格式內容、甚至包含程式碼與雜訊的真實資料。遮罩範圍涵蓋多種常見敏感類別，包括個人身份資訊、地址、電郵、電話、網址、日期、帳號號碼，以及密碼與 API Key 等「secret」類型。對企業而言，這類模型能直接放進資料清洗與審核管線，降低把敏感內容送入後續系統的機會。

授權與落地：Apache 2.0、可微調、但仍需人手把關

Privacy Filter 以 Apache 2.0 授權釋出，允許企業在商業場景中部署與二次開發，亦可因應不同行業資料分佈進行微調。值得注意的是，它被定位為「私隱工程的一個模組」，並非完整匿名化或合規保證；在法律、醫療、金融等高風險領域，企業仍需建立審核與例外處理機制。對香港與亞洲市場而言，這類可本地運行的私隱工具，有助在跨境資料、內部知識庫、客服文本等場景中，更務實地推動 AI 落地。