AI工具

OpenAI 推出 Privacy Filter:可本地運行的開源權重 PII 遮罩模型

OpenAI 發布可本地部署的 Privacy Filter,用於在大量文字資料中偵測並遮罩個人資料與機密字串,降低資料外洩與合規風險。

產品定位:把私隱保護變成資料管線的「預設功能」

不少企業在訓練、索引、記錄或審核文本資料時,往往混入電郵、電話、住址、帳號、密碼或 API Key 等敏感內容,最終導致合規與外洩風險。OpenAI 近日推出 Privacy Filter,主打可在本地或私有環境運行,用來自動偵測並遮罩文字中的個人可識別資料(PII)與各類機密字串,讓團隊在不改變核心流程的前提下,先把「該遮的」遮掉,再進一步做後續處理。

技術特點:長上下文、小型模型、適合高吞吐

Privacy Filter 採用雙向 token 分類架構,總參數 1.5B、活躍參數約 50M,可支援最高 128,000 tokens 的長文本處理;這代表它可應付長文件、混合格式內容、甚至包含程式碼與雜訊的真實資料。遮罩範圍涵蓋多種常見敏感類別,包括個人身份資訊、地址、電郵、電話、網址、日期、帳號號碼,以及密碼與 API Key 等「secret」類型。對企業而言,這類模型能直接放進資料清洗與審核管線,降低把敏感內容送入後續系統的機會。

授權與落地:Apache 2.0、可微調、但仍需人手把關

Privacy Filter 以 Apache 2.0 授權釋出,允許企業在商業場景中部署與二次開發,亦可因應不同行業資料分佈進行微調。值得注意的是,它被定位為「私隱工程的一個模組」,並非完整匿名化或合規保證;在法律、醫療、金融等高風險領域,企業仍需建立審核與例外處理機制。對香港與亞洲市場而言,這類可本地運行的私隱工具,有助在跨境資料、內部知識庫、客服文本等場景中,更務實地推動 AI 落地。