治理觀點

專業服務機構如何安全使用生成式 AI：從遮名、資料分級到客戶事項隔離

Ascend Gravity Research2026年6月1日14 分鐘閱讀

姓名被遮住，不代表客戶已不可識別。對香港專業服務機構而言，生成式 AI 保密治理需要把資料分級、可識別上下文、工具邊界和客戶事項隔離放進日常流程。

重點摘要

可以低風險開放的，多數是公開資料研究、通用模板、無客戶上下文的內部整理和非客戶化語言潤色。
應預設排除在外部模型之外的，是 KYC、客戶原文、交易策略、家族結構、訴訟背景和足以重建客戶事項的上下文。
管理層需要管好一整套機制：資料分級、工具邊界、輸出覆核、審計留痕和客戶事項隔離。

對許多專業服務機構而言，生成式 AI 可能已經出現在摘要、草擬、翻譯、文件檢索和內部分析之中；即使仍停留在個別員工試用階段，客戶保密問題也已經開始轉移到新的接觸點：prompt、文件上傳、知識庫檢索、供應商日誌和模型輸出。

最常見的第一步，是先遮住姓名、證件號、電話和電郵。本文把這一步簡稱為「遮名」：它值得做，因為能處理最明顯的識別資料；但在專業服務資料裏，客戶身份和事項背景往往藏在日期、法域、資產、關係和交易時序的組合裏。

在專業服務機構中，客戶保密的風險很少只停留在「有沒有出現姓名」。公司秘書團隊處理董事更替、受益所有人和股權變更；家族辦公室處理成員關係、資產配置和跨境安排；金融、地產、法律與顧問團隊處理 KYC、交易時序、物業資料、訴訟背景和內部評估。這些資訊即使被去名化，仍然可能共同形成一組足以辨認客戶的訊號。

對專業服務機構而言，生成式 AI 保密治理同時涵蓋超出個人資料範圍的保密資訊。某些資訊即使未必構成個人資料，仍可能是客戶商業秘密、交易策略、家族安排、訴訟策略或專業服務委託中的保密事實。

不同服務線最容易誤用 AI 的位置

公司秘書與企業服務: 董事更替、受益所有人、持股比例、集團重組時間線和特殊交易背景，常被當成一般背景資料貼進摘要工具。遮名之外，日期、比例、角色關係和交易原因也需要泛化。
金融、資管與信託: KYC、資金來源、投資意圖、資產配置、信託結構和客戶風險偏好，往往比姓名更能暴露客戶輪廓。客戶畫像和資產結構不應進入通用模型；內部檢索也要按客戶與事項隔離。
法律與爭議解決: 訴訟時序、對手方描述、證據摘要、法律意見草稿和內部策略，可能同時涉及客戶保密和法律專業特權。判斷標準不能只停留在個人資料是否已移除。
地產交易與家族辦公室: 物業位置、交易金額、家庭成員關係、跨境安排和時間表需要一起處理。只遮住姓名，仍可能透過地點、金額、身份關係和交易時序重建客戶事項。

本文把問題收窄到生成式 AI 工作流：如何從遮名開始，繼續評估剩餘上下文、模型行為和工具鏈，並把控制點放回日常流程。核心問題是：在移除直接識別欄位之後，剩餘上下文是否仍然能讓模型、供應商、內部使用者或攻擊者推回客戶是誰、正在處理哪個客戶事項，以及哪些敏感事實可能為真？

對專業服務機構而言，保密治理需要按三個層次展開：先界定剩餘資料是否仍可識別，再量化重新識別與推理式洩漏風險，最後把控制點放回日常工作流。

專業服務機構無需把所有生成式 AI 使用都視為同一風險。管理層可以先劃出三條邊界，讓團隊知道哪些用法可以開放，哪些需要審慎處理，哪些預設不得外送。

生成式 AI 使用邊界

建議級別	典型場景	管理層判斷
可開放	公開資料研究、通用模板、無客戶上下文的內部整理、非客戶化語言潤色。	使用核准工具，保留基本使用記錄和輸出覆核要求。
謹慎開放	部門流程總結、去識別化培訓材料、低風險內部草稿。	先遮名，再泛化日期、地點、金額和角色；輸出需檢查是否重引入敏感線索。
預設不外送	KYC、客戶原文、交易策略、家族結構、訴訟背景、客戶事項文件。	使用私有環境、隔離索引、人工摘要或特別批准流程。
高風險專案	跨客戶知識庫檢索、agent 自動讀取電郵、文件、表格或資料庫。	需要權限隔離、日誌、紅隊測試和人工監管，不能靠員工自行判斷。

從遮住姓名開始

在許多內部 AI 試點中，第一個安全動作是偵測並遮罩姓名、身份證號、護照號、電話、電郵與地址。遮罩在本文中指把這些直接識別欄位刪除、替換或隱藏。這一步有價值，也應該標準化；它處理的是最容易看見的一層。

四個容易混淆的概念

遮罩: 刪除、替換或隱藏姓名、證件號、地址、電話、電郵等直接識別欄位。
假名化: 用代號替代身份，降低直接連結，但仍可能透過額外資訊還原。
去識別化: 降低資料指向特定個人、客戶或事項的能力，需要評估剩餘線索。
匿名化: 在合理條件下無法重新識別，門檻最高，不能只靠換掉姓名完成。

專業服務資料的辨識力，往往存在於組合訊號：

某個法域、某一天的董事任命、某個股權比例和某種公司結構。
某座物業、某段租約時序、某個交易金額和某類融資安排。
某個家族成員關係、移民安排、稅務問題和資產類別。
某個訴訟時間線、法院程序、對手方描述和內部策略備忘。

這些資料各自看似只是背景訊息，組合起來卻可能比姓名更敏感。對香港專業服務機構而言，團隊可能將相關內容視為「背景摘要」，但在特定上下文中，這些資料仍可能共同形成一個可被重建的客戶事項輪廓。

同一項工作：不建議與較安全的 prompt

工作	不建議	較安全
會議紀要摘要	請總結以下會議紀要：客戶是香港家族第二代，正在處理新加坡信託、倫敦住宅物業重組，第三季度完成控股公司董事變更。	請基於已泛化內容，整理內部行動清單：某客戶涉及跨境資產安排、信託結構調整和公司治理事項。請不要保留具體法域、日期、資產位置、家庭成員關係或可識別交易時序。
文件草擬	請根據以下 KYC、資產配置和家族成員背景，起草給客戶的下一步建議。	請根據不含客戶身份、資產規模和家族關係的抽象情境，提供一般性文件結構和檢查清單，最終內容由專業人員補充。

被遮罩文件旁的上下文線索組成指紋圖案 — 即使姓名已被遮罩，日期、地點、資產、關係與交易背景仍可能共同形成可識別的客戶事項輪廓。

剩餘上下文如何重建客戶事項

遮名只能處理最顯眼的一層。下一步要問的是：剩餘資料會不會仍然把一個人、一個客戶或一個客戶事項從人群中挑出來；會不會與其他文件合併後形成完整輪廓；會不會讓模型推斷出本來沒有明說的敏感事實。

監管和技術框架通常把這些剩餘風險分成三類。歐盟第29條資料保護工作組（Article 29 Working Party）早在匿名化意見書中，已分別稱之為單獨識別（singling out）、跨記錄連結（linkability）和推斷（inference）。它同時指出，假名化（pseudonymisation）會降低資料與原身份之間的連結性，仍有別於匿名化（anonymisation）。

歐洲資料保護委員會（EDPB）在 2025 年採納並公開諮詢的假名化指引中也提醒：只要一組資料仍可透過額外資訊歸屬到自然人，它仍然可能是個人資料；即使額外資訊不在同一人手上，判斷時仍要考慮合理可得的外部資訊。

美國國家標準與技術研究院（NIST）在 SP 800-188 中對去識別化的要求也更接近這個方向：執行去識別化通常需要專門工具去處理資料並估算重新識別風險；僅做個人資料遮罩的工具，仍可能停留在前處理層面，無法完成完整的去識別化評估。

這些歐盟和美國框架未必直接構成香港機構的法律義務，但它們提供了有參考價值的治理語言和技術標準。

放回生成式 AI 工作流，欄位級遮罩主要回答「明文識別資料是否還在」。以下問題仍需要另外判斷：

遮罩後仍要追問的問題

剩餘組合是否罕見: 罕見組合容易把客戶從人群中挑出來。
是否能跨文件連結: 多份摘要可能各自安全，但合併後形成完整事項線索。
模型是否會放大推理: 模型可能把零碎背景補成具體身份、財務狀況或策略意圖。
供應商與工具鏈是否保留上下文: 日誌、向量庫、RAG 索引和代理工具都可能延長資料暴露時間。RAG 是模型回答前檢索內部文件或知識庫的機制。

生成式 AI 如何放大推理風險

傳統遮罩規則多數假設攻擊者會尋找固定欄位。生成式 AI 則會從自然語言中抓取關係、暗示、時序和語境。結果是，原本看似無害的剩餘文字，可能變成更容易被推理的資料。

一項發表於 ICLR 2024 的學術研究顯示，大型語言模型可從真實 Reddit 檔案推斷位置、收入、性別等個人屬性，最高達到 85% top-1 和 95.8% top-3 準確率；研究亦指出，常見文字匿名化和模型安全對齊，對這類推理的防禦效果有限。

在專業服務場景中，這種推理通常表現得更含蓄：

模型把「某香港家族、某類資產、某個法域與某段交易時序」合併成可辨認輪廓。
模型在摘要中保留了本來應該被泛化的金額、日期、關係或地點。
多輪對話逐步暴露上下文，讓後續 prompt 比單次 prompt 更具辨識力。
RAG 或 tool-calling agent 在讀取文件、郵件、表格時，把原本分隔的資料帶到同一個上下文。

英國國家網絡安全中心（NCSC）對 prompt injection 的分析，也提醒了同一件事：生成式 AI 模型通常缺乏傳統系統裏「資料」與「指令」之間的安全邊界。當外部文件、電郵或網頁被放進 prompt，模型可能把其中的惡意或不合規內容當作指令處理。對高保密工作流而言，資料洩漏可能跨越輸入前處理、模型讀取、工具調用與生成輸出的整條鏈。

將保密風險轉化為可觀察指標

管理層需要可比較的指標。把保密風險壓縮成一個單一分數，容易遮住不同風險層之間的差異。比較穩健的做法，是按風險層分開量化。

可觀測的三個層面

直接識別欄位
姓名、證件、電話、地址、電郵和客戶代號是否殘留。這是最容易掃描的一層，也最容易被當作完整治理。
準識別子組合
日期、地點、金額、關係、法域和客戶事項背景是否形成罕見組合。這一層需要看資料之間的組合關係。
系統行為
模型、RAG、代理工具、日誌和輸出過濾在攻擊或誤用下如何表現。這一層決定剩餘線索會否被放大或重新連結。

對結構化資料，技術團隊可以使用重新識別概率、記錄匹配概率、k-anonymity 或差分私隱等方法評估風險。管理層無需設計每個指標；需要掌握的是這些指標回答什麼問題，以及它們是否能被重複、比較和審計。

對非結構化專業服務資料，風險量化可以先從一組代理指標開始。它們不會給出絕對精確的洩漏概率，也不會取代專業判斷，但能讓治理從印象轉向可追蹤的證據。

管理層問題與代理指標

管理層問題這段 prompt 裏還有沒有明文客戶資料？: 可量測代理指標殘留 PII 數量、PII 檢測召回率。
管理層問題即使沒有姓名，客戶是否仍容易被猜出？: 可量測代理指標準識別欄位唯一性、候選客戶縮小比例。
管理層問題多份文件放在一起會否暴露事項？: 可量測代理指標跨文件連結成功率、候選事項縮小比例、事項重建風險評分。
管理層問題模型是否會把線索補全成敏感事實？: 可量測代理指標屬性推斷成功率、紅隊攻擊成功率。
管理層問題輸出是否可能重新洩露資料？: 可量測代理指標輸出 PII 命中率、敏感實體復現率。

NIST 2025 年的差分私隱指引也提醒，單一 epsilon 數值不足以代表完整保障；還要界定被保護的單位、查詢方式、威脅模型、旁路風險、系統安全和存取控制。NIST 的生成式 AI 風險管理概況給出的方向也很接近：輸入前移除不必要的 PII，輸出後做私隱過濾和來源核對，持續評估安全控制，並定期用 AI red-teaming 測試 prompt injection、membership inference、model extraction 等風險。

按資料敏感度配置控制強度

低敏感流程

典型場景包括公開資料研究、通用模板、無客戶上下文的內部整理。

遮罩直接識別欄位，保留一般背景。
限制在單一文件或短上下文內使用。
使用核准工具清單（approved tool list）。
做基本 PII 掃描。

中敏感流程

典型場景包括部門流程、去識別化摘要、低風險內部草稿。

在遮罩之外做泛化（generalisation），稀釋日期、地點、金額與角色。
按部門或流程限制檢索範圍。
用 prompt gateway 檢查資料類型、用途與供應商。
輸出過濾並核對來源。

高敏感流程

典型場景包括 KYC、客戶原文、交易策略、家族結構、訴訟背景和客戶事項文件。

預設不外送原文；使用私有環境、隔離索引或人工摘要。
按客戶與事項隔離上下文，禁止跨客戶合併資料。
高敏感 prompt 需要阻擋、降敏或人工批准。
交付前由人工覆核，並保留審計記錄。

這組控制的目的，是讓每條流程都有明確的風險理由。低敏感流程不必承受最重控制；高敏感流程需要制度化控制，讓員工的即時判斷有清晰邊界可依循。

從監管原則到日常工作流

香港 PCPD 在 2024 年發布的 Model Personal Data Protection Framework，要求機構在 AI strategy and governance、risk assessment and human oversight、system implementation and management、stakeholder engagement 四個範圍建立措施。

它亦明確提到，機構應制定 acceptable input、permitted / prohibited prompts、traceability、auditability、data security、red teaming、incident response 和持續監察。

對專業服務機構而言，這可以翻譯成一條更具體的操作流程：

資料分級：先把客戶資料、客戶事項資料、公開資料、內部策略和交付文件分層。
使用場景分級：區分研究、摘要、草稿、客戶交付、決策支援和自動化執行。
輸入前控制：在 prompt gateway 偵測直接識別欄位、準識別子、機密條款與跨客戶事項線索。
上下文最小化：只提供完成任務所需的最少文件、最少欄位和最短時間線。
模型與供應商邊界：按敏感度決定企業 SaaS、私有部署、本地模型或完全不用生成式 AI。
輸出後掃描：檢查模型是否重新生成姓名、關係、地點、金額、策略或不應出現的來源。
人工覆核與留痕：高敏感流程保留最終負責覆核人，並記錄 prompt、版本、來源、覆核人與例外處理。
紅隊與儀表板：定期測試 prompt injection、越權檢索、資料外送與推理式重建，將結果放進治理儀表板。

本文常用術語

Prompt gateway: 員工輸入模型前，用於檢查、阻擋、降敏或記錄 prompt 的控制層。
RAG: 模型回答前檢索內部文件或知識庫的機制，常見於企業知識庫和文件問答。
Tool-calling agent: 可以調用外部工具、搜尋、資料庫或系統動作的模型工作流。
Matter-level compartmentalisation: 按客戶和事項隔離上下文，避免跨客戶、跨權限或跨項目混合資料。
Red-teaming: 用模擬攻擊或誤用場景測試系統是否會洩露資料、越權調用工具或違反政策。
Epsilon: 差分私隱中用來表達私隱損耗的參數；數值本身不足以代表完整保障。

客戶為什麼會關心

這類治理問題會同時影響內部合規、客戶信任和業務開發。大型企業、家族客戶、金融機構和跨境交易客戶，越來越可能在 RFP、onboarding 或資訊安全問卷中追問：客戶資料是否會進入第三方 AI 工具，供應商是否會保留輸入內容，員工是否可自行使用外部模型，輸出是否有人負責覆核。

一次不當上傳未必立即造成公開洩漏，但足以削弱客戶對機構保密文化的信任。對專業服務機構而言，真正的差異化在於能否使用 AI 提高效率，同時守住客戶保密、專業判斷和責任邊界。

管理層自查：五個問題

對已開始在客戶工作中試用或部署生成式 AI 的專業服務團隊，以下五個問題可作為管理層自查起點：

機構是否已能識別哪些 prompt 或文件上傳曾包含客戶、客戶事項或交易上下文？
機構是否已評估，在直接識別資料被處理後，日期、地點、金額、角色和結構等剩餘線索是否仍具可識別性？
機構是否能限制 RAG 或 agent 在不同客戶、不同權限或不同客戶事項之間合併上下文？
機構是否已測試 prompt injection、越權查詢和推理式重建等場景下的資料洩漏風險？
機構是否已界定哪些 AI 輸出可作內部參考，哪些必須由合資格專業人士覆核後才能交付？

如果答案仍然模糊，往往代表工作流治理模型尚未成形，模型選型只是其中一部分。遮罩姓名能降低一部分風險；剩餘脈絡若仍然足以重建客戶事實模式，客戶保密的剩餘風險仍需要被識別、記錄和控制。

主要參考來源

Hong Kong PCPD, Artificial Intelligence: Model Personal Data Protection Framework
Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques
EDPB, Guidelines 01/2025 on Pseudonymisation
NIST, SP 800-188: De-Identifying Government Datasets
NIST, SP 800-226: Guidelines for Evaluating Differential Privacy Guarantees
NCSC, Prompt injection is not SQL injection
Staab et al., Beyond Memorization: Violating Privacy Via Inference with Large Language Models