返回洞察
治理觀點

專業服務機構如何安全使用生成式 AI:從遮名、資料分級客戶事項隔離

Ascend Gravity Research2026年6月1日14 分鐘閱讀

姓名被遮住,不代表客戶已不可識別。對香港專業服務機構而言,生成式 AI 保密治理需要把資料分級、可識別上下文、工具邊界和客戶事項隔離放進日常流程。

重點摘要

  • 可以低風險開放的,多數是公開資料研究、通用模板、無客戶上下文的內部整理和非客戶化語言潤色。
  • 應預設排除在外部模型之外的,是 KYC、客戶原文、交易策略、家族結構、訴訟背景和足以重建客戶事項的上下文。
  • 管理層需要管好一整套機制:資料分級、工具邊界、輸出覆核、審計留痕和客戶事項隔離。

對許多專業服務機構而言,生成式 AI 可能已經出現在摘要、草擬、翻譯、文件檢索和內部分析之中;即使仍停留在個別員工試用階段,客戶保密問題也已經開始轉移到新的接觸點:prompt、文件上傳、知識庫檢索、供應商日誌和模型輸出。

最常見的第一步,是先遮住姓名、證件號、電話和電郵。本文把這一步簡稱為「遮名」:它值得做,因為能處理最明顯的識別資料;但在專業服務資料裏,客戶身份和事項背景往往藏在日期、法域、資產、關係和交易時序的組合裏。

在專業服務機構中,客戶保密的風險很少只停留在「有沒有出現姓名」。公司秘書團隊處理董事更替、受益所有人和股權變更;家族辦公室處理成員關係、資產配置和跨境安排;金融、地產、法律與顧問團隊處理 KYC、交易時序、物業資料、訴訟背景和內部評估。這些資訊即使被去名化,仍然可能共同形成一組足以辨認客戶的訊號。

對專業服務機構而言,生成式 AI 保密治理同時涵蓋超出個人資料範圍的保密資訊。某些資訊即使未必構成個人資料,仍可能是客戶商業秘密、交易策略、家族安排、訴訟策略或專業服務委託中的保密事實。

不同服務線最容易誤用 AI 的位置

公司秘書與企業服務
董事更替、受益所有人、持股比例、集團重組時間線和特殊交易背景,常被當成一般背景資料貼進摘要工具。遮名之外,日期、比例、角色關係和交易原因也需要泛化。
金融、資管與信託
KYC、資金來源、投資意圖、資產配置、信託結構和客戶風險偏好,往往比姓名更能暴露客戶輪廓。客戶畫像和資產結構不應進入通用模型;內部檢索也要按客戶與事項隔離。
法律與爭議解決
訴訟時序、對手方描述、證據摘要、法律意見草稿和內部策略,可能同時涉及客戶保密和法律專業特權。判斷標準不能只停留在個人資料是否已移除。
地產交易與家族辦公室
物業位置、交易金額、家庭成員關係、跨境安排和時間表需要一起處理。只遮住姓名,仍可能透過地點、金額、身份關係和交易時序重建客戶事項。

本文把問題收窄到生成式 AI 工作流:如何從遮名開始,繼續評估剩餘上下文、模型行為和工具鏈,並把控制點放回日常流程。核心問題是:在移除直接識別欄位之後,剩餘上下文是否仍然能讓模型、供應商、內部使用者或攻擊者推回客戶是誰、正在處理哪個客戶事項,以及哪些敏感事實可能為真?

對專業服務機構而言,保密治理需要按三個層次展開:先界定剩餘資料是否仍可識別,再量化重新識別與推理式洩漏風險,最後把控制點放回日常工作流。

專業服務機構無需把所有生成式 AI 使用都視為同一風險。管理層可以先劃出三條邊界,讓團隊知道哪些用法可以開放,哪些需要審慎處理,哪些預設不得外送。

生成式 AI 使用邊界

建議級別典型場景管理層判斷
可開放公開資料研究、通用模板、無客戶上下文的內部整理、非客戶化語言潤色。使用核准工具,保留基本使用記錄和輸出覆核要求。
謹慎開放部門流程總結、去識別化培訓材料、低風險內部草稿。先遮名,再泛化日期、地點、金額和角色;輸出需檢查是否重引入敏感線索。
預設不外送KYC、客戶原文、交易策略、家族結構、訴訟背景、客戶事項文件。使用私有環境、隔離索引、人工摘要或特別批准流程。
高風險專案跨客戶知識庫檢索、agent 自動讀取電郵、文件、表格或資料庫。需要權限隔離、日誌、紅隊測試和人工監管,不能靠員工自行判斷。

從遮住姓名開始

在許多內部 AI 試點中,第一個安全動作是偵測並遮罩姓名、身份證號、護照號、電話、電郵與地址。遮罩在本文中指把這些直接識別欄位刪除、替換或隱藏。這一步有價值,也應該標準化;它處理的是最容易看見的一層。

四個容易混淆的概念

遮罩
刪除、替換或隱藏姓名、證件號、地址、電話、電郵等直接識別欄位。
假名化
用代號替代身份,降低直接連結,但仍可能透過額外資訊還原。
去識別化
降低資料指向特定個人、客戶或事項的能力,需要評估剩餘線索。
匿名化
在合理條件下無法重新識別,門檻最高,不能只靠換掉姓名完成。

專業服務資料的辨識力,往往存在於組合訊號:

  • 某個法域、某一天的董事任命、某個股權比例和某種公司結構。
  • 某座物業、某段租約時序、某個交易金額和某類融資安排。
  • 某個家族成員關係、移民安排、稅務問題和資產類別。
  • 某個訴訟時間線、法院程序、對手方描述和內部策略備忘。

這些資料各自看似只是背景訊息,組合起來卻可能比姓名更敏感。對香港專業服務機構而言,團隊可能將相關內容視為「背景摘要」,但在特定上下文中,這些資料仍可能共同形成一個可被重建的客戶事項輪廓。

同一項工作:不建議與較安全的 prompt

工作不建議較安全
會議紀要摘要請總結以下會議紀要:客戶是香港家族第二代,正在處理新加坡信託、倫敦住宅物業重組,第三季度完成控股公司董事變更。請基於已泛化內容,整理內部行動清單:某客戶涉及跨境資產安排、信託結構調整和公司治理事項。請不要保留具體法域、日期、資產位置、家庭成員關係或可識別交易時序。
文件草擬請根據以下 KYC、資產配置和家族成員背景,起草給客戶的下一步建議。請根據不含客戶身份、資產規模和家族關係的抽象情境,提供一般性文件結構和檢查清單,最終內容由專業人員補充。
被遮罩文件旁的上下文線索組成指紋圖案
即使姓名已被遮罩,日期、地點、資產、關係與交易背景仍可能共同形成可識別的客戶事項輪廓。

剩餘上下文如何重建客戶事項

遮名只能處理最顯眼的一層。下一步要問的是:剩餘資料會不會仍然把一個人、一個客戶或一個客戶事項從人群中挑出來;會不會與其他文件合併後形成完整輪廓;會不會讓模型推斷出本來沒有明說的敏感事實。

監管和技術框架通常把這些剩餘風險分成三類。歐盟第29條資料保護工作組(Article 29 Working Party)早在匿名化意見書中,已分別稱之為單獨識別(singling out)、跨記錄連結(linkability)和推斷(inference)。它同時指出,假名化(pseudonymisation)會降低資料與原身份之間的連結性,仍有別於匿名化(anonymisation)。

歐洲資料保護委員會(EDPB)在 2025 年採納並公開諮詢的假名化指引中也提醒:只要一組資料仍可透過額外資訊歸屬到自然人,它仍然可能是個人資料;即使額外資訊不在同一人手上,判斷時仍要考慮合理可得的外部資訊。

美國國家標準與技術研究院(NIST)在 SP 800-188 中對去識別化的要求也更接近這個方向:執行去識別化通常需要專門工具去處理資料並估算重新識別風險;僅做個人資料遮罩的工具,仍可能停留在前處理層面,無法完成完整的去識別化評估。

這些歐盟和美國框架未必直接構成香港機構的法律義務,但它們提供了有參考價值的治理語言和技術標準。

放回生成式 AI 工作流,欄位級遮罩主要回答「明文識別資料是否還在」。以下問題仍需要另外判斷:

遮罩後仍要追問的問題

剩餘組合是否罕見
罕見組合容易把客戶從人群中挑出來。
是否能跨文件連結
多份摘要可能各自安全,但合併後形成完整事項線索。
模型是否會放大推理
模型可能把零碎背景補成具體身份、財務狀況或策略意圖。
供應商與工具鏈是否保留上下文
日誌、向量庫、RAG 索引和代理工具都可能延長資料暴露時間。RAG 是模型回答前檢索內部文件或知識庫的機制。

生成式 AI 如何放大推理風險

傳統遮罩規則多數假設攻擊者會尋找固定欄位。生成式 AI 則會從自然語言中抓取關係、暗示、時序和語境。結果是,原本看似無害的剩餘文字,可能變成更容易被推理的資料。

一項發表於 ICLR 2024 的學術研究顯示,大型語言模型可從真實 Reddit 檔案推斷位置、收入、性別等個人屬性,最高達到 85% top-1 和 95.8% top-3 準確率;研究亦指出,常見文字匿名化和模型安全對齊,對這類推理的防禦效果有限。

在專業服務場景中,這種推理通常表現得更含蓄:

  1. 模型把「某香港家族、某類資產、某個法域與某段交易時序」合併成可辨認輪廓。
  2. 模型在摘要中保留了本來應該被泛化的金額、日期、關係或地點。
  3. 多輪對話逐步暴露上下文,讓後續 prompt 比單次 prompt 更具辨識力。
  4. RAG 或 tool-calling agent 在讀取文件、郵件、表格時,把原本分隔的資料帶到同一個上下文。

英國國家網絡安全中心(NCSC)對 prompt injection 的分析,也提醒了同一件事:生成式 AI 模型通常缺乏傳統系統裏「資料」與「指令」之間的安全邊界。當外部文件、電郵或網頁被放進 prompt,模型可能把其中的惡意或不合規內容當作指令處理。對高保密工作流而言,資料洩漏可能跨越輸入前處理、模型讀取、工具調用與生成輸出的整條鏈。

將保密風險轉化為可觀察指標

管理層需要可比較的指標。把保密風險壓縮成一個單一分數,容易遮住不同風險層之間的差異。比較穩健的做法,是按風險層分開量化。

可觀測的三個層面

  1. 直接識別欄位

    姓名、證件、電話、地址、電郵和客戶代號是否殘留。這是最容易掃描的一層,也最容易被當作完整治理。

  2. 準識別子組合

    日期、地點、金額、關係、法域和客戶事項背景是否形成罕見組合。這一層需要看資料之間的組合關係。

  3. 系統行為

    模型、RAG、代理工具、日誌和輸出過濾在攻擊或誤用下如何表現。這一層決定剩餘線索會否被放大或重新連結。

對結構化資料,技術團隊可以使用重新識別概率、記錄匹配概率、k-anonymity 或差分私隱等方法評估風險。管理層無需設計每個指標;需要掌握的是這些指標回答什麼問題,以及它們是否能被重複、比較和審計。

對非結構化專業服務資料,風險量化可以先從一組代理指標開始。它們不會給出絕對精確的洩漏概率,也不會取代專業判斷,但能讓治理從印象轉向可追蹤的證據。

管理層問題與代理指標

管理層問題這段 prompt 裏還有沒有明文客戶資料?
可量測代理指標殘留 PII 數量、PII 檢測召回率。
管理層問題即使沒有姓名,客戶是否仍容易被猜出?
可量測代理指標準識別欄位唯一性、候選客戶縮小比例。
管理層問題多份文件放在一起會否暴露事項?
可量測代理指標跨文件連結成功率、候選事項縮小比例、事項重建風險評分。
管理層問題模型是否會把線索補全成敏感事實?
可量測代理指標屬性推斷成功率、紅隊攻擊成功率。
管理層問題輸出是否可能重新洩露資料?
可量測代理指標輸出 PII 命中率、敏感實體復現率。

NIST 2025 年的差分私隱指引也提醒,單一 epsilon 數值不足以代表完整保障;還要界定被保護的單位、查詢方式、威脅模型、旁路風險、系統安全和存取控制。NIST 的生成式 AI 風險管理概況給出的方向也很接近:輸入前移除不必要的 PII,輸出後做私隱過濾和來源核對,持續評估安全控制,並定期用 AI red-teaming 測試 prompt injection、membership inference、model extraction 等風險。

按資料敏感度配置控制強度

按資料敏感度配置控制強度

低敏感流程

典型場景包括公開資料研究、通用模板、無客戶上下文的內部整理。

  • 遮罩直接識別欄位,保留一般背景。
  • 限制在單一文件或短上下文內使用。
  • 使用核准工具清單(approved tool list)。
  • 做基本 PII 掃描。
中敏感流程

典型場景包括部門流程、去識別化摘要、低風險內部草稿。

  • 在遮罩之外做泛化(generalisation),稀釋日期、地點、金額與角色。
  • 按部門或流程限制檢索範圍。
  • 用 prompt gateway 檢查資料類型、用途與供應商。
  • 輸出過濾並核對來源。
高敏感流程

典型場景包括 KYC、客戶原文、交易策略、家族結構、訴訟背景和客戶事項文件。

  • 預設不外送原文;使用私有環境、隔離索引或人工摘要。
  • 按客戶與事項隔離上下文,禁止跨客戶合併資料。
  • 高敏感 prompt 需要阻擋、降敏或人工批准。
  • 交付前由人工覆核,並保留審計記錄。

這組控制的目的,是讓每條流程都有明確的風險理由。低敏感流程不必承受最重控制;高敏感流程需要制度化控制,讓員工的即時判斷有清晰邊界可依循。

從監管原則到日常工作流

香港 PCPD 在 2024 年發布的 Model Personal Data Protection Framework,要求機構在 AI strategy and governance、risk assessment and human oversight、system implementation and management、stakeholder engagement 四個範圍建立措施。

它亦明確提到,機構應制定 acceptable input、permitted / prohibited prompts、traceability、auditability、data security、red teaming、incident response 和持續監察。

對專業服務機構而言,這可以翻譯成一條更具體的操作流程:

  1. 資料分級:先把客戶資料、客戶事項資料、公開資料、內部策略和交付文件分層。
  2. 使用場景分級:區分研究、摘要、草稿、客戶交付、決策支援和自動化執行。
  3. 輸入前控制:在 prompt gateway 偵測直接識別欄位、準識別子、機密條款與跨客戶事項線索。
  4. 上下文最小化:只提供完成任務所需的最少文件、最少欄位和最短時間線。
  5. 模型與供應商邊界:按敏感度決定企業 SaaS、私有部署、本地模型或完全不用生成式 AI。
  6. 輸出後掃描:檢查模型是否重新生成姓名、關係、地點、金額、策略或不應出現的來源。
  7. 人工覆核與留痕:高敏感流程保留最終負責覆核人,並記錄 prompt、版本、來源、覆核人與例外處理。
  8. 紅隊與儀表板:定期測試 prompt injection、越權檢索、資料外送與推理式重建,將結果放進治理儀表板。

本文常用術語

Prompt gateway
員工輸入模型前,用於檢查、阻擋、降敏或記錄 prompt 的控制層。
RAG
模型回答前檢索內部文件或知識庫的機制,常見於企業知識庫和文件問答。
Tool-calling agent
可以調用外部工具、搜尋、資料庫或系統動作的模型工作流。
Matter-level compartmentalisation
按客戶和事項隔離上下文,避免跨客戶、跨權限或跨項目混合資料。
Red-teaming
用模擬攻擊或誤用場景測試系統是否會洩露資料、越權調用工具或違反政策。
Epsilon
差分私隱中用來表達私隱損耗的參數;數值本身不足以代表完整保障。

客戶為什麼會關心

這類治理問題會同時影響內部合規、客戶信任和業務開發。大型企業、家族客戶、金融機構和跨境交易客戶,越來越可能在 RFP、onboarding 或資訊安全問卷中追問:客戶資料是否會進入第三方 AI 工具,供應商是否會保留輸入內容,員工是否可自行使用外部模型,輸出是否有人負責覆核。

一次不當上傳未必立即造成公開洩漏,但足以削弱客戶對機構保密文化的信任。對專業服務機構而言,真正的差異化在於能否使用 AI 提高效率,同時守住客戶保密、專業判斷和責任邊界。

管理層自查:五個問題

對已開始在客戶工作中試用或部署生成式 AI 的專業服務團隊,以下五個問題可作為管理層自查起點:

  1. 機構是否已能識別哪些 prompt 或文件上傳曾包含客戶、客戶事項或交易上下文?
  2. 機構是否已評估,在直接識別資料被處理後,日期、地點、金額、角色和結構等剩餘線索是否仍具可識別性?
  3. 機構是否能限制 RAG 或 agent 在不同客戶、不同權限或不同客戶事項之間合併上下文?
  4. 機構是否已測試 prompt injection、越權查詢和推理式重建等場景下的資料洩漏風險?
  5. 機構是否已界定哪些 AI 輸出可作內部參考,哪些必須由合資格專業人士覆核後才能交付?

如果答案仍然模糊,往往代表工作流治理模型尚未成形,模型選型只是其中一部分。遮罩姓名能降低一部分風險;剩餘脈絡若仍然足以重建客戶事實模式,客戶保密的剩餘風險仍需要被識別、記錄和控制。


主要參考來源