AI学習データに含まれる個人情報

(1/1)
AI学習データに含まれる個人情報
ChatGPT をはじめとする生成AI がいかに便利で有用なものであるかは、それを使ってみればわかります。
現在、さまざまな生成AI がありますが、それらを構築するには大量の学習データを投入する必要があります。学習データの出所は明らかにされていないことがほとんどですが、有識者の間では、ネットに投稿された情報はすべて学習データとして利用されているだろうと考えています。その中には、外部から読み取れないようになっているはずの個人特定情報やクレジットカード情報、健康などに関する機微な個人情報が含まれている可能性もあります。
これから紹介する研究報告では、学習データとして無償で流通しているオープンソースの巨大データセットに、個人情報やクレジットカード情報、機微な個人情報が多く含まれていることが明らかになりました。
生成AIサービスの提供や、学習データの収集や流通において、私たちが納得できる制限を設ける必要がありそうです。

研究報告

米カーネギーメロン大学のAI倫理学の研究者らが、2023年(令和5年)にリリースされた128億のデータサンプルを誇る DataComp CommonPool のうちのわずか0.1%のサブセットを調査したところ、クレジットカード、運転免許証、パスポート、出生証明書などの画像を含む、数千件の検証済み身分証明書と、履歴書やカバーレターを含む800件以上の検証済み求人応募書類を発見しました。多くの履歴書には、障害の有無、身元調査の結果、扶養家族の生年月日と出身地、人種といった機微な個人情報も記載されていました。
DataComp CommonPool は過去2年間で200万回以上ダウンロードされているため、このデータセットで訓練された下流モデルが多数存在する可能性が高いとみられています。
また、一度学習データとして登録されてしまうと、たとえネット上のオリジナル・ファイルを削除しても、学習データ上では削除されず、永遠にデータが流通し続ける可能性があります。
A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset:arXiv, 2025年7月20日
また、商用の生成AIは、どの学習データを利用したかを明らかにしていないことが多いです。そうした生成AIを利用することで、実在する個人情報を引き出すことができるかもしれません。
2021年(令和3年)にGoogleやスタンフォード大学、OpenAIなどの研究者らが発表した論文「」では、GPT-2から個人情報などを抽出できることが示されています。本論文では、GPT-2に「〇〇さんの住所は...」などの個人情報の抽出を意図したプロンプトを入力し、それに続く文章の生成を指示しています。その結果、GPT-2は氏名や電話番号、Eメールアドレスなどを含む個人情報やチャットの履歴、公開することが好ましくないソースコードやUUIDなどを含む文章を応答することが確認されています。この論文より、GPT-2は意図的・偶発的にかかわらず個人情報などを学習しており、第三者が入力したプロンプトをきっかけに個人情報などを開示するリスクが顕在化していることが明らかになっています。

研究者たちは、米国のプライバシー関連法制は学習データの収集に対して不十分であると警鐘を鳴らしています。
Extracting Training Data from Large Language Models, 2020年12月14日

日本の個人情報保護法

わが国の個人情報保護法は、学習データの収集を特定して制約を課しているわけではありませんが、たとえば、第18条・第18条では利用目的の特定と通知・公表を義務づけています。ここから、学習データとして個人情報を収集するなら、正統な取得と目的開示が求められます。
また、第18条第2項により、個人情報を、本人の同意なしに当初の目的以外に利用してはいけません。たとえば、他社が収集したデータに個人情報が入っているならば、それを勝手に学習データに使うことは違法行為になります。
第23条では、本人の同意なく、個人情報を第三者(たとえば外部AI開発会社)に提供することはできません。
第36条からは、個人を特定できないように加工された情報(匿名加工情報等)であれば、一定の条件下で第三者提供や学習利用が可能であることを規定しています。ここでは、個人の再識別ができないようにしなければならないという厳格な要件があります。

2023年(令和5年)に、個人情報保護委員会は「生成AIサービスの利用に関する注意喚起」というパンフレットを作り、生成AIサービス利用時に個人情報保護法違反をしないよう注意を呼びかけています。

参考サイト

(この項おわり)
header