生成AIの仕組みと利用上の注意事項

2026年3月20日 作成

はじめに

生成AIの仕組みと利用上の注意事項
2022年(令和4年)11月30日に ChatGPT が公開されると、無料で気軽に使える利便性から、生成AIブームが起きました。その後、各社から GeminiLlamaClaude といった生成サービスが登場しました。Microsoftが自社の生成AIサービス CopilotMicrosoft 365 や Windows に組み込み、2026年(令和8年)3月現在、生成AIサービスは百花繚乱といった活況ぶりを呈しており、日常生活でネット検索と同じくらいよく使われるようになりました。
ただし、急速に普及したサービスですので、そこには弱点やリスクがあります。
ここでは、生成AIの仕組みから、利用上の注意事項について整理していきます。

目次

LLMという仕組み

LLMという仕組み
現在の生成AIの多くは、LLM(Large Language Model;大規模言語モデル)という仕組みの上で動いています。一言でいうと、「巨大なニューラルネットワークが、膨大な文章を学習して、次の単語を予測することで会話している」仕組みです。
この仕組みを理解するのに、まず、これまでのAI研究の歴史から振り返っておきましょう。
ルールベースAI(〜1990年代)
たとえば「もし“こんにちは”と入力されたら、“こんにちは”と返す」というように、人間があらかじめルールと書いておく仕組みです。問題点として、複雑な会話ができないことがありました。その問題点を解決するために、人間の脳の神経回路を模したニューラルネットワークが誕生しました。
機械学習(〜2010年代)
データからパターンを学び、スパムメール判定などができるようになりました。この段階では、まだ自然な文章を作ることはできません。]
ディープラーニング(~2020年代)
ニューラルネットワークと機械学習を組み合わせ、膨大な量のデータのパターンを学ぶディープラーニングが登場します。これは画像・音声・文章すべてのコンテンツに応用できる仕組みで、ここからLLMが登場します。
ニューラルネットワークは、人間の脳の神経回路をまねた計算モデルです。仕組みはシンプルで、入力(単語)、重み(つながりの強さ)、出力(次の単語)の3つから成ります。
LLM は、このニューラルネットワークが非常に多く集まった仕組みです。つまり、1つのニューラルネットワークの出力が、次のニューラルネットワークの入力に接続されているような、まさに神経回路を模した仕組みだと考えてください。ただ、やっていることといえば、「次に来る言葉を予測しているだけ」です。
たとえば、「今日はいい天気なので」という言葉が来たとします。LLMは蓄えているデータを統計処理し、次に来る言葉は「散歩に行きたい」が多いことを計算で導き出します。
この単純な仕組みにもかかわらず、LLM が人間を相手にするように会話を続けます。

なお、LLM にはニューラルネットワークの出力を調整するつまみがあり、これをパラメータと呼んでいます。パラメータが多ければ多いほど、複雑なパターンに対応できます。初期のChatGPTではパラメータは数百万ですが、GPT-3では1750億に、2026年(令和8年)3月現在の各種LLMは数千億から数兆個のパラメータを備えています。
代表的なLLM
LLM提供企業
ChatGPTチャットジーピーティー
OpenAIオープンエーアイ
アメリカ
Claudeクロード
Anthropic アンソロピック)
アメリカ
Deepseekディープシーク
Deepseek AIディープシークAI
中国
Geminiジェミニ
Googleグーグル
アメリカ
Llamaラマ
Metaメタ
アメリカ
Qwenクエン
Alibaba Cloudアリババクラウド
中国

学習データ

学習データ
前述したように、LLM は「次に来る言葉を予測する」仕組みなのですが、予測できるようになるためには、大量の学習データを投入する必要があります。つまり学習データは、「知識そのもの」「言葉の使い方」「文脈やニュアンス」などの、すべての元になります。
LLM は学習データから、次のようなことを学び取ります。
単語のつながり(統計)
「寿司 → おいしい」が出やすい。「雨 → 傘」が出やすい。
文法や構造
日本語の語順。英語の時制や構文。
知識(間接的に)
「東京は日本の首都」など。ただし、データを暗記しているのではなく、パターンとして保持しています。
LLM は、学習データを投入すると、次の作業を繰り返します。
  1. 文章を途中まで見る
  2. 次の単語を予測する
  3. 正解と比べる
  4. 誤差を減らすように調整
このとき調整されるのが、前述のパラメータです。パラメータが多くなればなるほど、予測のバリデーションが増え、結果的に予測誤差が減ることになります。つまり、LLM に入っているのは学習データではなく、圧縮されてパラメーターなのです(※1)。もちろん、ただパラメータが多ければいいという話ではなく、投入する学習データ が正確で網羅性がある必要があります。

(※1)学習データに著作物が含まれていたとしても、この仕組みがゆえに、パラメータに著作物が含まれているとは言い切れません。ここが、LLM が知的財産権を侵しているかどうかで争点になる部分です。

LLMと生成AI

LLMと生成AI
生成AI は、新しいコンテンツを作り出すAIの総称です。
これまで見てきたように、LLM は生成AIの中の「文章を扱う専門の仕組み」です。
生成AIには、LLM 以外にも、画像生成AI、音声生成AIなどがあります。

ただ、画像生成AIも音声生成AIも、技術的には LLM に近い仕組みをもっていますので、弱点も LLM に似ています。そこで、次の章では「生成AIの弱点」と一括りにしてご紹介することにします。

生成AIの弱点

生成AIの弱点
生成AI(厳密に言うとLLM)の弱点は、これまで紹介してきた仕組みの裏返しになります。つまり、LLM学習データに多くを依存していますから――
①知らないことは答えられない
学習していない情報は弱い
②最新情報に弱い
学習後の出来事は基本知らない
③バイアスが出る
データの偏りがそのまま反映される
――といった弱点があります。
①②③が複合的に絡んだ結果、ハルシネーション(hallucination)と呼ばれる、「もっともらしいけれど、事実ではない内容を生成してしまう現象」が起きます。
LLM が知らない情報を質問すると、本当は答えられないはずなのですが、次に来る言葉を予測するという基本的な仕組みが働いてしまい、「もっともらしいけれど、事実ではない内容を生成」してしまいます。

専門的すぎる質問、最新の出来事、固有名詞(人名・論文・法律など)、「出典を出して」と言われたときに、ハルシネーションが起きやすいです。こうした質問をするときには、専門サイトや専門書を読んで、生成AI の出力の裏をとるようにしましょう。

生成AIと機密情報

生成AI は、自らをより確からしいものに進歩させるために、入力したプロンプトを学習データとして利用する場合があります。利用するかどうかは、お使い生成AIサービスの規定やプライバシーポリシーをご覧下さい。記載のない場合は、利用していると考えた方がいいでしょう。
この場合、個人情報であったり会社の機密情報をプロンプト入力すると、それが学習データとして蓄積されてしまいます。結果的に、あなたが個人情報や機密情報を流出させたことになるので注意が必要です。

もし個人情報や機密情報も交えて入力したいときは、入力を学習データとして利用しないと明記している生成AIサービスと有償契約(※2)を結んでください。

(※2)入力を学習データとして使わないことを明示しているサービスのほとんどが有償です。裏を返せば、無償サービスは入力を学習データとして用いていると考えてください。

生成AIとフェイク

生成AI は、限りなく現実に近い虚構のコンテンツを生成することができます。とくに画像生成(動画を含む)や音声生成では、その効果が如実に表れます。
この機能を悪用し、フェイク(偽物)コンテンツを受け取った人を騙そうとする動きがあります。政治家や著名人が実際には言っていない発言をする動画がSNSを通じて拡散されたり、社長の声をAIで再現し部下に「送金しろ」と指示するメッセージがLINEで届いたりする事案が発生しています。

こうした悪用はしてはいけませんし、「生成AIの弱点」で紹介したように、受け取ったコンテンツが事実かどうか裏を取る習慣を身につけましょう。

参考サイト

(この項おわり)
header