2025年2月現在のLLMと生成AIエージェントの発展状況

February 07, 2025

歴史的な変遷

大規模言語モデル(LLM)と生成AIはここ数年で飛躍的に進歩してきました。特に2023年は重要な転換点となり、OpenAIのGPT-4が公開されました(2023年3月)。 GPT-4は前世代(GPT-3.5)よりも文脈理解や自然言語生成能力が向上し、約25,000語(32kトークン)もの大きなコンテキストウィンドウを持ち、事実の正確性を高めて幻覚(誤情報の生成)を減らす改善が施されています。さらにGPT-4はマルチモーダル機能も備え、テキストだけでなく画像入力にも対応しました。

同時期にはAnthropic社がClaudeをリリースし、ChatGPTに対抗するLLMが登場しました。Claude初期版は汎用的なタスクで高い性能を示しましたが、特にコード生成や数学的推論ではまだ限界がありました。その後2023年7月にはClaude 2が公開され、コンテキストウィンドウを約100,000トークンに大幅拡大し、大規模な文書の読解・要約などが可能となっています。Claude 2はPDFなどドキュメントファイルのアップロードも受け付け、より長いテキストを扱える点で注目されました。

Googleもまた対抗策を進め、社内のAI研究部門を統合してGoogle DeepMindとし、Geminiと呼ばれる次世代の生成AIモデルを開発しました。2023年12月にはGoogleがGeminiを公式発表し、まずは同社のチャットボットBardへの統合という形で公開しています。Geminiは高度な自然言語理解とマルチモーダル(テキスト・画像・音声)処理能力を備え、OpenAIのGPT-4に対抗しうるモデルとして位置付けられました。

これらのモデルの進化と並行して、エージェント技術も発展しています。初期のチャットボットはユーザからの問い合わせに一問一答する形式が中心でしたが、2023年頃からはLLMが自律的にタスクを連続実行する「AIエージェント」の概念が注目されました。例えば、ユーザが目標を与えると、エージェントが自ら計画を立てて複数ステップの処理を実行し、必要に応じて外部ツールを使いこなす試み(AutoGPTやBabyAGIなど)が登場しました。Deloitteの予測では、2025年には生成AIを活用する企業の25%がこのような自律エージェントのパイロットを開始するとされています。この「エージェンティックAI(agentic AI)」は単なるチャットボットやコパイロットではなく、人間の指示に対して自律的に行動し目標を達成するAIとして位置づけられています。

主要プレイヤーの動向

現在、LLMと生成AIエージェントの分野では多数の企業がしのぎを削っています。特に以下のプレイヤーの動向が注目されています。

OpenAI

ChatGPTとGPT-4で先行するリーダー企業です。Microsoftからの大型投資と提携により、同社のモデルはBing検索やOffice製品(Copilot機能)など幅広いサービスに組み込まれています。2023年3月にChatGPTのAPI提供を開始して外部アプリ統合を促進し、同年11月の開発者大会(Dev Day)ではカスタムGPTをユーザ自身が作成できる新機能や強化版モデルGPT-4 Turboを発表するなど、開発者コミュニティへの働きかけを強めています。モデル性能の向上だけでなく、プラグイン機能やマルチモーダル対応、企業向けのChatGPT Enterprise提供などエコシステム拡大にも注力しています。

Anthropic

OpenAI出身者が設立した新興企業で、AIの安全性と倫理に重きを置いた開発を特徴とします。ChatGPTのライバルとなるClaudeを2023年に公開し、続くClaude 2やClaude 3では非常に長いコンテキストや高いタスク性能を追求しています。AnthropicはGoogleからの出資(約4億ドル)や、Amazonからの最大40億ドル規模の投資提携を受けるなど巨額の資金調達に成功しました。AmazonはAnthropicに出資するとともに、自社クラウドAWS上のサービス(Bedrock)でClaudeを提供する戦略的提携を結んでおり、OpenAI-Microsoft陣営に対抗する動きとなっています。

Google DeepMind

GoogleはAI研究部門(Google Brain)とDeepMindを統合して生まれた組織で、大規模モデルを含むAI全般の研究開発力を結集しています。会話型AIのBardを改良し、2023年5月にはPaLM 2モデルを搭載したBardを公開、さらに12月にはGeminiを発表しました。GeminiはOpenAIの最先端モデルに匹敵する性能を目指したモデルで、テキストだけでなく画像・音声も処理できる汎用性が特徴です。まずはBardやGoogle製品群への統合から開始し、将来的に幅広いサービスでの活用が計画されています。また生成AIを組み込んだクラウドサービス(生成AI APIの提供や開発者支援ツール)も拡充しており、AI分野での巻き返しを図っています。

Meta(旧Facebook)

大規模モデルをオープンソースで提供する路線をとっている点で異彩を放ちます。2023年2月に研究向けLLMであるLLaMAを発表(後に流出)し、7月には改良版のLlama 2を無償で公開しました。Llama 2は7億~700億パラメータ規模のモデル群で、研究・商用利用ともに無料で使えるのが大きな特徴です。Microsoftと提携してAzure上での提供も行われ、オープンなコミュニティによるLLM活用の広がりに貢献しています。Metaは自社SNS(InstagramやWhatsApp)への生成AI機能導入にも積極的で、画像生成AI(Emu)やコード特化モデル(Code Llama)など領域別のモデル開発も進めています。オープンソース戦略により幅広いユーザからのフィードバックを得つつ、安全性や性能の確保に努める姿勢を示しています。

新興プレイヤー

上記以外にも、多くのスタートアップ企業がLLM開発競争に参入しています。たとえばMistral AI(フランス)は2023年に設立後わずか4か月で約1億ユーロ超の資金調達に成功し、同年9月にMistral 7Bという7億パラメータのオープンソースモデルをリリースしました。Mistral 7BはApache 2.0ライセンスで提供され、研究・商用利用が自由に可能でありながら、同規模の他モデルを上回る性能を謳っています。他にもCohereやAI21 Labs(Jurassic-2シリーズ)、Inflection AI(対話AIのPiを提供)、Character.AI(対話特化型生成AIサービス)など、多種多様な新興企業が独自モデルやサービスを展開しています。モデルのサイズや特化分野も様々で、大規模で汎用なモデルを扱うテック大手 vs. 小回りが利きオープンなアプローチを取る新興勢力という構図で競争が激化しています。各社がリソースを投じてモデルの性能向上と効率化を競い合っており、わずか数ヶ月の間隔で次々と新モデルやバージョンアップ版が発表される状況が続いています。

実用化事例

LLMと生成AIエージェントは、さまざまな業界で実用化が進んでいます。以下に主要な活用分野と具体例を挙げます。

カスタマーサポート

カスタマーサービス向けチャットボットにLLMが組み込まれ、顧客からの問い合わせに自動応答する例が増えています。大手通信会社や小売業などでは24時間対応のAIチャットが導入され、ユーザからのFAQ対応やトラブルシューティングを行っています。生成AIは問い合わせ内容を理解して的確な回答を生成できるため、オペレーターの負担軽減や応答時間短縮につながっています。また、複数言語での対応も比較的容易であることから、グローバルなカスタマーサポートにも活用されています。

自動コンテンツ生成

マーケティングやメディア分野では、ブログ記事・ニュース要約・宣伝文などのコンテンツ作成に生成AIが使われています。例えば広告代理店では製品紹介文の草稿をAIが作成し、人間が校正・ブラッシュアップするワークフローを採用しています。ChatGPTのAPI提供以降、多くの企業が文章生成エンジンを自社サービスに統合し、ソーシャルメディア投稿文や求人票の下書き生成などに活用しています。クリエイティブ分野でもゲームのシナリオ草案生成や、動画コンテンツのアイデア出しにAIを使う事例が見られます。

コード補助

ソフトウェア開発においては、コーディングアシスタントとしてLLMが幅広く利用されています。代表例がGitHub Copilotで、これはOpenAIのコード特化モデルを用いてIDE内で次のコード候補をリアルタイム提示するサービスです。Copilotの登場以降、GoogleやAmazonなども独自のコード支援AI(CodeyやCodeWhisperer等)を提供し始めました。調査によれば、AIペアプログラマーの導入で開発者のコーディング速度が最大55%向上したとの報告もあります。また約50,000以上の組織がGitHub Copilotを導入するなど、企業規模でもエンジニアの生産性向上ツールとして採用が進んでいます。加えて、テストコード自動生成やバグ検出への応用、ノーコード開発支援など、ソフトウェア開発工程の様々な部分でLLMが役立てられています。

医療分野

医療・ヘルスケア領域でも、LLM活用の模索が続けられています。例えば電子カルテの要約や、患者の質問への対応をチャットボットが行う試みがあります。OpenAIのGPT-4は医学知識を問う試験で専門医レベルの高スコアを記録したとの報告もあり、これを医師の診断支援に生かそうという研究も行われました。しかし最新の研究では、診療現場で医師がGPT-4を補助的に用いても診断精度が有意に向上しないケースも報告されており、医療応用には慎重な検証が必要です。それでも、医療面接のトレーニング相手に対話AIを用いる試みや、創薬研究における化合物の生成(創薬AI)など、間接的な形で生成AIが医療・生命科学に貢献する例は増えています。また医療情報の要約や翻訳により、医師・研究者の文献調査を支援する用途でも活用が始まっています。

その他の分野

金融業ではLLMが金融レポートの要約や顧客対応(チャットバンキング)に試用されており、保険業では事故報告の自動分析などにも応用されています。教育分野では対話型のチューターAIや、自動採点・フィードバック生成といった用途で実験が行われています。法律業務では、契約書のドラフト生成や判例検索の補助などにLLMが使われ始めました。政府機関でも、住民からの問い合わせ対応にチャットボットを導入したり、議事録の自動要約にAIを利用するなどの事例があります。これらのように産業・業務の多岐にわたってLLMの実用化が進展しており、多くの組織が競争力向上や効率化のため生成AIを取り入れ始めています。

現在の技術的限界と可能性

最新のLLMやAIエージェントには目覚ましい能力向上が見られる一方で、依然として技術的な限界や課題も存在します。

◼︎ 現時点で可能になったこと

今日の最先端LLMは、人間のような流暢さで文章を作成したり、多様な質問に答えたりすることができます。知識クイズや言語翻訳、要約といったタスクでは専門家に匹敵する性能を示すモデルも出てきました。実際、GPT-4は法律資格試験で上位10%相当に入るスコアを記録するなど、特定の評価で人間を上回る例も報告されています。また長文の文脈保持や複数の踏み込んだ推論も以前より得意になり、複雑な指示をこなしたり異なる話題をまたいだ会話を続けたりできるようになっています。さらにマルチモーダル対応により画像や音声も扱えるモデルが登場し、画像解析から文章生成への応用(例:画像を説明文にするなど)が可能となりました。エージェント的な活用も進み、LLMが外部のツール(ウェブ検索や計算ツール、データベースなど)と連携して動的に情報収集・処理を行えるようになっています。例えば、ユーザの依頼に応じてインターネット上の最新情報を検索し、その結果を分析して回答する、といったタスク指向の自律エージェントが実現しつつあります。これらは従来の静的なAIでは難しかった適応的な挙動であり、「テキスト生成モデル」から「汎用タスク実行エージェント」への進化を感じさせるものです。

◼︎ 依然残る限界

一方で、現在のLLMには根本的な限界も存在します。最大の問題は**「幻覚」(hallucination)** と呼ばれる現象で、モデルが事実と異なる情報や根拠のない回答をそれらしく生成してしまう点です。What are the limitations of LLM's? にあるように、LLMは統計的にもっともらしい答えを作り出すよう訓練されているため、知識が不完全な領域では自信ありげに誤情報を作り出すことが避けられません。このため、専門分野での利用や事実確認が重要な用途では、モデルの出力をそのまま信用できないという課題があります。また論理的推論や数学計算の正確性にも限界があります。複雑な数式計算や厳密な三段論法が必要な場合、モデルはしばしば誤答をしてしまいます。多少の推論はこなせるものの、人間のように確固とした論理構築ができるわけではなく、 「一見もっともらしいが誤りを含む回答」 が発生しがちです。

LLMは長期記憶や継続学習にも課題があります。通常のLLMは一回のプロンプト内で与えられた情報しか文脈として保持できず、一度の対話セッションを超えて知識を蓄積することはできません。セッションが変われば以前の会話内容はリセットされるため、長期的な対話や学習には不向きです。またトレーニング時点までの知識しか持たないため、最新の情報に追随できないという弱点もあります。例えば2023年以降の出来事について質問しても、古い知識に基づいた答えしか返せず、インターネットに接続するプラグインなどを用いない限りリアルタイムの情報提供は苦手です。

さらに、モデルのブラックボックス性にも限界があります。巨大なニューラルネットワークの内部でどのように判断が行われているか人間には解釈しづらく、なぜその回答に至ったのかを説明できない問題があります。これはAIの説明可能性(XAI)の観点で課題となっており、特に意思決定支援などに使う際には説明責任を果たせない恐れがあります。

効率面でも、最先端モデルほど計算資源を大量に要するため、動作コストや応答速度が実用上の制約となります。クラウド上で高性能GPUを用いて初めて実行可能なモデルも多く、リアルタイム処理やエッジデバイス上での動作には工夫が必要です。ただしこの点については、モデルの最適化や軽量化研究が進んでおり、Mixture-of-Expertsによる効率化モデル(例: Mistral AIのMixtral 8x22B)や量子化技術、小型モデルの蒸留など様々なアプローチで改善が図られています。

以上のように、現在のLLM/エージェントは「できること」と「苦手なこと」が併存する状態です。自然な対話や文章生成は得意になった一方、完全な正確性や継続的学習能力はまだ実現されていません。研究開発コミュニティは、知識ベースとの連携で事実性を補強する手法(Retrieval Augmented Generation)や、自己検証・自己訂正機構の導入、長大なコンテキストを扱う新アーキテクチャの模索など、これら限界を克服すべく取り組んでいます。今後のモデルでは徐々にこれら欠点が緩和され、より信頼性が高く連続学習可能なAIエージェントへと進化していく可能性があります。

倫理的な議論

LLMや生成AIエージェントの普及に伴い、倫理・社会的な課題もクローズアップされています。以下、主な論点と各国・業界の対応状況について整理します。

誤情報拡散のリスク

前述の「幻覚」問題により、LLMは事実と異なる情報をあたかも真実のように生成してしまうことがあります。そのため悪意の有無にかかわらず、AIが誤情報を大量生産・拡散するツールになり得ます。実際、ChatGPTを用いて架空のニュース記事や偽の証拠資料を作成することは容易であり、偽ニュースやプロパガンダへの悪用が懸念されています。2024年の各国選挙でもAI生成のディープフェイク画像・動画、誤情報テキストが登場し、選挙プロセスを攪乱する可能性が指摘されました。例えば米国大統領選ではAI生成の偽広告や候補者発言のねつ造クリップがネット上で拡散し問題となっています。こうしたリスクに対し、OpenAIやGoogleなど主要企業はAI生成コンテンツに透かし(ウォーターマーク)を埋め込んで判別しやすくする研究を進めています。またSNS各社も不審なコンテンツに警告を付与するなどの対策を講じ始めています。

バイアスとフェアネス

LLMは訓練データに偏った情報が含まれていれば、それを学習して出力にも偏見や差別的表現を表す可能性があります。実際、ある研究ではChatGPTに特定の人格(人物像)を与えて質問させると、人種や性別などについてステレオタイプ的で誤った前提に基づく回答を示す傾向が確認されました。これはモデルに内在する潜在的バイアスが表出した例であり、AIの公平性に対する懸念を高めています。差別的な発言やヘイトスピーチ、不適切な内容を生成する危険もあるため、各社は対話型AIに**有害発言を抑制する安全対策(アライメント)**を組み込んでいます。しかし、この安全対策が厳しすぎると今度は「無害な問い合わせにも答えない」ケースが生じ、ユーザビリティ低下を招くというジレンマも指摘されています。Claude 2が倫理基準を厳格にしすぎて利用者の求める有益な回答まで拒否してしまい、「調整コスト(alignment tax)が高すぎる」と批判を受けた例はその典型です。AI開発者は偏見を最小化しつつ有用性を維持するバランスに苦心しており、モデルの公平性・中立性を評価・改善する取り組みが続いています。

プライバシーとデータ保護

生成AIの学習にはインターネット上の大規模データが用いられますが、その中には個人情報や機密データも含まれている可能性があります。現に、一部のLLMは学習データ由来の個人情報を漏洩するリスクが研究で指摘されています

(例:「秘密を守れるか?LLMのテスト」という論文で、モデルが訓練データ中の機密情報を出力してしまう可能性が議論されています)。こうした懸念から、ユーザがAIサービスに入力するデータの扱いも問題となっています。2023年3月にはイタリアのデータ保護当局がChatGPTに対し、一時的な提供停止措置を取る事態がありました。これはユーザデータの取り扱いと年齢確認の不備を問題視したもので、OpenAIは対応として利用者のデータを学習に使わないオプトアウト設定の導入やプライバシーポリシーの明確化を行いました。日本でも個人情報保護委員会が生成AIサービスに個人データを入力することへの注意喚起を行っています。結果として、多くの企業が機密データをクラウドAIに入力することを制限したり、社内サーバーで動く専用LLMを導入するといった対策を講じるようになっています。プライバシー保護とAI活用の両立が課題となり、技術的にはプライバシー保護学習(Differential PrivacyやFederated Learningの活用)なども模索されています。

著作権・知的財産

生成AIは既存のテキストや画像を学習しているため、出力が訓練データに由来するケースでは著作権侵害の可能性が議論されています。2023年には作家のサラ・シルバーマン氏らが、OpenAIやMetaが著作物を無断で学習に利用したとして集団訴訟を提起しました。この問題は法的にも未整備な部分で、AIが生成した文章・画像の著作権者を誰とみなすか、訓練への無断利用はフェアユースか違法か、といった論点が世界中で議論されています。日本でも2023年の著作権法改正で、AIの学習用途に限り著作物利用を包括的に許容する規定(いわゆるマシンラーニングのための例外規定)が整備されました。欧米でもテキスト・データマイニング例外を設ける動きがありますが、一方でクリエイターからは適切な補償やクレジットを求める声も上がっています。AI開発各社は、訓練データの開示やオプトアウト手段の提供、生成物に元データが混入しないフィルタリングなど、権利者に配慮した措置を模索しています。

規制の動向

急速な生成AIの発展に対し、各国政府や国際機関も規制やガイドラインの策定に乗り出しています。欧州連合(EU)は包括的なAI規制法である「AI法(Artificial Intelligence Act)」の立法プロセスを進め、2024年には欧州議会で可決されました。この法律案ではAIシステムをリスク別に分類し、汎用目的のAI(GPT系モデルなど)には透明性や安全性に関する義務を課す方向です。具体的には、プロプライエタリ(非公開)な基盤モデルについては訓練データの概要や著作権遵守策などの情報開示を義務づける規定が盛り込まれています。また高リスクと見なされたAIシステムには事前認証や人間による監督などの要件が課される見通しです。一方、アメリカでは包括的な連邦法はまだ無いものの、2023年10月にバイデン大統領がAIの安全開発促進に関する大統領令に署名し、連邦政府として基準策定や水準の確保に乗り出しました。さらに主要AI企業との間で自主的な合意を交わし、安全対策や透明性向上に取り組むことを表明しています。議会レベルでもAIに関するフォーラムや公聴会(2023年9月には超党派の「AIインサイト・フォーラム」が開催)を通じて、今後の法整備の検討が進んでいます。

中国は2023年に「生成AIサービス管理暫定办法」という規制を施行し、生成AIを提供する企業に対し当局への届け出義務や、出力コンテンツが「社会主義の核心価値」に反しないこと、誤情報を拡散しないことなど詳細な遵守事項を定めました。違反した場合の罰則も規定されており、世界でも厳格な部類のガバナンスと言えます。また日本では、現時点でAIに特化した法律はありませんが、経済産業省が企業向けのAIガバナンス指針を策定するなどソフトローによる誘導を図っています。2023年のG7サミット(議長国日本)では「広島AIプロセス」として信頼できるAIの国際ルールづくりに向けた議論を主導し始めました。このように各国でアプローチは異なるものの、AIの潜在的リスクに対処しつつイノベーションも促進するバランスを模索する動きが共通して見られます。

倫理・ガバナンスの取り組み

民間側でも、AI倫理に関する取り組みが進んでいます。各社はAI倫理委員会の設置や行動原則の策定、技術者向けの倫理研修などを実施しています。またオープンソースコミュニティでも、有志によるモデルの評価(有害な発話やバイアスの検出コンテストなど)が盛んです。国際標準化も進められており、ISOやIECでAIの信頼性に関する標準が議論されています。さらに2023年11月には英国主催で初のグローバルAI安全サミットが開催され、米中を含む28か国の代表が一堂に会してAIのリスクと規制について協議しました。ここでは将来的な高度AIの安全保障上のリスク(いわゆる暴走や悪用の危険)についても議題に上り、各国が情報共有や研究促進で合意する成果が出ています。総じて、技術の発展だけでなくそれを取り巻く倫理・法制度の整備も進行中であり、2025年現在はその過渡期にあると言えるでしょう。

以上、2025年2月時点におけるLLMと生成AIエージェントの発展状況について、技術面・産業動向・活用事例・限界と可能性・倫理的課題の観点から包括的に報告しました。近年の進歩は目覚ましく、社会への浸透も急速ですが、それに伴う課題も顕在化しています。今後も技術改良とルール整備の双方が求められ、これらがバランスよく進むことで、生成AIが安全かつ有益に社会実装されていくことが期待されます。