前書き
2025年は、生成AIが「一部の先端層の道具」から「一般層にとって身近で実用的な道具」へと大きく近づいた年だったと感じます。大規模言語モデル(LLM)は世代交代を重ね、画像生成・動画生成も品質と扱いやすさの両面で大きく進展しました。
とりわけ画像生成は、拡散モデルを中心とした画像生成モデルの時代から、GPTやGeminiの「GPT image」や「Nano Banana」ようなAny-to-Anyの自己回帰型生成のVLMモデルへテキストと画像で統合的な生成と流れが移り、はるかに飛躍を遂げたことで実務で使える場面が増えてきました。同時に生成だけでは無く入力した画像を編集するモデルも流行した年と言えます。動画生成もVeoやSoraなどの進化により、映像だけでなく音声まで含めた“完成形に近い”アウトプットが現実味を帯び、制作プロセスそのものが変わりつつあります。大規模言語モデル(LLM)の分野では、いわゆる「DeepSeekショック」に象徴されるように、かつてはOpenAIなど一部のAI企業に限られていた最先端モデルの開発が、近年では多くの企業へと広がりました。その結果、トップランクを争う形でLLM開発競争が激化し、GPT-5やGemini 3 Proといったモデルの登場は、企業間の競争を象徴する出来事となりました。また、2025年は「AIエージェント元年」と呼べるほど、単発の生成から、より自律的に目的達成のための複数実行を行うDeep ResearchやClaude codexのようなAIエージェントが注目されました。
日常レベルでも、流行語大賞のノミネートの1つにChatGPTの愛称である「チャッピー」が選ばれたり、keep4o運動に象徴されるモデル移行をめぐってユーザーの好みや文化が可視化されたりと、生成AIが大衆生活の中の当たり前の存在になりつつあることを実感します。
こうした変化は、生成AI技術が一つの成熟段階に入りつつあることを示す一方で、これからの焦点が「性能を上げる」だけでなく、「どう洗練し、どう実装し、社会や業務に適合させるか」というフェーズへ移っていることも示しています。本記事では、その転換点としての2025年を振り返り、どのような変化が起き、何が次の課題になるのかを整理していきます。
画像生成AI
GPT image
(4o image generation / GPT Image 1 / GPT Image 1.5)
2025年3月にOpenAIから発表された4o image generationは、画像生成を次のフェーズへ押し上げた象徴的なモデルとして注目を集めました。GPT-4oはテキスト生成だけでなく画像生成も統合した「Any-to-Any」のマルチモーダルVLMとして設計されており、今までの拡散モデル主体の画像生成と異なり自己回帰型のアプローチで画像を生成します。
従来主流だった拡散モデルベースのtext-to-image / image-to-imageの画像生成モデルと比べ、異次元の表現力の高さ、プロンプトへの追従性、日本語テキストが描写できる点や、画風や構図の一貫性において大きな進歩が見られました。また、専用のファインチューニングを行わずとも入力画像の再現性が高い点も話題となり、画像生成はより一般層にとって使いやすいツールへと変化していきました。
特に、やや黄色がかった暖色寄りの特徴的なGPT imageのスタイルはインターネット上で急速に拡散し、オンライン画像だけでなく、現実世界の広告やポスターにも取り入れられるなど、日常で目にするビジュアルの雰囲気そのものに影響を与えました。
その後、画像編集機能の強化が進められ、2025年12月には新たにGPT Image 1.5がリリースされることになります。
Nano Banana
(Nano Banana(Gemini 2.5 Flash Image)/Nano Banana Pro(Gemini 3 Pro Image))
2025年8月、Googleが Gemini 2.5 Flash Image としてリリースした Nano Banana は、キャラクターの一貫性、指示に沿って入力画像を編集する能力、複数画像の合成や再構成といった強みを備え、画像編集モデルの“ラッシュ期”を象徴する存在となりました。OpenAIの「GPT image」と同様に、Gemini 2.5 Flash をベースとした 自己回帰型の Any-to-Any マルチモーダルVLM として位置づけられます。
このモデルは登場直後から急速に知名度を高めた一方で、当時は競合であるOpenAIの「GPT image」と比較すると、性能面では決定的な優位を築ききれず、さらなる飛躍は次世代モデルである Nano Banana Pro に委ねられる形となりました。
続いて2025年11月にリリースされた Nano Banana Pro(Gemini 3 Pro Image) は、Gemini 3 Pro の強力な推論能力を画像生成へ取り込み、生成品質と編集精度の両面で大きく評価を高めました。とくに、可読性の高いテキスト描写が可能で、日本語テキストも比較的安定して描けるため、ポスター、図解、スライド、漫画など幅広い制作に応用しやすくなりました。さらに、Nano Bananaよりも精密な画像編集が可能になり、プロンプトに追従した適切な内容で入力画像を編集できる点も特徴です。加えて 4Kなど高解像度への対応も進み、実務用途での採用を後押ししました。
その結果、生成・編集の総合力という観点で、OpenAIの「GPT image」を上回る存在として再び画像生成に革新が起こりました。大企業Googleの発信力も相まって各所でコラボやPRが見られるようになっています(例:日本郵便など)。
Qwen image
(Qwen image/ Qwen-Image-Edit/Qwen-Image-Edit-2509 /Qwen-Image-Edit-2511/Qwen-Image-Layered/Z-Image-Turbo)
AlibabaのQwenチームが公開した画像生成モデルが Qwen-Image です。Qwen-Imageは、200億(20B)パラメータ規模の MMDiT(Stable Diffusion 3に代表される系統のアーキテクチャで、Multimodal Diffusion Transformer として説明される)を採用し、画像生成だけでなく画像編集にも強いモデルとして位置づけられています。さらに Apache-2.0のオープンウェイトモデルとしても公開されたことで、従来広く使われてきた Stability AI の Stable Diffusion 1.5 や Stable Diffusion XL(SDXL)に代わるローカル環境での有力な選択肢となり、より自由度の高い制作環境を後押ししました。
その後、Qwen-Imageを画像編集に特化させた Qwen-Image-Edit シリーズが登場します。このシリーズは、入力画像の意味理解・制御に Qwen2.5-VL を用いる設計が特徴で、自然言語の指示に沿った編集を狙っています。こちらもオープンウェイトで公開されたため、ローカル環境でも最新の画像編集モデルを扱えるようになり、LoRAの追加運用や各種応用技術の発展を促しました。さらにシリーズの更新として Qwen-Image-Edit-2509、Qwen-Image-Edit-2511 などがリリースされ、編集の一貫性や実用性が段階的に強化されています。
また Qwen-Image-Layered は、入力画像を複数の RGBAレイヤーに分解するモデルとして注目を集めました。レイヤー表現にすることで、要素ごとの分離や局所編集がしやすくなり、編集時の破綻や意図ずれを抑える方向性を提示しています。これもオープンウェイトモデルとして公開されています。
Qwenシリーズとは別系統になりますが、同じAlibaba系の Tongyi-MAI がリリースした Z-Image-Turbo も重要な存在です。Z-Image-Turboは 6B(60億)パラメータ規模のZ-Image系の蒸留モデルで、小型ながら高い性能と効率を重視しています。このオープンウェイトモデルは急速に普及し、VRAM制約が厳しいローカル環境でも高速生成できることで、最新の画像生成に迫る品質の画像をより手軽に生成できるようになりました。
Flux
(FLUX.1 Kontext / FLUX.1 Krea / FLUX.2)
Black Forest Labs(BFL)がリリースした FLUX.1 Kontext は、「テキスト+画像」を同時にプロンプトとして扱う in-context型の生成・編集に主眼を置いた、フローマッチング(flow matching)ベースのモデルです。従来のText-to-Imageとは異なり、入力画像から視覚的な概念を抽出して保持しながら、新しい画像の生成や編集を行います。テキストだけでなく画像も指示として入力でき、編集を通じて一貫性を保った画像生成を実現しやすい点が特徴です。FLUX.1 Kontextは [pro] / [max] / [dev] の複数バージョンで展開され、[dev]はオープンウェイトモデルとして提供されています。
BFLとKrea AIの共同開発による FLUX.1 Krea は、よくある「AIっぽい見た目」を避けつつ、Text-to-Imageで 独特の美学と高い写実性を狙うモデルとして位置づけられています。
そしてBFLは次世代モデルとして FLUX.2 をリリースしました。FLUX.2は実際のクリエイティブワークフローを意識し、画像の一貫性、文字表現、構造化プロンプトへの追従性、高解像度での編集といった実務寄りの要素を強化しています。FLUX.2も [pro] / [flex] / [dev] の複数展開で、[dev]はオープンウェイトモデルとして提供され、さらに FLUX.2のVAEはApache 2.0 で公開されています。FLUX.2は各種評価の場でも高評価を獲得し、FLUXシリーズで有名になったBFLの次世代モデルとして成功を収めたと言えます。
Seedream
(Seedream 3.0/ SeedEdit 3.0/ Seedream 4.0/ Seedream 4.5)
ByteDance傘下のByteDance Seedが展開するSeedreamシリーズは、2025年に大きく進化しました。Seedream 3.0はText-to-Imageとして文字レイアウト、写実性、高解像生成に強く、SeedEdit 3.0は入力画像をプロンプト指示に沿って編集する画像編集特化モデルです。さらにSeedream 4.0では画像生成と画像編集を統合し、参照画像の活用や複数出力にも対応。Seedream 4.5は4.0を拡張し、画像生成・画像編集の安定性を一段と高めました。トップ層のGoogleのNano Banana系列には1歩及ばない面もありますが、同水準に迫る高性能モデルを継続的に投入しています。
大規模言語モデル
Deepseek
(Deepseel R1/DeepSeek-V3.1/ DeepSeek-V3.2)
DeepSeek R1は2025年1月に公開されたリーズニングモデルで、強化学習を軸に「推論特化能力」を前面に押し出し、MITライセンスのオープンウェイトとして提供されたことで幅広く利用可能になりました。あわせて蒸留版(Distill)も展開され、より小型のモデルでも推論能力を活かせる構成が整えられました。
また、DeepSeekがR1を「OpenAI o1級」として発表したことを契機に、市場ではいわゆる「DeepSeekショック」が話題になりました。低コストで競争力のある推論モデルがオープンウェイトとして登場したことで、AIは巨額投資と膨大な計算資源(GPU)なしには成立しないという見方が揺らぎ、米国を中心にAI関連株が急落する局面も生まれました。その後も中国勢はトップクラスの大規模言語モデルを相次いで投入し、米国勢に急速に接近していると受け止められています。
DeepSeek-V3.1は2025年8月の更新で、同一モデル内で「Think(深い推論)」と「Non-Think(高速応答)」を切り替えるハイブリッド運用を打ち出しました。128K級の長文コンテキストに対応し、ツール使用やエージェント用途も強化されています。DeepSeek-V3.2は2025年12月に登場し、長文処理の効率化や推論・エージェント性能の底上げが進められました。とくに“thinkingしながらツールを使う”統合を明確に進め、長文理解とツール連携を前提とした実装に強いモデルとして注目を集めています。
GPT
(o3-mini/ GPT-4.5/ GPT-4.1/ o3/o4-mini/GPT-5/GPT-5.1/GPT-5.2)
2025年1月にOpenAIがリリースした o3-mini は、「低コストで強い推論」を狙ったリーズニングモデルで、特にコーディングや数学分野に強みを持ちました。「速く・安く・それなりに賢く考えたい」という用途で広く使われましたが、のちに同系統の後継として o4-mini が登場し、軽量推論の主力はそちらへ移っていきました。
GPT-4.5 はリーズニングモデルではなく、スケーリングによる事前学習と事後学習を大規模に行うことで、会話の自然さや意図追従といったチャット能力を最大化する方向のモデルです。GPT-4.5は研究プレビューとして扱われそして消えていったためOpenAIの失敗として語られるモデルでもあります。そのためこのモデルは従来によるスケーリング則によるモデルの大規模化の限界や方向性を考えるうえで象徴的なモデルとして語られることもあります。
その後に登場した GPT-4.1 は、開発者向けに長文文脈とコーディング品質を前面に出したモデルです。最大100万トークンのロングコンテキストを掲げ、仕様書やログ、コードベースなどの長文理解を強く意識した設計になっています。
さらに、最上位の推論モデル o3 と、高速・低コストの推論モデル o4-mini がリリースされました。以降、GPT-5シリーズではリーズニングモデルは統合的な設計へと整理され、モデル選択よりも「必要なときに深く考える」方向へ収束していきます。
そして2025年8月、次世代のGPTシリーズとして GPT-5 がリリースされました。GPT-5は通常の応答と、より深い思考(GPT-5 Thinking)を状況に応じて切り替えられる統合型の設計を採用し、推論モデルの要素を通常のチャット体験に取り込んだ形になっています。幻覚(ハルシネーション)の抑制手法によって正確性の改善が重視され、文章生成やコーディングなど幅広い領域で高い性能を発揮します。同時に上位モデルとして GPT-5 Pro の提供も始まりました。
その後もGPT-5は2025年内に GPT-5.1、GPT-5.2 とアップデートが続き、会話性・実務性能・長時間タスクへの適性などが段階的に強化されています。
Gemini
Gemini 2.5 Pro/Gemini 2.5 Flash /Gemini 3 Pro/Gemini 3 Flash
2025年はGoogleのAIにとっても大きく飛躍した年になりました。2025年2月にリリースされたGemini 2.5 Proは、最も高度な思考モデルとして位置づけられ、巨大なデータや難問をテキスト・音声・画像・動画など複数ソースから理解できます。軽量版のGemini 2.5 Flashは、価格と性能のバランスに優れたモデルとして展開されました。これらの最新モデルをGoogle AI Studioで無料利用できるようになった点は、大きなインパクトでした。
次世代のGemini 3では、Gemini 3 Proが最上位モデルとして登場しました。テキストに加えて画像・動画・音声・PDFといった多様な入力に対応し、最大約100万トークンという長いコンテキストで大量資料を横断しながら結論を導く、マルチモーダル用途に向いた設計です。このリリースは、生成AIの競争構図を語る上でも注目され、報道では「Googleの躍進がOpenAI側の危機感を強めた」といった見方も出ました。サム・アルトマンが社内で「コードレッド」を宣言し、改善・新モデル投入を加速させたとされる話題も広がり、両社の開発競争が一段と激化した年として印象づけられました。その後、GoogleはGemini 3 Proの軽量版にあたるGemini 3 Flashもリリースし、速度と実用性を重視した選択肢を拡充しています。
Claude
(Claude 3.7 Sonnet/Claude Sonnet 4 / Claude Opus 4/Claude Opus 4.1/Claude Sonnet 4.5/Claude Haiku 4.5/Claude Opus 4.5)
Anthropicは2025年にClaude系LLMを堅実に段階的なアップデートを加えていきました。2月にClaude 3.7 Sonnetを公開し、即答と深い思考を切り替えられるハイブリッド推論を前面に打ち出しました。さらに5月には次世代のClaude 4(Opus 4 / Sonnet 4)を投入し、ツール併用の推論やエージェント的な実行能力を強化しました。8月にOpus 4.1で実務コーディングや推論をさらに改良し、9月にはSonnet 4.5、10月にはHaiku 4.5、11月にはOpus 4.5へと4.5世代をさらに拡充しました。
Grok
(Grok 3 / Grok 3 mini/Grok 4 / Grok 4 Heavy/Grok 4 Fast/Grok 4.1/Grok 4.1 Fast)
2025年のxAIの「Grok」シリーズは、推論能力と実務性能を軸に高速化・多層化が進み、LLM開発競争の最前線へ躍り出ました。2月にGrok 3とGrok 3 mini(Think)を公開し、思考(Thinking)を重視した推論強化を打ち出しました。7月には次世代のGrok 4をリリースし、上位版のGrok 4 Heavyも投入して、用途に応じた性能レンジを拡張。8月には開発者向けにGrok Code Fast 1を提供し、コーディングエージェント用途へもその領域を広げました。9月はGrok 4 Fastでコストパフォーマンス重視の選択肢を追加し、長文脈対応やハイブリット思考の統合を強調。11月にはGrok 4.1(Thinkingを含む)とGrok 4.1 Fastを相次いでリリースし、APIとしての使い勝手も向上。OpenRouterなどの外部サービス経由でも利用が広がり、人気を集めました。
Rakuten AI
Rakuten AI 3.0
Rakuten AI 3.0は楽天が2025年12月に発表した日本語特化LLM。MoE(Mixture of Experts)方式で総パラメータ数は約7000億(700B)に及び日本国産LLMとして最大規模のパラメータ数を誇ります。このパラメータの中、推論時に動くアクティブパラメータは約400億に抑え、巨大モデル級の表現力とサービングコスト低減の両立を狙っています。アクティブな共有エキスパートと8つの専門エキスパートをルーティングすることが特徴です。経産省・NEDOのGENIAC支援を受けた点も特徴となっています。
一方、最大コンテキスト長、推論要件、ライセンス詳細、安全性評価は公開前で未確定です。現在はRakuten AI Gateway(社内向けの生成AI API統合プラットフォーム)経由で展開しており楽天サービスへと順次展開を予定しており、オープンウェイトは2026年春公開予定されています。
動画生成AI
Sora
Sora2
Sora 2は、OpenAIが2025年9月に発表した、映像と音声を同時に生成できるSoraの次世代モデルです。従来の動画生成で起きやすい破綻を抑えつつ、物理法則や因果関係の一貫性、複数ショットにまたがる状態保持、プロンプトへの指示追従性が向上しています。セリフに加え、環境音や効果音まで映像に同期して生成できる点も大きな特徴です。カメオ機能やストーリーボード機能などの拡張も進み、アプリ上で生成物をSNSのように公開・共有できる設計になっています。
また、これに関連してOpenAIとディズニーは2025年12月、Sora(Sora 2世代を含む)でディズニー保有のIPを公式に利用できる契約を発表しました。Disney、Marvel、Pixar、Star Warsなど200以上のキャラクターや世界観素材を、ユーザーが短編動画として生成できる枠組みを整備し、生成作品の一部はDisney+で配信される予定です。提供開始は2026年初頭が見込まれています。
Veo
(Veo 2/ Veo 3/ Veo 3 Fast/ Veo 3.1 / Veo 3.1 Fast)
Googleの動画生成モデルのVeoシリーズが2025年に提供が一気に拡大しました。4月にはVeo 2がリリースされテキストや画像から動画生成や、カメラワークの指示などが可能です。続く5月は次世代モデルであるVeo 3が発表され、品質向上に加えて、会話・環境音・効果音など動画と音声を同時に生成できる点が大きな転換点です。7月には速度とコスト重視のVeo 3 Fastやimage-to-videoも追加しています。10月にはVeo 3.1と3.1 Fastで参照画像や時間延長、フレーム指定機能が加わり、短尺生成から編集・構成まで含む機能が強化されています。
Kling
(Kling AI 2.0/ Kling AI 2.1/ Kling AI 2.5 Turbo/ Kling Video 2.6)
中国Kuaishou(快手)が開発する動画生成AI「Kling」シリーズは、2025年にかけて継続的にアップデートされ、画質や動きの自然さの改善にとどまらず、「編集」や「音声同時生成」へと領域を広げました。4月に公開されたKling AI 2.0では、テキストに加えて画像参照やクリップ素材などを組み合わせて意図を伝えるMVL(Multi-modal Visual Language)の考え方を打ち出し、動画内の要素を追加・削除・置換するマルチモーダル編集を強化しました。5月末のKling AI 2.1シリーズではStandard/High Qualityに加え、動きや意味理解を高めた2.1 Masterを用意し、用途に応じた実用レンジの整理が進みました。9月のKling AI 2.5 Turboは、一貫性や安定性、プロンプト追従を改善しつつコスト面も最適化し、より制作現場で使える方向へ寄せた位置づけです。さらに12月のKling Video 2.6では、映像と同時に会話・ナレーション、効果音、環境音まで生成する音声対応を導入し、短尺制作のクリエイティブ・ワークフローを一段進める進化を示しました。
Seedance
(Seedance 1.0/ Seedance 1.5 pro)
Seedanceは、ByteDanceの研究組織「ByteDance Seed」が開発する動画生成モデルシリーズです。2025年6月頃に公開されたSeedance 1.0は、Text-to-VideoとImage-to-Videoを同一モデルで扱い、複数カットをつないで物語を構成するマルチショット生成に対応します。高品質な映像表現に加え、モーションの安定性や、ショット間で被写体・スタイルの一貫性を保つ能力を特徴とし、学習・推論の両面で高速化が図られました。運用面では軽量版(Lite)も用意され、速度とコスト効率を重視した選択肢が整備されています。
さらに12月に公開されたSeedance 1.5 proは、映像と音声を同時に生成する“オーディオビジュアル統合”が注目点で、会話・ナレーションに加えて環境音や効果音を映像に同期させ、多言語のリップシンクにも対応するとされています。カメラ制御や物語整合性の改善も掲げられ、短尺生成にとどまらず、より制作志向のワークフローへと拡張されたモデルだと言えます。
Wan
(Wanx 2.1/ Wan 2.1/ Wan2.1-FLF2V/ Wan2.1-VACE/ Wan2.2/ Wan2.2-S2V/ Wan2.2-Animate/ Wan2.6)
Alibabaの動画生成モデル「Wan」シリーズも注目されています。2025年1月に公開されたWanx 2.1は、Text-to-Video/Image-to-Videoを軸に、画質や動きの自然さ、プロンプトへの指示追従性を強化し、VAEや拡散トランスフォーマー(DiT)を基盤とするモデル構成を提示しました。続く2月にはWan 2.1の推論コードと学習済みウェイトが公開され、いわゆる“オープンウェイト化”が大きな話題となり、ローカル環境でLoRAなどの追加学習や各種応用がしやすい環境が整いました。4月には最初と最後のフレームを入力し、その間の遷移を自然につなぐWan2.1-FLF2Vがリリースされ、始点・終点を固定した映像コントロールを可能にします。5月には生成と編集を統合したWan2.1-VACEを発表し、参照画像/参照フレーム、領域編集、リペイント、時空間拡張などを単一モデルで扱う「統合型制作」を打ち出しました。
7月以降は次世代のWan2.2が公開され、8月には音声駆動のシネマティック生成のWan2.2-S2V、9月にはキャラクターアニメーションの置換向けのWan2.2-Animateなど、用途別モデルが繰り広げられています。Wan2.1およびWan2.2の多くはApache-2.0ライセンスのもとでウェイトが公開され、ローカル環境で扱える自由度の高さから、動画生成における“Stable Diffusion的なモデル”ともとらえることができます。
さらに12月のWan2.6では参照に基づく生成を強化し、外見だけでなく音声、マルチショット、音声同期の改善などを掲げ、映像制作ワークフロー全体へ適用範囲を広げました。
AIエージェント
Deep Research
2025年に「Deep Research」として注目された検索エージェント型の調査機能は、質問に対してAIが自律的に「計画→検索→資料読解→要約→統合→結論提示」までを実行し、調査プロセス全体を一つの体験として提供するものです。
代表例であるChatGPTの「deep research」は、複数の検索クエリを自動生成して関連ページを横断的に読み比べ、引用付きのレポート(背景、論点整理、比較、推奨、参考文献など)としてまとめます。
同様の機能は、PerplexityのDeep ResearchやGoogleのGemini Deep Research Agentなど、各社のAIサービスにも展開されています。
Claude Code
Claude Code は、Anthropicが提供するエージェント型コーディング支援ツールで、主にターミナル(CLI)上で動作します。コードベースの文脈を取り込みつつ、開発タスクを対話的かつ自律的に進める設計です。ファイル編集・テスト実行・CLIツール利用・GitHubへの反映など、開発フローの中でまとまった作業を自律的に行うエージェントな挙動が特徴として挙げられています。
Google Antigravity
GoogleがリリースしたGoogle Antigravityは、AIエージェントが「計画→実装→実行→検証」までを自律的に回すことを前提にした開発プラットフォーム(IDE)として注目を集めました。従来の補完中心のコーディング支援とは異なり、エージェントがエディタ、ターミナル、ブラウザを横断してタスクを完遂し、その過程と結果を検証可能な形で提示することを狙っています。さらに、ツール内で最新のGemini 3 Proを利用できるほか、Nano Banana Proによる画像生成にも対応している点が大きな特徴です。
関連する社会の動向
OpenAI とソフトバンクによる「スターゲート計画」
2025年1月、米政権のホワイトハウス会見で発表された「スターゲート計画」は、OpenAI向けの超大規模AIインフラ(主に米国内のデータセンター群)を整備する構想で、ソフトバンクとOpenAIが中核パートナーとして位置づけられています。役割分担は、ソフトバンクが財務面の責任を担い、OpenAIが運営面を担うとされ、孫正義氏が会長に就く形です。初期株主にはSoftBank、OpenAI、Oracle、MGXが挙げられ、ArmやMicrosoft、NVIDIAなどが技術パートナーとして名を連ねます。投資規模として「今後数年で最大5,000億ドル(約70兆円~80兆円規模)」という極めて大きな枠が示されており、AIの計算資源をめぐる国際競争のインフラ領域に、日本企業が資本と主導権の両面で関与していく動きとして注目されています。
「AI推進法(人工知能関連技術の研究開発及び活用の推進に関する法律)」が法案可決・公布・施行
一般に日本で「AI推進法(AI法)」と呼ばれる「人工知能関連技術の研究開発及び活用の推進に関する法律」は、2025年6月に成立し公布・一部施行、9月に全面施行へと段階的に進みました。狙いは、AIを国家戦略として省庁横断で推進できる体制を整えつつ、透明性や適正性といった原則も踏まえながら利活用を加速させることにあります。特徴は司令塔の明確化で、内閣に「人工知能戦略本部」を設置し(本部長は内閣総理大臣、全閣僚参加)、縦割りを超えて政策を統合・推進する設計になっています。さらに、この法律を土台として、政府が「AI基本計画」や必要な指針等を整備していく流れへとつながりました。
安野貴博氏が参院選比例代表で初当選
2025年7月、AIエンジニアとしても知られる安野貴博氏が、政治団体「チームみらい」党首として参院選(比例代表)で初当選したと報じられました。国政の場にAI分野の当事者が加わることで、技術や産業の現場感に根ざした論点が政策議論に取り入れやすくなり、AI関連の制度設計や予算配分、行政のデジタル化などで実務的な方向に有利に反映されることへの期待が高まります。参議院議員の任期は原則6年であり、問題がなければその期間にわたって国会活動を担うことになります。技術進歩の速いAI分野において、政治側にも専門性を持つ担い手がいることは、国際競争の中で日本の戦略と実行力を高める一因になり得る、という点で注目されています。
「AI基本計画」閣議決定
2025年12月に政府が閣議決定した「人工知能基本計画」は、AI推進法の枠組みの下で、国としての優先順位と実行の道筋を整理した総合計画です。計画は「信頼できるAI」を前面に掲げ、研究開発の推進にとどまらず、社会実装の加速、産業競争力の強化、そしてリスク対応を含むガバナンスの整備を一体で進める構成になっています。具体的には、AI利活用の加速やAI開発力の戦略的強化、AIガバナンスの主導、AI社会に向けた継続的変革が示されています。こうした流れを踏まえると、2025年はAI推進法で司令塔体制を整え、年末の基本計画で実行方針を確定させた「制度整備の節目の年」と位置づけることができます。
2025年まとめ
2025年の生成AIは、単に「性能が上がった」だけでなく、「現場で使える形に収束し始めた」一年だったと言えます。画像生成は拡散モデル中心の時代から、GPT image や Nano Banana 系に象徴される Any-to-Any の自己回帰型マルチモーダル VLM へと重心が移りました。これにより、画像を生成するだけでなく、入力画像を理解したうえで指示に沿った局所編集を行う一貫性のある画像編集モデルが、同じ体験の中で自然に接続されるようになりました。画像生成・画像編集が実用レベルで成立し始めたことで、創作・デザイン・広告・資料制作などのワークフローそのものが塗り替えられ、GPT image で作られたスタイルの絵は「特別なもの」ではなく、日常にありふれた存在になっていきます。オープンモデルでも Qwen や FLUX、Wan などが存在感を強め、ローカル環境で最新クラスの制作疾走を可能にする選択肢が広がりました。
大規模言語モデル(LLM)の世界では、「大量投資によって一部の企業だけが到達できるトップの世界」から、「多くの企業が参入する多極化した最前線」へと競争構造が変化しました。DeepSeekショックに象徴されるように、低コスト化やオープンウェイト化が進んだことで、多くの企業が参入しやすくなり、中国勢が米国勢に猛追しています。さらに、Google の「Gemini 3 Pro」が王者 OpenAI を脅かす局面が見られ、Anthropic の Claude や xAI の Grok の伸びも含め、開発競争がいっそう激化していることが分かります。一方で、これまで「知能」の指標とされてきたベンチマーク——博士号や専門家レベルの超難問が解ける、プログラミング能力が世界上位、国際数学オリンピックで金メダル級の成果を出せる、といった基準が、社会実装・実用化の段階において本当に有効なのかを問い直す年でもありました。keep4o運動など、AIが日常に近い存在として受け止められるようになるにつれ、「指標としての賢さ」と「生活の中で役に立つ賢さ」のズレが、よりはっきり意識され始めた年でもありました。
そして2025年は「AIエージェント元年」と呼べるほど、単発の生成から「計画し、実行し、検証する」自律的な方向へと技術の重心が移りました。Deep Research のような調査エージェント、Claude Code のような開発エージェント、さらに統合エージェントの Antigravity によって、AIは便利な機能の集合を超え、作業の主体の一部を担う存在へと近づきつつあります。
社会面でも、超大規模インフラ投資であるスターゲート計画の構想、AI基本法をはじめとする法制度、AI基本計画など政府指針の整備、さらにはAI当事者の政治参加まで、技術が「社会実装を前提」に進む方向性が明確になりました。これは生成AIが成熟段階へ入りつつあることの裏返しでもあり、次の焦点が「性能競争」だけでなく、社会への実装・運用、そして生活や文化への接続へと移りつつあることを示しています。
2026年以降の発展は次のものになると思います。
生成AIのさらなる発展・精錬化
GPT image や Nano Banana のような Any-to-Any 型のマルチモーダル画像生成(自己回帰型のVLM系) に各社が追随し、同系統のモデルが多くリリースされていくと考えられます。
動画生成も音声+映像など機能面では完成に近づきつつある一方で、制作ツールとしてはまだまだ未成熟な部分が残っています。今後は、より一貫性のある映像表現、画像・テキスト指示への追従性、映像として自然な動作、そして「作りやすさ」と「品質」を両立した生成が段階的に改善していくはずです。
また大規模言語モデル(LLM)については、幻覚(ハルシネーション)の低減と正確性の向上、より強い長文文脈理解の手法、さらに知能の高さだけではなく社会実装に向けた実用的な新しい性能指標・ベンチマークが整備されていく流れが見込まれます。
応用技術の深化と、よりエージェント化
画像・動画・音声・テキストが「生成」と「編集」の両面で統合され横断し、クリエイティブ領域ではツールの追加だけではなくワークフロー設計そのもののが変わっていくと予想します。
同時に、検索、ブラウザ、開発、運用実務など各領域で、エージェントの標準化(役割分担・権限設計・評価方法の共通化) が進み、より自律的で主体的なAIエージェントへと位置づけが変わっていくでしょう。
ローカル・オープンモデルの発展
2025年の時点で、オープンウェイトであっても大規模化が進み、個人PCだけで最新級の実験を回すのが難しくなっている現実が見えてきました。とはいえ、Z-Image-Turbo のような 小型・高速・実用特化モデル が広まり、ローカル運用の選択肢が再び増える可能性もあります。
また、Qwen image などを基盤にした派生系として、SDXL系の流れを引く Animagineやillustriouなどの追加学習アニメモデル が登場し流行する展開も十分あり得ます。
一方で、各社がオープンウェイト公開に慎重になっている潮流もあり、「公開されたとしても巨大で扱いにくい」方向に寄る懸念は残ります。
より社会実装・生活の一部化
政府職員によるAI利用
デジタル庁が内製した政府職員向け生成AI利用環境「源内」の提供を目指しています。展開は段階的で、2026年1月以降に一部省庁へ先行導入し、2026年5月から各府省庁へ展開して本府省庁・地方出先を含む10万人超の職員利用を想定、2026年度以降に希望府省庁へ本格展開する予定になっています。
企業のAI利用率についても、総務省「情報通信白書(令和7年版)」ベースの整理では、日本企業で「積極的に活用する/領域を限定して利用する」とする割合が 49.7% とされており、ここから 50%を超えることは十分予想できます。個人利用も同じ流れで、(強気ではあるものの)26.7%から「利用率50%超え」が視野に入ってくる可能性はあります。
2025年は、生成AIが「一部の人のおもちゃ」から「生活や仕事に欠かせない社会の道具」へ移行していった転換点でした。2026年以降は、ツールが増えるだけではなく、ツールの存在を前提に、社会実装や運用がより具体的に洗練されていくフェーズ に入っていくと私は見ています。
