２０２４年の振り返り - AIオトコの娘宝典

前書き

2024年は、今まで培ってきた生成AI技術が更なる発展を見せ、その応用範囲が一気に広がったと感じた年でした。画像生成や動画生成、さらには大規模言語モデルまで、多様な分野でAIの実用性が飛躍的に向上しました。特に、Stable Diffusion XL（SDXL）を基盤とするアニメ系モデルは１年を通じて発展した年になりました。また大規模言語モデルもGoogle、OpenAI、Tencentといった大手企業の大規模言語モデルは高度な推論能力、複雑なタスクを並列でこなすマルチモーダルなどの発展が目に見えて分かる年になったと感じました。動画生成AIはsoraの発表から始まりLumaやKlingなど様々なサービスが始まりローカルでの動画生成も発展した年になりました。

2024年は、生成AIが普及のためのより実践的な技術として実社会に浸透した転換点の年といえるでしょう。本稿では、画像生成モデルから動画生成ツールまで、主要な技術の進化とその活用事例を振り返り、生成AIがどのように社会を変革しつつあるのかを考察します。さらに、2025年以降に期待される技術の進化についても触れながら、生成AIからAIエージェントへと繋ぐ未来を展望します。

AI技術の発展

画像生成AI

Animagine XL

Animagine XLは、アニメ風画像の生成に特化したSDXLベースの高性能モデルであり、特にアニメキャラクターやアニメ系イラストの作成において優れた性能を発揮します。このモデルはローカル環境での利用を前提に設計され、SDXLモデルの飛躍に先陣を切る存在として注目を集めました。最大1,024×1,024ピクセルの高解像度画像を生成できる能力を持ち、詳細で美麗なアニメ系イラストを容易に作成できます。また、多くのアニメやゲームのキャラクター名、さらには作品名をプロンプトに入力するだけで、有名キャラクターの画像生成が可能であり、ユーザーにとって非常に直感的な操作性を提供しています。初心者でも扱いやすいように設計されており、シンプルなプロンプト入力だけで高品質な画像を得られる点が特徴です。他のSDXLモデルと比較しても、安定感のある画風のイラスト生成を実現することが、このモデルの最大の強みと言えるでしょう。

なお、2024年1月11日に公開されたバージョン3.0に続き、2024年3月18日にはバージョン3.1がリリースされ、性能や利便性のさらなる向上が図られました。

Pony Diffusion V6 XL

Pony Diffusion V6 XLは、Stable Diffusion XL（SDXL）を基盤に開発されたモデルで、アニメやカートゥーン、ファーリーといった多様なスタイルの画像生成に特化しています。このモデルは、2024年の画像生成分野において、同時期のAnimagine XLと並び称される存在として注目を集めました。特に「My Little Pony」シリーズのキャラクター生成において優れた能力を発揮する一方で、人間やその他のキャラクター生成にも高い表現力を備えています。

このモデルの大きな特徴は、自然言語で入力されたプロンプトを高精度で理解し、ユーザーの意図を的確に反映した画像を生成できる点です。また、豊かな表現力を持つことから、特定のスタイルに限定されることなく、多彩なアートスタイルの画像を作成することが可能です。こうした特長により、Pony Diffusion V6 XLは、アニメやゲームのファンをはじめ高い評価を得ています。

FLUX.1

FLUX.1は、拡散トランスフォーマー（DiT）技術を用いた最新の画像生成モデルで、高品質な生成能力で注目を集めています。このモデルは、元Stable Diffusionの開発者たちによって設立されたBlack Forest Labsが開発したもので、実写風イラストの生成を得意とし、幅広いスタイルの画像を高精度で作成できる点が特徴です。そのクオリティは、Midjourneyを超えるものと評価されています。

FLUX.1は利用者のニーズに応じた3つのモデルが提供されています。最高品質の画像生成が可能な最上位モデルFLUX.1 [pro]は商用利用に対応していますが、現在は提携WebサービスやAPI経由でのみ利用可能で、ローカル環境での使用は制限されています。一方、FLUX.1 [dev]は高品質な画像生成を可能にするオープンモデルで、ローカル環境での利用が可能です。生成された画像の商用利用は許可されていますが、モデル自体の商用利用には制限があります。最後に、FLUX.1 [schnell]は個人向けの軽量モデルで、商用利用が可能な点が魅力です。他のモデルと比較すると画像品質はやや劣りますが、扱いやすさと手軽さが際立った選択肢となっています。

Illustrious XL v0.1

Illustrious XL v0.1は、韓国の企業OnomaAIによって開発され、2024年9月30日に公開されたStable Diffusion XL（SDXL）ベースのモデルです。このモデルは、イラストやアニメーションの生成に特化しており、Kohaku XL-Beta 5をファインチューニングすることで、優れた生成能力を実現しています。

Illustrious XLは、Danbooruを活用して学習を行い、画風、キャラクター、構図など多岐にわたる要素を網羅しています。これにより、多様なキャラクターやシチュエーションの表現が可能となり、ユーザーが入力するプロンプトにも高い精度で対応します。さらに、詳細な指示や複雑な要求に柔軟に応え、ユーザーの意図を反映した画像生成を実現します。また、特定のキャラクターやスタイルの再現にとどまらず、さまざまなアーティストの絵柄や美的表現を再現する能力を備えており、非常に幅広い表現を可能にしています。

現在、Illustrious XL v0.1はテスト段階のモデルとして提供されていますが、今後のアップデートとして、v1.0、v1.1、v2.0のリリースが予定されています。これらのバージョンでは、学習画像の解像度向上や、自然言語プロンプト記述へのさらなる対応が予告されており、今後の進化に大きな期待が寄せられています。

NoobAI-XL

NoobAI-XLは、Laxhar Dream Labによって開発された、SDXLを基盤とするIllustrious XL v0.1の派生モデルです。このモデルは特にアニメ風イラストの生成において高い性能を誇り、複雑なポーズや身体の詳細な描写、さらには武器を持つキャラクターといった表現が高精度で可能です。従来のモデルでは困難だったこれらの要素を、NoobAI-XLは容易に再現することができます。

このモデルは、約1,000万枚にも及ぶ大規模な画像データセット（Danbooruやe621など）を活用して学習されており、ファインチューニングモデルとしては非常に大規模なデータに基づいています。また、NoobAI-XLはv-pred（Velocity Prediction）という技術を採用することで、生成品質を大幅に向上させています。この技術の利点は、初期段階のノイズ画像から構造情報を保持することで、生成結果の安定性と細部の表現力を大きく向上させる点にあります。

Imagen3-002

Imagen3-002は、Googleが開発した最新の画像生成モデル「Imagen 3」の新バージョンで、テキストから高品質な画像を生成する能力に優れています。このモデルは従来のバージョンと比較して、より詳細で写実的な画像生成が可能となります。私はオンラインクラウドにおける画像生成サービスの中でも最高クラスとの評価しています。

このモデルは、写真風のリアルな表現からアニメ風のイラスト、さらには絵画や抽象画まで、幅広いスタイルの画像生成を可能にしています。さらに、自然言語プロンプトへの理解力が大きく向上し、ユーザーの複雑な要求や長文の指示にも的確に対応します。この柔軟性により、多様なクリエイティブ用途において高いパフォーマンスを発揮します。

また、Imagen3-002は画像内に正確なテキストを挿入する能力が強化されており、漫画やポスター、広告といったテキストを伴うビジュアルコンテンツの生成にも非常に適しています。

大規模言語モデル(LLM)

Command R+

Command R+は、カナダのAI企業Cohereが開発した大規模言語モデル（LLM）で、2024年4月4日に公開されました。このモデルは、高度な自然言語処理に特化しており、その性能はGPT-4 Turboに匹敵すると評価されています。さらに、オープンモデルとしても提供されているため、研究者や開発者が利用・カスタマイズすることが可能です。 NSFWなエロチャットなどもできることが特徴です。

o1

o1は、OpenAIが開発した大規模言語モデル（LLM）で、複雑な問題解決に特化した高度な推論能力を備えています。このモデルは2024年9月12日に「o1-preview」として発表され、同年12月6日に正式版の「o1」がリリースされました。特徴的なのは、回答を生成する前に十分な時間をかけて思考する設計が採用されている点で、特に科学、コーディング、数学といった分野で優れた性能を発揮します。

さらに、このモデルには上位版のo1 proが存在し、月額200ドルの「ChatGPT Pro」プランで利用可能です。o1およびo1 proは、複雑な推論や高度な問題解決を可能にするだけでなく、高精度で整合性のある長文の生成能力も持ち合わせており、科学や数学的課題、さらには長編小説の作成においても注目を集めています。

従来のモデルと比較して、専門知識を必要とするタスクにおいても高い精度を発揮するこのモデルは、科学的研究や高度なコーディングをサポートするツールとして幅広い用途で活用されています。

Gemini 2.0

Gemini 2.0は、Googleが開発した最新のAIモデルで、2024年12月11日に発表されると同時に、「Gemini 2.0 Flash Experimental」の利用が開始されました。このモデルは、前世代のGemini 1.5から大幅に進化しており、テキスト、画像、音声、動画といった多様なデータ形式を統合的に処理できるマルチモーダル対応が強化されています。

Gemini 2.0は、ユーザーとのリアルタイムな対話や高度な推論能力を備えており、処理速度は前モデルの約2倍に向上しています。これにより、複雑なタスクにも迅速かつ的確に対応可能です。また、ユーザーの指示に基づいてタスクを計画・実行する能力が向上しており、複雑な指示やマルチステップのタスク処理も難なくこなせます。

さらに、長文脈の理解力や複雑な指示への対応能力が強化されており、関数呼び出しの自動化や高度な推論能力を備えています。これにより、Gemini 2.0は様々な場面での高度な作業を支えるAIとして高い評価を得ています。

DeepSeek-V3

DeepSeek-V3は、中国のAI企業であるDeepSeekが2024年12月26日に発表した最新の大規模言語モデル（LLM）です。このモデルは、総パラメータ数6710億（671B）を持ち、オープンモデルとしても公開されています。

DeepSeek-V3は、複数の専門家モデルを組み合わせるMixture of Experts (MoE) アーキテクチャを採用しています。各トークンに対して370億のパラメータを選択し活性化され、効率的な計算と高性能を両立しています。

モデルや関連論文、トレーニングフレームワークが公開されており、研究者や開発者がオープンモデルなどを自由に利用・改良することが可能です。

動画生成AI

sora

Soraは、OpenAIが開発した最新の動画生成AIツールで、テキストや画像から高品質な動画を自動生成する機能を備えています。このツールは2024年2月15日に発表され、2024年12月10日から一般ユーザー向けに提供が開始されました。有料プランも用意されており、幅広いユーザーに利用されています。

Soraは、ユーザーが入力したテキストプロンプトに基づいて、動画を生成する仕組みを採用しています。また、静止画を入力することで、その画像に動きを加えた動画を生成することも可能です。この機能により、写真やイラストといった静止ビジュアルから、ダイナミックで魅力的な動画を簡単に作成できるツールとして注目を集めています。

Dream Machine

Dream Machineは、Luma AIが開発した動画生成ツールで、2024年6月12日に公開され、大きな話題を呼びました。このツールは、テキストや画像を入力するだけで、簡単に動画を生成することが可能です。特に、静止画に動きを加えたり、テキストから新しい動画を作成する機能が、多くのユーザーから高い評価を受けています。

静止画をアップロードし、特定の動作やエフェクトを指定することで、写真にまるで生命を吹き込むような動画を生成することができます。また、Frame to Frame機能が実装されており、始点と終点となる画像を指定するだけで、その間を補完する動画を生成することが可能です。この機能を活用すれば、例えば、ある人物が別の姿へ変身する過程を動画として表現することも容易です。

Dream Machineはその直感的な操作性と多彩な表現力により、プロフェッショナルから一般ユーザーまで幅広い層に利用されています。

Kling

Kling（クリング）は、中国の大手動画共有サービス企業「快手（クアイショウ）」が開発した動画生成AIツールです。当初、このサービスは中国の電話番号を必要としていたため、国外のユーザーには利用が難しい状況でしたが、2024年7月24日からメールアドレスによる登録が可能となり、大きな注目を集めました。

Klingは、テキストプロンプトや静止画像を入力するだけで、高品質な動画を自動生成できる機能を備えています。特に、リアルで美しい動画の生成に優れており、日本人の顔やアジア人の特徴を忠実に再現する能力で高い評価を得ています。テキストプロンプトを使用した動画生成に加えて、静止画像を入力することで、その素材に動きを加えた動画を簡単に作成できる点が特徴です。これにより、ユーザーは自身のアイデアや素材を活かしたクリエイティブな動画制作を手軽に実現できます。

また、初心者でも直感的に操作できる設計が施されており、複雑な設定や専門知識がなくても高品質な動画を生成できることが魅力です。Klingは、その使いやすさと表現力で、多くのユーザーに支持される動画生成ツールとなっています。

Runway Gen-3 Alpha

Runway Gen-3 Alphaは、アメリカのRunway社が開発した最新の動画生成AIモデルで、テキストや画像を入力するだけで高品質な動画を生成することができます。このモデルは2024年7月に一般公開され、前世代のGen-2と比較して画質や一貫性が大幅に向上しており、映像制作の分野で大きな注目を集めました。

Gen-3は、テキストプロンプトや画像から、まるで映画のワンシーンのようにリアルで高解像度な動画を生成できる点が特徴です。特に、時間的一貫性が強化され、モーフィングやちらつきといった問題が大幅に改善されています。この技術により、動画の滑らかさと視覚的な品質が大きく向上しました。

さらに、ユーザーが高度なカメラコントロールを自由に設定できる機能も備えています。これにより、ダイナミックな動きや映画のようなスローモーション効果を簡単に作成することが可能です。Gen-3はその多様な表現力と使いやすさで、プロフェッショナルから一般ユーザーまで幅広い層に支持されています。

そのほかViduやHaliuo AIなど様々な動画生成サービスがこの年にリリースしました。

HunyuanVideo

HunyuanVideo（フンユアンビデオ）は、Tencent（テンセント）が開発したオープンソースの動画生成AIモデルで、テキストや画像から高品質な動画を生成する能力を備えています。このモデルは、130億のパラメータを持つ大規模な構造を特徴としており、オープンソースの動画生成AIとしては最大級の規模を誇ります。

HunyuanVideoは、物理法則を忠実に再現したリアルな動画生成を可能にしており、その品質はクローズドモデルと比肩するほど高いと評価されています。さらに、効率的な処理パイプラインを採用しており、数秒で高品質な動画を出力可能です。この高い処理速度と視覚的忠実度により、さまざまな用途で活用されるポテンシャルを秘めたモデルとなっています。

音楽生成AI

Udio

Udio（ウディオ）は、2024年4月10日に一般公開された音楽生成AIツールで、テキストや歌詞を入力するだけで高品質な楽曲を生成することが可能です。このAIは、ボーカルの自然さとバック演奏の音質が非常に優れており、AI生成とは思えないほどリアルな音楽を作成します。

Udioは日本語の歌詞にも対応しており、J-POPをはじめとする日本の音楽スタイルを指定して楽曲を生成することができます。また、ユーザーはプロンプトを入力するだけで、クラシックからポップ、エレクトロニカまで、さまざまなジャンルやスタイルの音楽を簡単に作成することができます。

さらに、音楽制作の専門知識がなくても直感的に操作できるため、オリジナル楽曲を誰でも手軽に作成可能です。動画のBGMやプレゼント用のオリジナルソングなど、多岐にわたる用途で利用されています。Udioはその使いやすさと表現力により、多くのユーザーから支持されています。

音声生成AI

にじボイス

にじボイスは、株式会社Algomaticが提供する音声生成AIサービスで、ユーザーが入力したテキストをもとに、多彩なキャラクターボイスによる高品質な音声を生成することができます。このサービスでは、若者の声から年配者の声、さらには動物のようなコミカルな声まで、幅広いジャンルにわたるキャラクターボイスが用意されています。

生成される音声は、抑揚やイントネーション、間の取り方が非常に自然で、まるで人間が読み上げているかのようなクオリティを実現しています。ユーザーはテキストを入力し、キャラクターを選択するだけで簡単に音声を生成することができ、直感的な操作性と高い表現力が特徴です。

AivisSpeech

AivisSpeech（アイビススピーチ）は、JPChain株式会社が開発・運営する無料のAI音声合成ソフトウェアで、テキストを入力するだけで、人間の声と区別がつかないほど自然で感情豊かな音声を生成することが可能です。このソフトウェアは高音質・高品質な音声合成を実現しており、喜びや怒り、悲しみといった多彩な感情を音声に反映する能力を備えています。

AivisSpeechには、デフォルトで高品質な音声モデルが複数用意されているだけでなく、ユーザーが独自に作成したモデルをインストールして使用することも可能です。この柔軟性により、より個別化された音声合成のニーズにも対応できるツールとなっています。

その他

Apple Intelligence

Apple Intelligenceは、2024年7月に発表されたAppleの最新生成AI技術で、iPhone、iPad、MacなどのApple製品に統合されています。この技術は、さまざまなタスクをより簡単かつ効率的に行えるよう支援することを目的としており、ユーザーエクスペリエンスの向上を図っています。

Apple Intelligenceの導入により、SiriはChatGPTとの連携が可能となり、従来よりも高度な質問やアプリ操作に対応できるようになりました。これにより、ユーザーは音声だけで複雑な指示や質問を実行できるようになっています。また、MailやNotes、Safari、Keynoteなどの主要なアプリには作文ツールが組み込まれており、文章の生成、要約、リライト、校正などを簡単に行える機能が追加されています。

さらに、「電話」アプリや「メモ」アプリの録音機能を活用し、音声をテキストに変換し、その内容を要約する機能も提供されています。これにより、会話内容の整理や共有がより容易になり、プロダクティビティの向上に寄与します。

現在、Apple Intelligenceは米国英語で利用可能ですが、日本語を含む他言語への対応は2025年以降に予定されています。

政府の動き

AIと著作権に関する考え方について

文化庁の文化審議会著作権分科会法制度小委員会は、AI技術の進展に伴う著作権法上の課題に対応するため、2024年3月15日に「AIと著作権に関する考え方について」を取りまとめ、公表しました。この文書は、AI技術の急速な発展によって生じる著作物の利用や生成に関する課題に対する見解を示し、今後の対応方針を示すものです。

文化庁はこの取り組みの一環として、まず「AIと著作権に関する考え方（素案）」を作成し、広く国民からのパブリックコメントを募集しました。その後、これらの意見を反映しつつ、文化審議会著作権分科会法制度小委員会での議論を経て、最終的な文書としてまとめられました。

この文書は、AIが著作権に関連する分野でどのように利用されるべきか、またどのような法的課題が存在するかについての方向性を示す重要な指針となっています。

AI 時代の知的財産権検討会　中間とりまとめ

内閣府の知的財産戦略本部は、AI技術の進展に伴い発生する知的財産権に関する新たな課題を検討するため、「AI時代の知的財産権検討会」を設置しました。この検討会は、2023年10月4日から2024年4月22日にかけて計7回の会合を開催し、生成AIと知的財産権に関する現状や課題、そして対応方策について議論を重ねました。

これらの議論を基に、2024年5月28日、「AI時代の知的財産権検討会中間とりまとめ」が公表されました。この文書は、AI技術の急速な進化により浮かび上がった知的財産権の課題に対し、現状の整理と対応の方向性を示すものです。

「中間とりまとめ」では、生成AIがもたらす法的および実務的な影響についての具体的な分析が行われており、今後の知的財産権政策の議論の基盤となる重要な内容が含まれています。

AI事業者ガイドライン（第1.0版）

経済産業省と総務省は、AI技術の急速な発展と生成AIの普及に対応するため、既存のガイドラインを統合・アップデートし、「AI事業者ガイドライン（第1.0版）」を2024年4月19日に取りまとめました。このガイドラインは、AI技術の進化がもたらす社会的リスクを軽減しつつ、イノベーションの促進を図ることを目的として策定されています。

「AI事業者ガイドライン（第1.0版）」は、法的拘束力を持たないソフトローとして位置づけられ、AI技術を活用する企業や関連事業者が自主的に取り組むべき方向性を示しています。これにより、技術の進化と社会的課題への対応を両立させることを目指しています。

コンテンツ制作のための生成AI利活用ガイドブック

経済産業省は、生成AIのコンテンツ制作への活用可能性に注目し、ゲーム、アニメ、広告などのコンテンツ産業に携わる事業者向けに「コンテンツ制作のための生成AI利活用ガイドブック」を作成・公表しました。このガイドブックは、生成AI技術の進化により期待される産業界での活用に対応し、法的課題や適切な利用方法に関する指針を提供することを目的としています。

生成AIは、コンテンツ制作の効率化や新しい表現の可能性を広げる一方で、著作権や倫理的な課題も伴います。このガイドブックは、こうした課題に対応するため、生成AIの適切な利活用に向けた方向性を示し、コンテンツ産業の持続的な発展を支援する内容となっています。

中間とりまとめ（案）

2024年12月26日、総理大臣官邸において、AI戦略会議とAI制度研究会の合同会議が開催され、「中間とりまとめ（案）」についての議論が行われました。この会議では、AI技術の発展に伴う制度的対応に関する基本的な考え方と、具体的な施策の方向性が議論されました。

主な議論のテーマとして、イノベーションの促進とリスク対応の両立、国際協調、政府の司令塔機能の強化、安全性の向上、そして政府自身によるAIの積極的な利用が挙げられました。これらの施策を通じて、日本は世界で最もAIの研究開発と実装が容易な国を目指し、国際的なモデルとなるAI制度の構築を推進しています。

２０２４年のまとめ

2024年は、生成AIや大規模言語モデル（LLM）、動画生成AIなど、さまざまな分野でAI技術が飛躍的な進化を遂げた年でした。大手IT企業による最新モデルの開発が開発され、特に動画生成AIが飛躍した年となったことを感じます。

2025年は、これらがさらに発展した自律的なAIエージェントが社会のあらゆる場面で実用化される年になると予想されます。これらのAIエージェントは、個人や企業が日常生活や業務をより効率的に進めるためのパートナーとして活躍するでしょう。

GoogleのGemini 2.0やOpenAIのo3など、高度な推論能力を持ち、マルチモーダル対応が強化されたAIモデルは、テキスト、画像、音声、動画といった複数のタスクを処理します。これにより、専門的な領域でのAIエージェントの利用が加速するでしょう。

また、AppleのApple Intelligenceなど、個人のデバイスに搭載されたAIが、スケジュール管理や日常的なタスク補助を行うAIエージェントとして普及することが期待されます。音声指示で文章作成や要約、タスクの提案を行いAIエージェントが、スマートフォンやPCと統合されることで、個々人の生産性が大幅に向上します。

2024年に発展した動画生成モデルを中心として生成AIは、2025年にはより洗練され、商業用途や個人レベルの活動にも一層浸透するでしょう。AIエージェントによって映像や音楽、ゲームのプロトタイプを迅速に生成する役割を果たします。

2024年の技術の進化を土台に、2025年はAIエージェントがさらに人々の生活や仕事を支える存在として浸透する年となるでしょう。この新しい技術の普及は、社会のさまざまな場面で効率性と創造性を向上させることとなります。

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

前書き