動画生成AI徹底比較：OpenAIのSoraは従来のAIと何が違うのか

まずはこちらの動画をご覧ください。

ご存知の方もいるかもしれませんが、先日OpenAIが発表した動画生成AI、Soraの出力したものです。実写さながらなのはもちろん、1分もの長時間の動画を生成できるということで業界は騒然としていました。

まず前提として動画生成AIの現在地はおおよそこのような雰囲気でした。

短い時間（数秒程度）なら写真から動画を生成することはできる
その動画の要素ごとに動きを指定することもできる（これがすでに最近のビッグニュースでした）
ダンスなどの動きのボーン（動きをトラッキングするためのマッチ人間）があれば、それに被せてAIで描画した別人に入れ替えることができる
キャラクターに一貫性を持たせることは難しい（色が変わったり長さが変わったり）

これがOpenAIが発表したSoraは「超高クオリティの」「大量の人や動物を含む」「長時間の動画を」「一貫性のある状態で」「テキストから生成」できることを証明するものでした。

こうやって新しいものがどんどん次々に出てくると「何がどうなってるのやら」「今後どうなるか検討もつかない」と思う方も多いかもしれません。そこで今回は技術に明るくない方でも動画生成AIの現在地と今後どのような方向に向かっていくのかということがイメージできるような記事にしたいと思います。

とはいえ多少技術的な側面は説明せざるを得ません。が、できるだけ噛み砕いて（専門家には怒られるかもしれませんが）多少の誤解を恐れずにイメージのしやすさ重視で解説していきたいと思います。

動画生成AIの現在地

ちらつきのある動画

先週末は欧州のスーパーボウルとも言えるようなビッグイベント、Eurovisionのエストニア大会の決勝戦がありましたが、そこでも動画生成AIを使ってLIVEパフォーマンスするバンドもいました。

画像生成AIとともに動画生成はかなり一般的になっており、特にTiktokなどではAIを使ったダンス動画などが多くみられます。

上記の例を見ていただくとわかるかもしれませんが、かなりキャラクターがチラついているのがわかると思います。特に最初のバンドのほうは、時に男性的になったり女性的になったり、かなりブレがあるように見えます。のちほど説明しますが、これは「沢山生成した画像を繋ぎ合わせている」ことに加えて「全く同じ格好のキャラクターを生成するのは難しい」ということに起因します。

一貫性があるが、短い動画

そこにRunway Gen2のように非常に一貫性のある動画生成AIが現れました。これは公式の動画ですが、まるで映画のようなクオリティです。

この時点でもう十分すごいとも思いますが、やはり長時間になった場合一貫性の壁はあります。生成できる動画は数秒にとどまり、多くの人を登場させることも難しいです。たとえば画家が走らせた筆のあとをその後の動画でも保存することは難しいです。

なぜOpenAIが動画生成？

ではなぜここで、動画生成に関してはほぼ沈黙を保ってきたOpenAIがこのようなクオリティのAIを発表することができたのでしょうか。

結論だけを先に言うと

「言語モデルで培ってきた強み（トランスフォーマー）が動画生成にも活きるということがわかったから」です。

ただ、これですとなかなかイメージができないと思いますのでAIモデルの世界の解像度を少しだけ上げていきましょう。そのためには

言語AIと画像生成AI・動画生成AIの違い
動画生成AIの中でも：フレームベースと潜在空間モデルの違い
潜在空間モデルの中でも：繰り込み式ニューラルネットワークとトランスフォーマーの違い

についてざっくりとでも良いので概要を掴むと非常にわかりやすくなります。

まずは表にまとめてみましょう。

	モデル・アプローチ	学習方法	代表例
言語AI	大規模言語モデル	トランスフォーマー	GPT, Gemini
画像生成AI	拡散（Diffusion)モデル		Stable Diffusion
動画生成AI	拡散モデル＋フレームベース		AnimateDiff, Magic Animate
	拡散モデル＋潜在空間モデル	繰り込み式ニューラルネットワーク	Runway Gen2
	拡散モデル＋潜在空間モデル	トランスフォーマー	Sora

一番下のSoraについて理解するためには「拡散モデルってなに？」「潜在空間？」「トランスフォーマー？？？」という点を解決する必要があります。多少技術的ですが例え話を踏まえてできるだけわかりやすく説明しますのでお付き合いください。

言語AIと画像AIの違い

まず同じAIといっても言語生成のAIと画像生成のAIは全く異なります。

連想ゲームを解く言語AI

今ChatGPTなどで有名になっている言語の生成AIは大規模言語モデルと呼ばれていて、ものすごくざっくりとした説明をすると「春は」という言葉に続く言葉として「あけぼの」や「あたたかい」などどんな言葉が続くかと言う連想ゲームを解いています。

粉々に壊れるワイングラスを逆再生する画像生成AI

一方でStableDiffusionなどに代表される画像生成のAIは拡散モデルというものを使っています。拡散＝Diffusionなので、StableDiffusionの名前はこのモデルから来ています。では何が拡散しているのでしょうか？

まずワイングラスが粉々になるシーンを思い描いてください。

ではそのシーンを逆再生してみてください。もとのワイングラスになりますね。

まず拡散モデルでは「ある画像」が粉々になるまでノイズを加えていきます。そしてそのプロセスを記憶します。粉々になるプロセスを学習するわけです。仮に、元の形が全くわからない粉が目の前にあったとして、先ほどの「ワイングラスが粉々になるプロセス」の逆再生を適用したらどうなるでしょうか？ワイングラスになりますね。

この粉々にするプロセスを拡散、逆再生するプロセスを逆拡散といいます（技術的には語弊を含みいますが、わかりやすさの代償に言い切らせてください）

下記は主なモデルの違いですが、ここで言いたいことは一つだけで「言語AIに強いからといって画像生成AI・動画生成AIに強いとは限らない」ということです。

適切に言い換えれば「と、思われていた」と付け加えるべきでしょう。ここでもう一つ言葉だけ覚えていただきたいのが「トランスフォーマー」です。大規模言語モデルで使われている仕組みで、中身が何かは置いておいて、これがChatGPTなどの言語AIが台頭するきっかきになったものであり、OpenAIが強い部分です。

特徴	LLM (大規模言語モデル)	拡散モデル
目的	テキストデータの理解、生成、翻訳。	画像や動画などのビジュアルデータの生成。
データタイプ	テキスト（単語、文章）。	画像（ピクセル）、動画。
主な技術	トランスフォーマー、BERT、GPTなど。	CNN（畳み込みニューラルネットワーク）、VAE、GANなど。
アプローチ	自然言語処理（NLP）に特化。文脈の理解や意味の把握に強み。	画像のノイズ付加とノイズ除去のプロセスを繰り返すことで画像を生成。
応用例	質問応答、テキスト生成、翻訳、要約など。	画像生成、画像修復、スタイル変換、動画生成など。
特徴	言語の構造と意味を学習し、新しいテキストを生成する能力を持つ。	与えられたデータから段階的にノイズを除去して、リアルなビジュアルコンテンツを生成する。

フレームベースと潜在空間モデルの違い

ここまでで、言語モデルと画像生成モデルが違うことはわかっていただけたかと思います。

動画生成には基本的に二つの方法があります。それは

フレームベースの方法
潜在空間モデルを使う方法

です。

ちらつきが起きやすいフレームベース

フレームベースはパラパラ漫画みたいなものです。一つ一つの画像を静止画として捉えて、それを沢山繋ぎ合わせます。そのため、生成ごとの誤差がちらつきや一貫性のなさにつながります。

これはAnimateDiffというソフトで作成された動画です。動画からその人の動きをボーン(マッチ人間みたいなもの)に落とし、さらにAIで別のキャラクターにしています。

動きは滑らかですが、キャラや背景がちらついているのはお分かりでしょうか。これはフレームごとに生成した画像が微妙に異なる色や形を持っているからです。

*あたかもダメな例のように見せていますが、この時点でかなりすごいのです。と付け加えさせてください。

鬼のような指示に従う潜在空間モデル

では潜在空間モデルとはなんなのか？

これも暴論的にまとめると「絵を見ずに、電話の指示だけで絵を描く」というのに近いです。ただし、この指示の内容は超超超超超超細かい指示だと思ってください。「猫とは」ひとつとっても下記のような指示がとんできます

{ “毛色”: “オレンジ”,

“毛の長さ”: “短い”,

“目の色”: “緑”,

“サイズ”: “中”,

“耳の形”: “とがっている”,

“尾の長さ”: “長い”,

“性格”: “好奇心旺盛”,

“鳴き声”: “にゃー”,

“好きな食べ物”: “魚”,

“活動レベル”: “高い” }

実際には数値で表現されて、数十から数千の項目(次元）が並んでいます。この鬼のように細かい指示に全て従って描くのが潜在空間モデルです（分かる人向けに簡単に言えば、潜在コードの線型空間モデルです）。この指示の内容は静止画の物体にとどまらず、時系列での進行についてだったり、物理法則についても付け加えることができます。

RunwayのGen2が最近発表した「さまざまな動きを指定する」というのは業界にとって衝撃でした。もともとコントロールが難しい生成動画を直感的に操作できるものだからです。このRunway Gen2も潜在空間モデル（正確には潜在拡散モデル）です。

色々と説明しましたが、ここで頭に留めていただきたいのは一つで「動画生成AIも言語的に扱える部分がある」ということです。ここにOpenAIの強みであるトランスフォーマーが活きることになります。

繰り込み式ニューラルネットワークとトランスフォーマーの違い

動画生成の学習とはどのように行われているのでしょうか。

一般的にはCNN（繰り込み式ニューラルネットワーク）が使われます。技術的な詳細には触れませんが、画像を扱うのに強いんだとふんわり認識してもらえれば大丈夫です。ではなぜ画像に強いのか簡単に説明しましょう。

CNN（繰り込み式ニューラルネットワーク）とは

例えば「パズルを解くロボット」の話を使ってみましょう。

あなたの目の前には大きなパズルがあり、それを解くための特別なロボットがいます。このパズルはたくさんの小さなピースから成り立っており、各ピースには異なる形や色があります。

ロボットは、このパズルを一つ一つのピースを見て、どのピースがどこに合うのかを考えるのが得意です。最初に、ロボットはパズルの一部分、たとえば角のピースや端のピースなど、特定の特徴を持つピースを探します。そして、それらのピースを使って全体の絵がどうなっているのかを理解しようとします。

CNNも、このロボットのようなものです。ただし、CNNが解くのはパズルではなく、画像の中のパターンや形、色などを理解する「問題」です。CNNは画像を小さな部分に分けて（たとえば、パズルのピースのように）、それぞれの部分に何が描かれているのか（たとえば、猫の耳や目など）、また全体として何を表しているのかを理解しようとします。

例えば、CNNに猫の写真を見せたとき、最初に猫の耳や目などの特徴を見つけ、それらの特徴を組み合わせて「これは猫だ」と理解します。このようにして、CNNは画像の中の物の形やパターンを学習し、新しい画像が何を表しているのかを識別することができるのです。

つまり、CNNは「画像を理解するための特別なロボット」のようなもので、画像の中の重要な部分に注目して、それらを使って全体の絵を理解するのが得意なんです。

トランスフォーマーとは

これも例え話で説明したいと思います。あなたはお誕生日パーティーにいます。たくさんの友達がいて、みんなで楽しくお話をしています。

この時、あなたは「誰が今何を言っているのか」や「誰が誰にプレゼントを渡そうとしているのか」など、周りのすべてを注意深く見て聞いています。それによって、あなたは「今何が起こっているのか」や「次に何が起こりそうか」を理解できます。（そもそも何に注意を払うのかを決めるのを「自己注意メカニズム（Attention Mechanism）」と言い、この発見が大きな話題となり今の発展に至ります）

トランスフォーマーも、まるでそのお誕生日パーティーにいるあなたのようなものです。ただし、トランスフォーマーはお話や言葉の世界でこれを行います。トランスフォーマーは、文章や話の中で「誰が何を言っているのか」や「どの言葉が大切なのか」をとても注意深く見て、それに基づいて新しい話や文章を作ったり、話の意味を理解したりします。

例えば、「猫はお腹がすいたので、魚を食べた」という話があったとしましょう。トランスフォーマーはこの話の中で「猫」と「魚」がどのように関連しているのかや、「お腹がすいた」がどのように「魚を食べた」という行動につながっているのかを理解します。そして、それをもとに、「猫はお腹がすいたので、牛乳を飲んだ」という新しい話を作ることができるのです。

従来はトランスフォーマーは言語分野にのみ活用できると思われてきました。その背景は以下の通りです。

トランスフォーマーがテキスト処理に特化していた理由：

自己注意メカニズム: トランスフォーマーの中核を成す自己注意メカニズムは、文中の任意の単語が文の他の部分とどのように関連しているかをモデル化する能力を持っています。この特性は、特に文脈を理解することが重要なNLP（自然言語処理）のタスクに非常に適しています。
文脈の理解: トランスフォーマーは、入力されたテキストの全体的な文脈を一度に捉えることができます。これにより、単語やフレーズの意味をより正確に理解し、それに基づいて出力を生成することが可能になります。
計算効率: 自己注意メカニズムは、従来の方法よりも並列化が容易であり、大規模なデータセットに対して高速に処理を行うことができます。この計算効率の高さが、大量のテキストデータを扱うNLPの課題に適しているとされました。

画像処理への適用への展開：

トランスフォーマーが画像処理やその他の領域に適用され始めたのは、その汎用性と拡張性が認識されてからです。特に、画像をパッチに分割し、それらをトークンとして扱うことで、画像データに対しても自己注意メカニズムを適用できることが示されました。これにより、トランスフォーマーはテキストだけでなく、画像、音声、動画など、さまざまな種類のデータに対しても有効なモデルとして認識されるようになりました。

ここで言うパッチとはピクセル化された部分だと思ってください。ピクセルならRGBなどでテキスト情報にできそうですよね。テキストになれば、トランスフォーマーは使えそうですよね。

さらにこのトランスフォーマーによって物理法則なども学習されています。まだ課題はあるようですが、先ほどの「鬼のような指示」を画像に対して、時系列に対して、因果関係に対して適用することでこのような並外れた動画を生成しているようです。

Soraは潜在空間モデルの学習にトランスフォーマーを使っているという点で従来の方法とは異なります。もちろんそれだけではないですが、言語モデルで一世風靡したOpenAIがなぜ動画に？という部分への疑問は少し解消するのではないでしょうか。

そしてGPTのこの1年の発展を見ると、Soraが同じかそれ以上に発展していくというのもイメージはできるのではないでしょうか。

動画生成は過程。ゴールは世界シミュレーター。

激震のテレビ・映画産業

ここまでOpen AIのSoraの強みとその背景について説明しました。簡単に言えば、潜在空間モデルにトランスフォーマーを使っているというものです。

	モデル・アプローチ	学習方法	代表例
言語AI	大規模言語モデル	トランスフォーマー	GPT, Gemini
画像生成AI	拡散（Diffusion)モデル		Stable Diffusion
動画生成AI	拡散モデル＋フレームベース		Magic Animate
	拡散モデル＋潜在空間モデル	繰り込み式ニューラルネットワーク	Runway Gen2
	拡散モデル＋潜在空間モデル	トランスフォーマー	Sora

動画の生成という分野では活用の幅はかなり大きくあります。会社や商品の説明はもちろん、自社のプロダクトを中心においた短編映画などもオウンドメディアの延長上でつくることができるかもしれません。SNSでは動画コミュニケーションのハードルがどんどん下がりますね。

教育の分野も楽しくなりそうです。ナポレオンの戦い方についての解説や、核融合と核分裂の違いなど百聞は一見にしかずな学びは沢山あります。教科書を一通り動画にするだけで、何シーズン分もの番組が作れそうです。

そもそもテレビ・映画業界・CM・ゲームなどは特に大きな影響を受けるでしょう。CGやVFXが大きな影響を持っていたように、動画生成AIは明らかに産業を変えていきます。動画生成におけるPixarのような会社も出てくるでしょう(Pixarは3Dアニメを初めて作ろうとしていたとき、ほとんどその価値を認めてもらえなかったそうです)

ただ、OpenAIが目指すのはそういったコンテンツ産業のリプレイスというわけではないようです。