MENU

OpenAI Soraとは|テキストから動画を生成する世界モデル

OpenAI Sora アイキャッチ
OpenAI Sora

Soraは2024年2月15日にOpenAIが研究プレビューとして発表したテキストto動画生成モデルで、最長60秒・1080p解像度の動画を一括生成できる点で業界に衝撃を与えました。Diffusion Transformer(DiT)を基盤に、動画を時空間パッチへ分解して学習するアーキテクチャを採用し、物理法則をある程度理解する世界シミュレータを志向しています。2024年12月にはSora Turboとして一般公開され、ChatGPT PlusとProプランに統合されました。

目次

この記事の目次

  1. Diffusion Transformerと時空間パッチ
  2. 公開デモが示した可能性と限界
  3. Sora Turboの一般公開と機能
  4. 競合と動画生成AI市場の今後
  5. まとめ

Diffusion Transformerと時空間パッチ

Diffusion Transformerと時空間パッチ

Soraの中核はDiffusion Transformer(DiT)というアーキテクチャで、従来の動画生成で主流だったU-Netベースの拡散モデルからの転換を意味します。動画はまずVisual Encoderで低次元の潜在表現に圧縮され、時間軸と空間軸を持つ3次元パッチに分割されます。これらパッチをトークンとして扱い、Transformerが拡散過程の逆方向、つまりノイズから動画への復元を学習する仕組みです。

この設計の利点は可変解像度・可変長・可変アスペクト比を単一モデルで扱える柔軟性にあります。学習時は様々なフォーマットの動画をそのまま投入でき、推論時も縦長スマホ動画から横長映画フレームまで任意の形状で生成可能です。スケーリング則がLLMと同様に成立することも公式技術レポートで示され、計算資源を増やすほど物理的整合性や長期一貫性が改善することが確認されています。

公開デモが示した可能性と限界

公開デモが示した可能性と限界

発表時のデモ動画には、雪が降る東京を歩く女性、ペーパークラフトの珊瑚礁、3D風カラフルなウールの編み物、ドローン視点のサンフランシスコなど多彩なシーンが並びました。光の反射や人物の動きの自然さは従来モデル(Runway Gen-2やPikaなど数秒尺が限界だったもの)を明確に超えており、フィルム業界やCG制作会社に強い衝撃を与えました。ハリウッドのタイラー・ペリー監督は8億ドル規模のスタジオ拡張計画を凍結したと報じられています。

一方で限界も率直に開示されており、コップが倒れても液体がこぼれない、椅子を持ち上げる人物の腕の整合性が崩れる、左右の手足が入れ替わるといった物理的・解剖学的破綻が指摘されました。長時間の因果関係や複雑な相互作用は依然として苦手で、OpenAI自身もWorld Simulatorとしては未熟であると認めています。これらは安全性研究と並行して改善が続けられました。

Sora Turboの一般公開と機能

Sora Turboの一般公開と機能

2024年12月9日にSora TurboがChatGPT Plus(月20ドル)とPro(月200ドル)ユーザー向けに公開されました。Plusでは月50本(最長5秒・480p)、Proでは月500本(最長20秒・1080p)の生成枠があり、専用UIのsora.comからアクセスします。Storyboard機能では時系列に沿ったプロンプトを並べて長尺ストーリーを設計でき、Remix・Re-cut・Loop・Blendといった編集機能で既存動画を加工可能です。

生成された動画にはC2PAメタデータと視認可能なウォーターマーク(動画右下のSoraロゴ)が付与され、合成コンテンツであることが識別できる設計です。実在人物の生成は当初制限され、政治家やセレブリティの肖像はブロックされます。商用利用権はProプラン契約者に許諾され、EUと英国では当初提供地域から除外されていましたが、その後段階的に拡大されています。

競合と動画生成AI市場の今後

競合と動画生成AI市場の今後

Soraが先陣を切った後、競合各社も急速に追随しました。Google DeepMindは2024年5月にVeo、12月にVeo 2を発表し、最長2分・4K対応で物理整合性を強調。Runwayは2024年6月にGen-3 Alphaを公開し、Luma LabsのDream Machine、Kuaishouの可灵(Kling)、Pika 2.0など中国勢も含めた群雄割拠の様相となっています。中でもKlingは中国で先行公開され、長尺と物理表現で高評価を獲得しました。

産業応用では広告・SNS短尺コンテンツ・絵コンテ作成・教育動画などでの実用化が進む一方、ディープフェイク悪用、声優・俳優の代替問題、著作権訴訟リスクが社会的論点として残ります。Soraの学習データについてOpenAIは公開を避けており、CTOミラ・ムラティ氏のWSJインタビュー(2024年3月)での曖昧な回答が物議を醸しました。規制とイノベーションのバランスを取りながら、動画AIは映像制作ワークフローの再定義を進めていく見込みです。

まとめ

Soraは動画生成AIを実用ライン手前まで一気に押し上げた画期的モデルで、Diffusion Transformerと時空間パッチの組み合わせが業界標準アーキテクチャとなる流れを作りました。Sora Turbo公開以降は競合との機能競争が激化し、長尺・高解像度・物理整合性が次の競争軸です。映像制作の民主化と倫理的ガバナンス、両輪の進展が今後数年の焦点となります。

※本記事はIT用語辞典の手書きドラフトです。公開前に最新情報・出典を確認のうえ加筆修正してください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次