AI が写真を撮って「トーキングヘッド」ビデオクリップに変換できるようになりました

AI に関する新しい驚くべき取り組みは、これは Microsoft によるもので、次のように実行されます。AI に誰かの写真とその声のオーディオクリップを与えると、その人がおしゃべりしているビデオクリップが模擬作成されます。

実在の人物の写真を使用する必要もありません。AI は絵画、漫画、または同様の媒体を使用できます (画像提供: Microsoft)

ギャラリーを見る – 2 枚の画像

つまり、画像とその人の声の 1 分間の長さの音声の塊 (Microsoft が共有するビデオの例を作成するために使用されたもの) から、本物のような表情、頭と目の動きを備えた、完全に実現された話し顔を得ることができます。完全な口パクなど。

つまり、特定のトピックについてその人が自分の考えを主張する完全にリアルなビデオのように見せるために必要な作業全体が、すべて AI によってリアルタイムで生成されます。

Microsoft の VASA-1 プロジェクトの世界へようこそ。印象的なものは？それは間違いなくそうです。怖いもの？それも間違いなくそうです。

AI ビデオ生成のあらゆる方法に共通する問題と同様、誰かがデマビデオの被害者になる可能性がある偽造クリップが、実際には何でもそうなる可能性があるということは、明らかな懸念です。必要なのは写真と被害者の声の録音だけで準備完了です。

いいえ、確かに、この技術は必ずしも凶悪な目的に使用されるわけではありません。そして明らかに、Microsoft と VASA-1 の背後にある研究者たちは、このトーキングヘッドのトリックの潜在的な有効な用途を数多く指摘したいと考えています。「コミュニケーションに困難を抱える個人のアクセシビリティを改善し、困っている人に付き添いや治療的サポートを提供する」など、もちろんすべて賞賛に値します。

選挙妨害？

しかし、この展開に気づいた MS Power User が指摘しているように、この AI を活用したビデオクリップ生成技術はすべて米国選挙の直前に注目を集めるようになっているため、タイミングは良くありません。

メーカーは、「実在の人物に関する誤解を招く、または有害なコンテンツ」を作成するためにこの技術を使用することに反対していることを明らかにしており、偽造品の検出を進める技術を適用するつもりである。さらに、VASA-1を使用して作成されたビデオには依然として「識別可能なアーティファクト」が含まれており、「数値分析の結果、実際のビデオの信頼性を達成するにはまだギャップがあることが示されている」と述べた。

現時点では、ビデオが偽物かどうかを確実に見分けることができますが、将来のある時点で、AI がこれに非常に優れて、それが不可能になるのでしょうか? そしてその段階では、「フェイクニュース」や名誉毀損などはどれほど大きな問題になるのだろうか？正直に言うと、答えるのが簡単または快適な質問ではありません。

動画の生成と偽造に関する問題や疑惑は、すでに YouTube にとって問題になっており、 最近報告したように、プラットフォームは、生成AIによって作成された「合成コンテンツ」に明確にラベルを付けるためのアップロード者向けのルールを導入することに移行しました。