L'IA peut désormais prendre une photo et la transformer en clip vidéo « tête parlante »

Consultez notre autre site internet Juexparc.fr pour plus d’actualités et d’informations sur les jeux

Une nouvelle initiative époustouflante pour l'IA, celle de Microsoft, fonctionne comme ceci : donnez à l'IA une photo de quelqu'un et un extrait audio de sa voix, et elle simulera un clip vidéo de cette personne en train de discuter.

Vous n'êtes pas non plus obligé d'utiliser une photo d'une personne réelle : l'IA peut fonctionner avec des peintures, des dessins animés ou des supports similaires (Crédit image : Microsoft)

VOIR LA GALERIE – 2 IMAGES

Ainsi, à partir d'une simple image et d'un morceau d'audio d'une minute de la voix de la personne – qui a été utilisé pour créer les exemples de vidéos partagés par Microsoft – vous obtenez ces visages parlants entièrement réalisés, avec des expressions faciales, des mouvements de la tête et des yeux réalistes. synchronisation labiale complète, etc.

En bref, l'ensemble du travail devait ressembler à une vidéo totalement réaliste de ladite personne épousant ses réflexions sur un sujet donné, le tout généré en temps réel par l'IA.

Bienvenue dans le monde du projet VASA-1 de Microsoft. Des trucs impressionnants ? C’est certainement le cas. Des trucs effrayants ? C’est certainement cela aussi.

Comme c'est le cas avec toute méthode de génération de vidéo IA, la perspective de faux clips dans lesquels quelqu'un peut être victime d'une vidéo canular le faisant passer pour – enfin, à peu près n'importe quoi en réalité – est une préoccupation évidente. Tout ce dont vous avez besoin est une photo et un enregistrement audio de la voix de la victime, et vous êtes prêt à partir.

Non, cette technologie ne sera pas nécessairement utilisée à des fins néfastes, c’est vrai. Et évidemment, Microsoft et les chercheurs à l’origine de VASA-1 tiennent à souligner les nombreuses utilisations potentielles de cette supercherie de la tête parlante. Comme « améliorer l’accessibilité pour les personnes ayant des difficultés de communication et offrir un accompagnement ou un soutien thérapeutique à ceux qui en ont besoin », ce qui est bien sûr louable.

Distraction électorale ?

Cependant, comme le souligne MS Power User, qui a remarqué cette évolution, avec cette technologie de génération de clips vidéo basée sur l'IA qui apparaît juste avant les élections américaines – eh bien, le moment n'est pas idéal.

Les créateurs précisent qu'ils sont opposés à l'utilisation de la technologie pour créer des « contenus trompeurs ou préjudiciables de personnes réelles » et ont l'intention d'appliquer des techniques pour faire progresser la détection des contrefaçons. Notant en outre que les vidéos réalisées à l'aide de VASA-1 contiennent toujours des « artefacts identifiables » et que « l'analyse numérique montre qu'il existe encore un écart pour atteindre l'authenticité des vidéos réelles ».

Actuellement, vous pouvez donc savoir avec certitude si une vidéo est fausse – mais à un moment donné, l’IA deviendra-t-elle si douée dans ce domaine que cela deviendra impossible ? Et à ce stade, dans quelle mesure les « fausses nouvelles » ou la diffamation, etc., deviennent-elles un problème encore plus grave ? Il n’est pas facile ou confortable de répondre à des questions, soyons réalistes.

Les problèmes et les doutes autour de la génération de vidéos et de la contrefaçon sont déjà devenus un problème pour YouTube, à tel point que comme nous l'avons signalé récemmentla plateforme a décidé d'introduire des règles permettant aux téléchargeurs d'étiqueter clairement le « contenu synthétique » créé par l'IA générative.