Forscher von Technologieunternehmen Virtuals-Protokoll haben eine Papier auf einem neuen Text-zu-Video-KI-Modell, MarioVGGdas mit einigen einfachen Texteingaben Super Mario Bros.-Filmmaterial simulieren kann (danke, ArsTechnica).
Das Modell wurde mit über 737.000 Mario Bros.-Bildern gefüttert, die Nintendos wertvollen Klempner in 32 verschiedenen Levels mit unterschiedlichem Erfolg und Misserfolg zeigten (141 Siege und 139 Niederlagen, laut Github). Basierend auf diesen Bildern und ihrer Anordnung „lernt“ das KI-Modell, welche Befehle wie „springen“ und „rennen“ auf dem Bildschirm entsprechen, und ist dann in der Lage, solche Befehle in einem Videoformat zu simulieren, einschließlich der Physik und allem.
Das Virtuals-Protokoll Papier zeigt das Modell in Aktion anhand einer Reihe kurzer Videos, die aus der Ferne dem legendären NES-Plattformer sehr ähnlich sehen. Der Herausgeber hat eine Auswahl dieser Videos auf Þjórsárdalurund behauptet: „Das Zeitalter der unendlich interaktiven Welten ist angebrochen“:
Obwohl das Modell in der Lage ist, bestimmte Mario-Moves nachzubilden, handelt es sich hier nicht um eine Eins-zu-eins-Simulation. Um die Dinge einfach zu halten, konzentrierten sich die Forscher nur auf zwei Eingaben: „nach rechts laufen“ und „nach rechts laufen und springen“. Die Auflösung wurde von den 256×240 des NES auf deutlich kleinere 64×48 reduziert. Und Die Ausgabebilder stellen nur einen Bruchteil der Eingabebilder dar (aus den 35 eingegebenen Bildern werden sieben generiert), sodass alles andere als alles andere als reibungslos läuft.
Und so schnell ist es auch wieder nicht. Die einzelne RTX 4090-Grafikkarte, die in der Studie verwendet wurde, konnte nur alle sechs Sekunden eine Videosequenz mit sechs Bildern produzieren. Und obwohl das letzte Bild einer Sequenz als erstes Bild für die nächste verwendet werden konnte – was einem echten Level schon näher kommt –, geben die Forscher zu, dass dies derzeit „für interaktive Videospiele weder praktisch noch benutzerfreundlich“ sei.
Darüber hinaus sind die Ergebnisse voller Störungen. Ein genauerer Blick auf die obigen Videos zeigt, dass Mario im Handumdrehen seine Farbe ändert, sich in Feinde verwandelt, durch normalerweise unpassierbare Objekte gleitet und gelegentlich vollständig verschwindet. Das ist kein offizieller Mario.
Und doch geben die Forscher die Hoffnung nicht auf, dass ein solches Modell in Zukunft für die Spieleentwicklung eingesetzt werden könnte. „Während es derzeit noch nicht praktikabel und plausibel sein mag, die Spieleentwicklung und Spiele-Engines vollständig durch Videogenerierungsmodelle zu ersetzen“, so das Fazit des Artikels, „zeigen wir jedoch, dass dies mit nur einem begrenzten Datensatz zu einem einzigen Spielebereich möglich und eine Option ist.“
Das Konzept einer KI, die in der Lage ist, Ursache und Wirkung zwischen Benutzereingaben und dem Gameplay auf dem Bildschirm zu erkennen, ist überwältigend. Doch die abschließende Bemerkung, dass sie möglicherweise „die Spieleentwicklung ersetzen“ könnte, hinterlässt einen schalen Nachgeschmack.
Zur Erinnerung: 2024 war eines der schlimmsten Jahre der Branche, was Entlassungen bei Spieleentwicklern angeht. Sowohl große als auch kleine Studios mussten ihre Mitarbeiterzahlen senken, um Kosten zu sparen. Ein KI-Tool, das das Gameplay genau nachbilden kann, ist vielleicht noch weit entfernt, aber wenn es weiterhin so schnell vorangeht, wird die Frage, wie es in die aktuellen Arbeitspraktiken passt, in den kommenden Jahren zunehmend Anlass zur Sorge geben.
Erst letzte Woche sagte die Synchronsprecherin von Bayonetta 3, Jennifer Hale, dass die KI „auf uns alle zukommt“, während die Verhandlungen um die laufende SAG-AFTRA-Streik wandte sich seiner Verwendung in der Schauspielarbeit in Videospielen zu.