OpenAI dévoile un nouveau modèle d'IA qui constitue une étape vers une interaction humaine-machine naturelle

Consultez notre autre site internet Juexparc.fr pour plus d’actualités et d’informations sur les jeux

OpenAI a dévoilé un nouveau modèle d'IA conçu pour analyser l'audio, le visuel et le texte, et fournir des réponses basées sur ce qu'il « voit/entend« .

La société à l'origine de l'outil d'IA extrêmement populaire ChatGPT a annoncé son dernier modèle phare appelé GPT-4o (omni), qu'OpenAI décrit comme étant une étape vers un « une interaction homme-machine beaucoup plus naturelle« . Le nouveau modèle d'IA devrait égaler les performances de GPT-4 Turbo en matière de traitement de la saisie de texte et de code, tout en étant simultanément plus rapide et 50 % moins cher avec son API, ce qui en fait un choix plus abordable pour l'intégration d'applications tierces.

Plus précisément, les utilisateurs pourront soumettre une requête vocale sur ce que l'agent IA est capable de « voir » sur l'écran de l'appareil, et un exemple de cela serait de demander à l'IA à quel jeu deux personnes peuvent jouer. OpenAI l'a démontré avec deux personnes qui ont demandé verbalement à l'IA « à quel jeu pouvons-nous jouer« . L'IA a utilisé la caméra du smartphone pour « voir » les deux personnes assises devant et ont suggéré de jouer à pierre, papier, ciseaux. La démonstration rapide a montré que le modèle d'IA était capable d'interagir couramment avec les individus et également d'être extrêmement réactif aux interruptions et aux nouvelles commandes.

Les individus demandent alors à l'IA « qui a gagné? » et l'IA a répondu : « C'est une cravate« , démontrant qu'il peut voir à l'aide de la caméra de l'appareil.

« Il peut répondre aux entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain(opens in a new window) dans une conversation, » écrit OpenAI