Gemini 1.5 Pro pourrait faire pour l'audio ce que les versions précédentes faisaient pour le texte

Consultez notre autre site internet Juexparc.fr pour plus d’actualités et d’informations sur les jeux

Edgar Cervantes / Autorité Android

TL;DR

Google a annoncé que le modèle Gemini 1.5 Pro est désormais disponible en avant-première publique.
La société a ajouté que le modèle d'IA mis à niveau prend en charge le traitement audio.
Google affirme que cette technologie peut être utilisée pour des transcriptions de haute qualité, l'analyse des appels de revenus, etc.

Les modèles d'IA générative Gemini de Google sont divisés en Nano, Pro et Ultra. La société a annoncé Gemini 1.5 en février, et il est maintenant confirmé que Gemini 1.5 Pro est disponible en avant-première publique et a acquis une fonctionnalité notable.

Google a confirmé que Gemini 1.5 Pro prend désormais en charge le traitement audio. Le géant de la recherche affirme que cette prise en charge inclut l'audio dans les fichiers vidéo et la parole.

« Cela offre aux utilisateurs une analyse multimodale transparente, fournissant des informations sur le texte, les images, les vidéos et l'audio. Il fournit également une transcription de haute qualité et peut être utilisé pour rechercher du contenu audio et vidéo, par exemple pour rechercher, analyser et répondre à des questions lors d'appels sur les résultats ou de réunions d'investisseurs », a expliqué Google.

Une mise à niveau majeure pour les efforts d'IA de Google

La société avait précédemment affirmé que Gemini 1.5 Pro battait Gemini 1.0 Pro dans 87 % des benchmarks et était presque à égalité avec Gemini 1.0 Ultra. Il a également déclaré précédemment que les clients pouvaient traiter une heure de vidéo, 11 heures d'audio, des bases de code contenant plus de 30 000 lignes de code ou plus de 700 000 mots en un seul flux.

Il convient de noter que le Gemini 1.5 Pro est destiné aux utilisateurs de Workspace plutôt qu'aux consommateurs. Mais il sera éventuellement accessible aux consommateurs via l'assistant Gemini et d'autres moyens. Néanmoins, la prise en charge du traitement audio ouvre la porte à de nombreuses autres fonctionnalités dans le futur.

Google propose déjà des astuces liées à l'audio sur les téléphones Pixel, telles que la transcription dans l'application Recorder (optimisée par une ancienne technologie d'IA) et l'outil Audio Magic Eraser. Nous sommes donc impatients de voir si les capacités audio de base de Gemini 1.5 Pro se répercuteront sur un futur modèle d'IA sur l'appareil, car cela pourrait permettre des fonctionnalités audio plus avancées sur les smartphones à l'avenir.