OpenAI aurait formé son meilleur modèle d'IA sur un million d'heures de données YouTube

Consultez notre autre site internet Juexparc.fr pour plus d’actualités et d’informations sur les jeux

Ce n'était qu'un Il ya quelques jours que le PDG de YouTube a lancé un avertissement à l'adresse d'OpenAI, rappelant à l'entreprise que l'utilisation de toutes les données acquises à partir de sa plateforme vidéo constituerait une violation de ses conditions d'utilisation.

Ouvrir la galerie 2

VOIR LA GALERIE – 2 IMAGES

Advertisement

Aujourd'hui, le New York Times rapporte qu'OpenAI a entraîné son modèle d'IA le plus avancé, GPT-4, avec plus d'un million d'heures de vidéos YouTube transcrites, selon des sources qui ont parlé au journal et lui ont fourni des transcriptions audio et vidéo. ont été intégrés au dernier modèle d’IA de l’entreprise. De plus, ces sources ont également déclaré que Google, le propriétaire de YouTube, a également utilisé des transcriptions audio et vidéo pour entraîner ses modèles d'IA, ce qui constitue dans les deux cas une violation flagrante des conditions d'utilisation de YouTube.

Un porte-parole de Google, Matt Bryant, a déclaré au New York Times que tout « grattage ou téléchargement non autorisé de contenu YouTube » est interdit. Il convient de noter que le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation du droit d'auteur, alléguant que la société avait pris le contenu du journal sans autorisation.

Le nœud de ce problème comporte de multiples facettes, car OpenAI a été étrangement empêché d’informer le public sur l’endroit où il a acquis les données pour entraîner ses impressionnants modèles d’IA. Un autre problème concerne la légalité, ou l’absence de violation du droit d’auteur, lorsque l’utilisation équitable entre en jeu, ce qui constitue une zone grise dans les lois américaines.

Une chose est sûre : les entreprises d'IA ne feront face à davantage de poursuites en matière de droits d'auteur que lorsque des informations seront divulguées sur la manière dont leurs modèles d'IA sont formés, car les quantités massives de données utilisées pour former ces modèles impressionnants ne peuvent pas être autorisées à 100 %.

Advertisement

Advertisement