Secondo quanto riferito, OpenAI ha addestrato il suo miglior modello di intelligenza artificiale su un milione di ore di dati di YouTube

Era solo un pochi giorni fa che il CEO di YouTube ha lanciato un avvertimento diretto a OpenAI ricordando alla società che l'utilizzo di qualsiasi dato acquisito dalla sua piattaforma video costituirà una violazione dei suoi termini di utilizzo.

Apri Galleria 2

VISUALIZZA GALLERIA – 2 IMMAGINI

Ora, dal New York Times emergono rapporti secondo cui OpenAI ha addestrato il suo modello di intelligenza artificiale più avanzato, GPT-4, con più di un milione di ore di video di YouTube trascritti, secondo fonti che hanno parlato con il giornale e gli hanno riferito trascrizioni audio e video. sono stati inseriti nell'ultimo modello di intelligenza artificiale dell'azienda. Inoltre, queste fonti hanno anche affermato che Google, il proprietario di YouTube, ha utilizzato anche trascrizioni audio e video per addestrare i suoi modelli di intelligenza artificiale, entrambi i quali sono chiare violazioni dei termini di utilizzo di YouTube.

Un portavoce di Google, Matt Bryant, ha detto al NYT che qualsiasi “scraping o download non autorizzati di contenuti YouTube” è proibito. Va notato che il NYT ha intentato una causa contro OpenAI e Microsoft per violazione del copyright, sostenendo che la società avrebbe preso il contenuto del giornale senza permesso.

Advertisement

Il nocciolo della questione è multiforme, poiché OpenAI si è stranamente trattenuta dall’informare il pubblico su dove ha acquisito i dati per addestrare i suoi impressionanti modelli di intelligenza artificiale. Un altro problema è la legalità, o la mancanza di violazione del copyright, quando entra in gioco il fair use, che notoriamente è stata una zona grigia nelle leggi statunitensi.

Una cosa è certa è che le aziende di intelligenza artificiale dovranno affrontare più cause legali sul copyright solo quando trapeleranno informazioni su come vengono addestrati i loro modelli di intelligenza artificiale, poiché l'enorme quantità di dati utilizzati per addestrare questi impressionanti modelli non può essere analizzato al 100%.

Advertisement

Advertisement