A nowy raport z Proof News rzekome, że Apple, NVIDIA i inne duże firmy technologiczne wykorzystały zbiór danych zawierający własność intelektualną chronioną prawem autorskim do szkolenia swoich modeli sztucznej inteligencji. Ta chroniona prawem autorskim własność intelektualna obejmowała transkrypcje filmów z YouTube pochodzących od wybitnych twórców, takich jak MKBHD, jedna z największych recenzentów technologii na platformach.
The w raporcie powołano się na dochodzenie do zbioru danych znanego jako Pile, a reporterzy twierdzili, że odkryli transkrypcje lub napisy do ponad 170 000 filmów w YouTube na 40 000 różnych kanałów. Niektóre z tych filmów pochodziły od twórców takich jak MrBeast, MKBHD, Jimmy Kimmel, Stephen Colbert, PewDiePie i wielu innych. W raporcie ujawniono także oświadczenia firm, które stwierdziły, że korzystały ze zbioru danych Pile w szkoleniu swoich modeli sztucznej inteligencji, ponieważ zbiór danych jest bezpłatny i otwarty do użytku publicznego.
W tym nowo opublikowanym raporcie pojawia się pytanie, co dzieje się z firmami zajmującymi się sztuczną inteligencją, które wykorzystują zbiory danych zawierające własność intelektualną chronioną prawem autorskim do szkolenia swoich modeli sztucznej inteligencji. Czy odpowiedzialny jest właściciel modelu AI, czy firma, która utworzyła zbiór danych? Lub oba? OpenAI wpadło w wir gorącej wody, jaką są modele sztucznej inteligencji i dane chronione prawem autorskim zaledwie kilka miesięcy temu, kiedy dyrektor ds. technologii (CTO) Mira Murati nie była w stanie odpowiedzieć, czy OpenAI wykorzystuje filmy z YouTube do szkolenia swoich modeli sztucznej inteligencji.
W odpowiedzi na niejasności wokół danych szkoleniowych OpenAI, Dyrektor generalny YouTube wydał publiczne przypomnienie że pobieranie danych z YouTube narusza warunki korzystania z usługi.
Od tego czasu MKBHD odpowiedział na nowy raport, wyjaśniając sytuację w krótkim, jednominutowym filmie YouTube Short i dodając, że płaci za wykonanie wysokiej jakości napisów do każdego ze swoich filmów, co oznaczałoby, że treści są „kradzieżone” częściej niż kiedykolwiek. raz