Co to jest ScreenAI: Wyjaśnienie technologii Google

Wprowadzona niedawno przez Google Research funkcja ScreenAI to nowa, ekscytująca technologia Google.

Chociaż wciąż znajduje się w fazie badań, czytaj dalej, aby dowiedzieć się więcej o ScreenAI, jak to działa i kiedy możesz mieć szansę samodzielnego wypróbowania tej technologii.

Advertisement

Co to jest ScreenAI?

ScreenAI jest opisywany jako nowy „model języka wizyjnego dla interfejsów użytkownika i infografik, który zapewnia najnowocześniejsze wyniki w zadaniach opartych na interfejsie użytkownika i infografikach”.

Innymi słowy, ScreenAI jest modelem języka wizyjnego, co oznacza, że ​​może jednocześnie rozumieć dane obrazowe i tekstowe. Został zbudowany, aby uprościć czytanie i zrozumienie danych z interfejsów użytkownika (UI) i infografik, takich jak wykresy, diagramy i tabele.

Mówiąc najprościej, możesz poprosić ScreenAI o podsumowanie zrzutu ekranu lub grafiki i powinieneś otrzymać jasne i zwięzłe podsumowanie. Możesz także zadawać pytania ScreenAI na podstawie zrzutu ekranu i otrzymywać prawidłowe odpowiedzi na podstawie dostarczonych danych.

Jak działa ScreenAI?

Po pierwsze, architektura ScreenAI jest zbudowana na wielojęzycznym modelu obrazu językowego PaLI, ale ScreenAI faktycznie ulepsza to dzięki pix2struct. Pix2struct to wstępnie wytrenowany model zamiany obrazu na tekst do rozumienia języka wizualnego, który można dostosować do zadań zawierających język umiejscowiony wizualnie.

Advertisement

ScreenAI wykorzystuje do działania dwa etapy: etap samonadzorowanej nauki, przedszkolenia, realizowany przy użyciu publicznie dostępnych stron internetowych, oraz etap dostrajania, w którym wykorzystywane są ręcznie sortowane dane przez prawdziwych użytkowników.

Wraz z ScreenAI opublikowano trzy nowe zbiory danych, które pomogą w dalszej jednoznacznej ocenie modelu. Te zbiory danych obejmują adnotację ekranową, która ocenia zdolność rozpoznawania układu przez ScreenAI, ScreenQA i Complex ScreenQA w celu oceny jego zdolności do odpowiadania na pytania (QA).

Jakie są zalety ScreenAI?

ScreenAI jest w stanie wykonywać zadania, które wcześniej były złożone, takie jak kontrola jakości i kontrola jakości specyficzna dla interfejsu użytkownika, adnotacje, podsumowania i nawigacja.

Advertisement

Według Google Research, ScreenAI jest w stanie osiągnąć najnowocześniejsze wyniki w zadaniach opartych na interfejsie użytkownika i infografikach, a także „najlepszą w swojej klasie” wydajność w porównaniu z modelami o podobnej wielkości.

Gdzie mogę wypróbować ScreenAI?

Będziemy musieli uzbroić się w cierpliwość, aby wypróbować tę przełomową technologię, ponieważ ScreenAI jest nadal projektem badawczym i nie jest obecnie dostępny do użytku publicznego. Nie ma też jeszcze informacji, kiedy może się to zmienić.

Advertisement