ScreenAI とは: Google テクノロジーの説明

Google Research を通じて最近導入された ScreenAI は、Google のエキサイティングな新しいテクノロジーです。

まだ研究段階にありますが、ScreenAI の詳細、その仕組み、そしてこのテクノロジーを自分で試す機会がいつ得られるかについては、この記事を読んでください。

ScreenAIとは何ですか？

ScreenAI は、「UI およびインフォグラフィックスベースのタスクで最先端の結果を達成する、ユーザーインターフェイスおよびインフォグラフィックス用の新しいビジョン言語モデル」であると説明されています。

言い換えれば、ScreenAI はビジョン言語モデルであり、画像データとテキストデータを同時に理解できることを意味します。ユーザーインターフェイス (UI) や、グラフ、図、表などのインフォグラフィックからデータを読み取って理解する際の複雑さを軽減するために構築されました。

簡単に言うと、ScreenAI にスクリーンショットやグラフィックの要約を依頼すると、その明確で簡潔な要約が得られるはずです。また、スクリーンショットに基づいて ScreenAI に質問し、提供されたデータに基づいて正しい回答を受け取ることもできます。

ScreenAIはどのように機能しますか?

まず、ScreenAI のアーキテクチャは多言語言語画像モデル PaLI に基づいて構築されていますが、ScreenAI は実際に pix2struct を使用してこれを改良しています。 Pix2struct は、視覚言語を理解するための事前トレーニング済みの画像からテキストへのモデルであり、視覚的に位置する言語を含むタスクに合わせて微調整できます。

ScreenAI は 2 つの段階を使用して動作します。1 つは公的にアクセス可能な Web ページを使用して実現される自己教師あり学習の事前トレーニング段階、もう 1 つは実際のユーザーが手動で並べ替えたデータを使用する微調整段階です。

ScreenAI とともに、モデルをさらに最終的に評価するのに役立つ 3 つの新しいデータセットがリリースされました。これらのデータセットには、ScreenAI、ScreenQA、Complex ScreenQA のレイアウト理解機能を評価して質問応答 (QA) 機能を評価する Screen Annotation が含まれています。

ScreenAIのメリットは何ですか?

ScreenAI は、QA や UI 固有の QA、注釈、概要、ナビゲーションなど、以前は複雑だったタスクを実行できます。

Google Research によると、ScreenAI は UI およびインフォグラフィックベースのタスクで最先端の結果を達成し、同様のサイズのモデルと比較して「クラス最高」のパフォーマンスを達成できます。

ScreenAI はどこで試せますか?

ScreenAI はまだ研究プロジェクトであり、現在は一般公開されていないため、この画期的なテクノロジーを試すには忍耐が必要です。また、これがいつ変更されるかについてはまだ示されていません。