Google DeepMindは10月7日、AIがパソコンを操作できる新モデル「Gemini 2.5 Computer Use」を発表した。これは同社のAIモデル「Gemini 2.5 Pro」を基盤に、ブラウザーやウェブアプリのUIを理解して操作できるよう特化したもの。Google AI Studioや、Vertex AI経由でプレビュー提供を開始している。
AIはこれまでAPIを通じてソフトを制御していたが、フォーム入力やメニュー選択、ログイン後の作業など、多くの作業は人間による操作を必要としていた。新モデルはスクリーンショットと直前の操作履歴を解析し、クリック、入力、スクロールなどのアクションを自動で生成する。タスク完了までこの処理を繰り返す仕組みで、人間のように操作できるようになる。
モデルはWebブラウザーでの動作に最適化されている。デモではウェブで情報を取得して他サイトのCRMシステムに登録したり、スケジュールを自動で設定したりする複雑な操作をこなしている様子が示された。
性能面では、「Browserbase」ベンチマークなど複数の評価で他社モデルを上回り、精度と応答速度の両面で高い水準を示している。特にフォーム入力やドラッグ操作など複雑なGUI処理でも誤動作が少ないとされる。
安全性の面では、AIが勝手に商品の購入やシステム改変をしないよう、「ステップごとの安全審査」機能を搭載。危険な操作を自動実行させず、ユーザー確認を求めるよう指定できる。CAPTCHAの回避、医療機器制御といったリスクの高い動作は禁止されている。