ブラウザ自動化AIエージェントが今熱い理由
AIエージェントの主戦場がコード生成からブラウザ操作へと広がっています。
これまでのRPA(Robotic Process Automation)は、DOMセレクタの変更だけでスクリプトが壊れるという弱点がありました。AIエージェントはページの意味を理解して操作するため、画面構造が変わっても柔軟に対応できます。
2026年に入り、ブラウザ自動化エージェントの選択肢は急速に増えています。Playwright MCP、Browser Use、そして今回比較する2ツールもその流れの中にあります。
特に注目されているのが以下の2つです。
- Page Agent(Alibaba製・MIT・GitHub Stars 6.9k)
- Claude in Chrome(Anthropic製・MCP方式)
どちらを選ぶべきか。答えは「何に使うか次第」ですが、実機データを見れば判断はずっと楽になります。
Page Agentとは何か
Page Agentは、Alibabaが公開したオープンソースのブラウザ内AIエージェントです。
基本仕様
GitHubで6,900以上のスターを獲得しており、MITライセンスで商用利用も可能です。バージョン1.5.6時点での主な仕様は以下の通りです。
| 項目 | 詳細 |
|---|---|
| ライセンス | MIT |
| GitHub Stars | 6,900+ |
| 対応LLM | Qwen 3.5 Plus(Alibaba Cloud)+ 任意のLLM |
| 操作方式 | テキストDOM解析 → JavaScript実行 |
| セットアップ | CDN 1行で即動作 |
動作の仕組み
Page Agentの最大の特徴は、ページ内JavaScriptとして動作する点です。
外部サーバーへの通信を最小限に抑えつつ、ページのDOMを直接操作します。テキストベースのDOM解析を行い、LLMに「次に何をすべきか」を判断させ、その結果をJavaScriptで即座に実行します。
ページ内で完結するため、MCP経由の往復遅延が発生しません。これが速度面での優位性につながっています。
Claude in Chromeとは何か
Claude in ChromeはAnthropicが提供するChrome拡張機能で、MCP(Model Context Protocol)を通じてClaude CodeからブラウザをAIエージェントとして操作できる仕組みです。
基本仕様
| 項目 | 詳細 |
|---|---|
| 提供元 | Anthropic |
| 方式 | DOM状態読取り + MCPブリッジ |
| LLM | Claude(プランにより異なる※) |
| 実行場所 | CLIからMCPブリッジ経由 |
| 連携範囲 | ブラウザ操作 + ファイル操作 + API呼び出し |
動作の仕組み
Claude in ChromeはページのDOM状態・スクリーンショット・JavaScript実行を組み合わせてページ構造を把握します。Claude Codeのターミナルから指示を出すと、MCPブリッジを経由してChromeを操作します。
なお、Claude in Chromeで使用されるLLMはプランによって異なります。Proプランでは現在Haiku 4.5に限定されており、Max/Team/Enterpriseプランではモデルを自由に選択できます。今回の検証ではClaude Code CLI経由(Opus 4.6)で実行しています。
単独のブラウザ操作だけでなく、ファイル操作・外部API呼び出し・複数タブの横断操作まで一貫して処理できる点が特徴です。Claude CodeのAIエージェントとして機能するため、複雑なワークフローの一部としてブラウザ操作を組み込めます。
検証方法:同一テストページで3タスクを実行
実機比較の信頼性を高めるため、同一のHTMLテストページを用意し、全く同じ3タスクを両ツールで実行しました。
テスト環境
| 項目 | 値 |
|---|---|
| OS | macOS |
| ブラウザ | Chrome |
| Node | v25.7.0 |
| Page Agent | v1.5.6(CDN demo) |
| Claude in Chrome | MCP拡張(2026-03) |
| Page AgentのLLM | Qwen 3.5 Plus |
| Claude in ChromeのLLM | Claude Opus 4.6(Claude Code CLI経由) |
3つのテストタスク
Task 1: フォーム入力(4フィールド + 送信)
名前・メールアドレス・職種(セレクトボックス)・メッセージの4項目を入力してフォームを送信するタスクです。最も基本的なWebフォーム操作を検証します。
Task 2: テーブルデータ抽出と分析
部署別の予算データが入ったHTMLテーブルを読み取り、「予算が100万円以上の部署を特定して合計を計算する」タスクです。データ抽出能力を検証します。
Task 3: 複数ステップ操作(カウンター3回 + 入力 + 確認)
カウンターボタンを3回クリックし、特定の値に達したらテキストを入力して確認ボタンを押すタスクです。状態管理が必要な複数ステップ操作を検証します。
検証結果:数値データで徹底比較
結果サマリー
| タスク | 内容 | Page Agent | Claude in Chrome | 勝者 |
|---|---|---|---|---|
| Task 1 | フォーム4項目入力+送信 | 36.24秒 | 39.45秒 | PA(僅差) |
| Task 2 | テーブルデータ読取+分析 | 6.32秒 | 18.66秒 | PA |
| Task 3 | ボタン3回→入力→確認 | 34.68秒 | 59.36秒 | PA |
| 合計 | — | 77.24秒 | 117.47秒 | Page Agent |
3タスク合計でPage Agentが約35%高速という結果になりました。
注意: Claude in Chromeの時間にはLLM推論時間(ツール呼び出し間の思考)を含みます。純粋なツール実行時間はより短くなります。
Task 1詳細:フォーム入力
Page Agentの動作: 1回のexecute()呼び出しで4フィールド全てを入力し、送信まで完了しました。セレクトボックス(「エンジニアリング」)も正確に選択し、送信後の確認メッセージまで認識してレポートを返しました。
Claude in Chromeの動作: form_input × 4回 + left_click × 1回の計5回ツール呼び出しが発生しました。各ツール間にLLM推論時間が入るためオーバーヘッドが生じました。
所見: Page Agentは「1命令で複数操作」が強みです。Claude in Chromeは1操作ずつ確実に実行しますが、呼び出し回数が増える分だけ時間がかかります。
Task 2詳細:テーブルデータ抽出
Page Agentの動作: 6.32秒で完了(DOM読み取りのみのため最速)。マーケティング部門(120万円)・営業部門(210万円)・カスタマーサポート部門(150万円)を正確に特定し、日本語でフォーマットしたレポートを返しました。
Claude in Chromeの動作: read_page → LLM解析の2ステップで18.66秒。アクセシビリティツリーからテーブル構造を読み取り、ClaudeがCLI側で分析します。結果の正確性は同等でした。
所見: データ抽出はPage Agentが圧勝です。Page Agentはページ内LLMが直接処理するのに対し、Claude in ChromeはDOMデータをCLI側に転送してから解析するため往復遅延が発生します。
Task 3詳細:複数ステップ操作
Page Agentの動作: 34.68秒で完了。ボタンを3回順番にクリックし(各約4〜6秒間隔)、各ステップの実行状態を「記憶」しながら確実に進行しました。
Claude in Chromeの動作: left_click(ref)でonclickイベントが発火しない問題が発生しました。JavaScript経由での.click()呼び出しで対応し、最終的に59.36秒(問題対処時間を含む)かかりました。
所見: Page Agentはページ内JSで直接DOM操作するため、イベントハンドラの発火が確実です。Claude in ChromeのMCPブリッジ経由のクリックでは、onclick属性のイベントが発火しないケースが確認されました。
8軸で徹底比較:どちらが優れているか
速度以外の観点でも比較評価を行いました。
| 評価軸 | Page Agent | Claude in Chrome |
|---|---|---|
| セットアップ容易性 | ★★★★★ | ★★★ |
| 日本語対応 | ★★★★ | ★★★★★ |
| 操作精度 | ★★★★★ | ★★★★ |
| 速度 | ★★★★ | ★★★ |
| 複雑なタスク対応 | ★★★ | ★★★★★ |
| LLMカスタマイズ | ★★★★★ | ★★ |
| マルチページ対応 | ★★★ | ★★★★★ |
| デバッグ容易性 | ★★★★ | ★★★ |
セットアップ容易性
Page AgentはCDN 1行をHTMLに追加するだけで即動作します。Claude in Chromeは拡張機能のインストールとMCP接続設定が必要なため、初期設定のハードルがやや高めです。
日本語対応
Claude in ChromeはClaudeが直接処理するため、日本語の理解・生成ともに最高品質です。Page AgentはQwenベースで実用上十分な日本語対応ですが、微妙なニュアンスではClaude in Chromeに軍配が上がります。
複雑なタスク対応
ここはClaude in Chromeが圧倒的に有利です。マルチタブ操作・外部API連携・ファイル操作まで、ブラウザを超えたワークフロー全体をClaude Codeが統合処理できます。Page Agentは基本的に単一ページ内の操作に限定されます。
LLMカスタマイズ
Page AgentはAPIエンドポイントを変更するだけで任意のLLMに差し替えられます。コスト管理や自社LLM活用を重視する場合に有利です。Claude in ChromeはClaude固定のため選択肢がありません。
どう使い分けるか:棲み分けガイド
検証結果をもとに、2つのツールの最適なユースケースをまとめます。
Page Agentが向いているケース
Page AgentはWebアプリケーションへのAI機能組み込みに最適です。
- SaaSプロダクトへのAIアシスタント組み込み(ページ内完結で軽量)
- フォーム自動入力・データ抽出などの定型操作の自動化
- 処理速度が重要なシナリオ(バッチ処理・大量操作)
- 自社LLMやコスト最適化されたLLMを使いたい場面
具体的には、社内の業務Webシステムへの自動入力ボット、データ収集システムのWebスクレイピング部分、SaaS製品の「AIで入力支援」機能などに向いています。
Claude in Chromeが向いているケース
Claude in Chromeは開発者のワークフロー自動化に最適です。
- 複数サイトを横断する複雑なリサーチワークフロー
- ブラウザ操作 + ファイル保存 + API呼び出しの統合タスク
- 高度な推論・判断が必要なタスク(Claudeの知性を活かす)
- Claude Codeのターミナルワークフローに組み込む場合
具体的には、競合調査の自動化(複数サイト閲覧→分析→レポート保存)、フォーム入力+確認メール確認の一連作業、Webから情報収集してドキュメント作成するパイプラインなどに向いています。
ハイブリッド構成という第3の選択肢
両者は競合ではなく補完関係にあります。
Claude in Chrome(オーケストレーター)
↓ 複雑な判断・マルチページ操作
Page Agent MCP(スペシャリスト)
↓ 単一ページ内の高速操作
Page AgentをMCPツールとして登録し、Claude in Chromeから呼び出すハイブリッド構成も技術的には実現可能です。複雑なワークフローの中で、特定ページの高速操作が必要な場面をPage Agentに委譲するアーキテクチャが考えられます。
まとめ
今回はPage AgentとClaude in Chromeを同一条件で実機比較しました。
この記事のポイント
- ポイント1:速度はPage Agentが優位(合計77秒 vs 117秒、約35%差)
- ポイント2:Page Agentはページ内完結・定型操作向け、Claude in Chromeは複雑ワークフロー向け
- ポイント3:どちらが「勝ち」ではなく、ユースケースによる使い分けが最適解
単一ページ内の高速な定型操作ならPage Agent、ブラウザを超えた複雑ワークフローならClaude in Chromeが適しています。
どちらのツールも無料・オープンに試せます。まず自分のユースケースをリストアップし、上記の使い分けガイドと照らし合わせてみてください。
ブラウザ自動化AIエージェントの選択に悩んでいた方の参考になれば幸いです。
検証環境: macOS / Chrome / Node v25.7.0 / Page Agent v1.5.6 / Claude in Chrome MCP(2026-03)
参考リンク
Page Agent
- GitHub リポジトリ(alibaba/page-agent) — ソースコード・README・リリースノート
- 公式ドキュメント — セットアップガイド・API仕様
Claude in Chrome
- Chrome Web Store — Claude — 拡張機能インストール
- Getting Started with Claude in Chrome(Anthropic Support) — 公式セットアップガイド
- Claude Code ドキュメント — MCP連携・CLI操作の公式リファレンス
関連ツール(記事内で言及)
- Playwright MCP(Microsoft) — Microsoftによるブラウザ自動化MCP
- Browser Use — オープンソースのブラウザ自動化エージェント

コメント