OpenAIは、従来のチャットボットを超えた次世代のAI体験「ChatGPTエージェント」を発表しました。このエージェントは、複数ステップにまたがるタスクを自律的に遂行し、ファイルの操作やツールの実行、外部サービスとの連携などを一連の流れで行うことが可能です。ChatGPTに「税金に関するフォームを記入して」「売上レポートをグラフにして」と指示するだけで、必要な情報の収集から処理、出力までを一括してこなすようになります。本記事では、ChatGPT エージェントの定義、特徴、課題、今後の展望などを詳しく説明します。
Contents
- 1 ChatGPTエージェントとは?
- 2 ChatGPTエージェントの特徴
- 2.1 人間と共に働くエージェント
- 2.2 仮想コンピューターを駆使してマルチツールを統合的に利用
- 2.3 対話的かつ柔軟:繰り返し可能な共同作業型ワークフロー
- 2.4 実世界でのユーティリティを大幅に拡張
- 2.5 Humanity’s Last Exam(HLE)
- 2.6 FrontierMath
- 2.7 経済的価値の高い実務タスクにおける性能評価
- 2.8 DSBench:データサイエンス評価で人間を上回る
- 2.9 SpreadsheetBench:スプレッドシート操作の新基準
- 2.10 投資銀行業務における圧倒的なパフォーマンス
- 2.11 BrowseComp:ウェブ検索力で新SOTA達成
- 2.12 WebArena:実世界のブラウジングタスクで前モデルを超える
- 3 ChatGPTの「エージェントモード」の使い方
- 4 実行可能なタスク例
- 5 ChatGPTエージェントの課題と対策
- 6 【付録】SpreadsheetBenchの評価結果
- 7 よくある質問(FAQ)
- 8 まとめ
ChatGPTエージェントとは?

ChatGPT エージェントとは、OpenAIが提供する次世代のAIアシスタント機能です。これまでの単なる会話ベースのチャットを超え、ユーザーの指示に従って複雑な作業を自律的に実行する「エージェント機能」が追加されました。例えば、調査、スライド作成、会議準備、財務分析、さらには公共交通機関のベンチマークまで、ChatGPT エージェントは多様なタスクをこなします。
ChatGPTは今、自分自身のコンピューターを使って作業を行い、複雑なタスクを最初から最後まで処理できるようになりました。
これからは、ChatGPTに次のようなリクエストを頼むことができます:
- 「私のカレンダーを確認して、最近のニュースに基づいたクライアントとの今後の会議について要点をまとめて」
- 「4人分の和朝食を作るための材料を計画して購入して」
- 「3つの競合企業を分析して、スライド資料を作成して」
この新しい能力の中心にあるのは、統一されたエージェント的システム(agentic system)です。このシステムは、これまでの3つのブレークスルーの強みを統合したものです:
- Operator のウェブサイトとやり取りする能力
- Deep Research の情報を統合・要約するスキル
- ChatGPT の知能と会話の流暢さ
ChatGPTは、自らの仮想コンピューターを使用しながら、推論と行動を流れるように切り替えて、あなたの指示に基づいて複雑なワークフローを一貫して処理します。
ChatGPTは、重要なアクションを取る前に必ず許可を求めます。また、いつでも中断したり、ブラウザ操作を引き継いだり、タスクを停止することが可能です。
Pro、Plus、Teamユーザーは、作成画面のツールドロップダウンから「エージェントモード」を選択することで、ChatGPTの新しいエージェント機能を会話の中でいつでも有効化できるようになります。
OperatorとDeep Researchの自然な進化
これまで、OperatorとDeep Researchはそれぞれに独自の強みを持っていました。Operatorはウェブ上でスクロール、クリック、入力といった操作が可能であり、一方でDeep Researchは情報の分析と要約に優れた能力を発揮していました。
しかし、両者は異なる状況で最も効果を発揮していました。たとえば:
- Operatorは深い分析や詳細なレポートの作成は得意ではありませんでした。
- Deep Researchはウェブサイトと直接インタラクションして、結果を絞り込んだり、ユーザー認証が必要なコンテンツへアクセスしたりすることができませんでした。
実際、OpenAIが観察したところ、ユーザーがOperatorで試みた多くのリクエストは、実はDeep Researchのほうが適しているケースが多かったのです。
そこで、両者の長所を1つに統合することにしました。
ChatGPTエージェントの特徴
ChatGPTにこれら補完的な強みを統合し、さらに新しいツールを導入することで、1つのモデル内でまったく新しい能力が実現しました。
ChatGPTは今やウェブサイト上でアクティブに操作を行い、クリックし、情報をフィルタリングし、より正確かつ効率的に結果を収集することができます。
そして何より、通常の会話から、自然にアクションのリクエストへと移行することができるようになりました。つまり、チャットをしながら、そのまま作業の実行を頼めるのです。
人間と共に働くエージェント
OpenAIは、ChatGPT エージェントに一連の強力なツール群を装備しました:
- 視覚的ブラウザ:グラフィカルユーザーインターフェース(GUI)を通じてウェブとインタラクション可能
- テキストベースのブラウザ:よりシンプルで推論重視のウェブ検索に対応
- ターミナル:コマンド実行による高度な操作
- APIへの直接アクセス
さらに、ChatGPT Connectors(外部アプリとの連携機能)を活用することで、GmailやGitHubなどのアプリと接続し、プロンプトに関連する情報を検索・活用することも可能です。
また、ChatGPTがブラウザを使って任意のウェブサイトにログインできるように、ユーザーがブラウザ操作を一時的に引き継ぐこともできます。これにより、調査やタスク遂行の深さと広がりが飛躍的に向上します。
このように複数のアクセス経路を与えることで、ChatGPTはタスクに最適な手段を柔軟に選択し、効率よく作業を進めることができるのです。
たとえば:
- API経由でカレンダー情報を取得
- テキストブラウザで大量のテキストを効率的に処理
- ビジュアルブラウザで人間向けに設計されたサイトとインタラクション
仮想コンピューターを駆使してマルチツールを統合的に利用
これらすべての操作は、ChatGPT自身の仮想コンピューター上で実行されます。タスクに必要な文脈(コンテキスト)を保持しながら、複数のツールを組み合わせて作業を行います。
たとえば:
- テキストブラウザまたはビジュアルブラウザでページを開く
- ウェブからファイルをダウンロード
- ターミナルでコマンドを実行して加工
- ビジュアルブラウザで結果を表示
このようにして、ChatGPTは状況に応じてアプローチを柔軟に変えながら、高速かつ正確で効率的な作業を実現します。
対話的かつ柔軟:繰り返し可能な共同作業型ワークフロー
ChatGPT エージェントは、従来モデルよりもはるかにインタラクティブで柔軟な「反復的・共同作業型のワークフロー」を想定して設計されています。
作業中、ユーザーはいつでも指示の修正・追加・変更が可能です:
- 作業を中断して、方向性を修正
- 新しい指示を出してタスクを完全に切り替える
- 進捗状況の要約をリクエスト
- 作業を一時停止、または途中で終了し、部分的な結果だけを受け取ることも可能
ChatGPTも、必要に応じて目的に沿った作業のために追加情報をユーザーに積極的に尋ねてくることがあります。
さらに、ChatGPTアプリをスマートフォンにインストールしている場合、タスクの完了時に通知を受け取ることができます。
このように、ChatGPT エージェントは「作業するAI」として、高い自律性と対話性を兼ね備えた全く新しいパートナーになりつつあります。
実世界でのユーティリティを大幅に拡張
これらの統合されたエージェント機能により、ChatGPTは日常生活でもプロフェッショナルな場面でも、実用性が大きく向上しました。
仕事での活用例
- スクリーンショットやダッシュボードを、編集可能なベクター要素を含んだプレゼン資料へ自動変換
- 会議の再スケジュール
- オフサイトの計画と予約
- フォーマットを保ったまま財務データをスプレッドシートに更新
私生活での活用例
- 旅行プランの作成と予約
- ディナーパーティーのデザインと手配
- 専門医の検索とアポイントメントの予約
Humanity’s Last Exam(HLE)
専門レベルの幅広い分野の質問に答えるAI評価基準「Humanity’s Last Exam」では、ChatGPT エージェントを動かすモデルがpass@1スコアで41.6と、新たなSOTA(最先端)記録を達成しました。
- ChatGPT agent(ブラウザ+コンピューター+ターミナル):41.6
- Deep Research(Python+ブラウジング):26.6
- OpenAI o3(Python+ブラウジング):24.9
- ChatGPT agent(ツールなし):23.0
- OpenAI o3(ツールなし):20.3
さらに、最大8回の実行から最も自信のある回答を選ぶ並列戦略を導入すると、スコアは44.4に向上しました。
FrontierMath
最難関の数学ベンチマーク「FrontierMath」(未公開・未発表の問題多数)では、ChatGPT エージェントが27.4*の正解率を記録。他のモデルを大幅に上回る結果を示しました。
- ChatGPT agent:27.4%
- OpenAI o4-mini:19.3%
- OpenAI o3:10.3%
経済的価値の高い実務タスクにおける性能評価
内部ベンチマークでは、経済的価値の高い実務タスクを対象に、ChatGPT エージェントのアウトプットが約半数のケースで人間と同等またはそれ以上と評価されました。
- タスク例:
- 急患対応クリニック市場の競合分析
- 詳細な償却スケジュールの構築
- グリーン水素施設の適切な井戸の特定
タスク所要時間別のパフォーマンス:
|
所要時間 |
ChatGPT エージェント 勝利 |
ChatGPT エージェント 引き分け |
|
1〜3時間 |
高スコア |
中〜高 |
|
4〜6時間 |
高スコア |
高 |
|
7〜9時間 |
優位性あり |
中 |
|
10時間超 |
優位性あり |
中 |
DSBench:データサイエンス評価で人間を上回る
現実的なデータ分析・モデリングタスクを扱う「DSBench」においても、ChatGPT エージェントは顕著な成果を示しました。
データ分析タスク
- ChatGPT agent:89.9%
- OpenAI o3:87.9%
- 人間:64.1%
- GPT-4o:34.1%
データモデリングタスク
- ChatGPT agent:85.5%
- OpenAI o3:77.1%
- 人間:65.0%
- AutoGen + GPT-4o:45.5%
SpreadsheetBench:スプレッドシート操作の新基準
スプレッドシート編集能力を測る「SpreadsheetBench」では、ChatGPT エージェントが45.5%と他モデルを大きく上回るスコアを記録。特に.xlsxファイルへの直接アクセス機能付きでは71.3%**という高精度を発揮。
|
モデル・環境 |
スコア |
|
ChatGPT agent(.xlsxあり) |
71.3% |
|
ChatGPT agent |
45.5% |
|
OpenAI o3 |
23.3% |
|
GPT-4o(OSX) |
16.8% |
|
Copilot in Excel |
20.0% |
|
GPT-4o(Windows) |
18.4% |
|
人間 |
35.3% |
※評価にはOSX環境+LibreOfficeを使用(公式ベンチマークはWindows+Excel)
投資銀行業務における圧倒的なパフォーマンス
1〜3年目の投資銀行アナリスト向けタスク(3ステートメントモデル作成、LBOモデル構築など)でも、ChatGPT エージェントが**71.3%**という高精度を記録。
- ChatGPT agent:71.3%
- Deep research:55.9%
- OpenAI o3:48.6%
BrowseComp:ウェブ検索力で新SOTA達成
Web上の難しい情報を探す能力を測る「BrowseComp」では、ChatGPT エージェントが**68.9%**と、deep research(51.5%)を17.4ポイント上回る新記録を樹立しました。
- ChatGPT agent:68.9%
- Deep research:51.5%
- OpenAI o3:49.7%
WebArena:実世界のブラウジングタスクで前モデルを超える
WebArena(実世界のウェブタスクを扱うベンチマーク)でも、ChatGPT エージェントはo3ベースのOperatorモデルを上回る性能を示しました。
ChatGPTの「エージェントモード」の使い方
概要
ChatGPTの新しい「エージェント機能」は、Composer(作成画面)のツールドロップダウンから「エージェントモード」を選択することで、会話中いつでも起動できます。
使い方
やりたい作業を自然な言葉で伝えるだけでOKです。たとえば:
- 「市場調査をして」
- 「スライドを作って」
- 「経費を申請して」
といった指示をすれば、ChatGPTがそのタスクを自動で実行してくれます。
実行中は、画面上にナレーション形式で進捗状況が表示され、何をしているのかが一目で分かります。必要があれば、途中で手動でブラウザ操作を引き継ぐことも可能です。
ワークフローとの連携(コネクタ)
ChatGPT エージェントは、ユーザーのワークフローと連携するために「コネクタ」にアクセス可能です。認証後は、以下のようなアクションが可能になります:
- 今日の受信トレイを要約
- ミーティング候補日程の検索
- 指定サイトでの情報収集や操作(※ログインはユーザーが行う)
タスクの自動化・スケジューリング
完了したタスクは、定期的に自動実行するようスケジュール設定できます。
例:毎週月曜日にKPIレポートを自動作成し、送信する など。
実行可能なタスク例
|
タスク名 |
説明 |
|
財務分析 |
将来予測や前提を反映した財務モデルの更新とサマリー作成 |
|
ディナーパーティー企画 |
『三国志』をテーマに、6品コースの料理の企画・買い出し・準備まで実行 |
|
公共交通ベンチマーク |
世界7都市の交通システムをシカゴと比較し、データとレポートを作成 |
|
クライアントミーティング準備 |
カレンダーデータを使って、通話ログ・戦略変更をまとめたレポートとスライドを作成 |
ChatGPTエージェントの課題と対策
これは画期的な進化である一方で、新たなリスクも生じます。特に、ChatGPT エージェントがコネクタ経由や、ユーザーがログインして操作を引き継いだWebサイト上で直接データにアクセスし操作できるようになった点が重要です。
このため、Operator(従来のブラウジング機能)での研究段階で得られた強固な制御機構をさらに強化し、次のような課題に対する安全対策を追加しました:
- ライブWeb上での機密情報の扱い
- より多くのユーザー層への公開
- ターミナルの(限定的な)ネットワークアクセス
これらの対策によりリスクは大幅に低減されましたが、ツールの拡張とユーザーの拡大に伴い、ChatGPT エージェント全体としてのリスクプロファイルは高くなっています。
■ プロンプトインジェクションへの対策
特に重点を置いて対策しているのが、プロンプトインジェクション(Prompt Injection)です。
これは、エージェント型AI全般に共通するリスクであり、第三者が悪意のある命令を埋め込むことで、エージェントの動作を不正に操るものです。
たとえば、Webページの目に見えない要素やメタデータに悪意あるプロンプトが仕込まれていた場合:
- コネクタ経由で取得したプライベート情報が攻撃者に送信される
- ユーザーがログイン中のWebサイト上で意図しない有害な操作が実行される
といった危険性があります。
ChatGPT エージェントはこのような攻撃に対応できるよう学習・テスト済みであり、さらに監視システムによって異常な挙動を検出し即時対応します。
また、重大な操作前にはユーザーの明示的な確認を必須とすることで、リスクを最小化しています。
ユーザー自身も、必要のないタスク時にはコネクタを無効化するなど、情報提供とリスクのバランスを取る判断が求められます。
■ モデルのミス(誤動作)への対策
ChatGPTが現実世界に影響を与えるタスクを実行できるようになったため、以下のような対策も講じられています:
- 明示的な確認:現実に影響を与える操作(例:購入)を行う前に、必ずユーザーに確認を求めるよう訓練されています。
- 監視モード(Watch Mode):メール送信などの重要タスクでは、ユーザーが積極的に監視・承認する必要があります。
- 積極的なリスク拒否:銀行振込などの高リスクな操作は、ChatGPTが自動的に拒否するようになっています。
■ データアクセス制限とプライバシー管理
モデルがアクセス可能なデータを制限するためのコントロールも追加されています:
- プライバシー設定:ChatGPTの設定画面からワンクリックで、すべてのブラウジングデータを削除し、すべてのWebセッションから即時ログアウト可能です。
(※通常は、訪問先サイトのクッキーポリシーに従い、Cookieが保持されます。) - 安全なブラウザ操作モード:「操作引き継ぎモード(takeover mode)」でWebを操作する際、ChatGPTは入力した情報(パスワードなど)を収集・保存しません。
これは、ChatGPT自身がそれらの情報を必要としないためであり、情報を「見せない」ことが最も安全だと考えられているからです。
【付録】SpreadsheetBenchの評価結果
| モデル | 評価環境 | セルレベル制約(%) | シートレベル制約(%) | 総合制約率(%) |
|---|---|---|---|---|
| GPT-4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
| Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
| GPT-4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
| OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
| ChatGPT エージェント | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
| ChatGPT エージェント(.xlsx) | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
今後の展望
ChatGPT エージェントは、まだ発展途上です。多くの複雑なタスクに対応できますが、ミスをすることもあります。
■ スライド作成機能(ベータ)
プレゼン用のスライド生成は注目機能ですが、現在はベータ版であり、特に既存資料なしでの作成時には、フォーマットや見た目が簡素に感じられる場合があります。
- 初期開発では、テキスト・図表・画像・図形などを組み合わせ、情報構造に優れた柔軟なスライド資料を生成することに注力
- エクスポート後のPowerPointファイルと表示ビューの不一致が起こることがあり、現在改善中
- 現在はスプレッドシートのアップロード・編集は可能ですが、スライド資料でのテンプレート利用機能は未対応
今後は、より洗練された出力とフォーマット改善を実現する次世代モデルの訓練を進行中です。
ChatGPT エージェントは以下の点で継続的な進化が期待されます:
- 処理の効率化
- 深さと柔軟性の向上
- ユーザーによる監督負担の最適化
- より自然でシームレスな対話体験
安全性を最優先しつつ、より便利でパワフルな「エージェント」として進化を続けます。
よくある質問(FAQ)

ChatGPTエージェントとは何ですか?
ChatGPTエージェントは、ユーザーの意図を理解し、複雑なタスクを複数のステップに分解して自律的に実行するAI機能です。ファイル操作やツールの起動、Web検索なども含まれます。
通常のChatGPTと何が違うのですか?
通常のChatGPTは主にテキストベースの応答に特化していますが、ChatGPTエージェントはタスクを「実行」できるのが最大の違いです。ツールを使って作業を進めたり、複数のファイルを横断して処理したりすることができます。
どのようなタスクが可能ですか?
例として、複雑なスプレッドシートの分析、複数ドキュメントの要約、Web上での情報収集、アプリケーション間でのデータ転送などが挙げられます。
ChatGPTエージェントはいつ利用可能になりますか?
現在は段階的な展開中で、まずは一部の有料プランユーザー向けにリリースされ、今後数ヶ月かけて順次拡大される予定です。
ChatGPTエージェントは安全ですか?
OpenAIは、エージェントの行動に関する厳格な制御・ガードレールを設けており、ユーザーの意図と一致しない行動を避けるための安全対策が施されています。
開発者はエージェントをカスタマイズできますか?
はい、OpenAIは今後、開発者が自分専用のエージェントを作成できるツールを提供予定です。独自のAPI、ファイル、アプリケーションと連携可能なカスタムエージェントの構築が視野に入っています。
まとめ
ChatGPT エージェントは、AIとの対話をよりインテリジェントかつ実用的な体験へと進化させる大きな一歩です。複雑な操作や手間のかかる作業を自然言語の指示だけでこなせるこの新機能は、ビジネスや日常生活におけるAIの活用範囲を劇的に広げます。OpenAIは現在、安全性とユーザー体験の両立を図りながら、段階的なロールアウトを進めており、今後さらに高度なエージェント機能の展開も予定されています。AIが「単なるツール」から「知的な協働パートナー」へと変化する未来が、いよいよ現実のものとなろうとしています。