メインコンテンツへスキップ
Vision API を使用してローカル画像や画像 URL を分析します。コンテンツの説明、テキスト抽出(OCR)、オブジェクト認識などに対応しています。

モデル選択

Vision ツールは多段階の自動選択+自動フォールバック戦略を採用しており、手動設定なしで利用可能です:
  1. メインモデル — 現在設定されているメインモデルで画像認識を実行(追加コストなし)
  2. その他の設定済みモデル — API キーが設定されている他のマルチモーダルモデルを自動検出
  3. OpenAIopen_ai_api_key を使用して gpt-4.1-mini を呼び出し
  4. LinkAIlinkai_api_key を使用して LinkAI ビジョンサービスを呼び出し
use_linkai=true の場合、LinkAI が最優先になります。 現在のプロバイダーが失敗した場合、成功するかすべて失敗するまで自動的に次のプロバイダーを試行します。

対応モデル

ベンダービジョンモデル説明
OpenAI / 互換プロトコルメインモデルすべての OpenAI 互換マルチモーダルモデルに対応
通義千問 (DashScope)メインモデルMultiModalConversation API 経由
ClaudeメインモデルAnthropic ネイティブ画像形式
GeminiメインモデルinlineData 形式
豆包 (Doubao)メインモデルdoubao-seed-2-0 シリーズがネイティブ対応
Kimi (Moonshot)メインモデルkimi-k2.5 がネイティブ対応
智谱 AIglm-5v-turbo常にビジョン専用モデルを使用
MiniMaxMiniMax-Text-01常にビジョン専用モデルを使用
智谱 AI と MiniMax のテキストモデルは画像理解に対応していないため、対応するビジョン専用モデルが自動的に使用されます。

パラメータ

パラメータ必須説明
imagestringはいローカルファイルパスまたは HTTP(S) 画像 URL
questionstringはい画像に対する質問
対応画像形式:jpg、jpeg、png、gif、webp

カスタム設定

Vision ツールで使用するモデルを指定するには、config.json に以下を追加します:
{
    "tool": {
        "vision": {
            "model": "gpt-4o"
        }
    }
}
ほとんどの場合、設定は不要です。メインモデルがマルチモーダルに対応しているか、ビジョン対応の API キーが設定されていれば自動的に動作します。

ユースケース

  • 画像コンテンツの説明
  • 画像からのテキスト抽出(OCR)
  • オブジェクト、色、シーンの識別
  • スクリーンショットやスキャン文書の分析
1MB を超える画像は自動的に圧縮されます(最大辺 1536px)。すべての画像(リモート URL を含む)は base64 に変換して送信され、すべてのモデルバックエンドとの互換性を確保します。