vision - 画像理解

Vision API を使用してローカル画像や画像 URL を分析します。コンテンツの説明、テキスト抽出（OCR）、オブジェクト認識などに対応しています。

モデル選択

Vision ツールは多段階の自動選択 + 自動フォールバック戦略を採用しており、手動設定なしで利用できます：

メインモデル — 現在設定されているメインモデルを優先的に使用して画像認識を行います（マルチモーダルモデルである必要があります）
その他の設定済みモデル — API Key が設定済みのその他のマルチモーダルモデルを自動的に検出して候補とします

現在のプロバイダーで呼び出しに失敗した場合、成功するかすべて失敗するまで自動的に次のプロバイダーを試行します。

対応モデル

プロバイダー	ビジョンモデル	説明
OpenAI / 互換プロトコル	メインモデルを使用	すべての OpenAI 互換マルチモーダルモデルに対応
通義千問 (DashScope)	メインモデルを使用	例：qwen3.6-plus など
Claude	メインモデルを使用	Anthropic ネイティブ画像形式
Gemini	メインモデルを使用	inlineData 形式
豆包 (Doubao)	メインモデルを使用	doubao-seed-2-0 シリーズがネイティブ対応
Kimi (Moonshot)	メインモデルを使用	kimi-k2.6、kimi-k2.5 がネイティブ対応
百度 Qianfan	メインモデルを使用	デフォルトでマルチモーダルメインモデル（`ernie-5.1` など）を使用。メインモデルが非対応の場合は `ernie-4.5-turbo-vl` にフォールバック
智谱 AI	glm-5v-turbo	常にビジョン専用モデルを使用
MiniMax	MiniMax-Text-01	常にビジョン専用モデルを使用

智谱と MiniMax のテキストモデルは画像理解に対応していないため、常に対応するビジョン専用モデルが使用されます。手動で指定する必要はありません。

use_linkai=true の場合、デフォルトで LinkAI のマルチモーダルモデルが使用されます。

カスタム設定

Vision で使用するモデルを指定したい場合は、config.json に以下のように設定できます：

{
    "tools": {
        "vision": {
            "model": "gpt-4.1"
        }
    }
}

指定したモデルが優先的に使用され、ツールはモデル名に応じて対応するプロバイダーへ自動ルーティングします。呼び出しに失敗した場合は、他の設定済みプロバイダーへ自動的にフォールバックします。ほとんどの場合、設定は不要です。メインモデルがマルチモーダルに対応しているか、ビジョン対応の API Key が 1 つでも設定されていれば自動的に動作します。

パラメータ

パラメータ	型	必須	説明
`image`	string	はい	ローカルファイルパスまたは HTTP(S) 画像 URL
`question`	string	はい	画像に対する質問

対応画像形式：jpg、jpeg、png、gif、webp

ユースケース

画像コンテンツの説明
画像からのテキスト抽出（OCR）
オブジェクト、色、シーンの認識
スクリーンショットやスキャン文書などの分析

1MB を超える画像は自動的に圧縮してアップロードされます。すべての画像（リモート URL を含む）は base64 に統一変換して送信され、すべてのモデルバックエンドとの互換性を確保します。

Documentation Index

​モデル選択

​対応モデル

​カスタム設定

​パラメータ

​ユースケース

モデル選択

対応モデル

カスタム設定

パラメータ

ユースケース