モデル選択
Vision ツールは多段階の自動選択+自動フォールバック戦略を採用しており、手動設定なしで利用可能です:- メインモデル — 現在設定されているメインモデルで画像認識を実行(追加コストなし)
- その他の設定済みモデル — API キーが設定されている他のマルチモーダルモデルを自動検出
- OpenAI —
open_ai_api_keyを使用して gpt-4.1-mini を呼び出し - LinkAI —
linkai_api_keyを使用して LinkAI ビジョンサービスを呼び出し
use_linkai=true の場合、LinkAI が最優先になります。
現在のプロバイダーが失敗した場合、成功するかすべて失敗するまで自動的に次のプロバイダーを試行します。
対応モデル
| ベンダー | ビジョンモデル | 説明 |
|---|---|---|
| OpenAI / 互換プロトコル | メインモデル | すべての OpenAI 互換マルチモーダルモデルに対応 |
| 通義千問 (DashScope) | メインモデル | MultiModalConversation API 経由 |
| Claude | メインモデル | Anthropic ネイティブ画像形式 |
| Gemini | メインモデル | inlineData 形式 |
| 豆包 (Doubao) | メインモデル | doubao-seed-2-0 シリーズがネイティブ対応 |
| Kimi (Moonshot) | メインモデル | kimi-k2.5 がネイティブ対応 |
| 智谱 AI | glm-5v-turbo | 常にビジョン専用モデルを使用 |
| MiniMax | MiniMax-Text-01 | 常にビジョン専用モデルを使用 |
智谱 AI と MiniMax のテキストモデルは画像理解に対応していないため、対応するビジョン専用モデルが自動的に使用されます。
パラメータ
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
image | string | はい | ローカルファイルパスまたは HTTP(S) 画像 URL |
question | string | はい | 画像に対する質問 |
カスタム設定
Vision ツールで使用するモデルを指定するには、config.json に以下を追加します:
ユースケース
- 画像コンテンツの説明
- 画像からのテキスト抽出(OCR)
- オブジェクト、色、シーンの識別
- スクリーンショットやスキャン文書の分析
1MB を超える画像は自動的に圧縮されます(最大辺 1536px)。すべての画像(リモート URL を含む)は base64 に変換して送信され、すべてのモデルバックエンドとの互換性を確保します。
