Vision API を使用してローカル画像や画像 URL を分析します。コンテンツの説明、テキスト抽出(OCR)、オブジェクト認識などに対応しています。Documentation Index
Fetch the complete documentation index at: https://docs.cowagent.ai/llms.txt
Use this file to discover all available pages before exploring further.
モデル選択
Vision ツールは多段階の自動選択 + 自動フォールバック戦略を採用しており、手動設定なしで利用できます:- メインモデル — 現在設定されているメインモデルを優先的に使用して画像認識を行います(マルチモーダルモデルである必要があります)
- その他の設定済みモデル — API Key が設定済みのその他のマルチモーダルモデルを自動的に検出して候補とします
対応モデル
| プロバイダー | ビジョンモデル | 説明 |
|---|---|---|
| OpenAI / 互換プロトコル | メインモデルを使用 | すべての OpenAI 互換マルチモーダルモデルに対応 |
| 通義千問 (DashScope) | メインモデルを使用 | 例:qwen3.6-plus など |
| Claude | メインモデルを使用 | Anthropic ネイティブ画像形式 |
| Gemini | メインモデルを使用 | inlineData 形式 |
| 豆包 (Doubao) | メインモデルを使用 | doubao-seed-2-0 シリーズがネイティブ対応 |
| Kimi (Moonshot) | メインモデルを使用 | kimi-k2.6、kimi-k2.5 がネイティブ対応 |
| 百度 Qianfan | メインモデルを使用 | デフォルトでマルチモーダルメインモデル(ernie-5.1 など)を使用。メインモデルが非対応の場合は ernie-4.5-turbo-vl にフォールバック |
| 智谱 AI | glm-5v-turbo | 常にビジョン専用モデルを使用 |
| MiniMax | MiniMax-Text-01 | 常にビジョン専用モデルを使用 |
智谱と MiniMax のテキストモデルは画像理解に対応していないため、常に対応するビジョン専用モデルが使用されます。手動で指定する必要はありません。
use_linkai=true の場合、デフォルトで LinkAI のマルチモーダルモデルが使用されます。
カスタム設定
Vision で使用するモデルを指定したい場合は、config.json に以下のように設定できます:
パラメータ
| パラメータ | 型 | 必須 | 説明 |
|---|---|---|---|
image | string | はい | ローカルファイルパスまたは HTTP(S) 画像 URL |
question | string | はい | 画像に対する質問 |
ユースケース
- 画像コンテンツの説明
- 画像からのテキスト抽出(OCR)
- オブジェクト、色、シーンの認識
- スクリーンショットやスキャン文書などの分析
1MB を超える画像は自動的に圧縮してアップロードされます。すべての画像(リモート URL を含む)は base64 に統一変換して送信され、すべてのモデルバックエンドとの互換性を確保します。
