汎用の画像生成・編集スキルです。OpenAI、Gemini、Seedream(Volcengine Ark)、Qwen(DashScope)、MiniMax、LinkAI の 6 つのプロバイダーに対応しています。いずれか 1 社の Key を設定すれば利用でき、複数社を設定すると自動フォールバックが有効になります。
対応モデル
| プロバイダー | モデル / エイリアス | 特徴 |
|---|
| OpenAI | gpt-image-2、gpt-image-1 | 汎用テキスト→画像、高品質、quality で画質制御に対応 |
| Gemini Nano Banana | nano-banana-2、nano-banana-pro、nano-banana | gemini-3.1-flash、gemini-3-pro、gemini-2.5-flash の画像バージョン |
| Seedream(Volcengine Ark) | seedream-5.0-lite、seedream-4.5 | ネイティブ 2K–4K、最大 14 枚の画像融合 |
| Qwen(DashScope) | qwen-image-2.0、qwen-image-2.0-pro | 中国語のレイアウトや画像とテキストの融合に強い |
| MiniMax | image-01 | シンプルで高速 |
| LinkAI | 任意のモデル | 統一ゲートウェイ、フォールバック用途 |
モデル選択
デフォルトでは「自動ルーティング + 失敗時フォールバック」で動作します:
OpenAI → Gemini → Seedream → Qwen → MiniMax → LinkAI の順に、設定済みのプロバイダーを最初に選択
- 401、モデル未開通、ネットワークエラーなどに遭遇した場合、自動的に次のプロバイダーへ切り替え
- ユーザーが対話内でモデルを指定した場合(例:「seedream で猫を描いて」)、該当プロバイダーが優先候補に繰り上がります
特定のモデルに固定したい場合:
{
"skills": {
"image-generation": {
"model": "seedream-5.0-lite"
}
}
}
API Key の設定
Web コンソール の「モデル管理」ページから設定するのが推奨です。設定済みの対話モデル Key は画像生成スキルでも自動的に再利用されるため、重複した設定は不要です。設定ファイルを手動編集するか、対話中に env_config ツールで一時的に設定することもできます。
認証情報はメインモデルプロバイダーの Key を統一的に再利用します:
| フィールド | 対応プロバイダー |
|---|
openai_api_key | OpenAI |
gemini_api_key | Gemini |
ark_api_key | Volcengine Ark(Seedream) |
dashscope_api_key | Alibaba DashScope(Qwen) |
minimax_api_key | MiniMax |
linkai_api_key | LinkAI |
有効化と無効化
スキルは API Key に応じて自動的にステータスが調整されます:
- Key 設定済み:Agent は画像生成リクエストを受けると直接呼び出します
- Key 未設定:スキルはコンテキストに表示されますが(「設定が必要」とマーク)、Agent はユーザーに Key の設定を案内します
手動で制御する場合:
/skill disable image-generation # 無効化
/skill enable image-generation # 再有効化
ターミナルでの等価コマンド:cow skill disable image-generation / cow skill enable image-generation。
パラメータ
| パラメータ | 型 | 必須 | デフォルト | 説明 |
|---|
prompt | string | はい | — | 画像の説明 |
image_url | string / list | いいえ | null | 編集用の入力画像。ローカルパスまたは URL。リスト指定で複数画像融合 |
quality | string | いいえ | auto | low / medium / high、一部のプロバイダーのみ対応 |
size | string | いいえ | auto | 512 / 1K / 2K / 3K / 4K、またはピクセル値(例:1024x1024) |
aspect_ratio | string | いいえ | null | 1:1 / 3:2 / 2:3 / 16:9 / 9:16 / 21:9。Gemini は 1:4 / 4:1 / 1:8 / 8:1 にも対応 |
品質が高いほど、解像度が大きいほど、時間とコストが高くなります。 日常の対話ではデフォルト(auto)または quality=low + size=1K で十分で、約 20 秒で生成されます。ポスター制作や明示的に高解像度が必要な場合のみ high + 2K/4K を使用してください。1〜5 分かかる場合があります。
よくある使い方
- テキスト→画像:説明文からイラスト、ポスター、アイコン、アバター、絵コンテなどを生成
- 画像→画像:既存の画像のスタイル変更、要素差し替え、装飾や文字の追加など
- 複数画像融合:複数の参考画像を 1 枚に合成(着せ替え、キャラクター集合写真など)
- bash タイムアウトは 600 秒に設定することを推奨:単一プロバイダーの HTTP タイムアウトは 300 秒、スクリプトは複数社を順に試行する場合があります
- 入力画像は自動的に 4 MB 以内・最長辺 4096 px 以内に圧縮されます
- Gemini / Seedream / Qwen / MiniMax は
quality パラメータに対応していません
- Seedream のデフォルトは 2K。
seedream-5.0-lite は 3K まで、seedream-4.5 は 4K まで対応