メインコンテンツへスキップ
汎用の画像生成・編集スキルです。OpenAI、Gemini、Seedream(Volcengine Ark)、Qwen(DashScope)、MiniMax、LinkAI の 6 つのプロバイダーに対応しています。いずれか 1 社の Key を設定すれば利用でき、複数社を設定すると自動フォールバックが有効になります。

対応モデル

プロバイダーモデル / エイリアス特徴
OpenAIgpt-image-2gpt-image-1汎用テキスト→画像、高品質、quality で画質制御に対応
Gemini Nano Banananano-banana-2nano-banana-pronano-bananagemini-3.1-flashgemini-3-progemini-2.5-flash の画像バージョン
Seedream(Volcengine Ark)seedream-5.0-liteseedream-4.5ネイティブ 2K–4K、最大 14 枚の画像融合
Qwen(DashScope)qwen-image-2.0qwen-image-2.0-pro中国語のレイアウトや画像とテキストの融合に強い
MiniMaximage-01シンプルで高速
LinkAI任意のモデル統一ゲートウェイ、フォールバック用途

モデル選択

デフォルトでは「自動ルーティング + 失敗時フォールバック」で動作します:
  1. OpenAI → Gemini → Seedream → Qwen → MiniMax → LinkAI の順に、設定済みのプロバイダーを最初に選択
  2. 401、モデル未開通、ネットワークエラーなどに遭遇した場合、自動的に次のプロバイダーへ切り替え
  3. ユーザーが対話内でモデルを指定した場合(例:「seedream で猫を描いて」)、該当プロバイダーが優先候補に繰り上がります
特定のモデルに固定したい場合:
{
  "skills": {
    "image-generation": {
      "model": "seedream-5.0-lite"
    }
  }
}

API Key の設定

Web コンソール の「モデル管理」ページから設定するのが推奨です。設定済みの対話モデル Key は画像生成スキルでも自動的に再利用されるため、重複した設定は不要です。設定ファイルを手動編集するか、対話中に env_config ツールで一時的に設定することもできます。
認証情報はメインモデルプロバイダーの Key を統一的に再利用します:
フィールド対応プロバイダー
openai_api_keyOpenAI
gemini_api_keyGemini
ark_api_keyVolcengine Ark(Seedream)
dashscope_api_keyAlibaba DashScope(Qwen)
minimax_api_keyMiniMax
linkai_api_keyLinkAI

有効化と無効化

スキルは API Key に応じて自動的にステータスが調整されます:
  • Key 設定済み:Agent は画像生成リクエストを受けると直接呼び出します
  • Key 未設定:スキルはコンテキストに表示されますが(「設定が必要」とマーク)、Agent はユーザーに Key の設定を案内します
手動で制御する場合:
/skill disable image-generation    # 無効化
/skill enable image-generation     # 再有効化
ターミナルでの等価コマンド:cow skill disable image-generation / cow skill enable image-generation

パラメータ

パラメータ必須デフォルト説明
promptstringはい画像の説明
image_urlstring / listいいえnull編集用の入力画像。ローカルパスまたは URL。リスト指定で複数画像融合
qualitystringいいえautolow / medium / high、一部のプロバイダーのみ対応
sizestringいいえauto512 / 1K / 2K / 3K / 4K、またはピクセル値(例:1024x1024
aspect_ratiostringいいえnull1:1 / 3:2 / 2:3 / 16:9 / 9:16 / 21:9。Gemini は 1:4 / 4:1 / 1:8 / 8:1 にも対応
品質が高いほど、解像度が大きいほど、時間とコストが高くなります。 日常の対話ではデフォルト(auto)または quality=low + size=1K で十分で、約 20 秒で生成されます。ポスター制作や明示的に高解像度が必要な場合のみ high + 2K/4K を使用してください。1〜5 分かかる場合があります。

よくある使い方

  • テキスト→画像:説明文からイラスト、ポスター、アイコン、アバター、絵コンテなどを生成
  • 画像→画像:既存の画像のスタイル変更、要素差し替え、装飾や文字の追加など
  • 複数画像融合:複数の参考画像を 1 枚に合成(着せ替え、キャラクター集合写真など)
  • bash タイムアウトは 600 秒に設定することを推奨:単一プロバイダーの HTTP タイムアウトは 300 秒、スクリプトは複数社を順に試行する場合があります
  • 入力画像は自動的に 4 MB 以内・最長辺 4096 px 以内に圧縮されます
  • Gemini / Seedream / Qwen / MiniMax は quality パラメータに対応していません
  • Seedream のデフォルトは 2K。seedream-5.0-lite は 3K まで、seedream-4.5 は 4K まで対応