メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.cowagent.ai/llms.txt

Use this file to discover all available pages before exploring further.

Xiaomi MiMo はネイティブ全モーダル大規模言語モデルです。1 つの mimo_api_key でテキスト対話、画像理解、音声合成を同時に有効化できます。
Web コンソールの「モデル管理」ページから、以下のすべての機能をワンストップで設定でき、設定ファイルを手動で編集する必要はありません。

テキスト対話

{
  "model": "mimo-v2.5-pro",
  "mimo_api_key": "YOUR_API_KEY",
  "mimo_api_base": "https://api.xiaomimimo.com/v1"
}
パラメータ説明
model推奨は mimo-v2.5-promimo-v2.5 も使用可能
mimo_api_keyMiMo Open Platform で作成
mimo_api_base任意。デフォルトは https://api.xiaomimimo.com/v1

モデル選択

モデルユースケース
mimo-v2.5-proフラッグシップ。ネイティブ全モーダル + Agent 能力、最大 100 万トークンのコンテキスト
mimo-v2.5汎用版。ネイティブ全モーダル(テキスト / 画像 / 動画 / 音声)

思考モード

MiMo V2.5 シリーズはデフォルトで「思考モード」が有効です。最終回答の前に reasoning_content(思考過程)を出力することで、複雑なタスクのパフォーマンスを高めます。 表示の有無はグローバル設定 enable_thinking で切り替え可能です(Web コンソールの設定ページからも変更できます):
{
  "enable_thinking": true
}

画像理解

mimo_api_key を設定すると、Agent の Vision ツールは自動的に MiMo のビジョンモデルを利用します:
  • メインモデル自体がマルチモーダル(mimo-v2.5-pro / mimo-v2.5)の場合は、画像はメインモデルが直接処理し、追加設定は不要です。
  • メインモデルが他社製の場合、Vision ツールは順序に従い mimo-v2.5-pro にフォールバックします。
特定の Vision モデルを強制したい場合は、設定ファイルで明示的に指定してください:
{
  "tools": {
    "vision": {
      "provider": "mimo",
      "model": "mimo-v2.5-pro"
    }
  }
}

音声合成

{
  "text_to_voice": "mimo",
  "text_to_voice_model": "mimo-v2.5-tts",
  "tts_voice_id": "冰糖"
}
パラメータ説明
text_to_voice_model現在は mimo-v2.5-tts のみ対応(プリセット音色 + 歌唱モード)
tts_voice_idプリセット音色名(中国語の音色は中国語名がそのまま ID)

プリセット音色

音色 ID説明
冰糖中国語 · 女声(デフォルト)
茉莉中国語 · 女声
苏打中国語 · 男声
白桦中国語 · 男声
Mia英語 · 女声
Chloe英語 · 女声
Milo英語 · 男声
Dean英語 · 男声
Web コンソールの「モデル管理 → 音声合成」のドロップダウンから視覚的に選択することもできます。

スタイル制御

MiMo TTS は合成テキスト内に 音声タグ を埋め込むことで、感情、語調、方言、キャラクター、さらには歌唱まで制御できます。タグは 最終的に音声合成されるテキスト(つまり Agent の返信内容) に含める必要があり、全体スタイルのタグは先頭に置きます:
(スタイル)合成するテキスト
半角 ()、全角 ()[] の 3 種類の括弧に対応。スタイル記述は中国語・英語のどちらでも OK で、最も的確に表現できる言語を選んでください。代表的なスタイル例:
種類サンプルタグ
基本感情happy sad angry fear surprised excited aggrieved calm indifferent
複合感情wistful relieved helpless guilty at ease uneasy touched
全体トーンgentle aloof lively serious languid playful deep sharp cutting
声質magnetic mellow bright ethereal childlike aged sweet husky
キャラクター調squeaky mature lady young boy uncle Taiwanese accent
方言Northeastern Sichuan Henan Cantonese
ロールプレイSun Wukong Lin Daiyu
歌唱sing / singing
例:
  • (magnetic)夜が深まり、街はまだ呼吸している。
  • (gentle)深呼吸して。きっと大丈夫。
  • (serious)これがシステム再起動前の最後の警告です。
  • (singing)Twinkle, twinkle, little star, how I wonder what you are…
テキストの任意の位置に細かい音声タグを挿入して、呼吸、笑い声、間などを制御することもできます。例:
(nervous, deep breath) ふぅ……落ち着いて、落ち着いて。(faster pace) 自己紹介は五十回練習したから大丈夫。
タグの完全な一覧は MiMo 音声合成ドキュメント を参照してください。
CowAgent は TTS 呼び出し時、Agent の返信原文((...) タグを含む)をそのまま MiMo に送信します。ペルソナ / システムプロンプトで「返信の冒頭に (スタイル) タグを付けて口調を指定する」よう指示すれば、IM チャネル(WeChat / Feishu / DingTalk / WeCom)の音声返信に感情・方言・歌唱などの効果を付与できます。