Documentation Index
Fetch the complete documentation index at: https://docs.cowagent.ai/llms.txt
Use this file to discover all available pages before exploring further.
小米 MiMo 是原生全模态大模型,单 mimo_api_key 即可同时启用文本对话、图像理解与语音合成。
通过 Web 控制台的「模型管理」页面可一站式配置以下全部能力,无需手动改配置文件。
文本对话
{
"model": "mimo-v2.5-pro",
"mimo_api_key": "YOUR_API_KEY",
"mimo_api_base": "https://api.xiaomimimo.com/v1"
}
| 参数 | 说明 |
|---|
model | 默认推荐 mimo-v2.5-pro,也可使用 mimo-v2.5 |
mimo_api_key | 在 MiMo 开放平台 创建 |
mimo_api_base | 可选,默认为 https://api.xiaomimimo.com/v1 |
模型选择
| 模型 | 适用场景 |
|---|
mimo-v2.5-pro | 旗舰,原生全模态 + Agent 能力,最高 100 万 tokens 上下文 |
mimo-v2.5 | 综合版,原生全模态(文本 / 图像 / 视频 / 音频) |
思考模式
MiMo V2.5 系列默认开启「思考模式」:模型在输出最终回答前会先输出 reasoning_content(思维链),提升复杂任务表现。
通过全局配置 enable_thinking 控制是否展示(也可在 Web 控制台 - 配置页面切换):
{
"enable_thinking": true
}
图像理解
配置 mimo_api_key 后,Agent 的 Vision 工具可以自动使用 MiMo 视觉模型:
- 当主模型本身是多模态时(
mimo-v2.5-pro / mimo-v2.5),直接由主模型识别图像,无需额外配置
- 当主模型是其他厂商时,Vision 工具会根据顺序自动 fallback 到
mimo-v2.5-pro
如需手动指定 Vision 模型,可在配置文件中显式配置:
{
"tools": {
"vision": {
"provider": "mimo",
"model": "mimo-v2.5-pro"
}
}
}
语音合成
{
"text_to_voice": "mimo",
"text_to_voice_model": "mimo-v2.5-tts",
"tts_voice_id": "冰糖"
}
| 参数 | 说明 |
|---|
text_to_voice_model | 当前仅支持 mimo-v2.5-tts(预置音色 + 唱歌模式) |
tts_voice_id | 预置音色名(中文音色直接使用中文名作为 ID) |
预置音色
| 音色 ID | 说明 |
|---|
冰糖 | 中文 · 女声(默认) |
茉莉 | 中文 · 女声 |
苏打 | 中文 · 男声 |
白桦 | 中文 · 男声 |
Mia | 英文 · 女声 |
Chloe | 英文 · 女声 |
Milo | 英文 · 男声 |
Dean | 英文 · 男声 |
也可在 Web 控制台的「模型管理 → 语音合成」下拉框中可视化选择。
风格控制
MiMo TTS 支持在合成文本中嵌入 音频标签 来控制情绪、语调、方言、角色甚至唱歌。标签需出现在 最终被合成为语音的文本(即 Agent 回复内容) 中,整体风格标签写在开头:
支持半角 ()、全角 () 或 [] 三种括号。常见风格示例:
| 类型 | 示例标签 |
|---|
| 基础情绪 | 开心 悲伤 愤怒 恐惧 惊讶 兴奋 委屈 平静 冷漠 |
| 复合情绪 | 怅然 欣慰 无奈 愧疚 释然 忐忑 动情 |
| 整体语调 | 温柔 高冷 活泼 严肃 慵懒 俏皮 深沉 干练 凌厉 |
| 音色定位 | 磁性 醇厚 清亮 空灵 稚嫩 苍老 甜美 沙哑 |
| 人设腔调 | 夹子音 御姐音 正太音 大叔音 台湾腔 |
| 方言 | 东北话 四川话 河南话 粤语 |
| 角色扮演 | 孙悟空 林黛玉 |
| 唱歌 | 唱歌(等价于 sing / singing) |
示例:
- (磁性)夜已经深了,城市还在呼吸。
- (东北话)哎呀妈呀,这天儿也忒冷了吧!
- (粤语)呢个真係好正啊!
- (唱歌)原谅我这一生不羁放纵爱自由…
也可以在文本任意位置插入细粒度音频标签来控制呼吸、笑声、停顿等,例如:
(紧张,深呼吸)呼……冷静,冷静。(语速加快)自我介绍我背了五十遍了,应该没问题。
完整标签列表参见 MiMo 语音合成文档。
CowAgent 在调用 TTS 时会将 Agent 的回复原文(含 (...) 标签)直接送入 MiMo 合成。你可以在人设 / 系统提示词里要求模型「在回复开头用 (风格) 标签控制语气」,即可让 IM 渠道(微信 / 飞书 / 钉钉 / 企微)的语音回复带上情绪、方言、唱歌等效果。