MiniMax 语音合成接口说明

文本转语音（TTS）接口，请求格式兼容 OpenAI Audio Speech，扩展参数通过 metadata 传递。

接口

说明	方法	路径
创建语音	`POST`	`{站点根}/v1/audio/speech`

请求头：

Header	值
`Authorization`	`Bearer <API 令牌>`
`Content-Type`	`application/json`

请求参数

顶层字段

参数	类型	必填	说明
`model`	string	是	模型名称，如 `speech-2.8-hd`、`speech-2.8-turbo`、`speech-02-hd`、`speech-2.6-hd`
`input`	string	是	待合成文本，支持在文本中嵌入语气词标签，如 `(laughs)`
`voice`	string	是	音色 ID，如 `male-qn-qingse`、`female-tianmei`、`English_Graceful_Lady`
`speed`	number	否	语速，默认由模型决定
`response_format`	string	否	输出音频格式，如 `mp3`、`wav`、`flac`
`metadata`	object	否	MiniMax 扩展参数，见下表

`metadata` 字段

参数	类型	说明
`voice_setting`	object	音色详细设置
`audio_setting`	object	输出音频参数
`pronunciation_dict`	object	自定义发音
`timbre_weights`	array	多音色混合
`voice_modify`	object	声音效果器
`language_boost`	string	语言增强
`subtitle_enable`	boolean	是否返回字幕
`aigc_watermark`	boolean	是否添加 AIGC 水印
`output_format`	string	输出格式，与 `response_format` 作用类似

`metadata.voice_setting`

参数	类型	说明
`voice_id`	string	音色 ID，若填写则覆盖顶层 `voice`
`speed`	number	语速
`vol`	number	音量
`pitch`	number	音调
`emotion`	string	情感，如 `happy`
`text_normalization`	boolean	文本规范化
`latex_read`	boolean	LaTeX 朗读

`metadata.audio_setting`

参数	类型	说明
`sample_rate`	integer	采样率，如 `32000`
`bitrate`	integer	比特率，如 `128000`
`format`	string	格式，如 `mp3`
`channel`	integer	声道数
`force_cbr`	boolean	强制 CBR 编码

`metadata.pronunciation_dict`

参数	类型	说明
`tone`	string[]	发音规则列表，如 `["处理/(chu3)(li3)", "危险/dangerous"]`

`metadata.timbre_weights[]`

参数	类型	说明
`voice_id`	string	参与混合的音色 ID
`weight`	integer	权重

`metadata.voice_modify`

参数	类型	说明
`pitch`	integer	音调偏移
`intensity`	integer	强度
`timbre`	integer	音色
`sound_effects`	string	音效类型，如 `robotic`

备注

使用 metadata.voice_setting 时，请在其中完整填写 voice_id；若只传部分字段（如仅 emotion），会覆盖顶层 voice 的映射结果。

模型若配置了按字符计费，voice 须为官方系统音色，或当前用户已通过音色复刻成功登记的复刻音色。

成功响应为二进制音频（通常为 MP3），请保存为文件后播放，勿按 JSON 或纯文本解析。

响应

HTTP 状态	说明
`200`	成功，响应体为音频二进制数据
`4xx` / `5xx`	失败，响应体为 JSON 错误信息

失败响应示例：

{
  "error": {
    "message": "错误描述",
    "type": "new_api_error",
    "code": "invalid_request"
  }
}

示例

1. 基础合成

2. 语气词与情感

{
  "model": "speech-2.8-hd",
  "input": "今天是不是很开心呀(laughs)，当然了！",
  "voice": "male-qn-qingse",
  "response_format": "mp3",
  "metadata": {
    "voice_setting": {
      "voice_id": "male-qn-qingse",
      "speed": 1,
      "vol": 1,
      "pitch": 0,
      "emotion": "happy"
    },
    "audio_setting": {
      "sample_rate": 32000,
      "bitrate": 128000,
      "format": "mp3",
      "channel": 1
    },
    "subtitle_enable": false
  }
}

3. 发音词典

{
  "model": "speech-2.8-hd",
  "input": "请正确处理这个危险词汇。",
  "voice": "female-tianmei",
  "response_format": "mp3",
  "metadata": {
    "pronunciation_dict": {
      "tone": ["处理/(chu3)(li3)", "危险/dangerous"]
    }
  }
}

4. 多音色混合

{
  "model": "speech-2.6-hd",
  "input": "这是使用混合音色的语音合成示例。",
  "voice": "female-tianmei",
  "response_format": "mp3",
  "metadata": {
    "timbre_weights": [
      { "voice_id": "female-chengshu", "weight": 30 },
      { "voice_id": "female-tianmei", "weight": 70 }
    ]
  }
}

5. 声音效果器

{
  "model": "speech-2.6-hd",
  "input": "这是带声音效果器的语音合成。",
  "voice": "English_Graceful_Lady",
  "response_format": "mp3",
  "metadata": {
    "voice_modify": {
      "pitch": 20,
      "intensity": -30,
      "timbre": 10,
      "sound_effects": "robotic"
    }
  }
}

6. 复刻音色

{
  "model": "speech-02-hd",
  "input": "你好，这是复刻音色的语音合成。",
  "voice": "moss_audio_ce44fc67-7ce3-xxxx",
  "response_format": "mp3"
}

语音接口说明

MiniMax 语音合成接口说明#

接口#

请求参数#

顶层字段#

metadata 字段#

metadata.voice_setting#

metadata.audio_setting#

metadata.pronunciation_dict#

metadata.timbre_weights[]#

metadata.voice_modify#

备注#

响应#

示例#

1. 基础合成#

2. 语气词与情感#

3. 发音词典#

4. 多音色混合#

5. 声音效果器#

6. 复刻音色#