跳转到主要内容

文本转语音

端点:/audio/speech 主要请求参数:
  • model:用于语音合成的模型,支持的模型列表。
  • input:待转换为音频的文本内容。
  • voice:参考音色,支持系统预置音色、用户预置音色、用户动态音色。
curl https://api.elkapi.com/v1/audio/speech \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini-tts",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
  }' \
  --output speech.mp3

语音转文本

端点:/audio/transcriptions Content-Type: multipart/form-data 主要请求参数:
  • model:用于语音转文本的模型,支持的模型列表。
  • file:待转换为文本的音频文件。
curl https://api.elkapi.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="gpt-4o-transcribe"

语音转语音

该场景目前仅 Elevenlabs 模型支持,请参考对应文档。

注意事项

  • 使用时需要将 OPENAI_BASE_URL 设置为 https://api.elkapi.com/v1
  • OPENAI_API_KEY 应设置为您的 API Key
  • 大部分模型已适配OpenAI音频接口,个别模型未适配,请参考模型文档。

相关链接

OpenAI 官方文档

OpenAI Audio API

OpenAI 官方文档

OpenAI TTS Guide