音频 / 语音消息 — 2026-01-17

已支持的功能

自动检测(默认)

如果你未配置模型tools.media.audio.enabled 设置为 false,OpenClaw 会按以下顺序自动检测,并在找到第一个可用选项时停止:

  1. 本地 CLI(如已安装)
  2. Gemini CLIgemini)使用 read_many_files
  3. 提供商密钥(OpenAI → Groq → Deepgram → Google)

要禁用自动检测,请设置 tools.media.audio.enabled: false。 要自定义,请设置 tools.media.audio.models。 注意:二进制检测在 macOS/Linux/Windows 上采用尽力而为的方式;请确保 CLI 在 PATH 中(我们会展开 ~),或通过完整命令路径设置显式 CLI 模型。

配置示例

提供商 + CLI 回退(OpenAI + Whisper CLI)

{
  tools: {
    media: {
      audio: {
        enabled: true,
        maxBytes: 20971520,
        models: [
          { provider: "openai", model: "gpt-4o-mini-transcribe" },
          {
            type: "cli",
            command: "whisper",
            args: ["--model", "base", "{{MediaPath}}"],
            timeoutSeconds: 45,
          },
        ],
      },
    },
  },
}

仅提供商 + 作用域控制

{
  tools: {
    media: {
      audio: {
        enabled: true,
        scope: {
          default: "allow",
          rules: [{ action: "deny", match: { chatType: "group" } }],
        },
        models: [{ provider: "openai", model: "gpt-4o-mini-transcribe" }],
      },
    },
  },
}

仅提供商(Deepgram)

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}

注意事项与限制

常见陷阱