Skip to content

Аудио

AITUNNEL поддерживает отправку аудиофайлов к совместимым моделям через API. Это руководство покажет вам, как работать с аудио, используя наш API.

Важно

Аудиофайлы должны быть закодированы в base64 — прямые URL не поддерживаются для аудиоконтента.

Входные аудиофайлы

Запросы с аудиофайлами к совместимым моделям доступны через API /v1/chat/completions с типом контента input_audio. Аудиофайлы должны быть закодированы в base64 и включать спецификацию формата. Обратите внимание, что только модели с возможностями обработки аудио будут обрабатывать эти запросы.

Вы можете найти модели, поддерживающие аудио, отфильтровав по модальности аудиовхода на нашей странице моделей.

Отправка аудиофайлов

Вот как отправить аудиофайл для обработки:

python
import requests
import json
import base64

def encode_audio_to_base64(audio_path):
    with open(audio_path, "rb") as audio_file:
        return base64.b64encode(audio_file.read()).decode('utf-8')

url = "https://api.aitunnel.ru/v1/chat/completions"
headers = {
    "Authorization": "Bearer sk-aitunnel-xxx",
    "Content-Type": "application/json"
}

# Читаем и кодируем аудиофайл
audio_path = "path/to/your/audio.wav"
base64_audio = encode_audio_to_base64(audio_path)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Пожалуйста, расшифруйте этот аудиофайл."
            },
            {
                "type": "input_audio",
                "input_audio": {
                    "data": base64_audio,
                    "format": "wav"
                }
            }
        ]
    }
]

payload = {
    "model": "gemini-2.5-flash",
    "messages": messages
}

response = requests.post(url, headers=headers, json=payload)
print(response.json())
typescript
async function encodeAudioToBase64(audioPath: string): Promise<string> {
  const audioBuffer = await fs.promises.readFile(audioPath);
  return audioBuffer.toString("base64");
}

const url = "https://api.aitunnel.ru/v1/chat/completions";
const headers = {
  "Authorization": "Bearer sk-aitunnel-xxx",
  "Content-Type": "application/json"
};

// Читаем и кодируем аудиофайл
const audioPath = "path/to/your/audio.wav";
const base64Audio = await encodeAudioToBase64(audioPath);

const messages = [
  {
    role: "user",
    content: [
      {
        type: "text",
        text: "Пожалуйста, расшифруйте этот аудиофайл."
      },
      {
        type: "input_audio",
        input_audio: {
          data: base64Audio,
          format: "wav"
        }
      }
    ]
  }
];

const payload = {
  model: "gemini-2.5-flash",
  messages: messages
};

const response = await fetch(url, {
  method: "POST",
  headers: headers,
  body: JSON.stringify(payload)
});

const data = await response.json();
console.log(data);

Поддерживаемые форматы аудио

AITUNNEL поддерживает следующие аудиоформаты:

  • wav — WAV файлы
  • mp3 — MP3 файлы

Примеры использования

Транскрипция речи

python
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Транскрибируй эту речь и переведи на русский язык."
            },
            {
                "type": "input_audio",
                "input_audio": {
                    "data": base64_audio,
                    "format": "mp3"
                }
            }
        ]
    }
]

Анализ аудиоконтента

python
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Проанализируй тон и эмоции в этой аудиозаписи."
            },
            {
                "type": "input_audio",
                "input_audio": {
                    "data": base64_audio,
                    "format": "wav"
                }
            }
        ]
    }
]

Рекомендации по использованию

  1. Качество аудио: Используйте аудиофайлы хорошего качества для лучших результатов транскрипции
  2. Формат: Предпочитайте WAV для лучшего качества, MP3 для меньшего размера
  3. Язык: Укажите язык аудио в текстовом промпте для более точной обработки

Совет

Для длинных аудиозаписей рассмотрите возможность разделения их на более короткие сегменты для оптимальной обработки.

AITUNNEL