Аудио
AITUNNEL поддерживает отправку аудиофайлов к совместимым моделям через API. Это руководство покажет вам, как работать с аудио, используя наш API.
Важно
Аудиофайлы должны быть закодированы в base64 — прямые URL не поддерживаются для аудиоконтента.
Входные аудиофайлы
Запросы с аудиофайлами к совместимым моделям доступны через API /v1/chat/completions
с типом контента input_audio
. Аудиофайлы должны быть закодированы в base64 и включать спецификацию формата. Обратите внимание, что только модели с возможностями обработки аудио будут обрабатывать эти запросы.
Вы можете найти модели, поддерживающие аудио, отфильтровав по модальности аудиовхода на нашей странице моделей.
Отправка аудиофайлов
Вот как отправить аудиофайл для обработки:
import requests
import json
import base64
def encode_audio_to_base64(audio_path):
with open(audio_path, "rb") as audio_file:
return base64.b64encode(audio_file.read()).decode('utf-8')
url = "https://api.aitunnel.ru/v1/chat/completions"
headers = {
"Authorization": "Bearer sk-aitunnel-xxx",
"Content-Type": "application/json"
}
# Читаем и кодируем аудиофайл
audio_path = "path/to/your/audio.wav"
base64_audio = encode_audio_to_base64(audio_path)
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Пожалуйста, расшифруйте этот аудиофайл."
},
{
"type": "input_audio",
"input_audio": {
"data": base64_audio,
"format": "wav"
}
}
]
}
]
payload = {
"model": "gemini-2.5-flash",
"messages": messages
}
response = requests.post(url, headers=headers, json=payload)
print(response.json())
async function encodeAudioToBase64(audioPath: string): Promise<string> {
const audioBuffer = await fs.promises.readFile(audioPath);
return audioBuffer.toString("base64");
}
const url = "https://api.aitunnel.ru/v1/chat/completions";
const headers = {
"Authorization": "Bearer sk-aitunnel-xxx",
"Content-Type": "application/json"
};
// Читаем и кодируем аудиофайл
const audioPath = "path/to/your/audio.wav";
const base64Audio = await encodeAudioToBase64(audioPath);
const messages = [
{
role: "user",
content: [
{
type: "text",
text: "Пожалуйста, расшифруйте этот аудиофайл."
},
{
type: "input_audio",
input_audio: {
data: base64Audio,
format: "wav"
}
}
]
}
];
const payload = {
model: "gemini-2.5-flash",
messages: messages
};
const response = await fetch(url, {
method: "POST",
headers: headers,
body: JSON.stringify(payload)
});
const data = await response.json();
console.log(data);
Поддерживаемые форматы аудио
AITUNNEL поддерживает следующие аудиоформаты:
wav
— WAV файлыmp3
— MP3 файлы
Примеры использования
Транскрипция речи
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Транскрибируй эту речь и переведи на русский язык."
},
{
"type": "input_audio",
"input_audio": {
"data": base64_audio,
"format": "mp3"
}
}
]
}
]
Анализ аудиоконтента
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Проанализируй тон и эмоции в этой аудиозаписи."
},
{
"type": "input_audio",
"input_audio": {
"data": base64_audio,
"format": "wav"
}
}
]
}
]
Рекомендации по использованию
- Качество аудио: Используйте аудиофайлы хорошего качества для лучших результатов транскрипции
- Формат: Предпочитайте WAV для лучшего качества, MP3 для меньшего размера
- Язык: Укажите язык аудио в текстовом промпте для более точной обработки
Совет
Для длинных аудиозаписей рассмотрите возможность разделения их на более короткие сегменты для оптимальной обработки.