Кеширование запросов
Кэширование промптов
Уменьшите стоимость использования моделей ИИ с помощью функции кэширования промптов AITUNNEL. Узнайте, как кэшировать и повторно использовать ответы для моделей OpenAI, Anthropic Claude, DeepSeek и других.
Для экономии на стоимости запросов вы можете включить кэширование промптов для поддерживаемых провайдеров и моделей.
Большинство провайдеров автоматически включают кэширование промптов, но обратите внимание, что некоторые (например, Anthropic) требуют включения кэширования для каждого сообщения отдельно.
OpenAI
Изменения в ценообразовании при кэшировании:
- Запись в кэш: бесплатно
- Чтение из кэша: (в зависимости от модели) оплачивается по цене 0.5x или 0.75x от оригинальной стоимости входных токенов
Нажмите здесь, чтобы посмотреть цены на кэширование для каждой модели OpenAI.
Кэширование промптов с OpenAI происходит автоматически и не требует дополнительной настройки. Минимальный размер промпта составляет 1024 токена.
Нажмите здесь, чтобы узнать больше о кэшировании промптов OpenAI и его ограничениях.
Anthropic Claude
Изменения в ценообразовании при кэшировании:
- Запись в кэш: оплачивается по цене 1.2x от оригинальной стоимости входных токенов
- Чтение из кэша: оплачивается по цене 0.8x от оригинальной стоимости входных токенов
Кэширование промптов с Anthropic требует использования cache_control
. Есть ограничение в четыре точки разрыва, и кэш истекает в течение пяти минут. Поэтому рекомендуется использовать точки разрыва кэша для больших текстовых блоков, таких как карточки персонажей, CSV-данные, RAG-данные, главы книг и т.д.
Нажмите здесь, чтобы узнать больше о кэшировании промптов Anthropic и его ограничениях.
Точка разрыва cache_control
может быть вставлена только в текстовую часть мультимедийного сообщения.
Пример кэширования системного сообщения:
{
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "Вы историк, изучающий падение Римской империи. Вы хорошо знаете следующую книгу:"
},
{
"type": "text",
"text": "БОЛЬШОЙ ТЕКСТ",
"cache_control": {
"type": "ephemeral"
}
}
]
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Что послужило причиной краха?"
}
]
}
]
}
Пример кэширования пользовательского сообщения:
{
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Учитывая книгу ниже:"
},
{
"type": "text",
"text": "БОЛЬШОЙ ТЕКСТ",
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": "Перечислите всех персонажей в книге выше"
}
]
}
]
}
DeepSeek
Изменения в ценообразовании при кэшировании:
- Запись в кэш: оплачивается по той же цене, что и оригинальные входные токены
- Чтение из кэша: оплачивается по цене 0.7x от оригинальной стоимости входных токенов
Кэширование промптов с DeepSeek происходит автоматически и не требует дополнительной настройки.
Google Gemini
Неявное кэширование
Модели Gemini 2.5 Pro и 2.5 Flash теперь поддерживают неявное кэширование, предоставляя автоматическую функциональность кэширования, аналогичную автоматическому кэшированию OpenAI. Неявное кэширование работает бесшовно — не требуется ручная настройка или дополнительные точки разрыва cache_control
.
Изменения в ценообразовании:
- Нет стоимости записи или хранения в кэше.
- Кэшированные токены оплачиваются по цене 0.6x от оригинальной стоимости входных токенов.
Обратите внимание, что время жизни кэша (TTL) в среднем составляет 3-5 минут, но может варьироваться. Для Gemini 2.5 Flash требуется минимум 2048 токенов, а для Gemini 2.5 Pro — 4096 токенов, чтобы запросы могли быть кэшированы.
Официальное объявление от Google
TIP
Для максимизации попаданий в неявный кэш, сохраняйте начальную часть ваших массивов сообщений согласованной между запросами. Размещайте вариации (такие как вопросы пользователя или динамические элементы контекста) ближе к концу вашего промпта/запросов.
Изменения в ценообразовании для кэшированных запросов:
- Запись в кэш: Оплачивается по стоимости входных токенов плюс 5 минут хранения в кэше, рассчитывается следующим образом:
Стоимость записи в кэш = Цена входных токенов + (Цена хранения в кэше × (5 минут / 60 минут))
- Чтение из кэша: Оплачивается по цене 0.6x от оригинальной стоимости входных токенов.
Поддерживаемые модели и ограничения:
Только определенные модели Gemini поддерживают кэширование. Пожалуйста, обратитесь к документации по ценообразованию API Gemini для получения актуальной информации.
Записи в кэш имеют время жизни (TTL) 5 минут, которое не обновляется. После 5 минут кэш истекает и должна быть создана новая запись в кэше.
Модели Gemini обычно имеют минимум 4096 токенов для записи в кэш. Кэшированные токены учитываются в максимальном использовании токенов модели. Gemini 2.5 Pro имеет минимум 4096 токенов, а Gemini 2.5 Flash имеет минимум 2048 токенов.
Как работает кэширование промптов Gemini в AITUNNEL:
AITUNNEL упрощает управление кэшем Gemini, абстрагируя сложности:
- Вам не нужно вручную создавать, обновлять или удалять кэши.
- Вам не нужно явно управлять именами кэша или TTL.
Как включить кэширование промптов Gemini:
Кэширование Gemini в AITUNNEL требует явного вставления точек разрыва cache_control
в содержимое сообщения, аналогично Anthropic. Мы рекомендуем использовать кэширование в основном для больших блоков контента (таких как CSV-файлы, длинные карточки персонажей, данные RAG или обширные текстовые источники).
TIP
Нет ограничения на количество точек разрыва cache_control
, которые вы можете включить в ваш запрос. AITUNNEL будет использовать только последнюю точку разрыва для кэширования Gemini. Включение нескольких точек разрыва безопасно и может помочь сохранить совместимость с Anthropic, но только последняя будет использоваться для Gemini.
Примеры:
Пример кэширования системного сообщения
{
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "Вы историк, изучающий падение Римской империи. Ниже приведена обширная справочная книга:"
},
{
"type": "text",
"text": "БОЛЬШОЙ ТЕКСТ ЗДЕСЬ",
"cache_control": {
"type": "ephemeral"
}
}
]
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Что послужило причиной краха?"
}
]
}
]
}
Пример кэширования пользовательского сообщения
{
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "На основе текста книги ниже:"
},
{
"type": "text",
"text": "БОЛЬШОЙ ТЕКСТ ЗДЕСЬ",
"cache_control": {
"type": "ephemeral"
}
},
{
"type": "text",
"text": "Перечислите всех основных персонажей, упомянутых в тексте выше."
}
]
}
]
}