Skip to content

Кеширование запросов

Кэширование промптов

Уменьшите стоимость использования моделей ИИ с помощью функции кэширования промптов AITUNNEL. Узнайте, как кэшировать и повторно использовать ответы для моделей OpenAI, Anthropic Claude, DeepSeek и других.

Для экономии на стоимости запросов вы можете включить кэширование промптов для поддерживаемых провайдеров и моделей.

Большинство провайдеров автоматически включают кэширование промптов, но обратите внимание, что некоторые (например, Anthropic) требуют включения кэширования для каждого сообщения отдельно.

OpenAI

Изменения в ценообразовании при кэшировании:

  • Запись в кэш: бесплатно
  • Чтение из кэша: (в зависимости от модели) оплачивается по цене 0.5x или 0.75x от оригинальной стоимости входных токенов

Нажмите здесь, чтобы посмотреть цены на кэширование для каждой модели OpenAI.

Кэширование промптов с OpenAI происходит автоматически и не требует дополнительной настройки. Минимальный размер промпта составляет 1024 токена.

Нажмите здесь, чтобы узнать больше о кэшировании промптов OpenAI и его ограничениях.

Anthropic Claude

Изменения в ценообразовании при кэшировании:

  • Запись в кэш: оплачивается по цене 1.2x от оригинальной стоимости входных токенов
  • Чтение из кэша: оплачивается по цене 0.8x от оригинальной стоимости входных токенов

Кэширование промптов с Anthropic требует использования cache_control. Есть ограничение в четыре точки разрыва, и кэш истекает в течение пяти минут. Поэтому рекомендуется использовать точки разрыва кэша для больших текстовых блоков, таких как карточки персонажей, CSV-данные, RAG-данные, главы книг и т.д.

Нажмите здесь, чтобы узнать больше о кэшировании промптов Anthropic и его ограничениях.

Точка разрыва cache_control может быть вставлена только в текстовую часть мультимедийного сообщения.

Пример кэширования системного сообщения:

json
{
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Вы историк, изучающий падение Римской империи. Вы хорошо знаете следующую книгу:"
        },
        {
          "type": "text",
          "text": "БОЛЬШОЙ ТЕКСТ",
          "cache_control": {
            "type": "ephemeral"
          }
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Что послужило причиной краха?"
        }
      ]
    }
  ]
}

Пример кэширования пользовательского сообщения:

json
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Учитывая книгу ниже:"
        },
        {
          "type": "text",
          "text": "БОЛЬШОЙ ТЕКСТ",
          "cache_control": {
            "type": "ephemeral"
          }
        },
        {
          "type": "text",
          "text": "Перечислите всех персонажей в книге выше"
        }
      ]
    }
  ]
}

DeepSeek

Изменения в ценообразовании при кэшировании:

  • Запись в кэш: оплачивается по той же цене, что и оригинальные входные токены
  • Чтение из кэша: оплачивается по цене 0.7x от оригинальной стоимости входных токенов

Кэширование промптов с DeepSeek происходит автоматически и не требует дополнительной настройки.

Google Gemini

Неявное кэширование

Модели Gemini 2.5 Pro и 2.5 Flash теперь поддерживают неявное кэширование, предоставляя автоматическую функциональность кэширования, аналогичную автоматическому кэшированию OpenAI. Неявное кэширование работает бесшовно — не требуется ручная настройка или дополнительные точки разрыва cache_control.

Изменения в ценообразовании:

  • Нет стоимости записи или хранения в кэше.
  • Кэшированные токены оплачиваются по цене 0.6x от оригинальной стоимости входных токенов.

Обратите внимание, что время жизни кэша (TTL) в среднем составляет 3-5 минут, но может варьироваться. Для Gemini 2.5 Flash требуется минимум 2048 токенов, а для Gemini 2.5 Pro — 4096 токенов, чтобы запросы могли быть кэшированы.

Официальное объявление от Google

TIP

Для максимизации попаданий в неявный кэш, сохраняйте начальную часть ваших массивов сообщений согласованной между запросами. Размещайте вариации (такие как вопросы пользователя или динамические элементы контекста) ближе к концу вашего промпта/запросов.

Изменения в ценообразовании для кэшированных запросов:

  • Запись в кэш: Оплачивается по стоимости входных токенов плюс 5 минут хранения в кэше, рассчитывается следующим образом:
Стоимость записи в кэш = Цена входных токенов + (Цена хранения в кэше × (5 минут / 60 минут))
  • Чтение из кэша: Оплачивается по цене 0.6x от оригинальной стоимости входных токенов.

Поддерживаемые модели и ограничения:

Только определенные модели Gemini поддерживают кэширование. Пожалуйста, обратитесь к документации по ценообразованию API Gemini для получения актуальной информации.

Записи в кэш имеют время жизни (TTL) 5 минут, которое не обновляется. После 5 минут кэш истекает и должна быть создана новая запись в кэше.

Модели Gemini обычно имеют минимум 4096 токенов для записи в кэш. Кэшированные токены учитываются в максимальном использовании токенов модели. Gemini 2.5 Pro имеет минимум 4096 токенов, а Gemini 2.5 Flash имеет минимум 2048 токенов.

Как работает кэширование промптов Gemini в AITUNNEL:

AITUNNEL упрощает управление кэшем Gemini, абстрагируя сложности:

  • Вам не нужно вручную создавать, обновлять или удалять кэши.
  • Вам не нужно явно управлять именами кэша или TTL.

Как включить кэширование промптов Gemini:

Кэширование Gemini в AITUNNEL требует явного вставления точек разрыва cache_control в содержимое сообщения, аналогично Anthropic. Мы рекомендуем использовать кэширование в основном для больших блоков контента (таких как CSV-файлы, длинные карточки персонажей, данные RAG или обширные текстовые источники).

TIP

Нет ограничения на количество точек разрыва cache_control, которые вы можете включить в ваш запрос. AITUNNEL будет использовать только последнюю точку разрыва для кэширования Gemini. Включение нескольких точек разрыва безопасно и может помочь сохранить совместимость с Anthropic, но только последняя будет использоваться для Gemini.

Примеры:

Пример кэширования системного сообщения

json
{
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Вы историк, изучающий падение Римской империи. Ниже приведена обширная справочная книга:"
        },
        {
          "type": "text",
          "text": "БОЛЬШОЙ ТЕКСТ ЗДЕСЬ",
          "cache_control": {
            "type": "ephemeral"
          }
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Что послужило причиной краха?"
        }
      ]
    }
  ]
}

Пример кэширования пользовательского сообщения

json
{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "На основе текста книги ниже:"
        },
        {
          "type": "text",
          "text": "БОЛЬШОЙ ТЕКСТ ЗДЕСЬ",
          "cache_control": {
            "type": "ephemeral"
          }
        },
        {
          "type": "text",
          "text": "Перечислите всех основных персонажей, упомянутых в тексте выше."
        }
      ]
    }
  ]
}

AITUNNEL