TL;DR: Определите SLO/SLI, составьте бюджет задержек, включите кэш и ограничение токенов; имейте план деградации.

Контекст

Прод — это про надёжность и предсказуемость. План деградации должен быть заранее, иначе сервис «ляжет» в пиковые моменты.

Шаги

  1. Зафиксируйте SLO/SLI и бюджет задержек.
  2. Включите кэши и ограничение токенов.
  3. Продумайте деградацию и fallback.
  4. Готовьте канареечные релизы и откаты.

Пример

Бюджет задержек (ms): network 80 | model 120 | post 50 | total SLO 250.

Ошибки и подводные камни

  • Нет плана деградации.
  • Отсутствие кэшей и ограничений.

Что измерять

  • P95/P99 задержек, доля кэш-хитов, SLO-выполнение.

Ресурсы

  • Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.