TL;DR: Определите SLO/SLI, составьте бюджет задержек, включите кэш и ограничение токенов; имейте план деградации.
Контекст
Прод — это про надёжность и предсказуемость. План деградации должен быть заранее, иначе сервис «ляжет» в пиковые моменты.
Шаги
- Зафиксируйте SLO/SLI и бюджет задержек.
- Включите кэши и ограничение токенов.
- Продумайте деградацию и fallback.
- Готовьте канареечные релизы и откаты.
Пример
Бюджет задержек (ms): network 80 | model 120 | post 50 | total SLO 250.
Ошибки и подводные камни
- Нет плана деградации.
- Отсутствие кэшей и ограничений.
Что измерять
- P95/P99 задержек, доля кэш-хитов, SLO-выполнение.
Ресурсы
- Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.