FAISS vs «облачные» векторы: старт #11
TL;DR: Минимальный стек лучше комплексных фреймворков; подключайте инструменты по мере необходимости.
Human‑eval и LLM‑as‑judge: осторожно #9
TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.
LoRA: тонкая настройка на своём датасете #1
TL;DR: Сформулируйте цель, выбирайте простейший базовый промт, фиксируйте метрики и постепенно усложняйте — с учётом длины контекста и ограничений токенов.
NER: разметка и базовый пайплайн #5
TL;DR: Возьмите базовую модель, подготовьте чистый датасет, отделите валидацию, задайте понятные метрики — и не забудьте о базовой нормализации текста.
ONNX Runtime / TensorRT: с чего начать #3
TL;DR: Сначала профилируйте. Если узкие места — математика, пробуйте INT8/4; если I/O — кэш и батчинг; если фреймворк — компиляция графа.
PII‑утечки: минимальный набор фильтров #7
TL;DR: Включайте фильтры ввода/вывода, ограничивайте инструменты, записывайте логи и регулярно проводите red teaming.
RAG: быстрый скелет с проверкой фактов #2
TL;DR: Начните с простого BM25+эмбеддинги, чанк 400–800 токенов, цитаты в ответе, логируйте промахи и подтягивайте дополнительные документы только по факту.
Аугментации: как не перегнуть #4
TL;DR: Сначала минимальный набор аугментаций (flip/rotate/crop). Больше аугментаций ≠ лучше: замеряйте вместе с валидацией.
Бюджет задержек и кэширование ответов #10
TL;DR: Определите SLO/SLI, составьте бюджет задержек, включите кэш и ограничение токенов; имейте план деградации.
Очистка и дедупликация: быстрый старт #8
TL;DR: Удаляйте дубликаты, убирайте мертвые данные, балансируйте классы и документируйте источник и лицензии.