Практика AI без мифов

Рецепты и объяснения: LLM, RAG, оптимизация инференса, MLOps и безопасность. Минимум хайпа — максимум воспроизводимости.

FAISS vs «облачные» векторы: старт #11

TL;DR: Минимальный стек лучше комплексных фреймворков; подключайте инструменты по мере необходимости.

Human‑eval и LLM‑as‑judge: осторожно #9

TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.

LoRA: тонкая настройка на своём датасете #1

TL;DR: Сформулируйте цель, выбирайте простейший базовый промт, фиксируйте метрики и постепенно усложняйте — с учётом длины контекста и ограничений токенов.

NER: разметка и базовый пайплайн #5

TL;DR: Возьмите базовую модель, подготовьте чистый датасет, отделите валидацию, задайте понятные метрики — и не забудьте о базовой нормализации текста.

ONNX Runtime / TensorRT: с чего начать #3

TL;DR: Сначала профилируйте. Если узкие места — математика, пробуйте INT8/4; если I/O — кэш и батчинг; если фреймворк — компиляция графа.

PII‑утечки: минимальный набор фильтров #7

TL;DR: Включайте фильтры ввода/вывода, ограничивайте инструменты, записывайте логи и регулярно проводите red teaming.

RAG: быстрый скелет с проверкой фактов #2

TL;DR: Начните с простого BM25+эмбеддинги, чанк 400–800 токенов, цитаты в ответе, логируйте промахи и подтягивайте дополнительные документы только по факту.

Аугментации: как не перегнуть #4

TL;DR: Сначала минимальный набор аугментаций (flip/rotate/crop). Больше аугментаций ≠ лучше: замеряйте вместе с валидацией.

Бюджет задержек и кэширование ответов #10

TL;DR: Определите SLO/SLI, составьте бюджет задержек, включите кэш и ограничение токенов; имейте план деградации.

Очистка и дедупликация: быстрый старт #8

TL;DR: Удаляйте дубликаты, убирайте мертвые данные, балансируйте классы и документируйте источник и лицензии.