ONNX Runtime / TensorRT: с чего начать #3

TL;DR: Сначала профилируйте. Если узкие места — математика, пробуйте INT8/4; если I/O — кэш и батчинг; если фреймворк — компиляция графа.

August 8, 2025 · 1 min

Старт: что мы будем делать с AI на практике

TL;DR: начнём с рабочего мини-стека, проговорим риски и ограничения, соберём первый прототип на локальной машине и научимся его измерять. Почему сейчас и зачем это вам AI стал инструментом общего назначения. Он не заменяет мышление — он ускоряет рутинные части. Главные навыки сегодня: формулировать задачу, отбирать данные, строить измеримый процесс и знать пределы моделей. Базовые понятия — кратко и без мифов Модель — функция с миллионами/миллиардами параметров. Обучение — подбор параметров, минимизирующих функцию потерь на данных. Инференс — применение обученной модели на новых данных. LLM — языковая модель, предсказывающая следующий токен. Она не «знает» фактов — она аппроксимирует вероятностное распределение над текстом. RAG — retrieve-augment-generate: подмешиваем факты из своей БД к контексту запроса, чтобы ответы опирались на ваши данные. Качество — это метрики, а не чувство. Для генерации автоматические метрики ограничены; нужны и человек, и задача-специфичные проверки. Минимальный стек для первых экспериментов Язык: Python 3.11. Библиотеки: PyTorch, transformers, datasets, accelerate, onnxruntime. Инструменты: Jupyter/VS Code, Docker (по мере необходимости), git. Аппаратно: обычный ноутбук/ПК; GPU ускоряет, но не обязателен для старта. Пробный прогон (локально) Перед запуском создайте окружение и установите зависимости: ...

August 8, 2025 · 3 min