TL;DR: Сформулируйте цель, выбирайте простейший базовый промт, фиксируйте метрики и постепенно усложняйте — с учётом длины контекста и ограничений токенов.
Контекст
LLM нередко применяют «в лоб». На практике важнее дисциплина: фиксировать версии промтов и контекст, не смешивать проверку с настройкой, и помнить о стоимости токенов.
Шаги
- Определите цель и бюджет токенов.
- Соберите примеры запросов/ответов для проверки.
- Запустите базовый промт и зафиксируйте метрики.
- Итерируйте: добавляйте системные указания, форматирование, примеры.
Пример
from transformers import AutoTokenizer, AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
t = AutoTokenizer.from_pretrained("distilbert-base-uncased")
x = t("Пример текста", return_tensors="pt")
y = m(**x)
print(y.logits.argmax(-1))
Ошибки и подводные камни
- Слишком длинные промты без измерений.
- Отсутствие фиксированных эталонов и регрессионных тестов.
Что измерять
- Токены/запрос, точность на эталонах, время/стоимость запроса.
Ресурсы
- Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.