TL;DR: Сформулируйте цель, выбирайте простейший базовый промт, фиксируйте метрики и постепенно усложняйте — с учётом длины контекста и ограничений токенов.

Контекст

LLM нередко применяют «в лоб». На практике важнее дисциплина: фиксировать версии промтов и контекст, не смешивать проверку с настройкой, и помнить о стоимости токенов.

Шаги

  1. Определите цель и бюджет токенов.
  2. Соберите примеры запросов/ответов для проверки.
  3. Запустите базовый промт и зафиксируйте метрики.
  4. Итерируйте: добавляйте системные указания, форматирование, примеры.

Пример

from transformers import AutoTokenizer, AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
t = AutoTokenizer.from_pretrained("distilbert-base-uncased")
x = t("Пример текста", return_tensors="pt")
y = m(**x)
print(y.logits.argmax(-1))

Ошибки и подводные камни

  • Слишком длинные промты без измерений.
  • Отсутствие фиксированных эталонов и регрессионных тестов.

Что измерять

  • Токены/запрос, точность на эталонах, время/стоимость запроса.

Ресурсы

  • Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.