TL;DR: Возьмите базовую модель, подготовьте чистый датасет, отделите валидацию, задайте понятные метрики — и не забудьте о базовой нормализации текста.

Контекст

Классический NLP никуда не делся: чистый текст, понятная токенизация и стабильные метрики дадут хороший базис перед LLM.

Шаги

  1. Соберите и очистите датасет.
  2. Выберите модель/векторизацию и метрики.
  3. Постройте базовый классификатор.
  4. Улучшайте, не ломая репликабельность.

Пример

from transformers import AutoTokenizer, AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
t = AutoTokenizer.from_pretrained("distilbert-base-uncased")
x = t("Пример текста", return_tensors="pt")
y = m(**x)
print(y.logits.argmax(-1))

Ошибки и подводные камни

  • Грязные данные и утечка теста в обучение.
  • Метрики без интерпретации.

Что измерять

  • Accuracy/F1/ROC-AUC, стабильность на сдвигах.

Ресурсы

  • Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.