TL;DR: Возьмите базовую модель, подготовьте чистый датасет, отделите валидацию, задайте понятные метрики — и не забудьте о базовой нормализации текста.
Контекст
Классический NLP никуда не делся: чистый текст, понятная токенизация и стабильные метрики дадут хороший базис перед LLM.
Шаги
- Соберите и очистите датасет.
- Выберите модель/векторизацию и метрики.
- Постройте базовый классификатор.
- Улучшайте, не ломая репликабельность.
Пример
from transformers import AutoTokenizer, AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
t = AutoTokenizer.from_pretrained("distilbert-base-uncased")
x = t("Пример текста", return_tensors="pt")
y = m(**x)
print(y.logits.argmax(-1))
Ошибки и подводные камни
- Грязные данные и утечка теста в обучение.
- Метрики без интерпретации.
Что измерять
- Accuracy/F1/ROC-AUC, стабильность на сдвигах.
Ресурсы
- Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.