NER: разметка и базовый пайплайн #5

TL;DR: Возьмите базовую модель, подготовьте чистый датасет, отделите валидацию, задайте понятные метрики — и не забудьте о базовой нормализации текста.

Контекст

Классический NLP никуда не делся: чистый текст, понятная токенизация и стабильные метрики дадут хороший базис перед LLM.

Шаги

Соберите и очистите датасет.
Выберите модель/векторизацию и метрики.
Постройте базовый классификатор.
Улучшайте, не ломая репликабельность.

Пример

from transformers import AutoTokenizer, AutoModelForSequenceClassification
m = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
t = AutoTokenizer.from_pretrained("distilbert-base-uncased")
x = t("Пример текста", return_tensors="pt")
y = m(**x)
print(y.logits.argmax(-1))

Ошибки и подводные камни

Грязные данные и утечка теста в обучение.
Метрики без интерпретации.

Что измерять

Accuracy/F1/ROC-AUC, стабильность на сдвигах.

Ресурсы

Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.

Контекст#

Шаги#

Пример#

Ошибки и подводные камни#

Что измерять#

Ресурсы#