TL;DR: Удаляйте дубликаты, убирайте мертвые данные, балансируйте классы и документируйте источник и лицензии.
Контекст
Сырые данные — главный источник проблем. Нужны процедуры очистки, документирования и контроля лицензий.
Шаги
- Удалите дубликаты и мусор.
- Нормализуйте поля и метаданные.
- Балансируйте классы.
- Задокументируйте источник и лицензии.
Пример
# Удаление дубликатов по хешу строки
seen, cleaned = set(), []
for row in data:
h = hash(row["text"])
if h not in seen:
seen.add(h); cleaned.append(row)
Ошибки и подводные камни
- Дубликаты и нарушения лицензий.
- Перекос классов без учёта.
Что измерять
- Доля дубликатов, полнота метаданных, баланс классов.
Ресурсы
- Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.