TL;DR: Удаляйте дубликаты, убирайте мертвые данные, балансируйте классы и документируйте источник и лицензии.

Контекст

Сырые данные — главный источник проблем. Нужны процедуры очистки, документирования и контроля лицензий.

Шаги

  1. Удалите дубликаты и мусор.
  2. Нормализуйте поля и метаданные.
  3. Балансируйте классы.
  4. Задокументируйте источник и лицензии.

Пример

# Удаление дубликатов по хешу строки
seen, cleaned = set(), []
for row in data:
    h = hash(row["text"])
    if h not in seen:
        seen.add(h); cleaned.append(row)

Ошибки и подводные камни

  • Дубликаты и нарушения лицензий.
  • Перекос классов без учёта.

Что измерять

  • Доля дубликатов, полнота метаданных, баланс классов.

Ресурсы

  • Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.