TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.
Контекст
Одна метрика редко отражает полезность. Комбинируйте автоматические метрики с ручной проверкой и привязкой к задаче.
Шаги
- Определите, что именно измерять и зачем.
- Выберите несколько метрик и эталонные наборы.
- Постройте автоматическую оценку.
- Добавьте ручную проверку и регрессионные тесты.
Пример
# Заготовка регрессионного теста
def judge(pred, ref):
return int(pred.strip().lower() == ref.strip().lower())
Ошибки и подводные камни
- Опираться на одну метрику.
- Подгонка под тестовую выборку.
Что измерять
- Корреляция метрик с human-eval, воспроизводимость.
Ресурсы
- Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.