Human‑eval и LLM‑as‑judge: осторожно #9

TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.

Одна метрика редко отражает полезность. Комбинируйте автоматические метрики с ручной проверкой и привязкой к задаче.

# Заготовка регрессионного теста
def judge(pred, ref):
    return int(pred.strip().lower() == ref.strip().lower())

Репозитории с кодом, учебники и документация по теме. Заполняйте собственными ссылками по мере работы.