Human‑eval и LLM‑as‑judge: осторожно #9
TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.
TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.