Оценка Качества

Human‑eval и LLM‑as‑judge: осторожно #9

TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.