Human‑eval и LLM‑as‑judge: осторожно #9

TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.

August 8, 2025 · 1 min