<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Оценка Качества on Технический блог об AI</title><link>https://aipirlanta.xyz/tags/%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B0-%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0/</link><description>Recent content in Оценка Качества on Технический блог об AI</description><generator>Hugo -- 0.147.9</generator><language>ru-ru</language><lastBuildDate>Fri, 08 Aug 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://aipirlanta.xyz/tags/%D0%BE%D1%86%D0%B5%D0%BD%D0%BA%D0%B0-%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0/index.xml" rel="self" type="application/rss+xml"/><item><title>Human‑eval и LLM‑as‑judge: осторожно #9</title><link>https://aipirlanta.xyz/posts/eval-notes-09/</link><pubDate>Fri, 08 Aug 2025 00:00:00 +0000</pubDate><guid>https://aipirlanta.xyz/posts/eval-notes-09/</guid><description>TL;DR: Используйте несколько метрик: автоматические + ручную проверку; избегайте переобучения на тестовую выборку.</description></item></channel></rss>