Человек и LLM: как построить метрики для оценки моделей

28 ноября 2024

Узнайте, какими навыками должен обладатьИИ-разработчик

Краткий пересказ от YandexGPT

В этой статье предлагается найти ответ на вопрос: есть ли универсальный метод оценки работы LLM‑моделей? Для этого Ирина Барская, руководитель службы аналитики и исследований в Яндексе, расскажет, какие для этого существуют бенчмарки и почему нельзя полагаться только на них, как работает Chatbot Arena LLM Leaderboard, кто такие AI‑тренеры и может ли одна модель правильно оценить другую.

Перейти

Авторы

Ирина Барская

Яндекс Образование — Личный кабинет

Человек и LLM: как построить метрики для оценки моделей

Краткий пересказ от YandexGPT

Ещё по теме

Как запустить интернет-магазин с Яндекс KITᵝ

Как мы делаем курсы: взгляд программного эксперта Яндекс Практикума

Динамическое программирование - 2 / Разбор /9-11 класс/ Сборы к муниципальному этапу ВсОШ по информатике 2025

Livestream of the Yandex Cup 2025 finals

Введение в графы / 7-8 класс / Сборы к муниципальному этапу ВсОШ по информатике 2025

Введение в графы/ Разбор / 7-8 класс / Сборы к муниципальному этапу ВсОШ по информатике 2025

Опенсор-опентолк / Задаём вопросы

Динамическое программирование - 2/9-11/ Сборы к муниципальному этапу ВсОШ по информатике 2025

Динамическое программирование - 1 (разбор) Сборы к муниципальному этапу ВсОШ по информатике 2025

Как превратить опенсорс-разработку в фултайм-работу? / Андрей Бородин

Как запустить интернет-магазин с Яндекс KITᵝ

Как мы делаем курсы: взгляд программного эксперта Яндекс Практикума

Динамическое программирование - 2 / Разбор /9-11 класс/ Сборы к муниципальному этапу ВсОШ по информатике 2025