Тренировки. ML забег. Лекция 5: Современные методы обучения с подкреплением. Advantage actor critic, RLHF

На видео, в ходе лекции, обсуждаются принципы RL: постановка задачи максимизации награды, проблемы несовпадения данных при обучении и применении, ограничения классического обучения с учителем и способы их преодоления с помощью RL. Приводятся примеры оптимизации политики через градиенты, сложности с расчетом производных функций награды, а также обсуждаются такие концепции, как advantage actor-critic, RLHF (обучение подкреплением с человеческим фидбеком), бэйзлайн и методы оценки качества поведения. Важное место занимает объяснение возможностей полиградиентных методов для работы с дискретными последовательностями, такими как текст, и перспектив применения RLHF и GAN в языковых моделях и других задачах.