В своём выступлении на Data Fest Миле Митрович рассматривает, как метод обучения с подкреплением способствует улучшению способности к рассуждению у больших языковых моделей (LLM). Он объясняет механизмы, с помощью которых модели переходят от обработки токенов к более сложным формам мышления.
Как Reinforcement Learning улучшает рассуждения в LLM
Карта навыков
Узнайте, какими навыками должен обладатьИИ-разработчик