Синтетические данные против дефицита реальных

Ольга Цымбой, старший исследователь-разработчик в Т-Банке, рассказывает про использование синтетических данных. Видео посвящено теме использования синтетических данных для решения проблем нехватки реальных данных, прежде всего из-за высокой стоимости разметки и ограничений, связанных с приватностью и шумностью исходной информации. Рассматриваются различные подходы к генерации синтетики: от шаблонов и языковых моделей до многоуровневых пайплайнов с фильтрацией и улучшением качества данных, включая перевод и реформатирование текстов. Особое внимание уделяется получению максимально образовательных и самодостаточных примеров, минимизации галлюцинаций, а также адаптации синтетики для специфических внутренних доменов, например, банковской поддержки. Также обсуждаются сложности генерации релевантных инструкций, вопросы фильтрации и переиспользования контекстно-зависимых примеров, возможности применения топологических методов для анализа разнообразия данных.