Подбор инфраструктуры для LLM

На конференции «Я про бэкенд» Антон Алексеев, MLOps-инженер в Авито, рассказал, как подбирать инфраструктуру для LLM-моделей. Он разобрал, какие инструменты помогают быстро подобрать оптимальную конфигурацию под конкретные требования вроде «10 RPS с задержкой до 5 секунд», как тестировать производительность инференса и автоматизировать этот процесс. Антон показал весь путь — от ручных запусков моделей до автоматизированного анализа работы фреймворков на GPU с подбором оптимальной конфигурации.