Доклад

Как выжать максимум из GPU и Ray: наш боевой ML-инфраструктурный пайплайн

На русском языке

Расскажу, как мы построили масштабируемую и устойчивую ML-инфраструктуру на базе Kubernetes и Ray, охватывающую весь цикл — от загрузки и обработки данных до обучения моделей и их инференса. Мы подробно разберем, как эффективно распределять нагрузку при дефиците ресурсов, использовать GPU без избыточных затрат и интегрировать Ray с внешними оркестраторами. Особое внимание уделим модулям Ray Data, Train, Tune и Serve, а также практическому построению полного ML-пайплайна в Kubernetes. Покажу, как реализовать масштабирование через Ray Autoscaler, настроить мониторинг и изоляцию в многопользовательской среде и какие инструменты безопасности действительно работают.

Будет много конкретики: реальные пайплайны, архитектурные решения и выводы после выхода в продакшен. Без единорогов, маркетинга и красивых слов — только рабочие практики, проверенные под нагрузкой. Для тех, кто хочет глубже понять, как организовать распределенные вычисления и управлять ML-задачами в современных облачных условиях.

Спикеры

Доклады