
Михаил Унтура
K2 Cloud
Расскажу, как мы построили масштабируемую и устойчивую ML-инфраструктуру на базе Kubernetes и Ray, охватывающую весь цикл — от загрузки и обработки данных до обучения моделей и их инференса. Мы подробно разберем, как эффективно распределять нагрузку при дефиците ресурсов, использовать GPU без избыточных затрат и интегрировать Ray с внешними оркестраторами. Особое внимание уделим модулям Ray Data, Train, Tune и Serve, а также практическому построению полного ML-пайплайна в Kubernetes. Покажу, как реализовать масштабирование через Ray Autoscaler, настроить мониторинг и изоляцию в многопользовательской среде и какие инструменты безопасности действительно работают.
Будет много конкретики: реальные пайплайны, архитектурные решения и выводы после выхода в продакшен. Без единорогов, маркетинга и красивых слов — только рабочие практики, проверенные под нагрузкой. Для тех, кто хочет глубже понять, как организовать распределенные вычисления и управлять ML-задачами в современных облачных условиях.
K2 Cloud