Если у вас есть билет, авторизуйтесь для просмотра видео

Доклад

Дата: 17.09 / Начало: 00:00 – Конец: 00:00

GPU-инференс в K8s: ускорение, шеринг и скейлинг без боли

На русском языкеСложность -

Презентация pdf

Инференс на GPU в Kubernetes — это вам не просто HPA и поехали. Тут тебе и огромные образы, и очередь на GPU, и узкие горлышки от холодного старта до пуллинга. И все это на фоне желания быстро и эффективно скейлиться.

Покажу, как мы внедряли автоскейлинг инференса в K8s-кластере с GPU:

как ускоряли запуск и загрузку образов;
как шарили один GPU между задачами через MIG, MPS и HAMi;
как выбирали шедулеры (Volcano, Kueue, KAI).

И расскажу, зачем нам Dynamic Resource Allocation.

Если вы хотите, чтобы инференс работал быстро, стабильно и не сжигал бюджет — этот доклад для вас.

Спикеры

Антон Алексеев
Авито

Приглашенные эксперты

Тимур Гильмуллин
Автоматизатор, независимый эксперт

Другие доклады по теме «K8s»
Другие доклады по теме «Infrastructure»
Другие доклады по теме «ML/AI»

Расписание