Доклад

GPU-инференс в K8s: ускорение, шеринг и скейлинг без боли

На русском языке

Инференс на GPU в Kubernetes — это вам не просто HPA и поехали. Тут тебе и огромные образы, и очередь на GPU, и узкие горлышки от холодного старта до пуллинга. И все это на фоне желания быстро и эффективно скейлиться.

Покажу, как мы внедряли автоскейлинг инференса в K8s-кластере с GPU:

  • как ускоряли запуск и загрузку образов;
  • как шарили один GPU между задачами через MIG, MPS и HAMi;
  • как выбирали шедулеры (Volcano, Kueue, KAI).

И расскажу, зачем нам Dynamic Resource Allocation.

Если вы хотите, чтобы инференс работал быстро, стабильно и не сжигал бюджет — этот доклад для вас.

Спикеры

Расписание