
Антон Алексеев
Selectel
Инференс на GPU в Kubernetes — это вам не просто HPA и поехали. Тут тебе и огромные образы, и очередь на GPU, и узкие горлышки от холодного старта до пуллинга. И все это на фоне желания быстро и эффективно скейлиться.
Покажу, как мы внедряли автоскейлинг инференса в K8s-кластере с GPU:
И расскажу, зачем нам Dynamic Resource Allocation.
Если вы хотите, чтобы инференс работал быстро, стабильно и не сжигал бюджет — этот доклад для вас.
Selectel