Что такое RAG и чем отличается от дообучения архитектура нашего решения, гипотезы.
- Какие LLM модели используем, что сравнивали.
- Какие показатели сейчас (пользователи, RPS, время ответа, какое железо).
- Как мы измеряем качество ответов.
- Где что-то не получилось.
- Масштабирование на 6 тысяч операторов.
- Планы, связанные с платформой и self-сервисом.