Эффективный запуск, быстрый инференс и
масштабирование LLM моделей на вашем сервере
С дообучением под конкретные задачи и
поддержкой бюджетного железа
Экономика
  • На 80% ниже затраты на GPU
  • Дешевле GPT, GigaChat и YaGPT
Бенчмарки
  • X20 пропускная способность
  • X10 скорость генерации слов
Кейсы
Полезна в задачах: от анализа диалогов до составления документов
Все необходимое для экспериментов и масштабирования в одном Docker-контейнере
Мы уже подготовили инфраструктуру,
чтобы вы сэкономили месяцы разработки
Дообучается под задачу с технологией LoRA
Адаптер улучшает качество и не меняет исходную модель – используется как "насадка"
  • Требуются минимальное время и GPU-ресурсы для дообучение модели
  • До 100 адаптеров одновременно работают с одной моделью на GPU
  • Адаптер улучшает качество модели до уровня GPT на конкретной задаче
1 месяц х 1 GPU
Цена при использовании
вашей GPU 3090 24Gb
40.000 руб
  • 480.000 400.000 руб/год
  • На вашем сервере с 3090 или аналогом
Купить лицензию
Enterprise платформа
На инфраструктуре компании
Индивидуально
Обсудить внедрение
Интеграции и доработки
Под потребности заказчика
4.000 руб/час
Обсудить задачу
Бенчмарки
Mistral-7B-v0.2
HF & PyTorch
Скорость генерации: 24 токенов/секунду
Макс. пропускная способность: 190 токенов/секунду
Годовая стоимость (1м ток/день): 10350$
Comressa-7B-V0.2
Compressa
Скорость генерации: 84 токенов/секунду (+3.5X)
Макс. пропускная способность: 2100 токенов/секунду (+11X)
Годовая стоимость (1м ток/день): 740$ (-93%)
Кейсы внедрения
Compressa создана командой опытных инженеров
  • С 2017 года

    Развиваем ИИ и помогаем компаниям

  • 120 ИИ-проектов
    в портфолио команды MIL Team
  • Собственный R&D
    Лаборатория на Физтехе
Оставьте заявку на проведение демо
  • Обсудим ваш кейс применения LLM и проведем персонализированное демо

  • Ответим на технические и коммерческие вопросы

  • Договоримся о бесплатном пробном доступе