Copy of Compressa.ai

Быстрый и выгодный* запуск LLM на вашем сервере

С дообучением под конкретные задачи и
поддержкой бюджетного железа
* Дешевле, стабильнее и безопаснее GPT, Gigachat и YaGPT

Читать документацию

Назначить демо

Посмотреть цены

до 97%

Ниже расходы на GPU.

до 70X

Рост пропускной способности

2-5X

Ускорение времени до первого ответа

2-10X

Ускорение генерации
для 1 запроса

Готовая инфраструктура Compressa позволяет значительно ускорить LLM модели в сравнении с Hugging Face, что ведет как к снижению расходов на инференс, так и к улучшению пользовательского опыта

Получить калькулятор стоимости

Все необходимое для экспериментов и масштабирования в одном Docker-контейнере

Мы уже подготовили инфраструктуру,
чтобы вы сэкономили месяцы разработки

Провести совместный технический семинар

Дообучается под задачу с технологией LoRA

Адаптер улучшает качество и не меняет саму модель – используется как "насадка"

Требуются минимальное время и GPU-ресурсы для дообучения
До 100 адаптеров одновременно работают с одной моделью
Адаптер улучшает качество модели до уровня GPT

Узнать больше о кейсах

1 месяц х 1 GPU

Цена при использовании
вашей GPU 3090 24Gb

40.000 руб

480 000 400 000 руб/год

Для вашего сервера или
VPS с 3090 или аналогом

*Без учета стоимости видеокарты

Купить лицензию

1 месяц х 1 GPU

Цена при использовании
вашей GPU A100 40Gb

60.000 руб

720 000 600 000 руб/год

Для вашего сервера или
VPS с A100 40 / 80 Gb

*Без учета стоимости видеокарты

Купить лицензию

Enterprise платформа

На инфраструктуре компании

Индивидуально

Интеграции и доработки под ваши потребности

Выделенная поддержка

ML экспертиза и консультации

Обсудить внедрение

Сравнение метрик *

LLama2-7B (Hugging face)

A100 80GB

Пропускная способность: 69 токенов/секунду
Стоимость за 1M токенов: 992 руб

LLama2-7B (COMPressa)

A100 80GB

Пропускная способность: 4366 токенов/секунду (+63X)
Стоимость за 1M токенов: 20 руб (-98%)

MiXtral-8x7B-Quantized (Hugging face)

A100 40GB

Пропускная способность: 17 токенов/секунду
Стоимость за 1M токенов: 3358 руб

MIXtral-8x7B-Quantized (COMPressa)

A100 40GB

Пропускная способность: 462 токенов/секунду (+27X)
Стоимость за 1M токенов: 165 руб (-95%)

* Указанные значения метрик актуальны при длине запроса 2048 токенов и длине ответа 1024 токена

Запросить подробный отчет

Кейсы внедрения

Провести совместный технический семинар

Compressa создана командой опытных инженеров

С 2017 года
Развиваем ИИ и помогаем компаниям
120 ИИ-проектов
в портфолио команды MIL Team
Собственный R&D
Лаборатория на Физтехе

Узнать больше про MIL Team

Compressa.ai