Описание функциональных характеристик платформы быстрого и выгодного запуска моделей Искусственного Интеллекта "Compressa"

Описание функциональных характеристик платформы быстрого и выгодного запуска моделей Искусственного Интеллекта "Compressa"

Общее описание системы

Compressa — это демонстрационная система, предназначенная для локальной работы моделей искусственного интеллекта без подключения к внешним сервисам. Решение разворачивается в виде Docker-контейнера и содержит набор модулей для обработки текстов, документов и аудио, а также для тестирования OpenAI-совместимого API.

Все вычисления выполняются на стороне пользователя, данные не выходят за пределы локальной среды, что обеспечивает безопасность и контроль над обработкой информации.

Функциональные характеристики

Модули платформы

  • 1. Document Layout (ETL) — модуль извлечения текста из PDF-документов. Поддерживает:
    • загрузку PDF-файлов;
    • извлечение текста;
    • разбиение текста на фрагменты (чанки);
    • выбор стратегии обработки, языка и параметров нарезки.
  • 2. Embeddings — преобразование текста в векторные представления для семантического поиска и классификации. Включает:
    • создание эмбеддингов;
    • демонстрацию примеров тематических категорий;
    • классификацию пользовательских запросов.
  • 3. Rerank — модуль улучшенного поиска. Ранжирует список документов по релевантности заданному текстовому запросу.
  • 4. LLM (OpenAI-Compatible API) — интерфейс работы с языковой моделью в формате, полностью совместимом с OpenAI Chat Completions API. Позволяет:
    • анализировать текст;
    • получать тональность, ключевые темы, проблемы и выводы;
    • использовать API на собственных серверах без внешних сервисов.
  • 5. LLM (LangChain) — модуль обработки длинных транскриптов. Используется для:
    • суммаризации длинных текстов;
    • формирования Executive Summary;
    • выделения Action Items.
  • 6. Text-to-Speech (TTS) — генерация аудио по тексту. Возможности:
    • выбор голоса;
    • поддержка русского и других языков;
    • скачивание аудиофайлов (WAV).
  • 7. Speech Recognition (ASR) — распознавание речи из аудиофайлов. Поддерживает:
    • загрузку WAV/MP3/OGG;
    • стриминговый режим ответа;
    • распознавание речи на русском языке.

Инфраструктура и архитектура

Платформа работает полностью локально в Docker-контейнере. Все компоненты — языковые модели, модули обработки текста и аудио — запускаются внутри одного окружения и не требуют доступа в интернет.

Архитектура ориентирована на демонстрацию возможностей AI-модулей и не предполагает распределённых вычислений или удалённых вызовов серверов.

Интерфейсы взаимодействия

  • Веб-интерфейс — основной способ работы с демонстрационной сборкой. Содержит навигацию по модулям и визуальное отображение всех действий.
  • OpenAI-совместимый API — позволяет использовать библиотеки OpenAI, LangChain, LlamaIndex через замену base_url.

Безопасность и масштабируемость

Безопасность

  • Все данные обрабатываются локально в Docker-контейнере.
  • Передача данных ограничена окружением пользователя.
  • Не требует доступа в интернет.

Масштабируемость

Демонстрационная сборка не предназначена для промышленной нагрузки, однако поддерживает стабильную работу в локальной среде. Масштабирование не требуется и не предусмотрено в текущей версии.