AI Infrastructure — Приватное облако

Суверенная AI-инфраструктура

Полностью изолированное приватное облако для развёртывания больших языковых моделей (LLM), дообучения под специализированные задачи и автономной работы AI-агентов. Все компоненты функционируют внутри защищённого периметра без внешних зависимостей. Оптимизированная конфигурация обеспечивает экономию 52% без потери производительности.

Полный технический анализ (PDF)

Оптимизировано

16x GPU

H100 80GB GPU

100G

Ethernet

Оптимизировано

500 TB

20 TB

NVMe Storage

500+

Параллельных сессий

Варианты конфигурации

Starter (MVP)

$250K

100-200 пользователей, пилотный проект

4x NVIDIA L40S 48GB
10TB NVMe + 50TB HDD
100G Ethernet
~3,200 tok/s суммарно
2 FTE команда
$80K/год OPEX

Рекомендуется

Production

$615K

500+ пользователей, инференс + дообучение

8x H100 80GB SXM (DGX)
20TB NVMe + 100TB HDD
100G Ethernet Spine-Leaf
~16,000 tok/s суммарно
3 FTE команда
$120K/год OPEX

Enterprise

$1.4M

1000+ пользователей, полное обучение, DR

16x H100 (2x DGX) + 4x DR
50TB NVMe + 500TB HDD
200G InfiniBand HDR
~32,000 tok/s + обучение
5 FTE команда
$200K/год OPEX

Методика оптимизации: Расчёт основан на реальных требованиях: 500 пользователей, ~10M токенов/день, приоритет инференса над обучением. Оригинальные спецификации (16 GPU, 500TB) были рассчитаны на полноценное обучение 70B+ моделей с нуля. Для задач инференса и LoRA-дообучения достаточно одной системы DGX H100.

Окупаемость инвестиций (ROI)

$0.01

стоимость за 1K токенов

4.5x
экономия vs облачные API

12-18

месяцев до окупаемости

Архитектура системы

Наведите для увеличения

Общая архитектура AI-платформы

graph TB subgraph USERS["Пользователи"] U1[Военнослужащие] U2[Аналитики] U3[Инженеры] end subgraph GATEWAY["Уровень доступа"] AUTH[MFA + RBAC] LB[Load Balancer] RATE[Rate Limiter] end subgraph INFERENCE["Уровень инференса"] VLLM[vLLM Cluster] TGI[TGI Резерв] end subgraph MODELS["Реестр моделей"] QWEN[Qwen3-32B] DEEPSEEK[DeepSeek-R1] CUSTOM[Дообученные модели] end subgraph COMPUTE["Вычислительный кластер"] DGX1[DGX H100
8x H100 80GB] end subgraph MONITOR["Мониторинг"] PROM[Prometheus] GRAF[Grafana] LOGS[Loki] end U1 & U2 & U3 --> AUTH AUTH --> RATE RATE --> LB LB --> VLLM & TGI VLLM & TGI --> MODELS MODELS --> DGX1 DGX1 --> PROM PROM --> GRAF VLLM & TGI --> LOGS

Полная автономность

Система работает полностью автономно, без подключения к интернету. Все данные остаются внутри защищённого периметра.

Air-Gap On-Premise ГОСТ Р 57580

Высокая производительность

Современное программное обеспечение vLLM обрабатывает тысячи запросов в секунду. Ответ системы занимает доли секунды.

~3K токенов/сек P99 <200ms

Адаптированные модели

Модели специально обучены для русского и узбекского языков с учётом военной терминологии.

Qwen3-UZ DeepSeek-MIL

Аппаратное обеспечение

Наведите для увеличения

Архитектура вычислительного кластера

graph LR subgraph RACK1["Стойка 1: Вычисления"] D1[DGX H100
8x H100 80GB] end subgraph NET["Сеть"] ETH[100G Ethernet Fabric] end subgraph STOR["Хранилище"] HOT[20TB NVMe Hot] COLD[100TB HDD Cold] end D1 <--> ETH ETH <--> HOT HOT <--> COLD

Компонент	Спецификация	Количество	Назначение
NVIDIA DGX H100	8x H100 80GB HBM3, 2x AMD EPYC, 2TB RAM	1 система (8 GPU)	Инференс и дообучение
Ethernet	100GbE Spine-Leaf Fabric	2 коммутатора	Клиентский доступ и хранилище
NVMe Storage (Hot)	NVMe All-Flash, высокая пропускная способность	20 TB	Веса моделей, KV-кэш, чекпоинты
HDD Storage (Cold)	S3-совместимое (MinIO), erasure coding	100 TB	Датасеты, архивы, бэкапы
Охлаждение	Жидкостное охлаждение (DLC)	1 стойка	Отвод ~50 кВт тепла
ИБП	Модульные UPS + дизель-генератор	N+1 резервирование	Бесперебойное питание

Программное обеспечение

Конвейер инференса

flowchart LR REQ[Запрос] --> LB[HAProxy] LB --> V1[vLLM Pod 1] LB --> V2[vLLM Pod 2] LB --> V3[vLLM Pod N] V1 & V2 & V3 --> CACHE[KV Cache] CACHE --> GPU[H100 GPUs] GPU --> OUT[Ответ]

Фреймворк	Пропускная способность	Задержка (TTFT)	Применение
vLLM 0.6+	~3000 tok/s на GPU	50-100ms	Продакшн (основной)
TGI	~2000 tok/s на GPU	80-150ms	Резервный, HuggingFace модели
Ollama	~100 tok/s	Варьируется	Разработка, Edge-устройства

Примечание: TTFT (Time To First Token) — время до получения первого токена. Пропускная способность зависит от размера модели, квантизации и длины контекста. Приведены значения для Qwen3-32B с FP8 квантизацией.

Конвейер дообучения (Fine-tuning)

flowchart TB DATA[Исходные данные] --> CLEAN[Очистка и валидация] CLEAN --> ANNOT[Разметка / Аннотирование] ANNOT --> FORMAT[Формат: Alpaca/ShareGPT/Chat] FORMAT --> SPLIT[Train/Val/Test разбиение] SPLIT --> TRAIN[Axolotl + DeepSpeed ZeRO-3] TRAIN --> LORA[LoRA / QLoRA адаптеры] LORA --> MERGE[Объединение весов] MERGE --> QUANT[Квантизация FP8/INT8] QUANT --> EVAL[Оценка качества] EVAL --> DEPLOY[Развёртывание]

# Axolotl config для QLoRA дообучения
base_model: Qwen/Qwen3-32B
adapter: qlora
lora_r: 64
lora_alpha: 128
lora_dropout: 0.05
load_in_4bit: true
bf16: true
gradient_checkpointing: true
deepspeed: zero3_bf16.json
micro_batch_size: 4
gradient_accumulation_steps: 8
            

Метод	VRAM на GPU	Скорость	Качество
Full Fine-tune	~640GB (8x H100)	Медленно	Максимальное
LoRA (r=64)	~80GB (1x H100)	Быстро	Высокое
QLoRA (4-bit)	~24GB	Очень быстро	Хорошее

Архитектура AI-агентов

flowchart TB USER[Запрос пользователя] --> ROUTER[Маршрутизатор агентов] ROUTER --> CODE[Агент кода] ROUTER --> RESEARCH[Агент анализа] ROUTER --> TASK[Агент задач] ROUTER --> CYBER[Агент кибербезопасности] CODE --> TOOLS1[IDE, Git, Терминал] RESEARCH --> TOOLS2[RAG, Документы] TASK --> TOOLS3[Планировщик, API] CYBER --> TOOLS4[SIEM, Сканеры] TOOLS1 & TOOLS2 & TOOLS3 & TOOLS4 --> LLM[LLM Backend] LLM --> RESP[Ответ]

LangGraph

Граф-ориентированные рабочие процессы для сложных многоэтапных агентов с поддержкой состояния.

MITStateful

CrewAI

Оркестрация мультиагентных систем с ролевой моделью взаимодействия.

MITMulti-Agent

Tabby

Локально размещённый ассистент для написания кода с поддержкой 40+ языков программирования.

Apache 2.0SSO/LDAP

Open WebUI

Веб-интерфейс для взаимодействия с LLM, аналог ChatGPT для внутреннего использования.

MITMulti-User

Практические сценарии использования

Автоматический анализ инцидентов

Агент кибербезопасности получает алерт из SIEM, автоматически собирает контекст (логи, сетевой трафик, затронутые системы), классифицирует угрозу и формирует отчёт с рекомендациями по реагированию.

SOC Level 1 автоматизация Время реакции менее 2 мин MITRE ATT&CK

Ассистент разработчика

Tabby интегрируется в IDE курсантов, помогает писать код, объясняет ошибки, предлагает исправления уязвимостей. Работает полностью локально без отправки кода во внешние сервисы.

Python, C, Assembly Автодополнение Code Review

Интеллектуальный поиск по документации

RAG-агент отвечает на вопросы по уставам, инструкциям и регламентам на естественном языке. Указывает источники, цитирует релевантные параграфы, работает на узбекском и русском языках.

Мультиязычный Ссылки на источники Поддержка PDF/DOCX

Анализ вредоносного ПО

Мультиагентная система: один агент дизассемблирует бинарник, другой анализирует поведение в песочнице, третий сопоставляет с известными семействами малвари и генерирует детальный отчёт.

Reverse Engineering Sandbox интеграция YARA правила

Конвейер RAG (Retrieval-Augmented Generation)

flowchart LR DOC[Документы] --> PARSE[Парсинг] PARSE --> CHUNK[Разбиение на чанки] CHUNK --> EMBED[Векторизация] EMBED --> VDB[(Qdrant)] QUERY[Запрос] --> QEMBED[Векторизация запроса] QEMBED --> SEARCH[Семантический поиск] VDB --> SEARCH SEARCH --> RERANK[Переранжирование] RERANK --> CONTEXT[Формирование контекста] CONTEXT --> LLM[LLM] LLM --> ANS[Ответ с источниками]

Компонент	Инструмент	Описание	Лицензия
Векторная БД	Qdrant	Высокопроизводительный поиск, фильтрация, кластеризация	Apache 2.0
Эмбеддинги	BGE-M3	Мультиязычная модель, поддержка RU/UZ/EN	MIT
Парсинг документов	Unstructured	PDF, DOCX, изображения, таблицы	Apache 2.0
Переранжирование	BGE-Reranker	Cross-encoder для повышения точности	MIT
Фреймворк	Haystack 2.0	Модульный RAG с поддержкой агентов	Apache 2.0

Важно: RAG позволяет дополнять ответы LLM актуальной информацией из внутренних документов (уставы, инструкции, регламенты) без необходимости дообучения модели.

Оркестрация и мониторинг

flowchart TB subgraph K8S["Kubernetes Cluster"] NS1[Namespace: inference] NS2[Namespace: training] NS3[Namespace: monitoring] end subgraph OPERATORS["Операторы"] GPU_OP[NVIDIA GPU Operator] KSERVE[KServe] end subgraph MONITOR["Мониторинг"] PROM[Prometheus] GRAF[Grafana] ALERT[Alertmanager] LOKI[Loki] end NS1 --> GPU_OP NS2 --> GPU_OP GPU_OP --> KSERVE NS1 & NS2 & NS3 --> PROM PROM --> GRAF PROM --> ALERT NS1 & NS2 --> LOKI LOKI --> GRAF

Компонент	Инструмент	Назначение
Оркестрация	Kubernetes 1.29+	Управление контейнерами, автомасштабирование
GPU Management	NVIDIA GPU Operator	Автоматическое управление драйверами и ресурсами GPU
Model Serving	KServe	Serverless-инференс с автомасштабированием
Метрики	Prometheus + Grafana	Сбор метрик, визуализация, дашборды
Логирование	Loki + Promtail	Централизованный сбор и анализ логов
Алертинг	Alertmanager	Уведомления об инцидентах
Service Mesh	Istio	mTLS, трассировка, управление трафиком

Модели и квантизация

Наведите для увеличения

Иерархия моделей

flowchart TB subgraph BASE["Базовые модели"] Q[Qwen3-32B] D[DeepSeek-R1-70B] L[Llama-3.3-70B] end subgraph QUANT["Квантизация"] FP8[FP8 - баланс] INT8[INT8 - скорость] AWQ[AWQ 4-bit - Edge] end subgraph CUSTOM["Специализированные модели"] QUZ[Qwen3-UZ - узбекский] DMIL[DeepSeek-MIL - военная терминология] CYBER[CyberQwen - кибербезопасность] end Q --> FP8 D --> FP8 FP8 --> QUZ FP8 --> DMIL Q --> AWQ AWQ --> CYBER

Модель	Параметры	VRAM (FP16)	VRAM (FP8)	Сильные стороны	Лицензия
Qwen3-32B	32B	~64GB	~32GB	Мультиязычность (RU/UZ/EN), инструкции	Apache 2.0
DeepSeek-R1-70B	70B	~140GB	~70GB	Рассуждения, код, математика	MIT
Llama-3.3-70B	70B	~140GB	~70GB	Общего назначения, английский	Llama 3.3 License
BGE-M3	568M	~2GB	-	Мультиязычные эмбеддинги для RAG	MIT
Qwen2.5-Coder-32B	32B	~64GB	~32GB	Генерация кода, анализ уязвимостей	Apache 2.0

FP8 квантизация

Оптимальный баланс между качеством и производительностью. Потеря качества менее 1%, ускорение до 2x.

H100 nativeПродакшн

INT8 квантизация

Максимальная скорость инференса. Потеря качества 1-3%, ускорение до 3x.

SmoothQuantВысокая нагрузка

AWQ 4-bit

Для развёртывания на Edge-устройствах и систем с ограниченной памятью. Потеря качества 3-5%.

EdgeМобильный

Информационная безопасность

Наведите для увеличения

Архитектура Zero Trust

flowchart TB subgraph EXT["Внешний периметр - ЗАБЛОКИРОВАНО"] INT[Интернет] CLOUD[Облачные сервисы] end subgraph GAP["Воздушный зазор"] DIODE[Data Diode односторонний] KIOSK[Изолированный терминал обновлений] end subgraph DMZ["Демилитаризованная зона"] FW1[Firewall L7] IDS[IDS/IPS] WAF[Web Application Firewall] end subgraph SEC["Защищённый периметр"] AUTH[Keycloak MFA + RBAC] VAULT[HashiCorp Vault] COMPUTE[AI Compute] SIEM[SIEM] end subgraph DATA["Классификация данных"] L1[Открытые] L2[ДСП] L3[Секретно] end INT -.->|X| GAP CLOUD -.->|X| GAP DIODE --> KIOSK KIOSK --> DMZ DMZ --> AUTH AUTH --> VAULT VAULT --> COMPUTE COMPUTE --> SIEM COMPUTE --> L1 & L2 & L3

Физическая изоляция (Air-Gap)

Система полностью отключена от интернета. Обновления передаются только через односторонний канал после проверки.

ГОСТ Р 57580СТР-К

Строгий контроль доступа

Многофакторная аутентификация для каждого пользователя. Разграничение прав по ролям. Интеграция с корпоративными системами.

KeycloakmTLS

Полный аудит

Запись всех запросов и ответов: кто, когда, что спрашивал. Хранение журналов не менее 5 лет.

Immutable LogsSIEM

Защита ключей доступа

Безопасное хранение паролей и сертификатов с автоматической сменой. Контроль всех обращений.

VaultAuto-Rotate

Контроль контента

Фильтрация запросов для предотвращения атак. Проверка ответов на утечку секретных данных.

DLPGuardrails

Реагирование на инциденты

Автоматическое обнаружение угроз с немедленным оповещением. Время реакции на критические инциденты менее 15 минут.

SOAR24/7 SOC

Резервирование и отказоустойчивость

Наведите для увеличения

Стратегия резервирования

flowchart TB subgraph PRIMARY["Основной ЦОД"] P_COMP[Compute 8x H100
1x DGX система] P_HOT[20TB NVMe Hot] P_COLD[100TB HDD Cold] P_NET[100G Ethernet] end subgraph BACKUP["Резервный ЦОД (Q4 2026)"] B_COMP[Compute 4x H100/L40S
Резерв] B_STOR[HDD Replica] end subgraph DR["Disaster Recovery"] TAPE[Ленточный архив] OFFSITE[Внешняя площадка] end P_COLD -->|Синхронная репликация| B_STOR B_STOR -->|Ежедневный бэкап| TAPE TAPE -->|Еженедельный вывоз| OFFSITE

Параметр	Цель	Метод достижения
RTO (Recovery Time Objective)	менее 4 часов	Горячий резерв, автоматический failover
RPO (Recovery Point Objective)	менее 1 часа	Синхронная репликация хранилища
Доступность	99.9% (8.76 ч простоя/год)	N+1 резервирование всех компонентов
Бэкап моделей	Ежедневно	Инкрементальный бэкап весов и конфигов
Бэкап данных	Почасово	Снапшоты + репликация

Стоимость владения (TCO)

~$615K

Начальные инвестиции (CAPEX)

1x DGX H100 + сеть + хранилище + подготовка ЦОД

~$120K

Годовая эксплуатация (OPEX)

Электричество (~50 кВт) + команда (3 FTE)

$0.01
Стоимость за 1K токенов
vs $0.03-0.08 у облачных API (GPT-4o, Claude)

Статья расходов	Сумма	Примечание
NVIDIA DGX H100 (1x, 8 GPU)	$400,000	Включая 3 года поддержки NVIDIA
100G Ethernet	$25,000	Коммутаторы spine-leaf + кабели
Хранилище (20TB NVMe + 100TB HDD)	$75,000	Tiered storage: горячее + холодное
Подготовка ЦОД	$60,000	Жидкостное охлаждение, ИБП, стойки
Электроэнергия (год)	$40,000	~50 кВт * 24/7 * $0.10/кВтч
Команда (год)	$80,000	3 FTE (ML-инженер, DevOps, Security)

Сравнение с облачными сервисами: При нашей нагрузке (10 миллионов символов в день) аренда облачных сервисов (GPT-4o, Claude) обошлась бы в $18,000-24,000 ежемесячно — это $216,000-288,000 в год. Собственная инфраструктура окупается за 12-18 месяцев и даёт: полный контроль над данными, независимость от внешних сервисов, экономию до 4.5 раз в долгосрочной перспективе.

Требуемые компетенции команды

ML-инженер 1

Дообучение LLM (LoRA, QLoRA)
Оптимизация инференса (vLLM)
Квантизация моделей (FP8)
Оценка качества моделей

MLOps/DevOps 1

Kubernetes, GPU Operator
CI/CD для ML-пайплайнов
Мониторинг (Prometheus, Grafana)
Автоматизация развертывания

Security/Data Engineer 1

Air-gap архитектура, Zero Trust
RAG-пайплайны, векторные БД
Контроль промптов, DLP
Подготовка датасетов

Рекомендация: На старте достаточно 3 FTE с пересекающимися компетенциями. При масштабировании (Q4 2026+) команду следует расширить до 5 FTE с более узкой специализацией.

План развёртывания

Q1 2026 — Пилотная версия (MVP)

Развертывание DGX H100 (8 GPU), vLLM + Qwen3-32B, Open WebUI для 50 пилотных пользователей. Базовый мониторинг и безопасность.

Q2 2026 — Продакшн и RAG

Масштабирование до 500 пользователей. Интеграция RAG с внутренними документами. Запуск Keycloak для аутентификации.

Q3 2026 — Дообучение и агенты

Конвейер дообучения (LoRA). Специализированные модели для узбекского языка. Развертывание AI-агентов и Tabby для разработчиков.

Q4 2026 — Резервирование

Запуск резервного ЦОД (4x H100/L40S). Полная аттестация по требованиям безопасности. Подключение региональных подразделений.

2027 — Масштабирование

Расширение до 16 GPU при необходимости. Мультимодальные модели. Edge-развертывание на полевых устройствах.