Обзор
Это руководство предоставляет подробные инструкции по развертыванию и запуску модели DeepSeek V3 в вашей локальной среде. Мы охватим полный процесс от базовой настройки до продвинутых опций развертывания, помогая вам выбрать наиболее подходящую стратегию развертывания.
Настройка окружения
Базовые требования
- GPU NVIDIA (рекомендуется A100 или H100) или GPU AMD
- Достаточно системной памяти (рекомендуется 32ГБ+)
- Операционная система Linux (рекомендуется Ubuntu 20.04 или выше)
- Python 3.8 или выше
Подготовка кода и модели
- Клонируйте официальный репозиторий:
git clone https://github.com/deepseek-ai/DeepSeek-V3.git
cd DeepSeek-V3/inference
pip install -r requirements.txt
- Загрузите веса модели:
- Скачайте официальные веса модели с HuggingFace
- Поместите файлы весов в указанную директорию
Варианты развертывания
1. Демонстрационное развертывание DeepSeek-Infer
Это базовый метод развертывания, подходящий для быстрого тестирования:
python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 \
--save-path /path/to/DeepSeek-V3-Demo \
--n-experts 256 \
--model-parallel 16
torchrun --nnodes 2 --nproc-per-node 8 generate.py \
--node-rank $RANK \
--master-addr $ADDR \
--ckpt-path /path/to/DeepSeek-V3-Demo \
--config configs/config_671B.json \
--interactive \
--temperature 0.7 \
--max-new-tokens 200
2. Развертывание SGLang (Рекомендуется)
SGLang v0.4.1 предлагает оптимальную производительность:
- Поддержка оптимизации MLA
- Поддержка FP8 (W8A8)
- Поддержка FP8 KV кэша
- Поддержка Torch Compile
- Поддержка GPU NVIDIA и AMD
3. Развертывание LMDeploy (Рекомендуется)
LMDeploy предоставляет корпоративные решения для развертывания:
- Офлайн обработка конвейера
- Онлайн развертывание сервиса
- Интеграция с рабочим процессом PyTorch
- Оптимизированная производительность вывода
4. Развертывание TRT-LLM (Рекомендуется)
Особенности TensorRT-LLM:
- Поддержка весов BF16 и INT4/INT8
- Предстоящая поддержка FP8
- Оптимизированная скорость вывода
5. Развертывание vLLM (Рекомендуется)
Особенности vLLM v0.6.6:
- Поддержка режимов FP8 и BF16
- Поддержка GPU NVIDIA и AMD
- Возможность конвейерного параллелизма
- Многомашинное распределенное развертывание
Советы по оптимизации производительности
-
Оптимизация памяти:
- Используйте квантование FP8 или INT8 для уменьшения использования памяти
- Включите оптимизацию KV кэша
- Установите подходящие размеры батча
-
Оптимизация скорости:
- Включите Torch Compile
- Используйте конвейерный параллелизм
- Оптимизируйте обработку ввода/вывода
-
Оптимизация стабильности:
- Внедрите механизмы обработки ошибок
- Добавьте мониторинг и логирование
- Регулярные проверки системных ресурсов
Распространенные проблемы и решения
-
Проблемы с памятью:
- Уменьшите размер батча
- Используйте меньшую точность
- Включите опции оптимизации памяти
-
Проблемы с производительностью:
- Проверьте использование GPU
- Оптимизируйте конфигурацию модели
- Настройте стратегии параллелизма
-
Ошибки развертывания:
- Проверьте зависимости окружения
- Проверьте веса модели
- Просмотрите подробные логи
Следующие шаги
После базового развертывания вы можете:
- Провести тестирование производительности
- Оптимизировать параметры конфигурации
- Интегрировать с существующими системами
- Разработать пользовательские функции
Теперь вы освоили основные методы локального развертывания DeepSeek V3. Выберите вариант развертывания, который лучше всего соответствует вашим потребностям, и начните создавать свои AI-приложения!