DeepSeek-V3 — open source проект на GitHub

DeepSeek-V3 — открытая страница модели DeepSeek с MoE-архитектурой, 671B параметрами, 37B активируемыми параметрами и материалами для запуска и изучения.

Что это такое

DeepSeek-V3 — репозиторий не для маленькой библиотеки, а для крупной языковой модели. В центре проекта MoE-архитектура: всего 671B параметров, но для каждого токена активируется 37B. Такой подход нужен, чтобы масштабировать модель, не превращая каждый запрос в полный проход по гигантской плотной сети.

Внутри собраны техническое описание, ссылки на веса DeepSeek-V3 и DeepSeek-V3-Base на Hugging Face, материалы про запуск, результаты оценок, лицензии для кода и модели, а также ссылка на статью. Для каталога важно, что это страница инженерного проекта, а не просто новость о модели.

Что внутри и как используют

Проект появился как продолжение линии DeepSeek-V2 и использует Multi-head Latent Attention, DeepSeekMoE, стратегию балансировки без вспомогательной функции потерь и обучение с multi-token prediction. В описании также указано предобучение на 14.8T токенов и контекст до 128K.

Краткая карта модели

Фрагмент показывает ключевые параметры, вокруг которых устроено описание DeepSeek-V3.

Язык: Markdown

| Model | Total params | Activated params | Context length |
| --- | ---: | ---: | ---: |
| DeepSeek-V3-Base | 671B | 37B | 128K |
| DeepSeek-V3 | 671B | 37B | 128K |

Практическое использование зависит от ресурсов. Это не модель, которую комфортно запустить на обычном ноутбуке. Чаще ее изучают как открытую техническую работу, используют через размещенные сервисы, запускают в специализированной инфраструктуре или берут идеи архитектуры для исследований.

Сильные стороны и ограничения

Сильная сторона репозитория — высокая конкретика: параметры, архитектура, ссылки на веса, отдельные лицензии, оценки и статья. Он полезен разработчикам, которые хотят понять устройство современной MoE-модели, а не только пользоваться готовым чатом.

Ограничение очевидно: большой размер, требования к памяти и инфраструктуре, а также отдельные условия лицензии модели, которые нужно читать до коммерческого использования. Для прикладного продукта проще начать с API или меньшей модели, а не с локального запуска полного V3.