DeepSeek-R1 — open source проект на GitHub

DeepSeek-R1 — открытая серия моделей рассуждения DeepSeek с R1, R1-Zero и дистиллированными вариантами на базе Qwen и Llama.

Что это такое

DeepSeek-R1 — репозиторий про модели рассуждения DeepSeek. В центре находятся DeepSeek-R1-Zero, DeepSeek-R1 и несколько плотных дистиллированных моделей на базе Qwen и Llama.

R1-Zero демонстрирует обучение с подкреплением без предварительной supervised fine-tuning-стадии, а R1 добавляет стартовые данные и дополнительные этапы настройки, чтобы улучшить читаемость и устойчивость.

Что внутри и как используют

Внутри — описание моделей, ссылки на Hugging Face, таблицы параметров, результаты оценок, статья, рекомендации по использованию и список дистиллированных вариантов. Полная R1-модель основана на DeepSeek-V3-Base и имеет MoE-архитектуру.

Карта семейства R1

Фрагмент показывает, что репозиторий содержит не одну модель, а семейство базовых и дистиллированных вариантов.

Язык: Markdown

Семейство DeepSeek-R1
- DeepSeek-R1-Zero: модель рассуждения с упором на RL
- DeepSeek-R1: стартовые данные и этапы RL/SFT
- Дистиллированные варианты: контрольные точки на базе Qwen и Llama
- Полные модели: 671B всего, 37B активных параметров, контекст 128K

Практически R1 часто используют через API, размещенные сервисы инференса или меньшие дистиллированные модели. Локальный запуск полной модели требует серьезной инфраструктуры.

Сильные стороны и ограничения

Сильная сторона — открытость материалов о процессе обучения моделей рассуждения и наличие дистиллированных вариантов. Репозиторий показывает не только итоговую модель, но и направление исследований вокруг RL и рассуждений.

Ограничение — большой вес и сложность оценки. Модель рассуждения может быть сильной в математике и коде, но в продукте все равно нужны проверка фактов, безопасность и понимание стоимости инференса.