Что это такое
DeepSeek-R1 — репозиторий про модели рассуждения DeepSeek. В центре находятся DeepSeek-R1-Zero, DeepSeek-R1 и несколько плотных дистиллированных моделей на базе Qwen и Llama.
R1-Zero демонстрирует обучение с подкреплением без предварительной supervised fine-tuning-стадии, а R1 добавляет стартовые данные и дополнительные этапы настройки, чтобы улучшить читаемость и устойчивость.
Что внутри и как используют
Внутри — описание моделей, ссылки на Hugging Face, таблицы параметров, результаты оценок, статья, рекомендации по использованию и список дистиллированных вариантов. Полная R1-модель основана на DeepSeek-V3-Base и имеет MoE-архитектуру.
Карта семейства R1
Фрагмент показывает, что репозиторий содержит не одну модель, а семейство базовых и дистиллированных вариантов.
Семейство DeepSeek-R1
- DeepSeek-R1-Zero: модель рассуждения с упором на RL
- DeepSeek-R1: стартовые данные и этапы RL/SFT
- Дистиллированные варианты: контрольные точки на базе Qwen и Llama
- Полные модели: 671B всего, 37B активных параметров, контекст 128K
Практически R1 часто используют через API, размещенные сервисы инференса или меньшие дистиллированные модели. Локальный запуск полной модели требует серьезной инфраструктуры.
Сильные стороны и ограничения
Сильная сторона — открытость материалов о процессе обучения моделей рассуждения и наличие дистиллированных вариантов. Репозиторий показывает не только итоговую модель, но и направление исследований вокруг RL и рассуждений.
Ограничение — большой вес и сложность оценки. Модель рассуждения может быть сильной в математике и коде, но в продукте все равно нужны проверка фактов, безопасность и понимание стоимости инференса.