← Ко всем open source проектам

Whisper

openai/whisper

Whisper — модель и Python-пакет OpenAI для распознавания речи, перевода речи на английский и определения языка в аудиофайлах.

Форки 12,490
Автор openai
Язык Python
Лицензия MIT
Обновлено 2026-06-09

Что это такое

Whisper — открытый проект OpenAI для распознавания речи. Он обучен на большом наборе разнообразного аудио и устроен как многозадачная модель: распознавание речи на разных языках, перевод речи на английский, определение языка и вспомогательные задачи обработки аудио.

Технически это Transformer sequence-to-sequence. Важная особенность — единый формат токенов для разных задач: модель не собирается из нескольких отдельных стадий, а предсказывает результат как последовательность. Поэтому Whisper стал удобной базой для CLI, Python-скриптов, субтитров, медиаархивов и голосовых интерфейсов.

Что внутри и как используют

Внутри репозитория есть Python-пакет, CLI, модельная карточка, примеры и список размеров моделей. Размеры отличаются скоростью, памятью и точностью: от tiny и base до large и turbo. Для практики это значит, что выбор модели зависит от железа, языка и задачи.

CLI и Python API

Пример показывает два уровня работы: готовая команда для файла и программный вызов внутри Python-приложения.

Язык: Python
# CLI:
# whisper audio.mp3 --model turbo

import whisper

model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3")
print(result["text"])

Частый сценарий — транскрибация записей, интервью, подкастов, лекций, видео или служебных звонков. Другой сценарий — встроить распознавание в свое приложение через Python API и затем передать текст в поиск, редактор, суммаризацию или систему субтитров.

Сильные стороны и ограничения

Сильная сторона Whisper — простая установка и широкий языковой охват. Он полезен там, где нужно быстро получить текст из аудио без построения собственной модели распознавания.

Ограничения: качество зависит от шума, дикции, языка и выбранной модели; для ffmpeg нужна отдельная установка; для тяжелых моделей требуется заметная память и нормальное железо. Turbo быстрее, но не предназначен для перевода речи на английский.