← Ко всем open source проектам

MarkItDown

microsoft/markitdown

MarkItDown — Python-утилита Microsoft/AutoGen для конвертации PDF, Office, HTML, images, audio и архивов в Markdown для LLM pipelines.

Форки 10,067
Автор microsoft
Язык Python
Лицензия MIT
Обновлено 2026-06-07

Что такое MarkItDown

MarkItDown — лёгкая Python-утилита для конвертации файлов в Markdown, заточенная под LLM и text-analysis pipelines. Она не пытается быть идеальным визуальным конвертером для человека; главная цель — сохранить структуру документа: headings, lists, tables, links и текст в форме, которую удобно отдавать модели.

Поддерживаются PDF, PowerPoint, Word, Excel, изображения с EXIF/OCR, audio metadata и transcription, HTML, CSV/JSON/XML, ZIP, YouTube URLs, EPUB и другие форматы. Это делает проект полезным как ingestion-слой перед RAG, классификацией, summarization или поиском.

Что внутри и как это используют

Конвертация файла

Пример показывает характер проекта и его обычную форму использования.

Язык: Python
from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("report.pdf")
print(result.text_content[:1000])

Важная особенность — безопасность I/O. Утилита читает то, к чему имеет доступ текущий процесс, поэтому в untrusted окружении нужно сужать входы, использовать точные `convert_*` функции и не давать процессу лишние права.

Сильные стороны и ограничения

Ограничение MarkItDown — fidelity. Если нужно идеально сохранить визуальную верстку Word или PDF для человека, нужен другой класс инструментов. MarkItDown хорош там, где Markdown является промежуточным форматом для анализа.