Milvus — open source проект на GitHub

Milvus — распределенная векторная база данных для поиска по embeddings, мультимодальным данным и приложений с семантическим поиском.

Что это такое

Milvus — векторная база данных для поиска по embeddings и большим наборам неструктурированных данных: тексту, изображениям и мультимодальным объектам.

Проект появился как ответ на новую нагрузку: приложениям нужно искать не только по точному совпадению, но и по смысловой близости между объектами.

Главная задача Milvus — хранить векторы, строить индексы и быстро находить ближайшие элементы в больших коллекциях.

Как устроен проект

Внутри проекта — Go и C++, индексы для приближенного поиска, распределенная архитектура, режим single-machine, Milvus Lite и клиентские библиотеки.

Проект находится под профильным фондом Linux Foundation, распространяется по Apache 2.0 и связан с экосистемой Zilliz.

Как это используют

Обычный сценарий: приложение получает embeddings из модели, сохраняет их в Milvus, а затем ищет похожие документы, изображения или события.

Для RAG-систем Milvus часто становится слоем памяти: пользовательский вопрос превращается в вектор, а база возвращает релевантные фрагменты для ответа.

Практический пример

Минимальный векторный поиск

Пример показывает идею Milvus: коллекция хранит векторы, а поиск возвращает ближайшие элементы по расстоянию.

Язык: Python

from pymilvus import MilvusClient

client = MilvusClient("milvus_demo.db")
client.create_collection("docs", dimension=3)
client.insert("docs", [{"id": 1, "vector": [0.1, 0.2, 0.3]}])
result = client.search("docs", data=[[0.1, 0.2, 0.29]], limit=1)

Сильная сторона проекта — масштабирование. Milvus рассчитан не только на маленький демо-набор, но и на миллиарды векторов и высокий поток запросов.

Сильные стороны

Еще одно преимущество — разные режимы входа: можно начать с легкой версии для эксперимента и позже перейти к распределенной установке.

Ограничение в том, что векторная база не делает поиск качественным сама по себе. Модель embeddings, разбиение документов и метаданные сильно влияют на результат.

Ограничения

Также важно понимать стоимость инфраструктуры: индексы, память, диски и обновление векторов требуют планирования, особенно при больших объемах.

Milvus лучше всего подходит командам, которые уже понимают, зачем им семантический поиск, рекомендации или поиск похожих объектов.

Кому подойдет

Для простого полнотекстового поиска он может быть лишним: иногда обычный поисковый движок проще, дешевле и понятнее.

В каталоге Milvus важен как один из заметных проектов вокруг векторных данных, где открытый код закрывает серьезную инфраструктурную задачу.

Практический старт — проверить качество на небольшом наборе, измерить задержки и только потом проектировать большую схему хранения и обновления embeddings.

Для продуктов с семантическим поиском Milvus обычно становится не первой строкой кода, а частью архитектурного решения. Сначала нужно понять, какие объекты превращаются в векторы, как часто они обновляются и какие метаданные нужны для фильтрации. Только после этого векторная база начинает приносить пользу: она ищет похожее быстро, но качество поиска рождается из всей цепочки данных.