vllm-project/vllm
vLLM
vLLM — высокопроизводительный движок для инференса и обслуживания LLM с API, совместимым с OpenAI, пакетной обработкой запросов и эффективным управлением памятью.