728x90
SMALL
🐹 vLLM이란?
대표적인 LLM 추론 프레임워크 중 하나로, 최신 GPU 메모리 관리 기술과 효율적인 데이터 처리를 통해 낮은 지연 시간(latency)과 높은 처리량(throughput)을 제공한다.
허깅페이스의 유명 모델을 중심으로 서빙을 지원하며 사용가능한 모델을 확대하고 있다.
지원하는 모델은 여기 에서 확인할 수 있다.
🐹 주요 특징
- Efficient Tensor Parallelism
- vLLM은 텐서 병렬화(tensor parallelism)를 효율적으로 지원하여 LLM의 대규모 파라미터를 여러 GPU에 걸쳐 분산 처리
- 기존의 병렬화 방식보다 메모리 사용 효율을 높이고, 모델 크기에 비례하는 확장성을 제공
- Fast Inference with Continuous Batch Processing
- vLLM은 연속 배치 처리(continuous batching) 기법을 사용하여 여러 요청을 동시에 처리하면서도 지연 시간을 최소화
- 여러 입력 길이와 요청 시간대를 가진 요청을 효율적으로 처리할 수 있도록 설계
- Pipelined Execution
- 파이프라인 실행 방식을 활용하여 GPU 사용률을 극대화하며, 모델 추론 단계에서의 병목 현상 감소
- Memory Optimization
- vLLM은 GPU 메모리를 효과적으로 관리하기 위해 비동기 메모리 관리(asynchronous memory management) 및 on-demand data loading를 도입
- 모델 크기와 관계없이 적은 GPU 메모리에서도 효율적인 추론이 가능
- Flexible Model Integration
- 다양한 대규모 언어 모델(예: OpenAI GPT, LLaMA, BLOOM 등)과의 통합이 쉽도록 설계
- Hugging Face Transformers와 같은 프레임워크와도 잘 호환
- Dynamic Input and Output Handling
- 입력 데이터의 길이가 가변적이더라도 효율적으로 처리할 수 있도록 동적 배치를 지원
- 다양한 응용 시나리오(예: 실시간 채팅, 문서 요약 등)에 유용
참고
https://arxiv.org/pdf/2309.06180
https://blog.vllm.ai/2023/06/20/vllm.html
vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
GitHub | Documentation | Paper
blog.vllm.ai
728x90
LIST
'Internship' 카테고리의 다른 글
[OpenWebUI] LLM 웹 인터페이스 (1) | 2024.12.20 |
---|---|
RAG 시스템 키워드 추출 (1) | 2024.11.27 |
RAG란? (0) | 2024.11.24 |
Elasticsearch란? (0) | 2024.11.19 |
docker compose 설치 (0) | 2024.11.11 |