PyTorch
- PyTorch eager mode와 torchscripted models를 서빙하기 위한 도구
Internals
serve/internals.md at master · pytorch/serve
- multi model 인퍼런스 프레임워크로 설계됨
- 인퍼런스 리퀘스트 뿐만아니라 모델 관리를 위한 API 둘다 제공
- 서로 다른 모델에 동적으로 할당된 여러 워커 프로세스를 관리함
- 이러한 워커의 동작은 핸들러 파일과 모델 웨이트가 로드될 모델 스토어에 의해 정의됨
Architecture

- Frontend
- request/response를 처리하는 컴포넌트.
- client로부터의 req/res를 처리하며, 모델의 생명주기를 관리함
- Model Workers: 모델에서의 실제 인퍼런스를 수행하는 역할을 가진 워커
- Model
script_module
(JIT saved models) 이거나 eager_mode_models
일 수 있음.
- 다른 모델 아티팩트(ex. state_dicts)와 함께 데이터의 전처리 및 후처리를 제공할 수 있음
- cloud storage 또는 로컬에서 로드할 수 있음
- Plugins
- startup 시간에 torchserve에 할당할 수 있는 기능 또는 알고리즘들
- 커스텀 엔드포인트 or authz/authn or 배치 알고리즘
- Model Store