Overview

고도화된 딥러닝 모델을 학습하는 것은 도전적입니다. 모델 설계를 넘어서, 모델 싸이언티스트는 분산 학습, mixed precision, gradient accumulation, 그리고 checkpointing과 같은 SOTA 학습 테크닉을 셋업할 필요가 있습니다. 하지만 아직까지는 싸이언티스트들은 시스템 요구 성능과 수렴 속도를 달성하지 못하고 있습니다. 큰 모델 사이즈들은 게다가 더 도전적입니다: 순수한 data parallelism을 사용한다면 OOM이 발생하기 쉽고 model parallelism을 사용하는 것은 어렵습니다. 딥스피드는 모델 개발과 학습에 속도를 향상할 수 있도록 이러한 챌린지들을 다룹니다.

Distributed, Effective, and Efficient Training with Ease

DeepSpeed API는 PyTorch 위의 가벼운 wrapper입니다. 이러한 점은 여러분이 새로운 플랫폼에 대해서 배우지 않고도 PyTorch의 좋은 기능들을 모두 사용할 수 있다는 것을 말합니다. 덧붙여서 DeepSpeed는 분산 학습, mixed precision, gradient accumulation, 그리고 checkpointing과 같은 모든 상용 SOTA 학습 테크닉들을 다루기 때문에 여러분은 모델 개발에만 집중할 수 있습니다. 가장 중요한 것은, 여러분의 PyTorch 모델에 몇개의 적은 코드 라인들만 추가하면, speed와 scale을 향상하기 위해 Deepspeed의 효율적이고 효과적인 이점들을 활용할 수 있습니다.

Speed

DeepSpeed는 연산/통신/메모리/IO에 대한 효율적인 최적화와 고수준 하이퍼파라미터 튜닝과 옵티마이저에 대한 효과적인 최적화를 결합하여 높은 성능과 빠른 수렴 속도를 달성합니다.

Training Overview and Features

Overview

Distributed, Effective, and Efficient Training with Ease

Speed

Memory efficiency