728x90
SMALL
DVC 란?
Data Version Control 의 약자로, 머신러닝 프로젝트에서 모델과 데이터의 버전 관리를 위한 오픈 소스이다.
DVC는 데이터를 추적하는 데에 사용할 메타 데이터와 설정파일을 생성한다. DVC에 의해 생성된 파일을 git이 추적하며 버전 관리가 진행된다. 따라서 DVC는 무조건 git과 함께 사용되어야한다.
DVC의 동작 방식
dvc init
프로젝트에서 DVC를 초기화
dvc init
dvc add <file>
버전 관리를 원하는 데이터 파일이나 모델을 DVC로 추가한다.
이 명령을 사용하면 DVC는 해당 파일의 해시값을 계산하여 .dvc 파일을 생성하고, 원본 파일은 원격 저장소에 저장할 수 있다.
dvc add data.csv
dvc push
원격 저장소(클라우드 스토리지 등)에 데이터를 업로드한다.
dvc push
dvc pull
다른 팀원이 원격 저장소에서 데이터를 가져옵니다. .dvc 파일을 통해 필요한 데이터 파일을 복원할 수 있다.
dvc push
dvc repro
파이프라인의 변화가 있을 때, 해당 변화를 반영하여 전체 파이프라인을 다시 실행할 수 있다. DVC는 어떤 단계가 변경되었는지 자동으로 추적하여, 필요한 부분만 다시 실행한다.
dvc repro
dvc pipeline show
DVC 파이프라인을 시각적으로 보여주어 파이프라인에서 어떤 단계가 어떻게 연결되어 있는지 확인할 수 있게 한다.
dvc pipeline show
728x90
LIST
'Internship' 카테고리의 다른 글
docker compose 설치 (0) | 2024.11.11 |
---|---|
PaddleOCR labelstudio 연결 (7) | 2024.11.09 |
[OpenCV] findContours | 이미지 윤곽선 검출 (2) | 2024.11.08 |
PaddleOCR 이론 및 사용법/ 모듈 에러 (0) | 2024.09.04 |
GitLab 이론 및 사용법 / github와 다른점 (0) | 2024.09.04 |