hugging face 데이터 한번에 다운, git clone, git lfs pull
🚀 git clone vs. git lfs pull 차이점
git clone과 git lfs pull은 Hugging Face 저장소에서 모델을 다운로드하는 데 사용되지만, 하는 역할이 다릅니다.
✅ 1. git clone의 역할 (일반 파일 다운로드)
git clone https://huggingface.co/{링크 위치} C:\HuggingFace\{파일 위치}
📌 무엇을 하나요?
✅ Hugging Face 모델 저장소의 모든 일반 파일(config.json, tokenizer.json, README.md 등)을 다운로드합니다.
✅ 하지만, 대용량 파일(LFS 파일)은 실제 데이터가 아니라 "포인터 파일"만 다운로드합니다.
📌 포인터 파일이란?
Git은 대형 파일(pytorch_model.bin, sentencepiece.bpe.model)을 직접 저장하지 않고, 대신 작은 텍스트 파일(포인터)을 저장합니다.
🔹 예를 들어, pytorch_model.bin 파일을 다운로드하면 아래처럼 보입니다.
version https://git-lfs.github.com/spec/v1
oid sha256:abc123...
size 2271062712
🚨 즉, git clone만 실행하면 대형 모델 파일을 실제로 받지 못하고, 대신 포인터 파일만 다운로드됩니다.
✅ 2. git lfs pull의 역할 (대형 파일 다운로드)
cd C:\HuggingFace\{파일명}
git lfs pull
📌 무엇을 하나요?
✅ git lfs pull을 실행하면 포인터 파일을 Hugging Face 서버에서 실제 파일로 변환하여 다운로드합니다.
✅ 즉, 대형 파일(pytorch_model.bin, sentencepiece.bpe.model)을 실제로 다운로드하는 단계입니다.
✅ git clone과 git lfs pull의 차이점 정리
명령어 역할
git clone | 일반 파일 다운로드 (config.json, README.md 등) |
git clone | 대형 파일은 포인터 파일(메타데이터)만 다운로드 |
git lfs pull | 포인터 파일을 실제 대형 파일로 변환하여 다운로드 (pytorch_model.bin 등) |
🚀 예제 실행 흐름
1️⃣ git clone 실행 → config.json 등 일반 파일 다운로드, pytorch_model.bin은 포인터 파일만 있음
2️⃣ git lfs pull 실행 → pytorch_model.bin을 Hugging Face 서버에서 실제 파일로 다운로드
✅ 최종 결론
📌 git clone은 전체 모델 저장소를 다운로드하지만, 대형 파일은 포함되지 않습니다.
📌 git lfs pull을 실행해야만 대형 모델 파일이 정상적으로 다운로드됩니다.
✅ 따라서 git clone 후 반드시 git lfs pull을 실행해야 Hugging Face 모델을 정상적으로 사용할 수 있습니다. 🚀