기술공부

hugging face 데이터 한번에 다운, git clone, git lfs pull

넹넹선생님 2025. 2. 12. 11:05
728x90
반응형

🚀 git clone vs. git lfs pull 차이점

git clone과 git lfs pull은 Hugging Face 저장소에서 모델을 다운로드하는 데 사용되지만, 하는 역할이 다릅니다.


✅ 1. git clone의 역할 (일반 파일 다운로드)

git clone https://huggingface.co/{링크 위치} C:\HuggingFace\{파일 위치}

📌 무엇을 하나요?

✅ Hugging Face 모델 저장소의 모든 일반 파일(config.json, tokenizer.json, README.md 등)을 다운로드합니다.
✅ 하지만, 대용량 파일(LFS 파일)은 실제 데이터가 아니라 "포인터 파일"만 다운로드합니다.

📌 포인터 파일이란?

Git은 대형 파일(pytorch_model.bin, sentencepiece.bpe.model)을 직접 저장하지 않고, 대신 작은 텍스트 파일(포인터)을 저장합니다.

🔹 예를 들어, pytorch_model.bin 파일을 다운로드하면 아래처럼 보입니다.

version https://git-lfs.github.com/spec/v1
oid sha256:abc123...
size 2271062712

🚨 즉, git clone만 실행하면 대형 모델 파일을 실제로 받지 못하고, 대신 포인터 파일만 다운로드됩니다.


✅ 2. git lfs pull의 역할 (대형 파일 다운로드)

cd C:\HuggingFace\{파일명}
git lfs pull

📌 무엇을 하나요?

✅ git lfs pull을 실행하면 포인터 파일을 Hugging Face 서버에서 실제 파일로 변환하여 다운로드합니다.
✅ 즉, 대형 파일(pytorch_model.bin, sentencepiece.bpe.model)을 실제로 다운로드하는 단계입니다.


✅ git clone과 git lfs pull의 차이점 정리

명령어 역할

git clone 일반 파일 다운로드 (config.json, README.md 등)
git clone 대형 파일은 포인터 파일(메타데이터)만 다운로드
git lfs pull 포인터 파일을 실제 대형 파일로 변환하여 다운로드 (pytorch_model.bin 등)

🚀 예제 실행 흐름

1️⃣ git clone 실행 → config.json 등 일반 파일 다운로드, pytorch_model.bin은 포인터 파일만 있음
2️⃣ git lfs pull 실행 → pytorch_model.bin을 Hugging Face 서버에서 실제 파일로 다운로드


✅ 최종 결론

📌 git clone은 전체 모델 저장소를 다운로드하지만, 대형 파일은 포함되지 않습니다.
📌 git lfs pull을 실행해야만 대형 모델 파일이 정상적으로 다운로드됩니다.

따라서 git clone 후 반드시 git lfs pull을 실행해야 Hugging Face 모델을 정상적으로 사용할 수 있습니다. 🚀

728x90
반응형