Transformers documentation
EETQ
시작하기
Base classes
추론(Inference)
학습(Training)
양자화(Quantization)
(번역중) Overview(번역중) Selecting a quantization method(번역중) Quantization concepts(번역중) AQLM(번역중) AutoRoundAWQ(번역중) BitNetbitsandbytes(번역중) compressed-tensorsEETQ(번역중) FBGEMM(번역중) Fine-grained FP8GGUF 파일들과의 상호 운용성GPTQ(번역중) HIGGS(번역중) HQQ(번역중) OptimumQuantoQuark(번역중) torchao(번역중) SpQR(번역중) VPTQ(번역중) Contribute
배포환경에 내보내기
(번역중) 개발자 가이드
(번역중) 경량화 메소드
(번역중) Getting startedbitsandbytesGPTQAWQ(번역중) AQLM(번역중) VPTQQuantoQuarkEETQ(번역중) HQQ(번역중) Optimum(번역중) Contribute new quantization method
(번역중) 성능 및 확장성
(번역중) QuantizationLLM 추론 최적화어텐션 행렬 캐싱 디버깅(번역중) Optimize inference using `torch.compile()`
(번역중) 효율적인 학습 기술들
(번역중) Methods and tools for efficient training on a single GPU다중 GPU에서 훈련 진행하기DeepSpeed완전 분할 데이터 병렬 처리CPU에서 훈련다중 CPU에서 훈련하기Apple 실리콘에서 PyTorch 학습훈련용 사용자 맞춤형 하드웨어Trainer API를 사용한 하이퍼파라미터 탐색
추론 최적화하기
리소스
🤗 Transformers에 기여하는 방법🤗 Transformers에 새로운 모델을 추가하는 방법어떻게 🤗 Transformers에 파이프라인을 추가하나요?테스트Pull Request에 대한 검사
기여하기
API
You are viewing v5.2.0 version. A newer version v5.8.1 is available.
EETQ
EETQ 라이브러리는 NVIDIA GPU에 대해 int8 채널별(per-channel) 가중치 전용 양자화(weight-only quantization)을 지원합니다. 고성능 GEMM 및 GEMV 커널은 FasterTransformer 및 TensorRT-LLM에서 가져왔습니다. 교정(calibration) 데이터셋이 필요 없으며, 모델을 사전에 양자화할 필요도 없습니다. 또한, 채널별 양자화(per-channel quantization) 덕분에 정확도 저하가 미미합니다.
릴리스 페이지에서 eetq를 설치했는지 확인하세요.
pip install --no-cache-dir https://github.com/NetEase-FuXi/EETQ/releases/download/v1.0.0/EETQ-1.0.0+cu121+torch2.1.2-cp310-cp310-linux_x86_64.whl또는 소스 코드 https://github.com/NetEase-FuXi/EETQ 에서 설치할 수 있습니다. EETQ는 CUDA 기능이 8.9 이하이고 7.0 이상이어야 합니다.
git clone https://github.com/NetEase-FuXi/EETQ.git
cd EETQ/
git submodule update --init --recursive
pip install .비양자화 모델은 “from_pretrained”를 통해 양자화할 수 있습니다.
from transformers import AutoModelForCausalLM, EetqConfig
path = "/path/to/model".
quantization_config = EetqConfig("int8")
model = AutoModelForCausalLM.from_pretrained(path, device_map="auto", quantization_config=quantization_config)양자화된 모델은 “save_pretrained”를 통해 저장할 수 있으며, “from_pretrained”를 통해 다시 사용할 수 있습니다.
quant_path = "/path/to/save/quantized/model"
model.save_pretrained(quant_path)
model = AutoModelForCausalLM.from_pretrained(quant_path, device_map="auto")