찾기
내용으로 건너뛰기
추적
문서의 이전 판을 선택했습니다!
저장하면 이 자료로 새 판을 만듭니다.
미디어 파일
{{tag> llama.cpp }} ====== Llama.cpp====== ====옵션 ==== ** -ngl N, --n-gpu-layers N ** 정말정말 중요한 옵션입니다. 여러분의 모델 가운데 일부를 CPU에서 GPU로 옮겨서 텍스트 생성을 가속시켜 주는 기능입니다. 이거 하나로 텍스트 생성 속도에서 천지 차이가 나기 때문에 비록 번거롭기는 하지만 웬만하면 풀로 활용하기를 권해 드립니다. 이 옵션을 사용하기 위해서는 사전에 GPU가속을 위한 컴파일을 해 두어야 합니다. GPU가속에도 여러 가지가 있다보니 좀 복잡하죠. NVIDIA의 cuBLAS 가속을 사용할 때는 초보자 가이드를 열어서 하단에 있는 'llama.cpp 컴파일 방법' 섹션을 참고하시면 됩니다. 다른 종류의 가속(OpenBLAS, CLBLAST 등)에 대해서는 제가 잘 모르니 공식 가이드를 읽고 스스로 하셔야 할 듯 합니다. 가속을 위한 컴파일을 마치고 나면 이 옵션이 제대로 기능합니다. 뒤에 넣을 숫자는 낮은 숫자부터 차근차근 높여서 적정한 값을 스스로 찾아야 해요. 간략한 가이드라인을 드리자면, 제가 8gb VRAM에서 13B 모델을 돌릴 경우 24~36 정도 사이에서 값을 정해줍니다. VRAM이 아주 넉넉하다면 큰 숫자를 넣어서(40000 같은 식으로) 풀로 활용할 수도 있다고 합니다. **-t N, --threads N ** 이것도 매우 중요한 옵션입니다. 위의 ngl 옵션과 함께 퍼포먼스 수준을 결정한다고 해도 과언이 아니죠. 바로 여러분의 CPU를 풀로 활용하기 위한 옵션입니다. 적절한 스레드 숫자를 찾아줘야 CPU 가동율 100%를 달성하여 최적화 할 수 있는데요. 이 숫자는 보통 PC의 물리코어 숫자와 동일하게 맞춰주면 된다고 합니다. 하지만 환경차이로 인해서 다른 결과가 나올 수도 있으니, 숫자를 조금씩 더하거나 빼면서 CPU 가동율을 모니터링 해서 자신에게 가장 적합한 값을 찾아내는 게 베스트일 거예요.
저장
미리 보기
취소
편집 요약
참고: 이 문서를 편집하면 내용은 다음 라이선스에 따라 배포하는 데 동의하는 것으로 간주합니다:
CC Attribution-Noncommercial-Share Alike 4.0 International
문서 도구
문서 보기
이전 판
연결문서
맨 위로
다크 모드로 보기
☀️
Toggle Menu
기술
너두 고쳐두 됩니다.
사이트 도구
최근 바뀜
미디어 관리자
사이트맵
사용자 도구
등록
로긴
최근 수정된 문서
Llama.cpp
Openclaw
[Openclaw]
남인우
만듦
정자회복플랜
Nai
단순포진 (Herpes simplex)
[진단]
자궁근종 (Uterine myoma)
Minio
[Minio]
태아 서맥 (Fetal Bradycardia)
의학 (Medicine)
[태아]
유대인의 자본주의 시스템 구축
만듦
Best studio poses
만듦
역사
만듦
ㅍㅌㅊ (평타취)
[ㅍㅌㅊ (평타취)]
Ollama
AI 비서 제니 (Jenny)
jenny_test
Link 'Jenny' to tech:jenny page