차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| tech:ollama [2026/02/07 11:31] – [테스트] 192.168.0.1 | tech:ollama [2026/03/13 13:48] (현재) – 192.168.0.1 | ||
|---|---|---|---|
| 줄 2: | 줄 2: | ||
| ====== Ollama====== | ====== Ollama====== | ||
| - | Ollama나 OpenWebUI 같은 환경에서 | + | |
| + | |||
| + | | ||
| + | |||
| + | qwen3.5:4b | ||
| + | |||
| + | total duration: | ||
| + | load duration: | ||
| + | prompt eval count: | ||
| + | prompt eval duration: 214.224625ms | ||
| + | prompt eval rate: 88.69 tokens/s | ||
| + | eval count: | ||
| + | eval duration: | ||
| + | eval rate: 19.13 tokens/s | ||
| + | |||
| + | |||
| + | | ||
| + | |||
| + | total duration: | ||
| + | load duration: | ||
| + | prompt eval count: | ||
| + | prompt eval duration: 651.957ms | ||
| + | prompt eval rate: 29.14 tokens/s | ||
| + | eval count: | ||
| + | eval duration: | ||
| + | eval rate: 13.44 tokens/s | ||
| ==== 클라우드 (Cloud / API)==== | ==== 클라우드 (Cloud / API)==== | ||
| 줄 56: | 줄 81: | ||
| * Qwen2.5: | * Qwen2.5: | ||
| * 램 29gb 점유, 오픈클로 5분 이상 걸림. | * 램 29gb 점유, 오픈클로 5분 이상 걸림. | ||
| + | * qwen3-q3: | ||
| + | * 램 24까지 올라감. 오픈클로 간단 인사 2분..^ | ||
| * qwen2.5:14b (9.0 GB) ((openclaw config set agents.defaults.model.primary " | * qwen2.5:14b (9.0 GB) ((openclaw config set agents.defaults.model.primary " | ||
| * 램 사용 20GB, 단순 인사 대답 약 3초. 약간 복잡한 질문은 3분 정도 걸려. | * 램 사용 20GB, 단순 인사 대답 약 3초. 약간 복잡한 질문은 3분 정도 걸려. | ||
| + | * qwen2.5-coder: | ||
| + | * 램사용 21GB, 3-4문장 대답 8분. | ||
| + | |||
| * Llava (4.0 GB) | * Llava (4.0 GB) | ||
| * qwen3-coder: | * qwen3-coder: | ||
| 줄 65: | 줄 95: | ||
| [[openclaw]] | [[openclaw]] | ||
| + | |||
| + | |||
| + | |||
| + | < | ||
| + | # 32GB 맥에서 LLM을 위해 GPU 한도를 26GB 정도로 늘리기 | ||
| + | sudo sysctl iogpu.wired_limit_mb=26624 | ||
| + | </ | ||