Ollama

 ollama run qwen3.5:9b --verbose  --think=false "월경 주기에 대해서 알려줘"

qwen3.5:4b

total duration: 43.345010709s load duration: 105.515709ms prompt eval count: 19 token(s) prompt eval duration: 214.224625ms prompt eval rate: 88.69 tokens/s eval count: 807 token(s) eval duration: 42.19583567s eval rate: 19.13 tokens/s

qwen3.5:9b

total duration: 1m4.25225775s load duration: 3.324773875s prompt eval count: 19 token(s) prompt eval duration: 651.957ms prompt eval rate: 29.14 tokens/s eval count: 798 token(s) eval duration: 59.355316133s eval rate: 13.44 tokens/s

클라우드 (Cloud / API)

이건 내 맥미니에서 돌아가는 모델이 아니라, 외부 서버(OpenAI, Anthropic 등)에서 빌려 쓰는 모델을 뜻함.

특징: 성능은 압도적으로 좋지만, 사용할 때마다 돈이 나가거나 API 키가 필요함.
용도: 내 맥미니 사양을 뛰어넘는 초고난도 작업(소설 전체 분석 등)이 필요할 때 연결해서 씁니다.

임베딩 (Embedding)

대화용 모델이 아니라 "비교 및 검색용" 모델임.

특징: 질문을 던져도 대답(Text)을 하지 않고, 문장을 숫자 뭉치(Vector)로 변환함.
용도: RAG(내 문서 기반 답변) 기능을 쓸 때 필수임. 내 PDF 문서들을 숫자로 변환해서 저장해 뒀다가, 나중에 질문과 비슷한 내용을 광속으로 찾아낼 때 사용함.
추천: `ollama run mxbai-embed-large`

비전 (Vision / VL)

앞서 설명해 드린 "눈(시각)이 달린" 모델임.

특징: 이미지 파일(JPG, PNG 등)을 이해함.
용도: 사진 설명, 영수증 OCR(글자 추출), 웹사이트 스크린샷 보고 코드 짜기 등.
추천: `ollama run qwen2.5-vl:7b` (맥미니 32GB에서 매우 빠름)

툴스 (Tools / Function Calling)

"손과 발이 달린" 모델임.

특징: 외부 프로그램(계산기, 검색 엔진, 시스템 설정)을 조작할 수 있는 특수한 '쪽지(JSON)'를 쓸 줄 압니다.
용도: "오늘 서울 날씨 검색해줘", "내 맥미니 램 사용량 알려줘" 같은 동적인 작업을 수행할 때 씁니다.
추천: `ollama run qwen2.5:32b` (도구 능력이 아주 뛰어남)

팅킹 (Thinking / Reasoning)

최근 가장 핫한 "심사숙고형(추론)" 모델임. (예: DeepSeek R1)

특징: 정답을 말하기 전에 `<thought>`(생각 과정)라는 단계를 거칩니다. 사람이 문제를 풀 때 연습장에 풀이 과정을 적는 것과 똑같다.
용도: 복잡한 수학 문제, 논리 퍼즐, 아주 어려운 코딩 버그 수정 등.
추천: `ollama run deepseek-r1:32b` (32GB 램에서 돌릴 수 있는 최고 성능의 생각하는 모델)

💡 Mac mini 32GB 유저를 위한 '풀세트' 추천

이 5가지를 다 깔 필요는 없고, 딱 이렇게 3개만 가지고 계시면 모든 상황에 대응 가능함.

메인 비서 (Tools + Thinking): `deepseek-r1:32b` (똑똑함 끝판왕)
눈이 필요한 비서 (Vision): `qwen2.5-vl:7b` (사진 분석용)
문서 분석용 (Embedding): `mxbai-embed-large` (PDF 읽기용)

테스트

Qwen2.5:32b-instruct-q3_K_M (15GB), cl 32768,
- 램 29gb 점유, 오픈클로 5분 이상 걸림.
qwen3-q3:
- 램 24까지 올라감. 오픈클로 간단 인사 2분..^
qwen2.5:14b (9.0 GB) ¹⁾
- 램 사용 20GB, 단순 인사 대답 약 3초. 약간 복잡한 질문은 3분 정도 걸려.
qwen2.5-coder:14b (9.0 GB)
- 램사용 21GB, 3-4문장 대답 8분.

Llava (4.0 GB)
qwen3-coder:30b (18 GB)
- 램26gb 점유. 대답 4분.
deepseek-r1:14b 9.0 GB - 한국말 제대로 못함.

Openclaw

# 32GB 맥에서 LLM을 위해 GPU 한도를 26GB 정도로 늘리기
sudo sysctl iogpu.wired_limit_mb=26624

¹⁾

openclaw config set agents.defaults.model.primary "ollama/qwen2.5:14b"

목차