목차

Ollama

 ollama run qwen3.5:9b --verbose  --think=false "월경 주기에 대해서 알려줘"

qwen3.5:4b

total duration: 43.345010709s load duration: 105.515709ms prompt eval count: 19 token(s) prompt eval duration: 214.224625ms prompt eval rate: 88.69 tokens/s eval count: 807 token(s) eval duration: 42.19583567s eval rate: 19.13 tokens/s

qwen3.5:9b

total duration: 1m4.25225775s load duration: 3.324773875s prompt eval count: 19 token(s) prompt eval duration: 651.957ms prompt eval rate: 29.14 tokens/s eval count: 798 token(s) eval duration: 59.355316133s eval rate: 13.44 tokens/s

클라우드 (Cloud / API)

이건 내 맥미니에서 돌아가는 모델이 아니라, 외부 서버(OpenAI, Anthropic 등)에서 빌려 쓰는 모델을 뜻함.

임베딩 (Embedding)

대화용 모델이 아니라 "비교 및 검색용" 모델임.

비전 (Vision / VL)

앞서 설명해 드린 "눈(시각)이 달린" 모델임.

툴스 (Tools / Function Calling)

"손과 발이 달린" 모델임.

팅킹 (Thinking / Reasoning)

최근 가장 핫한 "심사숙고형(추론)" 모델임. (예: DeepSeek R1)

💡 Mac mini 32GB 유저를 위한 '풀세트' 추천

이 5가지를 다 깔 필요는 없고, 딱 이렇게 3개만 가지고 계시면 모든 상황에 대응 가능함.

  1. 메인 비서 (Tools + Thinking): `deepseek-r1:32b` (똑똑함 끝판왕)
  2. 눈이 필요한 비서 (Vision): `qwen2.5-vl:7b` (사진 분석용)
  3. 문서 분석용 (Embedding): `mxbai-embed-large` (PDF 읽기용)

테스트

Openclaw

# 32GB 맥에서 LLM을 위해 GPU 한도를 26GB 정도로 늘리기
sudo sysctl iogpu.wired_limit_mb=26624
1)
openclaw config set agents.defaults.model.primary "ollama/qwen2.5:14b"