Gemma 4
9B und 27B Open-Weight
- Intelligence
- 39/100
- Kontext
- 256k Tokens
- Status
- Aktiv
- Reasoning
- nein
- Release
- 1. Dez. 2025
- Lizenz
- open_weight
- Positionierung
- open_small
Verfügbar in 1 App
Wo finde ich Gemma 4?
- CLIClaude CodelokalviaOllama
Gemma 4 12B Q4 — mittleres Modell für Laptops.
Anbieter & Preise
Wo läuft Gemma 4?
| Anbieter | Region | Datenschutz | Input $/1M | Output $/1M | Blended $/1M |
|---|---|---|---|---|---|
| Google Cloud AI | US/EU | Prüfung nötig | – | – | gratis |
| Ollama | own | Unbedenklich | – | – | gratis |
| LM Studio | own | Unbedenklich | – | – | gratis |
| MLX | own | Unbedenklich | – | – | gratis |
Varianten · Open-Weight-Sizes & Quantisierungen
Was läuft wo lokal?
| Parameter-Größe | Quantisierung | Ressource | Qualität | Hinweis |
|---|---|---|---|---|
| 1B | FP16 | ~2 GB VRAM / 4 GB RAM | Baseline (FP16) | Edge/Mobile-Target, Instruction-Tuned |
| 1B | Q4_K_M | ~700 MB / Smartphone-tauglich | minimaler Qualitätsverlust | Llama.cpp / Ollama, sehr schnell |
| 4B | FP16 | ~8 GB VRAM / 16 GB RAM | Baseline (FP16) | M3 MacBook Air tauglich |
| 4B | Q8_0 | ~4.5 GB | praktisch verlustfrei | Gut für Laptops ohne dedizierte GPU |
| 4B | Q4_K_M | ~2.6 GB | gering | Smartphones High-End (iPhone 16 Pro, S25) |
| 12B | FP16 | ~24 GB VRAM | Baseline (FP16) | RTX 4090 / M4 Max 36GB |
| 12B | Q8_0 | ~13 GB | praktisch verlustfrei | RTX 3090 / 4080 tauglich |
| 12B | Q4_K_M | ~7 GB | gering | Mainstream-Consumer-GPUs (RTX 4060 Ti 16GB) |
| 27B | FP16 | ~54 GB VRAM | Baseline (FP16) | A100/H100 oder Mac Studio M3 Ultra |
| 27B | Q8_0 | ~29 GB | praktisch verlustfrei | RTX 4090 + Offloading oder M-Pro 32GB+ |
| 27B | Q4_K_M | ~16 GB | gering bis mittel | Single-GPU (RTX 4090), häufigste lokale Wahl |
| 27B | Q3_K_M | ~12 GB | mittel | Günstigstes sinnvolles Setup für 27B |
| 31B (MoE) | Q4_K_M | ~18 GB (MoE, nur aktive Experten) | gering | MoE-Variante aus AA, 31B total / kleiner aktiver Anteil |