Gemma 4

9B und 27B Open-Weight

Intelligence: 39/100
Kontext: 256k Tokens
Status: Aktiv
Reasoning: nein
Release: 1. Dez. 2025
Lizenz: open_weight
Positionierung: open_small

Verfügbar in 1 App

Wo finde ich Gemma 4?

CLI
Claude Code
lokal
viaOllama
Gemma 4 12B Q4 — mittleres Modell für Laptops.

Anbieter & Preise

Wo läuft Gemma 4?

Anbieter	Region	Datenschutz	Input $/1M	Output $/1M	Blended $/1M
Google Cloud AI	US/EU	Prüfung nötig	–	–	gratis
Ollama	own	Unbedenklich	–	–	gratis
LM Studio	own	Unbedenklich	–	–	gratis
MLX	own	Unbedenklich	–	–	gratis

Varianten · Open-Weight-Sizes & Quantisierungen

Was läuft wo lokal?

Parameter-Größe	Quantisierung	Ressource	Qualität	Hinweis
1B	FP16	~2 GB VRAM / 4 GB RAM	Baseline (FP16)	Edge/Mobile-Target, Instruction-Tuned
1B	Q4_K_M	~700 MB / Smartphone-tauglich	minimaler Qualitätsverlust	Llama.cpp / Ollama, sehr schnell
4B	FP16	~8 GB VRAM / 16 GB RAM	Baseline (FP16)	M3 MacBook Air tauglich
4B	Q8_0	~4.5 GB	praktisch verlustfrei	Gut für Laptops ohne dedizierte GPU
4B	Q4_K_M	~2.6 GB	gering	Smartphones High-End (iPhone 16 Pro, S25)
12B	FP16	~24 GB VRAM	Baseline (FP16)	RTX 4090 / M4 Max 36GB
12B	Q8_0	~13 GB	praktisch verlustfrei	RTX 3090 / 4080 tauglich
12B	Q4_K_M	~7 GB	gering	Mainstream-Consumer-GPUs (RTX 4060 Ti 16GB)
27B	FP16	~54 GB VRAM	Baseline (FP16)	A100/H100 oder Mac Studio M3 Ultra
27B	Q8_0	~29 GB	praktisch verlustfrei	RTX 4090 + Offloading oder M-Pro 32GB+
27B	Q4_K_M	~16 GB	gering bis mittel	Single-GPU (RTX 4090), häufigste lokale Wahl
27B	Q3_K_M	~12 GB	mittel	Günstigstes sinnvolles Setup für 27B
31B (MoE)	Q4_K_M	~18 GB (MoE, nur aktive Experten)	gering	MoE-Variante aus AA, 31B total / kleiner aktiver Anteil