Welches lokale KI-Modell ist am besten für Deutsch?

Für deutschsprachige Aufgaben gelten die Gemma-Modelle als besonders stark, gefolgt von Qwen3 und Mistral. Die Tabelle zeigt die Deutsch-Qualität pro Modell als Einschätzung.

Was bedeutet das Kontextfenster?

Das Kontextfenster ist die Textmenge in Token, die ein Modell gleichzeitig verarbeiten kann. 32K reichen für die meisten Aufgaben; lange Dokumente profitieren von 128K oder mehr. Mehr Kontext kostet zusätzlichen Speicher.

Sind diese Modelle kommerziell nutzbar?

Das hängt von der Lizenz ab (Spalte „Lizenz“). Apache 2.0 und MIT erlauben freie kommerzielle Nutzung; Lizenzen wie die Llama Community License oder die Gemma Terms haben Einschränkungen, die du im Zweifel in der Original-Lizenz prüfen solltest.

Was ist ein MoE-Modell?

Bei einem Mixture-of-Experts-Modell liegen alle Parameter im Speicher, aber pro Token rechnet nur ein Bruchteil davon (die aktiven Parameter). Dadurch ist es so schnell wie ein viel kleineres Modell, braucht aber den Speicher des großen.

Lokale KI · Modell-Datenbank

Lokale KI-Modelle im Überblick

Alle relevanten Open-Source-Modelle, die du lokal mit Ollama, LM Studio oder llama.cpp betreiben kannst, mit Speicherbedarf, Kontextfenster, Lizenz und Deutsch-Qualität. Der Speicher-Filter zeigt, welche Modelle in deine Hardware passen. Wann sich lokal überhaupt lohnt, klärt der ausführliche Leitfaden.

Ob ein Modell dann schnell genug läuft, hängt von der Speicherbandbreite deines Geräts ab, nicht nur davon, ob es in den Speicher passt. Das rechnet dir der Hardware-Rechner aus.

FamilieDeutsch-QualitätLizenz

Passt in

16 von 25 Modellen

						Lizenz
Kimi K2.6	96/100	1.000B · 32B aktivMoE	~560 GB	256K	gut	Modified MIT	1462	$0,67 / $3,50/1M
GLM-5	94/100	744B · 40B aktivMoE	~410 GB	200K	gut	MIT	1457	$0,60 / $1,92/1M
DeepSeek V4-Flash	93/100	284B · 13B aktivMoE	~155 GB	1M	gut	MIT	1434	$0,09 / $0,18/1M
Qwen3 235B-A22B	92/100	235B · 22B aktivMoE	~140 GB	32K	stark	Apache 2.0	1375	$0,45 / $1,82/1M
Qwen3-Coder-Next	80/100	80B · 3B aktivMoE	~52 GB	256K	gut	Apache 2.0	—	$0,11 / $0,80/1M
Qwen3 32B	78/100	32B	~21 GB	32K	stark	Apache 2.0	1347	$0,08 / $0,28/1M
Gemma 4 31B	77/100	31B	~20 GB	256K	stark	Apache 2.0	1451	—
Qwen3 30B-A3B	72/100	30B · 3B aktivMoE	~20 GB	32K	stark	Apache 2.0	1327	$0,12 / $0,50/1M
Mistral Small 3.1 24B	70/100	24B	~16 GB	128K	stark	Apache 2.0	1303	$0,35 / $0,55/1M
Qwen3 14B	64/100	14B	~11 GB	32K	stark	Apache 2.0	—	$0,10 / $0,24/1M
Gemma 4 12B	62/100	12B	~9,5 GB	256K	stark	Apache 2.0	—	—
Phi-4 14B	60/100	14B	~11 GB	16K	solide	MIT	1256	$0,07 / $0,14/1M
Qwen3-VL 8B	54/100	8B	~7,5 GB	256K	gut	Apache 2.0	—	$0,08 / $0,50/1M
Qwen3 8B	52/100	8B	~7 GB	32K	stark	Apache 2.0	—	$0,05 / $0,40/1M
Qwen3 4B	38/100	4B	~4 GB	32K	gut	Apache 2.0	—	—
Qwen3 1.7B	24/100	1,7B	~2,5 GB	32K	gut	Apache 2.0	—	—

LMArena zeigt die aktuelle ELO-Wertung aus dem öffentlichen LMArena Chat-Leaderboard (Stand 10.06.), nicht der Agent-, Code- oder Image-Arena. Cloud-Preis ist der günstigste Anbieter-Preis pro 1 Mio. Token (Input / Output) laut OpenRouter. Beide Werte sind live und werden täglich aktualisiert; „—“ heißt, das Modell ist dort (noch) nicht gelistet. Alle übrigen Spalten sind kuratierte Richtwerte.

Wie die Werte zustande kommen

Transparenz vorweg: Die Zahlen sind sorgfältig geschätzte Richtwerte für den Praxisbetrieb, keine Laborbenchmarks. Stand: Mitte 2026.

Speicherbedarf

Der Speicherwert gilt für die Quantisierung Q4_K_M (der Standard in Ollama und LM Studio) inklusive eines kleinen Kontextfensters. Faustregel: rund 0,55 GB pro Milliarde Parameter plus etwas Overhead.

Mixture-of-Experts

Bei MoE-Modellen bestimmt die Gesamtzahl der Parameter den Speicherbedarf (alle Experten liegen im RAM), während nur die aktiven Parameter das Tempo bestimmen. Daher der Geschwindigkeitsvorteil bei gleicher Größe.

Stärke-Richtwert

Die Stärke ist ein gerundeter Richtwert (0–100), der mit der Modellgröße steigt. Er hilft beim Vergleich innerhalb dieser Liste, ist aber kein offizieller Benchmark-Score.

Hinweis zum Kontextfenster: Die Qwen3-Textmodelle ab 4B laufen nativ mit 32K Token und lassen sich per YaRN auf bis zu 128K erweitern (das 1.7B-Modell bleibt bei 32K). Die Tabelle zeigt den nativen Wert.

Häufige Fragen

Welches lokale KI-Modell ist am besten für Deutsch?: Für deutschsprachige Aufgaben gelten die Gemma-Modelle als besonders stark, gefolgt von Qwen3 und Mistral. Die Tabelle zeigt die Deutsch-Qualität pro Modell als Einschätzung.
Was bedeutet das Kontextfenster?: Das Kontextfenster ist die Textmenge in Token, die ein Modell gleichzeitig verarbeiten kann. 32K reichen für die meisten Aufgaben; lange Dokumente profitieren von 128K oder mehr. Mehr Kontext kostet zusätzlichen Speicher.
Sind diese Modelle kommerziell nutzbar?: Das hängt von der Lizenz ab (Spalte „Lizenz“). Apache 2.0 und MIT erlauben freie kommerzielle Nutzung; Lizenzen wie die Llama Community License oder die Gemma Terms haben Einschränkungen, die du im Zweifel in der Original-Lizenz prüfen solltest.
Was ist ein MoE-Modell?: Bei einem Mixture-of-Experts-Modell liegen alle Parameter im Speicher, aber pro Token rechnet nur ein Bruchteil davon (die aktiven Parameter). Dadurch ist es so schnell wie ein viel kleineres Modell, braucht aber den Speicher des großen.

Vom Modell zum Produktivsystem

Lass dein Modell lokal laufen, Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren. 100% DSGVO-konform.

Kostenlos starten Zurück zum Rechner