- Startseite
- Lokale KI
- Modelle
Lokale KI · Modell-Datenbank
Lokale KI-Modelle im Überblick
Alle relevanten Open-Source-Modelle, die du lokal mit Ollama, LM Studio oder llama.cpp betreiben kannst, mit Speicherbedarf, Kontextfenster, Lizenz und Deutsch-Qualität. Der Speicher-Filter zeigt, welche Modelle in deine Hardware passen. Wann sich lokal überhaupt lohnt, klärt der ausführliche Leitfaden.
Ob ein Modell dann schnell genug läuft, hängt von der Speicherbandbreite deines Geräts ab, nicht nur davon, ob es in den Speicher passt. Das rechnet dir der Hardware-Rechner aus.
| Lizenz | ||||||||
|---|---|---|---|---|---|---|---|---|
| 96/100 | 1.000B · 32B aktivMoE | ~560 GB | 256K | gut | Modified MIT | 1462 | $0,67 / $3,50/1M | |
| 94/100 | 744B · 40B aktivMoE | ~410 GB | 200K | gut | MIT | 1457 | $0,60 / $1,92/1M | |
| 93/100 | 284B · 13B aktivMoE | ~155 GB | 1M | gut | MIT | 1434 | $0,09 / $0,18/1M | |
| 92/100 | 235B · 22B aktivMoE | ~140 GB | 32K | stark | Apache 2.0 | 1375 | $0,45 / $1,82/1M | |
| 80/100 | 80B · 3B aktivMoE | ~52 GB | 256K | gut | Apache 2.0 | — | $0,11 / $0,80/1M | |
| 78/100 | 32B | ~21 GB | 32K | stark | Apache 2.0 | 1347 | $0,08 / $0,28/1M | |
| 77/100 | 31B | ~20 GB | 256K | stark | Apache 2.0 | 1451 | — | |
| 72/100 | 30B · 3B aktivMoE | ~20 GB | 32K | stark | Apache 2.0 | 1327 | $0,12 / $0,50/1M | |
| 70/100 | 24B | ~16 GB | 128K | stark | Apache 2.0 | 1303 | $0,35 / $0,55/1M | |
| 64/100 | 14B | ~11 GB | 32K | stark | Apache 2.0 | — | $0,10 / $0,24/1M | |
| 62/100 | 12B | ~9,5 GB | 256K | stark | Apache 2.0 | — | — | |
| 60/100 | 14B | ~11 GB | 16K | solide | MIT | 1256 | $0,07 / $0,14/1M | |
| 54/100 | 8B | ~7,5 GB | 256K | gut | Apache 2.0 | — | $0,08 / $0,50/1M | |
| 52/100 | 8B | ~7 GB | 32K | stark | Apache 2.0 | — | $0,05 / $0,40/1M | |
| 38/100 | 4B | ~4 GB | 32K | gut | Apache 2.0 | — | — | |
| 24/100 | 1,7B | ~2,5 GB | 32K | gut | Apache 2.0 | — | — |
LMArena zeigt die aktuelle ELO-Wertung aus dem öffentlichen LMArena Chat-Leaderboard (Stand 10.06.), nicht der Agent-, Code- oder Image-Arena. Cloud-Preis ist der günstigste Anbieter-Preis pro 1 Mio. Token (Input / Output) laut OpenRouter. Beide Werte sind live und werden täglich aktualisiert; „—“ heißt, das Modell ist dort (noch) nicht gelistet. Alle übrigen Spalten sind kuratierte Richtwerte.
Wie die Werte zustande kommen
Transparenz vorweg: Die Zahlen sind sorgfältig geschätzte Richtwerte für den Praxisbetrieb, keine Laborbenchmarks. Stand: Mitte 2026.
Speicherbedarf
Der Speicherwert gilt für die Quantisierung Q4_K_M (der Standard in Ollama und LM Studio) inklusive eines kleinen Kontextfensters. Faustregel: rund 0,55 GB pro Milliarde Parameter plus etwas Overhead.
Mixture-of-Experts
Bei MoE-Modellen bestimmt die Gesamtzahl der Parameter den Speicherbedarf (alle Experten liegen im RAM), während nur die aktiven Parameter das Tempo bestimmen. Daher der Geschwindigkeitsvorteil bei gleicher Größe.
Stärke-Richtwert
Die Stärke ist ein gerundeter Richtwert (0–100), der mit der Modellgröße steigt. Er hilft beim Vergleich innerhalb dieser Liste, ist aber kein offizieller Benchmark-Score.
Hinweis zum Kontextfenster: Die Qwen3-Textmodelle ab 4B laufen nativ mit 32K Token und lassen sich per YaRN auf bis zu 128K erweitern (das 1.7B-Modell bleibt bei 32K). Die Tabelle zeigt den nativen Wert.
Häufige Fragen
- Welches lokale KI-Modell ist am besten für Deutsch?
- Für deutschsprachige Aufgaben gelten die Gemma-Modelle als besonders stark, gefolgt von Qwen3 und Mistral. Die Tabelle zeigt die Deutsch-Qualität pro Modell als Einschätzung.
- Was bedeutet das Kontextfenster?
- Das Kontextfenster ist die Textmenge in Token, die ein Modell gleichzeitig verarbeiten kann. 32K reichen für die meisten Aufgaben; lange Dokumente profitieren von 128K oder mehr. Mehr Kontext kostet zusätzlichen Speicher.
- Sind diese Modelle kommerziell nutzbar?
- Das hängt von der Lizenz ab (Spalte „Lizenz“). Apache 2.0 und MIT erlauben freie kommerzielle Nutzung; Lizenzen wie die Llama Community License oder die Gemma Terms haben Einschränkungen, die du im Zweifel in der Original-Lizenz prüfen solltest.
- Was ist ein MoE-Modell?
- Bei einem Mixture-of-Experts-Modell liegen alle Parameter im Speicher, aber pro Token rechnet nur ein Bruchteil davon (die aktiven Parameter). Dadurch ist es so schnell wie ein viel kleineres Modell, braucht aber den Speicher des großen.
Vom Modell zum Produktivsystem
Lass dein Modell lokal laufen, Corporate LLM macht ein Produktivsystem draus: RAG, Agenten-System, Skills und Connectoren. 100% DSGVO-konform.