DiffusionGemma erklärt: schnelles lokales KI-Modell

„DiffusionGemma" geistert seit dem 10. Juni durch jeden zweiten KI-Newsletter, samt der Schlagzahl von über 1000 Token pro Sekunde, und kaum jemand hat Zeit zu klären, was „Diffusion" bei Text überhaupt bedeutet. Hier lesen Sie, was das Modell wirklich neu macht, und welcher Teil davon für ein KMU zählt.

Überblick: DiffusionGemma ist ein offenes KI-Modell von Google (Apache 2.0, veröffentlicht am 10.06.2026), das Text per Diffusion erzeugt: nicht Token für Token, sondern einen ganzen 256-Token-Block parallel. Das macht es bis zu viermal schneller als vergleichbare Gemma-Modelle, über 700 Token pro Sekunde auf einer einzelnen RTX 5090, und quantisiert passt es in 18 GB VRAM. Für den Mittelstand zählt daraus genau eine Sache: ein schnelles Modell läuft jetzt offline auf einer Consumer-GPU. Das Modell ist experimentell, kein fertiges Produktionsmodell.

Was ist DiffusionGemma?

DiffusionGemma ist ein offenes Sprachmodell aus der Gemma-4-Familie von Google, Apache-2.0-lizenziert und damit ohne Lizenzgebühr nutzbar. Technisch ist es ein Mixture-of-Experts mit 26 Milliarden Parametern, von denen pro Anfrage nur rund 3,8 Milliarden aktiv rechnen. Alle Gewichte liegen im Speicher, gerechnet wird nur ein Bruchteil. Das ist der übliche MoE-Trick für Tempo trotz Größe.

Das eigentlich Neue steckt im „Diffusion". Übliche Sprachmodelle arbeiten autoregressiv, wie eine Schreibmaschine: ein Token, dann das nächste, jedes hängt am vorherigen. DiffusionGemma startet stattdessen von Rauschen und entrauscht einen kompletten Block in einem Durchlauf. Google nennt das Bild der Druckerpresse, die einen ganzen Absatz auf einmal stempelt. Konkret erzeugt das Modell 256 Token parallel pro Forward-Pass, nicht eines nach dem anderen.

Dass Diffusion überhaupt für Text funktioniert, ist die eigentliche Überraschung. Die Technik kommt aus der Bildgenerierung, wo sie Pixel aus Rauschen herausschält. Text ist diskret, jedes Token zählt, und lange galt das autoregressive Vorhersagen als der natürlichere Weg. DiffusionGemma zeigt, dass der parallele Ansatz bei Text praktikabel geworden ist.

Bevor daraus ein Hype-Reflex wird, hilft ein nüchternes Raster. Was ändert Diffusion, und was nicht?

Ändert: Geschwindigkeit. Parallele Block-Erzeugung statt Token-für-Token, laut Google bis zu viermal schneller als vergleichbare Gemma-Modelle.
Ändert: lokale Alltagstauglichkeit. Schnell genug auf einer einzelnen Consumer-GPU, nicht nur im Rechenzentrum.
Ändert nicht zwingend: die Spitzenleistung. Der Claim ist Tempo, nicht der beste Reasoning-Benchmark. DiffusionGemma ist ausdrücklich experimentell.
Ändert nicht: die Datenhoheits-Logik. Lokal bleibt lokal, die Souveränitäts-Frage stellt sich genau wie bei jedem anderen offenen Modell.

Nebenbei nimmt das Modell laut Model-Card auch Bild- und Video-Eingaben entgegen und gibt Text aus. Für den hier relevanten Fall, einen schnellen Textassistenten, ist das ein Bonus, kein Hauptargument.

Warum sorgt DiffusionGemma gerade jetzt für so viel Aufsehen?

Der Auslöser ist konkret und frisch: Google hat DiffusionGemma am 10. Juni offen unter Apache 2.0 veröffentlicht, mit Zahlen, die sich gut teilen lassen. Über 1000 Token pro Sekunde auf einer NVIDIA H100, über 700 auf einer RTX 5090. Solche Werte erzeugen sofort die große These.

Auf LinkedIn klingt sie so: „Neue Architektur, der nächste GPT-Killer, Diffusion macht Cloud-LLMs überflüssig." Das ist der falsche Fokus. Der Rekord auf der H100 ist eine Forschungs-Schlagzeile, kein Mittelstands-Argument. Die relevante Zahl steht daneben: über 700 Token pro Sekunde auf einer einzelnen RTX 5090, und quantisiert passt das Modell in 18 GB VRAM. Das ist kein Rechenzentrum, das ist eine bessere Workstation.

Und genau das ist die eigentliche Nachricht. Jahrelang lautete die Standard-Ausrede gegen lokale KI: „zu langsam für den produktiven Einsatz, dann doch lieber die Cloud." DiffusionGemma entkräftet exakt diesen Satz. Nicht weil es das stärkste Modell der Welt wäre, sondern weil schnelle Inferenz nicht länger an einem Cloud-Rechenzentrum hängt. Die Frontier-Leistung verschiebt sich damit nicht. Die Alltagstauglichkeit lokaler KI schon.

Was bedeutet DiffusionGemma für lokale KI im Mittelstand?

„Lokal" klingt nach GPU-Farm, Serverraum und einem Ops-Team, das niemand hat. Tatsächlich heißt es hier: eine hochwertige Consumer-GPU mit 18 GB Speicher und ein Tool wie Ollama, das das Modell lädt. Die Anfrage geht nicht über eine fremde Cloud-API, sondern bleibt auf Ihrem Rechner. Das ist der ganze Unterschied, technisch wie rechtlich.

Praktisch bedeutet das einen schnellen Textassistenten, der offline auf einer Workstation läuft. Entwürfe, Zusammenfassungen, interne Frage-Antwort-Strecken: Aufgaben, bei denen Tempo und Vertraulichkeit zählen und die letzte Benchmark-Stelle egal ist. Für diese breite Mitte des Arbeitsalltags ist ein schnelles, lokales Modell oft die ruhigere Wahl als ein Frontier-Modell über eine US-API. Ein Beispiel: Eine Kanzlei lässt Mandantenschreiben lokal zusammenfassen und vorformulieren. Die Daten bleiben im Haus, die Antwort kommt in Sekunden, und niemand muss im Nachhinein erklären, warum Schriftsätze über einen fremden Server gelaufen sind.

Zwei ehrliche Einschränkungen gehören dazu. Erstens ist DiffusionGemma experimentell, ein Forschungs-Release, kein abgehangenes Produktionsmodell. Zweitens ersetzt Geschwindigkeit kein Reasoning: für anspruchsvolle Analyse oder komplexes Coding bleiben die Frontier-Modelle vorn. Welches offene Modell sich für welchen Fall lohnt, und wann die Cloud die bessere Antwort bleibt, klärt der Leitfaden zu lokalen KI-Modellen im Detail. Ob ein bestimmtes Modell auf Ihre vorhandene GPU passt, rechnet Ihnen der Hardware-Rechner für lokale Modelle aus.

Wie binde ich DiffusionGemma in Corporate LLM ein?

Ein lokales Modell ist schnell aufgesetzt. Die Frage ist, wie es in den Arbeitsalltag eines Teams kommt, mit Oberfläche, Rechteverwaltung und geteilten Agenten. Genau hier setzt Corporate LLM an, ohne das Modell selbst zu bündeln.

Der erste Weg ist Bring Your Own Model. Sie binden einen eigenen Modell-Endpunkt mit Ihrem eigenen Schlüssel ein: OpenAI-kompatibel wie vLLM oder llama.cpp, ein gesichert erreichbarer Ollama-Endpunkt oder OpenRouter. DiffusionGemma läuft dabei auf Ihrer eigenen Hardware oder bei Ihrem Wunsch-Hoster, die Anfragen gehen direkt an Ihren Endpunkt, abgerechnet wird über Ihren Vertrag. BYOM liegt auf dem Free-Plan und allen bezahlten Stufen, die Oberfläche mit Spaces, Agents und Team-Verwaltung liegt darüber.

Der zweite Weg sind dieselben Open-Source-Modelle, EU-gehostet. Kein eigenes Ops-Team, Daten bleiben trotzdem in der EU, mit Auftragsverarbeitungsvertrag und ohne US-Transfer. Der entscheidende Punkt: Sie entscheiden pro Space oder pro Agent, ohne den Tooling-Stack zu tauschen. Eigenes lokales Modell über BYOM dort, wo es um Tempo und volle Kontrolle geht, EU-gehostete Modelle dort, wo Ihnen der Betriebsaufwand zu hoch ist. Beides in einer Oberfläche, statt einer Grundsatzentscheidung „Cloud oder lokal" fürs ganze Unternehmen. Wie Sie DiffusionGemma konkret per Bring Your Own Model anbinden, Schritt für Schritt, zeigt das Update DiffusionGemma jetzt in Corporate LLM nutzen.

Ist DiffusionGemma lokal DSGVO-konform einsetzbar?

Lokaler Betrieb beseitigt den Drittlandtransfer und damit die Schrems-II-Frage, aber er ist kein Freifahrtschein. Solange die Inferenz auf eigener Hardware läuft, verlassen Eingaben die eigene Infrastruktur nicht. Damit entfällt die Übermittlung nach Art. 44 DSGVO und den folgenden Artikeln zum Drittlandtransfer. Die technischen und organisatorischen Maßnahmen nach Art. 32 DSGVO erfüllen Sie auf eigener Hardware oft leichter, weil die Daten das Haus nicht verlassen.

Zwei Punkte bleiben. Die Pflichten Zweckbindung, Löschkonzept und Dokumentation gelten unverändert. Und sobald die Hardware bei einem externen Hoster steht, etwa per Colocation oder Server-Miete, brauchen Sie einen Auftragsverarbeitungsvertrag nach Art. 28 DSGVO mit diesem Betreiber. Die LLM-Inferenz selbst ist dabei keine Auftragsverarbeitung, der Vertrag hängt an der Hardware, nicht am Modell. Bei echtem Air-Gap on-premise fällt auch dieser Punkt weg. Dass das Modell offen lizenziert ist, ändert an alldem nichts: die Lizenz regelt die Nutzung des Modells, nicht den Umgang mit Ihren Daten.

Wie Sie über den lokalen Betrieb hinaus auch starke Cloud-Modelle rechtssicher einsetzen, vom richtigen Anbieter-Plan über EU-Hosting bis zum lokalen Betrieb, steckt der Leitfaden Claude DSGVO-konform nutzen ab.

DiffusionGemma lokal nutzen: Ihre nächsten Schritte

Drei Schritte halten die Sache sachlich, statt der Schlagzahl hinterherzulaufen. Prüfen Sie zuerst im Hardware-Rechner, ob ein 18-GB-Modell wie DiffusionGemma auf Ihre vorhandene GPU passt. Vergleichen Sie dann in der Modell-Datenbank mit Live-Werten, wie sich offene Modelle bei Stärke, Speicherbedarf und Lizenz nebeneinander schlagen, bevor Sie sich auf eines festlegen. Und wenn ein Modell überzeugt, binden Sie seinen Endpunkt per Bring Your Own Model ein, statt sensible Eingaben über eine fremde API zu schicken. DiffusionGemma selbst binden Sie genau so an, Schritt für Schritt erklärt im Update DiffusionGemma jetzt in Corporate LLM nutzen. Wer zuerst die grundsätzlichen Plattform-Optionen sortieren will, findet die Einordnung in den vier Wegen zu einer LLM-Plattform im Mittelstand.

DiffusionGemma ist nicht das Ende der Cloud, sondern ein weiterer Beleg für dieselbe Bewegung: offene Modelle werden schnell und gut genug, dass Datenhoheit keine Komfort-Frage mehr ist. Mit dieser Reihenfolge haben Sie eine belastbare Entscheidung in der Hand, um als Verantwortlicher die Daten-Frage zu beantworten, bevor das erste Audit sie stellt.

Häufige Fragen

Was ist DiffusionGemma in einem Satz?

Ein offenes Google-Modell, das Text per Diffusion erzeugt, also ganze Token-Blöcke parallel statt Token für Token, und dadurch deutlich schneller und lokal auf einer Consumer-GPU lauffähig ist.

Wie schnell ist DiffusionGemma?

Google nennt über 1000 Token pro Sekunde auf einer NVIDIA H100 und über 700 auf einer RTX 5090, bis zu viermal schneller als vergleichbare Gemma-Modelle. Die konkrete Zahl hängt an Hardware und Quantisierung.

Kann ich DiffusionGemma lokal betreiben?

Ja. Es ist Apache-2.0-lizenziert und passt quantisiert in 18 GB VRAM, läuft also auf einer hochwertigen Consumer-GPU. Die Gewichte liegen auf Hugging Face, Kaggle und Vertex AI.

Ist Diffusion bei Text besser als die übliche Architektur?

Nicht pauschal. Diffusion bringt vor allem Geschwindigkeit durch parallele Block-Erzeugung. Spitzen-Reasoning ist nicht der Claim, und DiffusionGemma ist ausdrücklich experimentell.

Macht DiffusionGemma Cloud-LLMs überflüssig?

Nein. Es verschiebt die Alltagstauglichkeit lokaler KI, nicht die Frontier-Leistung. Für viele KMU bleibt ein Hybrid sinnvoll: sensible Workloads lokal oder EU-gehostet, der Rest über die Cloud.

DiffusionGemma erklärt: Googles schnelles Open-Weight-Modell für lokale KI