Eigenes LLM einbinden: BYOM in Corporate LLM (DSGVO-konform)

Bring Your Own Model (BYOM) ist ab heute in Corporate LLM verfügbar: Auf dem Free-Plan und allen bezahlten Plänen binden Kunden ihre eigenen LLM-Endpoints direkt in den Modell-Picker ein, abgesichert per DNS-Pinning gegen SSRF, ohne zweites Tool.

Drei Beispiele aus der Praxis: Eine Kanzlei betreibt ein auf die hausinternen Mandantenbriefe finetuntes Llama 3 auf eigener GPU und stellt es über einen gesicherten HTTPS-Endpunkt bereit. Eine Versicherung testet ein experimentelles Modell von OpenRouter, das noch nicht in jeder Plattform steht. Ein Mittelständler will sein selbst gehostetes Ollama-Modell anbinden, statt für jeden Routine-Task ein Cloud-Modell zu zahlen.

Bisher musste jeder dieser Use-Cases ohne Corporate LLM passieren. Ab heute laufen sie im selben Login wie GPT, Claude und Gemini.

Überblick: Mit Bring Your Own Model (BYOM) binden Corporate-LLM-Kunden auf dem Free-Plan und allen bezahlten Stufen ihre eigenen LLM-Endpoints ein: drei Adapter-Typen für OpenAI-kompatible APIs, Ollama-Endpoints und OpenRouter, abgesichert mit DNS-Pinning gegen SSRF und verschlüsselten Credentials. BYOM ist ein Add-On ohne eigenes Token-Budget; die Inferenz rechnen Sie direkt mit Ihrem Provider ab.

Warum die Standard-Provider-Liste nicht reicht und Sie ein eigenes LLM einbinden müssen

Das Corporate-LLM-Hub bündelt vier Cloud-Anbieter (OpenAI, Anthropic, Google, Mistral) plus eine kuratierte Open-Source-Auswahl (siehe Multi-Model-Picker). Diese Standard-Liste deckt einen Großteil der KMU-Use-Cases ab, aber drei Konstellationen brauchen mehr:

Finetuned Modelle. Eine Kanzlei mit eigenem Mandantenbrief-Korpus hat Llama 3 darauf trainiert. Das Modell läuft auf eigener Hardware unter eigenem Vertrag und soll im selben Workspace nutzbar sein wie die Standard-Modelle.
Eigene Verträge und Kontingente. Ein Team hat bereits Verträge oder Reserved Capacity bei einem Provider und will diese im selben Login nutzen, statt zusätzlich pro Token im Standard-Pool zu zahlen.
Experimentelle Modelle. Frontier-Modelle, die erst bei OpenRouter live sind und bei den vier großen Providern noch nicht. Wer früh Zugriff will, braucht den OpenRouter-Adapter, ohne ein zweites Tool zu öffnen.

Bisher hieß das: ChatGPT, Claude und Gemini liefen in Corporate LLM, das eigene Modell daneben in einem separaten Tool, mit eigener Auth, eigenem AVV, eigenem Audit-Trail. Multi-Tool-Bruch mit allen Adoption-Konsequenzen.

Eigenes LLM einbinden mit BYOM: drei Adapter, ein Modell-Picker

BYOM erweitert den Modell-Picker um drei Connection-Typen:

OpenAI-kompatibel. Jeder HTTPS-Endpunkt, der die OpenAI-API spricht: vLLM, LiteLLM, Azure OpenAI, Mistral La Plateforme, eigene Cloud-Setups. Sie tragen Base-URL und API-Key ein, Corporate LLM testet die Connection einmal und nimmt die gefundenen Modelle in den Picker auf.
Ollama. Selbst gehostete Open-Source-Modelle, angebunden über einen öffentlich erreichbaren HTTPS-Endpunkt mit /v1-Oberfläche und Bearer-Auth. Eine lokale Adresse wie http://localhost:11434 reicht nicht; dafür setzen Sie einen Auth-Proxy plus HTTPS-Tunnel davor (Anleitung weiter unten). Das Connection-Setup zieht die Modell-Liste vom Endpunkt und macht sie im Picker verfügbar.
OpenRouter. Ein Account, viele Modelle aus einer Hand: Kimi K2, DeepSeek, Qwen, frühe Frontier-Modelle. Sie tragen Ihren OpenRouter-Key ein und wählen die Modelle, die im Picker erscheinen sollen.

Im Chat verhalten sich BYOM-Modelle wie jedes andere: Modell-Wechsel mitten in der Konversation ohne Kontext-Verlust, gleiche Usage-Erfassung wie bei den Standard-Modellen. Mehr zum Standard-Setup ohne eigene Modelle: LLM-Plattform für den Mittelstand.

BYOM-Praxisbeispiele: Kanzlei, Industrie und Mittelstand mit eigenen Modellen

Kanzlei mit Mandantenbrief-Llama. Die Kanzlei hat Llama 3 auf zwei H100-GPUs im eigenen RZ, finetuned auf 12 Jahre Mandantenbriefe. Über einen vorgeschalteten Auth-Proxy mit OpenAI-kompatibler API und HTTPS-Endpunkt wird das Modell via BYOM eingebunden. Der Anwalt schreibt im Corporate-LLM-Chat, das finetuned-Modell antwortet im hausinternen Sprachstil. Die Inferenz läuft auf der eigenen Hardware unter eigenem Vertrag; Corporate LLM orchestriert die Anfrage als Routing-Layer und hält die Credentials verschlüsselt. Das stützt den §203-StGB-Schutz für Mandanten-Geheimnisse, weil das Modell unter eigener Kontrolle bleibt. Industrieunternehmen mit experimentellem Reasoning-Modell. Der Innovations-Lead testet ein frisch verfügbares Reasoning-Modell auf OpenRouter, das es bei OpenAI oder Anthropic noch nicht gibt. Über die BYOM-OpenRouter-Connection landet das Modell direkt im Picker, neben GPT-5.5 und Claude Opus 4.8. Ergebnis-Vergleich ohne Tool-Wechsel. Mittelstand mit eigenem Ollama-Modell für Routine. Der IT-Leiter hat Mistral Small und Llama auf eigener Hardware und stellt sie über einen Auth-Proxy mit HTTPS-Tunnel bereit. Für Routine-Antworten (E-Mail-Drafts, kurze Summarys) reicht das selbst gehostete Modell, dessen Inferenz über den eigenen Vertrag statt das Plan-Nutzungslimit läuft. Die Cloud-Modelle bleiben Reserve für anspruchsvolle Aufgaben. BYOM macht diesen Hybrid-Setup praktikabel. Drei Setups, drei Modelle, ein Login, ein AVV. Wie auch beim Standard-Picker, nur noch eine Schicht weiter.

Wie sicher ist BYOM? DNS-Pinning gegen SSRF, verschlüsselte Credentials, fail-closed Gate

BYOM bringt externe HTTPS-Endpunkte ins Spiel, die wir nicht kontrollieren. Drei Sicherheits-Schichten greifen vor jedem Connection-Test und vor jedem Inferenz-Call:

DNS-Pinning gegen SSRF. Jede Base-URL muss https:// sein. Jeder ausgehende Request läuft über einen Custom-Dispatcher, der den Hostnamen einmal vorab via DNS auflöst, die IP gegen eine Blocklist privater und interner Bereiche prüft und danach gepinnt gegen die freigegebene IP verbindet. Ziele wie 127.0.0.1, RFC-1918-, Link-local- und CGNAT-Bereiche, Cloud-Metadata-Endpoints sowie DNS-Rebinding-Versuche auf interne Corporate-LLM-Infrastruktur werden hart blockiert.
Verschlüsselte Credentials. API-Keys, Bearer-Tokens und Base-URLs liegen verschlüsselt in der Connection-Tabelle, nur für Owner und Admins nutzbar und in der Oberfläche nie zurückgegeben. Error-Reports an Sentry sind auf bereinigte Meldungen ohne PII begrenzt; keine Rohlogs mit Keys.
Fail-closed Plan-Gate. BYOM steht auf dem Free-Plan und allen bezahlten Stufen zur Verfügung. Die Freischaltung ist als explizite Allow-List umgesetzt, damit unbekannte oder gesperrte Account-Zustände nicht versehentlich Zugriff bekommen, sondern fail-closed bleiben. Bei gesperrtem oder abgelaufenem Zugang lassen sich bestehende BYOM-Modelle nicht weiter verwenden, bis der Zugang wiederhergestellt ist.

Ist BYOM DSGVO-konform? Self-Hosted Ollama und eigene Endpunkte einbinden

Mit BYOM verschiebt sich die Datenschutz-Verantwortung, sie verschwindet nicht. Wichtig zuerst: BYOM ist kein Air-Gap. Corporate LLM ist eine Web-App und ruft Ihren Endpunkt über eine öffentlich erreichbare HTTPS-URL auf; eine lokale Adresse wie http://localhost:11434 und private Netze werden abgelehnt. Selbst gehostetes Ollama binden Sie deshalb über einen Auth-Proxy plus HTTPS-Tunnel an. Die Modell-Inferenz läuft dabei auf Ihrer eigenen Hardware unter Ihrem eigenen Vertrag, nicht im Standard-Modell-Pool; Corporate LLM agiert als Routing-Layer, hält die Credentials verschlüsselt und protokolliert die Nutzung.

Die Rollen-Teilung steht im AVV: Corporate LLM verantwortet die Routing-Schicht und das Credential-Management, Sie verantworten den BYOM-Endpunkt, seinen Hosting-Standort und dessen Datenfluss. Für regulierte Branchen ist das der entscheidende Hebel. Eine Kanzlei kann die Verschwiegenheitspflicht nach §203 StGB für Mandanten-Geheimnisse stützen, weil das finetuned-Modell unter eigener Kontrolle läuft und die Verbindung SSRF-gesichert über Corporate LLM orchestriert wird.

Wie Corporate LLM DSGVO-Konformität auch bei Cloud-Modellen absichert, lesen Sie hier: Claude DSGVO-konform nutzen.

In welchem Plan ist BYOM verfügbar? Free und alle Paid-Pläne

BYOM ist ab heute auf dem Free-Plan und allen bezahlten Stufen verfügbar: Business Starter, Business Pro, Business Max und Enterprise. Es gibt kein separates Token-Budget und keine Plan-Hürde für die Funktion selbst. Sie zahlen die Inferenz Ihrem BYOM-Provider direkt; Corporate LLM rechnet keine Tokens auf der BYOM-Connection an, und die App-internen Budget-Limits greifen dort nicht.

Die Freischaltung ist als explizite Allow-List umgesetzt: Bei gesperrtem oder abgelaufenem Team-Zugang lassen sich bestehende BYOM-Modelle nicht weiter verwenden, bis der Zugang wiederhergestellt ist. Den Standard-Picker mit den vier Cloud-Anbietern und den Open-Source-Modellen behalten alle Pläne wie bisher.

Wann sich ein eigenes LLM nicht lohnt: BYOM vs. Standard-Picker

BYOM ist eine Spezialfunktion, nicht für jedes KMU sinnvoll. Drei Fälle, in denen der Standard-Picker reicht:

Standard-Use-Cases ohne Branchen-Schliff. Wer GPT, Claude und Gemini braucht und keinen finetuned-Use-Case hat, kommt mit den eingebauten Modellen weiter: schneller, ohne Connection-Setup.
Kein Engineering-Owner intern. BYOM heißt: jemand pflegt die Endpoint-Connection. Wenn der Ollama-Server abstürzt oder OpenRouter-Keys rotieren, müssen Sie das selbst beheben.
Reines Kosten-Optimieren. Wer nur Inferenz-Kosten senken will, fährt mit den günstigen EU-Modellen (Gemini 3 Flash-Lite, Mistral Small) besser als mit BYOM-Setup-Overhead.

Eigenes LLM in Corporate LLM einbinden: Ihr Setup ab heute

Eigene Modelle. Eigene Verträge. Ein Login. Kein zweites Tool. Und der Datenschutzbeauftragte bekommt eine klare Rollen-Teilung statt drei separater Verträge.

Mehr Hintergrund zur Multi-Model-Strategie in Corporate LLM:
GPT, Claude, Gemini und Mistral in einer KI-Plattform.

BYOM aktivieren: Im Corporate-LLM-Admin auf Einstellungen → Modelle → Eigene Modelle klicken. Voraussetzung: Sie sind Owner oder Admin des Teams; verfügbar auf dem Free-Plan und allen bezahlten Stufen.

Sie haben noch keinen Corporate-LLM-Account? kostenlos im Free-Plan starten, ohne Zahlungsdaten. BYOM können Sie direkt im Free-Plan ausprobieren und später auf einen bezahlten Plan upgraden.

Häufige Fragen

Welche eigenen Modelle kann ich in Corporate LLM einbinden?

Drei Adapter-Typen: OpenAI-kompatible Endpoints (jeder Provider, der die OpenAI-API spricht: vLLM, LiteLLM, Azure OpenAI, Mistral La Plateforme, etc.), Ollama-Endpoints (selbst gehostete Open-Source-Modelle wie Llama, Mistral, Qwen, angebunden über einen erreichbaren HTTPS-Endpunkt) und OpenRouter (experimentelle und Spezial-Modelle, die noch nicht im Standard-Picker stehen).

In welchem Plan ist BYOM verfügbar?

BYOM ist auf dem Free-Plan und allen bezahlten Stufen verfügbar (Business Starter, Business Pro, Business Max und Enterprise). Es ist kein eigenes Token-Budget nötig: Die Inferenz läuft über Ihren eigenen Provider-Vertrag, App-interne Budget-Limits greifen dort nicht. Die Freischaltung ist als explizite Allow-List umgesetzt, damit unbekannte oder gesperrte Account-Zustände fail-closed bleiben.

Ist BYOM DSGVO-konform, wenn ich ein selbst gehostetes Modell anbinde?

Die Modell-Inferenz läuft auf Ihrer eigenen Hardware unter Ihrem eigenen Vertrag, nicht im Standard-Modell-Pool von Corporate LLM. Wichtig: BYOM ist kein Air-Gap. Corporate LLM ist eine Web-App und ruft Ihren Endpunkt über eine öffentlich erreichbare HTTPS-URL auf; lokale Adressen wie http://localhost:11434 und private Netze werden abgelehnt. Selbst gehostetes Ollama binden Sie deshalb über einen Auth-Proxy plus HTTPS-Tunnel an. Corporate LLM agiert als Routing-Layer, hält die Credentials verschlüsselt und schreibt Audit-Logs; die DSGVO-Eignung Ihres Endpunkts verantworten Sie selbst. Der AVV deckt diese Rollen-Teilung ab.

Wie verhindert Corporate LLM, dass eine BYOM-Connection für SSRF-Angriffe missbraucht wird?

Jede BYOM-Base-URL muss https sein. Der ausgehende Request läuft über einen Dispatcher, der den Hostnamen vorab via DNS auflöst, gegen eine Blocklist privater und interner Bereiche prüft und danach gepinnt gegen die freigegebene IP verbindet. So werden DNS-Rebinding sowie Verbindungen auf Loopback (127.0.0.1), RFC-1918-, Link-local-, CGNAT- und Cloud-Metadata-Bereiche blockiert. Credentials liegen verschlüsselt, Error-Reports an Sentry sind auf bereinigte Meldungen ohne PII begrenzt.

Sehe ich, was meine BYOM-Connection an Tokens verbraucht?

Ja. Der Token-Verbrauch der BYOM-Connection wird in einem separaten Usage-Log getrackt und im Stats-Bereich pro Connection ausgewiesen. Die Abrechnung der Tokens erfolgt direkt bei Ihrem BYOM-Provider, nicht über das Standard-Nutzungslimit Ihres Corporate-LLM-Plans. BYOM ist ein Add-On, kein Token-Bundle.

Bring Your Own Model: Eigene LLMs in Corporate LLM einbinden