In einer Steuerberatungs-Kanzlei in Stuttgart läuft seit Februar Llama 4 70B auf einer eigenen GPU-Maschine im Serverraum. Drei Wochen Setup, eine Investition im niedrigen fünfstelligen Bereich, zwei interne Power-User, ein klar abgegrenztes Use-Case-Inventar — Mandantenkorrespondenz strukturieren, Kontoauszüge auf Standardbuchungen klassifizieren, interne Wissensbasis durchsuchbar machen. Im Mai läuft das produktiv, mit dokumentierten Vorfällen, dokumentiertem Charta-Anhang, Quartals-Audit. Die Mandantengeheimnisse haben den Serverraum nie verlassen. Genau das ist 2026 der Punkt, an dem Open-Weight im Mittelstand wirklich Sinn ergibt.
Aber er ergibt nicht überall Sinn. Wer ohne klares Datenraum-Argument in den Open-Weight-Modus geht, baut sich unnötigen Aufwand auf — bei nur leichtem Vorteil gegenüber AWS Bedrock Frankfurt mit Anthropic-Modell und sauberem AVV.
Was Open-Weight 2026 wirklich ist
Der reale Pricing-Vergleich
Auf den ersten Blick wirken Open-Weight-Modelle deutlich günstiger. Das stimmt, aber nur unter zwei Bedingungen: hohes Volumen oder echter Souveränitäts-Vorteil. Wer nur 100 Anfragen am Tag macht und keine Mandantengeheimnisse betreut, zahlt bei Sonnet etwa 15–25 USD im Monat — die Setup-Kosten von Open-Weight (drei Wochen IT-Arbeit + Hardware) amortisieren sich nie.
Wann Open-Weight wirklich passt
Was Open-Weight technisch braucht
Drei Komponenten, die in der Praxis funktionieren.
Hosting-Variante eins — Eigen-Hardware. Für Llama 4 70B reicht eine GPU-Maschine mit 2× NVIDIA A100 (80 GB) oder 2× H100. Hardware-Kosten 30–60 kEUR, Strom etwa 200 W pro GPU im Inferenz-Betrieb. Setup über vLLM oder SGLang, monatliche Wartung etwa 10 % einer IT-Stelle. Lohnt sich ab 5–10 Millionen Tokens pro Monat.
Hosting-Variante zwei — EU-Hoster. Together AI hat eine Frankfurt-Region, Scaleway hat Paris-Hosting für Mistral, OVHcloud betreibt Open-Weight-Inference in Strassburg. Kein eigenes Hardware-Investment, dafür laufende Kosten — mittelfristig teurer als Eigen-Hardware ab Volumen, kurzfristig deutlich einfacher. Sweet Spot für Häuser, die testen wollen, ohne 60 kEUR-Investment.
Hosting-Variante drei — AWS Bedrock mit Open-Weight. AWS Bedrock hat seit 2024 auch Open-Weight-Modelle (Llama, Mistral) im Programm, wahlweise in eu-central-1 (Frankfurt). Vorteil: gleicher AVV wie für Anthropic-Modelle, gleiche Identity-Federation, gleiche Pipeline. Wer schon Bedrock nutzt, kommt mit minimalem Zusatz-Setup zu Open-Weight.
Wo Open-Weight 2026 noch hakt
Drei Punkte, die in der Praxis Aufwand kosten.
Tool-Use und MCP-Anbindung. Anthropic hat MCP nativ, OpenAI hat Function Calling sauber dokumentiert — Open-Weight-Modelle holen auf, sind aber 2026 noch in der Reife-Phase. Llama 4 unterstützt Tool-Use, Mistral auch — aber die Bibliotheken und Integrationen sind dünner. Wer mit MCP-Servern arbeitet, muss bei Open-Weight mehr Engineering-Arbeit einkalkulieren.
Vision-Fähigkeiten. Wer Mietvertrags-Scans oder Übergabe-Fotos verarbeiten will, hat bei Closed-API-Spitze (Claude, GPT-4o, Gemini) deutlich bessere Modelle. Llama 4 hat Vision, ist aber spürbar schwächer.
Update-Kadenz. Closed-API-Anbieter pushen Modell-Updates kontinuierlich. Open-Weight-Modelle erscheinen in größeren Abständen — wer auf der Bleeding Edge sein will, ist bei Closed-API besser.
Was die Community konkret hilft
Drei Sektionen für den Open-Weight-Pfad:
Die Anbieter-Matrix verortet Open-Weight als vierte Welt neben Anthropic, OpenAI und Google — mit elf Dimensionen direkt vergleichbar.
Die Open-Source-Sektion listet die wichtigsten Projekte (Hugging Face, llama.cpp, Ollama, vLLM, SGLang) — die Werkzeuge, mit denen Open-Weight im eigenen Haus läuft.
Der DSGVO-Schnellcheck hilft bei der Frage, ob das eigene Datenraum-Bedürfnis Open-Weight wirklich rechtfertigt — oder ob AWS Bedrock Frankfurt mit AVV reicht.
Open-Weight ist 2026 für den Mittelstand kein Hobby-Projekt mehr, aber auch keine Standard-Lösung. Wer Mandantengeheimnisse hat, hohes Volumen fährt oder Souveränitäts-Anforderungen tragen muss, hat einen klaren Pfad. Wer Standard-Verwaltung macht, kommt mit Closed-API + AVV einfacher und meist günstiger durch. Die ehrliche Frage: brauchen wir die Souveränität wirklich — oder haben wir nur Angst vor US-Cloud?
METXME