In einer Steuerberatungs-Kanzlei in Stuttgart läuft seit Februar Llama 4 70B auf einer eigenen GPU-Maschine im Serverraum. Drei Wochen Setup, eine Investition im niedrigen fünfstelligen Bereich, zwei interne Power-User, ein klar abgegrenztes Use-Case-Inventar — Mandantenkorrespondenz strukturieren, Kontoauszüge auf Standardbuchungen klassifizieren, interne Wissensbasis durchsuchbar machen. Im Mai läuft das produktiv, mit dokumentierten Vorfällen, dokumentiertem Charta-Anhang, Quartals-Audit. Die Mandantengeheimnisse haben den Serverraum nie verlassen. Genau das ist 2026 der Punkt, an dem Open-Weight im Mittelstand wirklich Sinn ergibt.

Aber er ergibt nicht überall Sinn. Wer ohne klares Datenraum-Argument in den Open-Weight-Modus geht, baut sich unnötigen Aufwand auf — bei nur leichtem Vorteil gegenüber AWS Bedrock Frankfurt mit Anthropic-Modell und sauberem AVV.

Was Open-Weight 2026 wirklich ist

Open-Weight-Modelle 2026 — Stichprobe

01

Llama 4 (Meta)

8B / 70B / 405B

Apache-ähnliche Lizenz mit Klauseln, breit verfügbar. 405B ist die Spitze, 70B ist der Sweet Spot für Mittelstand.

02

Mistral Large 2

Frankreich · 123B

Pariser Anbieter mit Frankfurt-Hosting via Scaleway/Together. Apache-2.0-Lizenz, EU-Souveränität greifbar.

03

DeepSeek V3

China · 671B (MoE)

Mixture-of-Experts mit hoher Parameter-Zahl, niedrigem aktiven Anteil. Günstig im Pricing, geopolitisch vorsichtig zu prüfen.

↓niedriger = besser

04

Qwen 2.5 (Alibaba)

China · 72B / 110B

Stark in mehrsprachigen Aufgaben. Open-Weight, geopolitische Vorsicht wie bei DeepSeek.

↓niedriger = besser

Der reale Pricing-Vergleich

Output-Pricing pro 1 Mio. Tokens (USD, Stand Mai 2026)

DeepSeek V3 direkt0.27 USD

Gemini 3 Flash0.3 USD

GPT-4 Mini0.6 USD

Llama 4 70B (Together AI)0.88 USD

Mistral Large 2 (Scaleway)2 USD

Llama 4 405B (Together AI)3.5 USD

Claude Sonnet 4.615 USD

Claude Opus 4.775 USD

Quelle: Listenpreise Mai 2026; Eigen-Hosting nach Auslastung deutlich günstiger ab Volumen.

Auf den ersten Blick wirken Open-Weight-Modelle deutlich günstiger. Das stimmt, aber nur unter zwei Bedingungen: hohes Volumen oder echter Souveränitäts-Vorteil. Wer nur 100 Anfragen am Tag macht und keine Mandantengeheimnisse betreut, zahlt bei Sonnet etwa 15–25 USD im Monat — die Setup-Kosten von Open-Weight (drei Wochen IT-Arbeit + Hardware) amortisieren sich nie.

Wann Open-Weight wirklich passt

Drei Konstellationen · drei Empfehlungen

Anwalt · Steuerberater · Wirtschaftsprüfer

Mandantengeheimnisse

Datenraum-Anspruch: Maximal — kein US-Touchdown
Volumen: Mittel bis hoch
Setup-Aufwand: 3–6 Wochen
Modell: Mistral Large 2 EU-gehostet

Empfehlung

Open-Weight in EU

→Auch wenn AWS Bedrock Frankfurt formal AVV-fest ist — Mandantengeheimnis ist eine Berufsethik-Frage, nicht nur Datenschutz.

Klassifikation · Triage · Suche

Hohes Anfragevolumen

Datenraum-Anspruch: EU reicht
Volumen: Sehr hoch (>10k Anfragen/Tag)
Setup-Aufwand: 2–4 Wochen
Modell: DeepSeek V3 oder Llama 4 70B

Empfehlung

Hybrid

→Volumen-Pricing-Vorteil real. Hybrid mit Closed-API für komplexe Fälle ist oft die beste Mischung.

Mietverträge, Übergaben, Korrespondenz

Standard-Verwaltung

Datenraum-Anspruch: AVV-fest mit EU-Hosting reicht
Volumen: Niedrig bis mittel
Setup-Aufwand: Minimaler Aufwand bevorzugt
Modell: Claude Sonnet via Bedrock Frankfurt

Empfehlung

Closed-API

→Open-Weight bringt mehr Aufwand als Nutzen. Bedrock + AVV trägt den Datenschutz-Pfad sauber.

Quelle: Empfehlungen aus realen Mittelstands-Setups; im Einzelfall mit DSB und IT abstimmen.

Was Open-Weight technisch braucht

Drei Komponenten, die in der Praxis funktionieren.

Hosting-Variante eins — Eigen-Hardware. Für Llama 4 70B reicht eine GPU-Maschine mit 2× NVIDIA A100 (80 GB) oder 2× H100. Hardware-Kosten 30–60 kEUR, Strom etwa 200 W pro GPU im Inferenz-Betrieb. Setup über vLLM oder SGLang, monatliche Wartung etwa 10 % einer IT-Stelle. Lohnt sich ab 5–10 Millionen Tokens pro Monat.

Hosting-Variante zwei — EU-Hoster. Together AI hat eine Frankfurt-Region, Scaleway hat Paris-Hosting für Mistral, OVHcloud betreibt Open-Weight-Inference in Strassburg. Kein eigenes Hardware-Investment, dafür laufende Kosten — mittelfristig teurer als Eigen-Hardware ab Volumen, kurzfristig deutlich einfacher. Sweet Spot für Häuser, die testen wollen, ohne 60 kEUR-Investment.

Hosting-Variante drei — AWS Bedrock mit Open-Weight. AWS Bedrock hat seit 2024 auch Open-Weight-Modelle (Llama, Mistral) im Programm, wahlweise in eu-central-1 (Frankfurt). Vorteil: gleicher AVV wie für Anthropic-Modelle, gleiche Identity-Federation, gleiche Pipeline. Wer schon Bedrock nutzt, kommt mit minimalem Zusatz-Setup zu Open-Weight.

Wo Open-Weight 2026 noch hakt

Drei Punkte, die in der Praxis Aufwand kosten.

Tool-Use und MCP-Anbindung. Anthropic hat MCP nativ, OpenAI hat Function Calling sauber dokumentiert — Open-Weight-Modelle holen auf, sind aber 2026 noch in der Reife-Phase. Llama 4 unterstützt Tool-Use, Mistral auch — aber die Bibliotheken und Integrationen sind dünner. Wer mit MCP-Servern arbeitet, muss bei Open-Weight mehr Engineering-Arbeit einkalkulieren.

Vision-Fähigkeiten. Wer Mietvertrags-Scans oder Übergabe-Fotos verarbeiten will, hat bei Closed-API-Spitze (Claude, GPT-4o, Gemini) deutlich bessere Modelle. Llama 4 hat Vision, ist aber spürbar schwächer.

Update-Kadenz. Closed-API-Anbieter pushen Modell-Updates kontinuierlich. Open-Weight-Modelle erscheinen in größeren Abständen — wer auf der Bleeding Edge sein will, ist bei Closed-API besser.

Was die Community konkret hilft

Drei Sektionen für den Open-Weight-Pfad:

Die Anbieter-Matrix verortet Open-Weight als vierte Welt neben Anthropic, OpenAI und Google — mit elf Dimensionen direkt vergleichbar.

Die Open-Source-Sektion listet die wichtigsten Projekte (Hugging Face, llama.cpp, Ollama, vLLM, SGLang) — die Werkzeuge, mit denen Open-Weight im eigenen Haus läuft.

Der DSGVO-Schnellcheck hilft bei der Frage, ob das eigene Datenraum-Bedürfnis Open-Weight wirklich rechtfertigt — oder ob AWS Bedrock Frankfurt mit AVV reicht.

Open-Weight ist 2026 für den Mittelstand kein Hobby-Projekt mehr, aber auch keine Standard-Lösung. Wer Mandantengeheimnisse hat, hohes Volumen fährt oder Souveränitäts-Anforderungen tragen muss, hat einen klaren Pfad. Wer Standard-Verwaltung macht, kommt mit Closed-API + AVV einfacher und meist günstiger durch. Die ehrliche Frage: brauchen wir die Souveränität wirklich — oder haben wir nur Angst vor US-Cloud?

Zur Community-Lese-Karte →

Beitrag teilen

LinkedIn Posten E-Mail

Wenn die KI im eigenen Keller wohnt — Open-Weight-Modelle (Llama, Mistral, DeepSeek) im Verwalter-Mittelstand 2026

Was Open-Weight 2026 wirklich ist

Llama 4 (Meta)

Mistral Large 2

DeepSeek V3

Qwen 2.5 (Alibaba)

Der reale Pricing-Vergleich

Wann Open-Weight wirklich passt

Mandantengeheimnisse

Hohes Anfragevolumen

Standard-Verwaltung

Was Open-Weight technisch braucht

Wo Open-Weight 2026 noch hakt

Was die Community konkret hilft

Verwandte Beiträge

Was Open-Weight 2026 wirklich ist#

Llama 4 (Meta)

Mistral Large 2

DeepSeek V3

Qwen 2.5 (Alibaba)

Der reale Pricing-Vergleich#

Wann Open-Weight wirklich passt#

Mandantengeheimnisse

Hohes Anfragevolumen

Standard-Verwaltung

Was Open-Weight technisch braucht#

Wo Open-Weight 2026 noch hakt#

Was die Community konkret hilft#

Verwandte Beiträge

Anthropic, OpenAI, Google, Open-Weight — vier KI-Welten nebeneinander, und warum ein Mittelständler im Mai 2026 nicht zwischen Modellen, sondern zwischen Anbieter-Welten entscheidet

Wenn Claude die Maus übernimmt — was Computer Use im Hausverwalter-Büro 2026 wirklich kann, und wo die Beta noch hakt

Die KI-Welt für den Mittelstand verständlich machen — was die metxme.ai-Community bietet, und warum sie eine Karte ist und kein Marktplatz

Was Open-Weight 2026 wirklich ist

Der reale Pricing-Vergleich

Wann Open-Weight wirklich passt

Was Open-Weight technisch braucht

Wo Open-Weight 2026 noch hakt

Was die Community konkret hilft