Der häufigste strategische Fehler im Mittelstand 2026 ist, die Modellfrage als Modellfrage zu lesen. „Welches Modell ist das beste für uns — Claude oder GPT-5?" lautet die Frage in der Sitzung, und am Tisch werden Benchmarks und Test-Prompts hin und her geschoben. Die richtige Frage lautet anders: „In welche Anbieter-Welt steigen wir ein, und was bedeutet das für unseren Datenraum, unsere Schulungslogik, unsere Compliance und unser Lock-In-Risiko in den nächsten zwei bis drei Jahren?" Das Modell ist die Spitze des Eisbergs. Die Welt drumherum ist die zwei Drittel, die unter Wasser liegen.
Genau deshalb hat die Anbieter-Matrix in der Community elf Dimensionen, nicht eine. Und genau deshalb fängt dieser Artikel mit einem ehrlichen Steckbrief jeder der vier Welten an — bevor irgendein Pricing-Tabelle aufschlägt.
Welt eins — Anthropic
Welche Modelle: Claude Opus 4.7 (Spitzenmodell für komplexe Reasoning- und Code-Aufgaben), Claude Sonnet 4.6 (Arbeitspferd für 80 Prozent der Use-Cases), Claude Haiku 4.5 (schnell und günstig für hohe Volumen).
Größtes Kontext-Fenster: 1 Million Tokens (Sonnet, mit längerer Kontext-Variante über die API).
Stärken: Code-Aufgaben (Claude Code, Claude für Cursor), vorsichtiger Sprachstil dank Constitutional AI, lange juristische Texte mit Konsistenz, MCP als nativer Standard, Skills als offenes Konzept. Forschungs-Linie deutlich stärker veröffentlicht als bei OpenAI oder Google — wer Mechanistic Interpretability oder Responsible Scaling Policy verstehen will, beginnt bei Anthropic.
Schwächen: kein eigener Bildgenerator, keine direkten EU-Endpoints in der Anthropic-API (Stand Mai 2026 — Bedrock und Vertex bieten EU-Hosting), Region-Verfügbarkeit außerhalb US/EU dünner als bei OpenAI.
Datenschutz / EU-Hosting: Enterprise-AVV verfügbar, AWS Bedrock in eu-central-1 (Frankfurt) und Google Vertex AI in europe-west als nutzbare EU-Pfade — beide mit AVV und Trainingsausschluss.
Pricing: 0,80 USD pro Mio. Input-Tokens (Haiku) bis 75 USD pro Mio. Output-Tokens (Opus). Prompt-Caching reduziert Kosten um 60 bis 90 Prozent für stabilen Kontext.
Empfohlen, wenn: vorsichtiger Tonfall und Konsistenz wichtig sind, viel Code im Spiel ist, Skills und MCP genutzt werden sollen, Datenschutz über EU-Cloud (Bedrock/Vertex) abgedeckt wird.
Welt zwei — OpenAI
Welche Modelle: GPT-5 (Spitzenmodell, multimodal, mit eigenem Reasoning-Pfad), o1 (spezialisiert auf langes Reasoning), GPT-4o (multimodal mit Audio/Vision/Realtime), GPT-4 Mini (günstig für Volumen).
Größtes Kontext-Fenster: 1 Million Tokens (GPT-4.1).
Stärken: breitestes Modell-Portfolio inklusive Bild-Generation (DALL·E), Video (Sora), Realtime-API mit Audio. Stärkste Multimodalität im Markt. Größtes Tool-Use-Ökosystem, weitreichendste Verbreitung über ChatGPT (über 250 Millionen wöchentliche Nutzer).
Schwächen: Datenschutz-Profil oft kritischer eingeschätzt — vor allem in Verbindung mit Microsoft, höhere Halluzinationsraten bei Quellen-Aufgaben (vor allem GPT-4o). Sprachstil weniger vorsichtig als Claude.
Datenschutz / EU-Hosting: Enterprise-AVV verfügbar, EU Data Residency in Enterprise-Tarifen, Azure-Variante mit deutscher Cloud (Microsoft Cloud Deutschland).
Pricing: 0,15 USD pro Mio. Input-Tokens (GPT-4 Mini) bis 60 USD pro Mio. Output-Tokens (o1).
Empfohlen, wenn: maximale Modell-Vielfalt und Multimodal-Tooling gebraucht wird, Bild- und Audio-Generation Teil des Workflows ist, Microsoft-Stack bereits bei euch dominiert (Azure OpenAI Service als natürlicher Anschluss).
Welt drei — Google
Welche Modelle: Gemini 3 Pro (Spitzenmodell mit dem längsten Kontext-Fenster im Markt), Gemini 3 Flash (schnell, günstig).
Größtes Kontext-Fenster: 2 Millionen Tokens (Gemini 3 Pro).
Stärken: mit Abstand größtes Kontext-Fenster — wer ganze Codebasen, ganze Dokument-Bestände oder lange Video-Transkripte ins Modell legen will, hat hier den natürlichen Anker. Tiefe Integration in Google Workspace (Docs, Sheets, Slides, Gmail). Antigravity als frische Agent-IDE. Vertex AI als ausgereifte Enterprise-Plattform mit europäischen Regionen.
Schwächen: im Engineering-Workflow weniger etabliert als Claude Code — Anthropic hat hier den Vorsprung der ersten Stunde. Die Skill-Tradition ist dünner als bei Anthropic. Marketing-Schub manchmal stärker als die tatsächliche Modellqualität.
Datenschutz / EU-Hosting: Vertex AI in europe-west (Belgien) und europe-west3 (Frankfurt), AVV in Workspace-Integration, hohe Compliance-Reife — Google Cloud ist eine etablierte Enterprise-Plattform für deutsche Mittelständler.
Pricing: 0,075 USD pro Mio. Input-Tokens (Flash) bis 5 USD pro Mio. Output-Tokens (Pro). Mit Abstand günstigster Markt-Eintritt für hohe Volumen.
Empfohlen, wenn: sehr lange Eingaben (Dokumenten-Berge, Code-Basen, Video-Transkripte) Standardarbeit sind, Workspace-Integration bei euch zählt, oder ein günstiger Markteintritt mit großem Volumen geplant ist.
Welt vier — Open-Weight
Welche Modelle: Llama 4 405B / Llama 4 70B (Meta), Mistral Large 2 (Mistral AI), DeepSeek V3 (DeepSeek), Qwen 2.5 (Alibaba).
Größtes Kontext-Fenster: 128.000 Tokens (Llama 4, Mistral Large 2). Spürbar kleiner als bei den Closed-API-Top-Modellen.
Stärken: EU-Souveränität (Mistral aus Paris, mit Frankfurt-Hosting über Together AI / Scaleway), eigene Inferenz auf eigener Hardware oder bei EU-Hostern, sensitive Daten bleiben im eigenen Datenraum, maximale Anpassbarkeit (Fine-Tuning, Prompt-Caching individuell). Lizenz oft Apache 2.0 oder Meta-LLAMA-2-Lizenz — mit kommerzieller Nutzbarkeit unter klar definierten Bedingungen.
Schwächen: Setup-Aufwand spürbar größer als bei einer API-Anbindung. Hardware-Kosten oder EU-Hoster-Tarife. Qualität durchschnittlich knapp unter der Closed-API-Spitze — die Lücke schließt sich aber, gerade bei Coding und strukturiertem Output. Tool-Use und MCP-Anbindung erfordern eigene Konfiguration und Tests.
Datenschutz / EU-Hosting: maximaler Datenschutz, weil ihr selbst hostet — keine Drittübermittlung, keine Trainingsfrage, keine AVV-Logik mit US-Anbieter. Bei EU-Hostern (Together AI Frankfurt, Scaleway, OVHcloud) gelten die jeweiligen DSGVO-konformen Verträge.
Pricing: 0,27 USD pro Mio. Tokens (DeepSeek V3 über DeepSeek Direct) bis 3,50 USD pro Mio. Tokens (Llama 405B über Together AI). Eigen-Hosting deutlich günstiger ab Volumen, dafür mit Hardware- und Personalaufwand.
Empfohlen, wenn: Datenraum-Anforderungen oder Anpassbarkeit über allem stehen, ihr eine technische Crew habt, die das Hosting tragen kann, oder ihr aus Souveränitäts-Gründen aus den US-Anbieter-Welten heraus wollt.
Wie der Mittelstand zwischen den Welten wirklich wählt
Vier typische Konstellationen, die in der Verwaltungs- und FM-Welt 2026 auftauchen.
Konstellation A — Mittelständische Verwaltung mit Microsoft-365-Stack, ohne eigene IT. Empfehlung: Welt zwei (OpenAI über Azure OpenAI Service in deutscher Region) oder Welt eins (Anthropic über AWS Bedrock Frankfurt). Wer Microsoft-zentriert ist, hat den kürzeren Weg über Azure; wer auf vorsichtigere Antworten und Code-Kompetenz Wert legt, geht über Bedrock. Praktisch beides Cloud-API-Verträge mit AVV — kein eigenes Hosting, geringer Aufwand.
Konstellation B — Mittelständischer FM-Anbieter mit Google Workspace, gemischter Stack. Empfehlung: Welt drei (Vertex AI in europe-west). Direkter Anschluss an die Workspace-Daten, mit Abstand günstigster Pricing-Pfad für hohe Anfragen-Volumen, AVV-fest. Für Code-lastige Use-Cases zusätzlich Welt eins über Vertex (Claude auf Vertex ist seit 2024 verfügbar).
Konstellation C — Hausverwaltung mit hohen Datenschutz-Anforderungen, Mandantengeheimnisse oder besondere Datenkategorien. Empfehlung: Welt vier (Open-Weight, Mistral oder Llama, gehostet bei einem EU-Anbieter). Setup-Aufwand höher, dafür kein US-Datenfluss. Realistisch nur, wenn ihr eine technische Crew habt, die den Server-Betrieb tragen kann — sonst wird der Aufwand zur Daueraufgabe.
Konstellation D — Verwalter, der „mal etwas testen" will. Empfehlung: Claude Pro oder ChatGPT Plus, 20 USD pro Monat, einzelner Account. Erst Use-Case finden, dann Anbieter-Welt wählen. Wer mit der Anbieterfrage anfängt, baut drei Monate Stack und hat danach immer noch keinen Use-Case.
Wo der echte Vergleich endet
Drei Punkte, die in keiner Anbieter-Matrix auftauchen, aber in der Praxis entscheidend sind.
Erstens — die Schulungstradition im eigenen Haus. Wer drei Sachbearbeiter hat, die seit zwei Jahren ChatGPT privat nutzen, hat einen praktischen Vorsprung in Welt zwei — die Lernkurve ist da kürzer. Wer eine technische Crew hat, die Anthropic-Cookbook und MCP schon kennt, hat den Vorsprung in Welt eins.
Zweitens — die Reife des Vertragspartners. AWS, Microsoft Azure und Google Cloud sind etablierte Enterprise-Plattformen mit Vertragswerken, die der Datenschutzbeauftragte kennt. Mistral oder DeepSeek sind als Direkt-Anbieter für mittelständische Verträge weniger reif. Wer auf der Plattform-Schicht arbeitet (Bedrock, Vertex, Azure), hat den Compliance-Pfad fast „eingebaut".
Drittens — die Wechsel-Bereitschaft. Open-Weight bietet die maximale Wechsel-Bereitschaft — wer heute Mistral nutzt und morgen Llama, ändert nur ein paar Konfig-Zeilen. Closed-API-Welten haben höhere Wechsel-Kosten — sobald ihr Skills, Cache-Strukturen, MCP-Pipelines auf einen bestimmten Anbieter optimiert habt, kostet der Umzug Wochen. Wer Lock-In als strategisches Risiko ernst nimmt, kalkuliert von Anfang an mit zwei Anbietern parallel.
Was die Community konkret hilft
Drei Sektionen in der natürlichen Reihenfolge:
Die Anbieter-Matrix ist die Eingangsseite — vier Welten, elf Dimensionen, eine Tabelle. Wer sich orientiert, fängt hier an.
Die Modelle-Sektion und der Modell-Wizard führen die zweite Frage durch: innerhalb der gewählten Welt, welches konkrete Modell für welchen Use-Case. Sechs Aufgaben-Typen, zehn Sekunden pro Auswahl, am Ende eine Empfehlung.
Die Abos-Vergleichs-Sektion öffnet die dritte Achse: pro Welt mehrere Tarif-Varianten (Pro, Team, Enterprise, API, Bedrock, Vertex). Sechs Karten mit Stärken, Grenzen und einer ehrlichen Empfehlung pro Variante.
Wer die drei Sektionen in 45 Minuten durchläuft, hat eine fundierte Entscheidung gefällt — nicht nach Bauchgefühl, sondern entlang der elf Dimensionen, die für die nächsten zwei Jahre tragen müssen. Das ist der Punkt, an dem der Mittelstand sich von der Modellfrage löst und Anbieter-Strategie macht.
METXME