Eine Verwalterin in München bekam Anfang März die zweite Monatsrechnung ihrer ersten KI-Anbindung. Sie hatte mit fünfzig Euro im Monat gerechnet, denn das Pro-Abo kostete zwanzig und die API hatte ihr ein befreundeter Entwickler „auf Verbrauch, ein paar Cent pro Anfrage" angekündigt. Auf der Rechnung standen 412,80 USD. Zwischen den beiden Zahlen liegt nicht ein Bug, sondern ein Konzept-Missverständnis. Eines, das fast jedes mittelständische Haus beim Einstieg macht — und eines, das sich in zwanzig Minuten Einlesen vermeiden lässt.

Was ein Token wirklich ist

Ein Token ist nicht ein Wort. Ein Token ist die kleinste Einheit, in die ein Sprachmodell den eingegebenen Text zerlegt — eine Mischung aus ganzen Wörtern, Wortteilen, Satzzeichen und Whitespaces. Im Englischen entspricht ein Token grob vier Zeichen oder einem Dreiviertel-Wort. Im Deutschen wird es wegen der längeren Komposita schneller zu einem Voll-Wort: bei einem Mietvertrag in deutscher Sprache liegt die Heuristik 4,5 Zeichen pro Token — ein Mietvertrag mit 8.000 Zeichen entspricht damit ungefähr 1.778 Tokens.

Die Token-Rechner-Sektion in der Community macht genau das in Echtzeit: Text einfügen, Heuristik anwenden, Tokens schätzen. Ein typisches Übergabeprotokoll mit fünf Zonen, sechs Befunden und ein paar Fotos in Base64 liegt schnell bei 4.000 bis 6.000 Tokens. Ein WEG-Beschluss-Vorlage mit vier Anlagen kommt auf 12.000 bis 25.000. Eine vollständige Wartungs-Übersicht für ein 30-Liegenschaften-Portfolio (im Klartext, ohne Zusammenfassung) auf 80.000 bis 150.000.

Wie sich das in Geld übersetzt

Anthropic rechnet in Dollar pro 1 Million Eingabe-Tokens und Dollar pro 1 Million Ausgabe-Tokens. Output ist in der Regel deutlich teurer als Input — typischer Faktor drei bis fünf, in Spitzenfällen zehn.

Pricing pro 1 Mio. Output-Tokens (USD, Stand Mai 2026)

Haiku 4.54 USD

Gemini 3 Flash0.3 USD

GPT-4 Mini0.6 USD

Sonnet 4.615 USD

Gemini 3 Pro5 USD

Llama 4 (Together)3.5 USD

Opus 4.775 USD

o1 (OpenAI)60 USD

Quelle: Anbieter-Listenpreise; Stand Mai 2026, gerundet.

Konkrete Stichprobe für die Anthropic-Modellfamilie 2026:

Claude Haiku 4.5 — etwa 0,80 USD pro 1 Mio. Input-Tokens, 4 USD pro 1 Mio. Output-Tokens.
Claude Sonnet 4.6 — rund 3 USD Input, 15 USD Output pro 1 Mio. Tokens.
Claude Opus 4.7 — rund 15 USD Input, 75 USD Output pro 1 Mio. Tokens.

Was bedeutet das in der Praxis. Der Mietvertrag von oben — 1.778 Input-Tokens — kostet beim Sonnet-Modell rund 0,005 USD, also einen halben Cent. Wer ein WEG-Protokoll mit 25.000 Tokens an das Modell gibt und 5.000 Tokens als Zusammenfassung zurückbekommt, zahlt rund 0,15 USD pro Anfrage. Drei solche Anfragen pro Tag in einer Verwaltung mit acht Sachbearbeiter:innen ergeben 24 Anfragen, etwa 3,60 USD pro Tag, rund 80 USD pro Monat.

Bis hier ist alles unspektakulär. Die Überraschungen kommen aus drei Richtungen.

Überraschung eins — der lange Kontext

Wer das Modell „mit Kontext füttert", weil das in jedem Tutorial steht — etwa mit dem hauseigenen Wartungs-Handbuch, mit den letzten zwei Jahren Korrespondenz, mit der vollständigen Klauselbibliothek —, schiebt jedes Mal denselben langen Kontext mit. Bei einem Handbuch von 60.000 Tokens, das fünfzig Mal pro Tag mitgegeben wird, sind das drei Millionen Tokens am Tag, rund 9 USD pro Tag bei Sonnet-Preisen, 270 USD im Monat. Pro Sachbearbeiter:in. Wer das nicht klemmt, baut eine ungewollte Premium-Rechnung.

Genau hier setzt das Prompt-Caching an. Anthropic erlaubt es, einen langen, stabilen Kontext-Block (System-Prompt, Wissensbasis) als „cacheable" zu markieren — beim ersten Aufruf wird er normal abgerechnet, bei den nächsten Aufrufen innerhalb der Cache-Lebenszeit fallen für den gecachten Anteil nur etwa 10 bis 25 Prozent der normalen Kosten an. Aus den 270 USD werden plötzlich 35 bis 60 USD. Das gleiche Konzept — anders kalibriert — bietet AWS Bedrock und Google Vertex AI für die jeweils dort gehosteten Modellvarianten.

Der Cost-Estimator in der Community macht das durchspielbar: Modell wählen, Eingabe-Tokens, Ausgabe-Tokens, Anfragen pro Monat und Caching-Anteil eintragen — die Schätzung steht innerhalb von Sekunden.

Drei Szenarien — gleiche Aufgabe, drei Größenordnungen

Ø 30 Anfragen/Tag · Sonnet · ohne Caching

Klein — 5 Sachbearbeitende

Anfragen pro Monat: ≈ 3.000
Tokens pro Anfrage: 4k Input · 1k Output
Modell: Claude Sonnet 4.6
Caching: — deaktiviert

Monatskosten

≈ 28 USD

→Praktisch nichts. Pro-Account-Niveau.

Ø 60 Anfragen/Tag · Sonnet · ohne Caching

Mittel — 20 Sachbearbeitende

Anfragen pro Monat: ≈ 24.000
Tokens pro Anfrage: 8k Input · 2k Output
Modell: Claude Sonnet 4.6
Caching: — deaktiviert

Monatskosten

≈ 540 USD

→Spürbar — beim Cost-Estimator gegenrechnen.

5.000 stabile Input-Tokens gecached

Mittel + Caching

Anfragen pro Monat: ≈ 24.000
Tokens pro Anfrage: 8k Input · 2k Output
Modell: Claude Sonnet 4.6
Caching: 5k Tokens stabil

Monatskosten

≈ 220 USD

→Gleiche Funktion, ca. 60 Prozent günstiger.

Quelle: Modellrechnung mit Cost-Estimator-Logik; Caching-Discount nach Anthropic-Listenpreisen.

Die ehrliche Lektion: das Modell-Pricing ist die kleinere Stellschraube. Die größere ist, wie diszipliniert man mit dem Kontext umgeht.

Überraschung zwei — die Modellwahl

Die zweite Quelle teurer Rechnungen ist eine still entstandene Modellwahl. Anthropic hat mit Opus, Sonnet und Haiku drei Stufen — und die meisten Use-Cases im Mittelstand laufen auf Sonnet oder Haiku problemlos. Opus ist gebaut für komplexe Reasoning-Aufgaben, lange Codebasen, mehrstufige Argumentationen. Wer ein Anschreiben formulieren oder eine Mail strukturieren lässt, zahlt bei Opus das Fünfundzwanzigfache des Haiku-Preises — und bekommt ein Ergebnis, das praktisch nicht besser ist.

Die Modelle-Sektion und der Modell-Wizard führen genau diese Frage durch: Was ist deine Aufgabe (Klassifikation, Summary, kreatives Schreiben, Code, Reasoning)? Welche Latenz brauchst du? Welche Antwortlänge? Welcher Datenraum? Aus den Antworten ergibt sich eine Modellempfehlung — und in neun von zehn Mittelstands-Use-Cases lautet sie Sonnet oder sogar Haiku. Opus ist für die komplexen zehn Prozent.

Überraschung drei — Pro vs. Team vs. API

Die dritte Verwirrungsquelle ist die Tarifvielfalt. Claude Pro kostet 20 USD pro Monat pro Person, Claude Team ab 25 USD pro Sitz, Claude Enterprise individuell, die API rechnet pay-as-you-go ab. AWS Bedrock und Google Vertex AI haben eigene Pricings, jeweils etwas teurer als die Direkt-API, dafür mit EU-Hosting und AVV.

Die einfache Daumenregel: Pro/Team lohnt sich, wenn das Team Claude im Browser nutzt — also für Recherche, Schreiben, Brainstorming, Skill-Erstellung, MCP-Anbindung mit dem persönlichen Account. Für jeden zusätzlichen Sitz kommen 20–25 USD im Monat dazu, dafür ist die Nutzung unbegrenzt (innerhalb der Fair-Use-Grenzen).

Die API lohnt sich, wenn ihr eine eigene Anwendung baut — etwa eine Mietvertragsanalyse-Funktion in eurem CAFM-System, oder eine automatische Übergabe-Strukturierung im Verwalter-Backoffice. Die API bezahlt nur, was tatsächlich verarbeitet wird, und ist deutlich günstiger pro Anfrage als ein Pro-Abo, wenn das Volumen niedrig bis mittel ist.

AWS Bedrock (eu-central-1, Frankfurt) und Vertex AI (europe-west, Belgien) sind die Variante der Wahl, wenn ihr aus Compliance-Gründen einen EU-Datenraum braucht — bei nur leicht höheren Tarifen als der Direkt-API. Die Abos-Vergleichs-Sektion führt sechs Varianten in einer Tabelle nebeneinander, jede mit Stärken, Grenzen und einer ehrlichen Empfehlung pro Variante.

Was die Verwalterin in München gemacht hat

Zurück zum Anfang. Die 412,80 USD entstanden durch zwei Mehrfach-Fehler: Ein langer System-Prompt mit dem hauseigenen Wartungs-Handbuch (rund 80.000 Tokens) wurde bei jeder einzelnen Anfrage mitgeschickt, ohne Caching. Genutzt wurde Opus statt Sonnet, weil im Tutorial der freundliche Entwickler das so eingerichtet hatte. Drei Sachbearbeiter:innen nutzten den Anschluss intensiv — etwa 80 Anfragen pro Tag insgesamt.

Die Korrektur war einfach. Den langen Kontext als Cache markieren — Reduktion um etwa 80 Prozent. Auf Sonnet wechseln — weitere Reduktion um Faktor fünf. Resultat: rund 30–40 USD pro Monat statt 412,80 USD. Gleiches Use-Case, gleiche Qualität. Drei Tage Recherche und zwanzig Minuten Code-Anpassung.

Was die Community konkret hilft

Drei Sektionen, in der Reihenfolge der pragmatischen Bedeutung:

Der Token-Rechner ist der Einstieg. Ohne Token-Verständnis ist jede Diskussion über KI-Kosten Bauchgefühl.

Der Cost-Estimator ist die Brücke vom Token-Verständnis zur Monats-Größenordnung. Drei realistische Szenarien durchspielen, dann ist die Verhandlungsposition gegenüber dem internen IT-Verantwortlichen oder der externen Beratung deutlich klarer.

Der Modell-Wizard und die Anbieter-Matrix klären die Modellfrage — ohne in den „mehr ist besser"-Modus zu kippen, der die teuersten Rechnungen produziert.

Wer am Ende dieser drei Sektionen weiß, wie viele Tokens ihre typischen Anfragen umfassen, was das im Monat kostet und welches Modell dafür sinnvoll ist, hat den Großteil der späteren Pricing-Überraschungen schon abgewendet. Die restlichen Cents kommen aus disziplinierter Nutzung — und das ist eine Gewohnheits-, keine Tool-Frage.

Zur Community-Lese-Karte →

Beitrag teilen

LinkedIn Posten E-Mail

Tokens, Cents und Wahrheiten — was eine KI-Anbindung im Mittelstand 2026 wirklich kostet, und warum die ersten drei Rechnungen immer überraschen

Was ein Token wirklich ist

Wie sich das in Geld übersetzt

Überraschung eins — der lange Kontext

Klein — 5 Sachbearbeitende

Mittel — 20 Sachbearbeitende

Mittel + Caching

Überraschung zwei — die Modellwahl

Überraschung drei — Pro vs. Team vs. API

Was die Verwalterin in München gemacht hat

Was die Community konkret hilft

Verwandte Beiträge

Was ein Token wirklich ist#

Wie sich das in Geld übersetzt#

Überraschung eins — der lange Kontext#

Klein — 5 Sachbearbeitende

Mittel — 20 Sachbearbeitende

Mittel + Caching

Überraschung zwei — die Modellwahl#

Überraschung drei — Pro vs. Team vs. API#

Was die Verwalterin in München gemacht hat#

Was die Community konkret hilft#

Verwandte Beiträge

Die KI-Welt für den Mittelstand verständlich machen — was die metxme.ai-Community bietet, und warum sie eine Karte ist und kein Marktplatz

Anthropic, OpenAI, Google, Open-Weight — vier KI-Welten nebeneinander, und warum ein Mittelständler im Mai 2026 nicht zwischen Modellen, sondern zwischen Anbieter-Welten entscheidet

Warum die Zukunft des Facility Managements prädiktiv ist: Machine Learning, MPC und der intelligente Gebäudebetrieb

Was ein Token wirklich ist

Wie sich das in Geld übersetzt

Überraschung eins — der lange Kontext

Überraschung zwei — die Modellwahl

Überraschung drei — Pro vs. Team vs. API

Was die Verwalterin in München gemacht hat

Was die Community konkret hilft