METXME.AIMETXME.AI
PlattformWerkzeugeMarktCommunityBlog
Kontakt
← Zurück zum Blog
10. Mai 2026·8 min Lesezeit·
KI & Zukunft

Wenn das Modell sich Paragraphen ausdenkt — sieben Muster, an denen man eine Halluzination erkennt, bevor sie im Mietvertrag steht

Eine Halluzination klingt selten falsch. Sie klingt fast immer kompetent. Genau das ist die Falle. Wer im Verwaltungs- und FM-Alltag KI nutzt, muss zwischen plausibler Antwort und plausibel klingender Erfindung unterscheiden können. Sieben Muster, die das Modell verraten — bevor das Problem im Mietvertrag steht.

Im April schickte mir ein Verwalter eine Mail mit dem Betreff „Aufzugswartung — Frage zum Paragraphen". Im Anhang war ein KI-generierter Vermerk, der mit folgendem Satz begann: „Die EN 81-Aufzugswartungsverordnung verpflichtet seit 2021 alle Betreiber zu einer halbjährlichen Inspektion durch eine GS-zertifizierte Aufzugsmeister:in nach §15a EN 81-20-AufzWV." Klang gut. Klang nach Norm-Wissen. War komplett erfunden. Es gibt keine „EN 81-Aufzugswartungsverordnung", keine „GS-zertifizierte Aufzugsmeister:in" als geschützten Begriff, keinen §15a EN 81-20-AufzWV.

Der Verwalter hatte ein Problem. Nicht weil das Modell sich geirrt hatte — sondern weil er nicht wusste, woran er die Erfindung hätte erkennen können. Genau deshalb hat die metxme.ai-Community einen Halluzinationen-Trainer — sieben Aufgabenpaare aus FM, Immobilien, KI-Begriffen und Datenschutz, jede mit zwei Antworten, eine plausibel, eine halluziniert. Wer drei Runden durchläuft, hat ein Gefühl entwickelt. Aber das Gefühl baut auf sieben Mustern auf, die sich verallgemeinern lassen.

Sieben Halluzinations-Muster — wie man sie erkennt
§
Erfundene Paragraphen
Schein-Präzision · Recht

„§15a EN 81-AufzWV", „Art. 32a DSGVO", „§558e BGB qualifizierter Mietspiegel" — alles erfunden oder verschoben.

Quelltext im Original prüfen
#
Schein-runde Zahlen
Pseudo-Spezifität

„1.024 Tokens pro Cycle · 0,001 USD", „25.000-Einwohner-Schwelle MietspiegelV", „TÜV 50.000–200.000 €". Klingt seriös, ist Phantasie.

Originalquelle aufrufen
AB
Verwechselte Akronyme
Häufig dreistellig

„MCP = Multi-Cloud Pipeline" statt Model Context Protocol. „RAG = Risk Assessment Group" statt Retrieval-Augmented Generation.

Anbieter-Doku zur Auflösung nutzen
Erfundene Mechanismen
Tech-Klang

„Dynamisches Kontext-Fenster je nach GPU-Auslastung" — gibt es nicht. Tech-Tiefe ohne Quelle ist verdächtig.

Hersteller-Dokumentation öffnen
📅
Tagesgenaue Daten
Regulatorisch

„Seit dem 17. März 2024 verpflichtet…" ohne klaren Quellenbezug. Echte Gesetze nennen Inkrafttretens-Datum.

EUR-Lex / BGBl. konsultieren
"
Erfundene Zitate
Personen + Studien

„Wie Sam Altman 2023 sagte…", „McKinsey-Studie 2024 zeigt 78 Prozent…". Originalquelle prüfen.

Suchmaschine + Stichprobe
Ko-Halluzination
Folgekontext

Erste Halluzination wird unkorrigiert übernommen, Folgeantworten bauen kohärent darauf auf — das gefährlichste Muster.

Faden abbrechen, neuen Chat starten

Muster eins — vermeintlich präzise Paragraphen

Dies ist die häufigste Halluzinationsform in juristisch klingenden Kontexten. Das Modell „weiß", dass eine Antwort einen Paragraphen enthalten sollte, kennt aber den genauen Paragraphen nicht — also baut es einen, der plausibel ist. „§15a EN 81-20-AufzWV" sieht aus wie ein echter Paragraph, ist aber Phantasie. „Art. 32a DSGVO" klingt wie ein echter DSGVO-Artikel, existiert aber nicht. „§558e BGB für den qualifizierten Mietspiegel" liegt knapp daneben — der qualifizierte Mietspiegel steht in §558d BGB, nicht §558e.

Erkennungsmerkmal: Wenn eine KI-Antwort sehr spezifische Paragraphen-Nummern für komplexe Sachverhalte liefert, lohnt sich der Gegencheck mit dem Originaltext. Im Zweifel: das Gesetz selbst aufrufen, nicht ein zweites KI-Modell „bestätigen lassen". Halluzinationen können ko-halluzinieren.

Muster zwei — Schein-Präzision in Zahlen

Modelle haben eine Schwäche für runde Zahlen, die zu rund sind, um echt zu sein. „Anthropic rechnet jeden API-Aufruf in Cycles ab: ein Cycle entspricht 1.024 Tokens und kostet 0,001 USD." Klingt technisch, ist erfunden — Anthropic rechnet pro Token, nicht in „Cycles". Genauso bei Schwellenwerten: „Die MietspiegelV 2023 verpflichtet jede Gemeinde mit über 25.000 Einwohnern" — die genaue Zahl klingt wie ein Gesetzestext, ist aber Phantasie. Genauso „die TÜV-Zertifizierung kostet zwischen 50.000 und 200.000 Euro" für ein Hochrisiko-KI-System nach EU AI Act — die Spanne klingt seriös, kommt aber aus dem Modell-Gefühl, nicht aus dem Gesetz.

Erkennungsmerkmal: Sehr konkrete Schwellenwerte, Preisspannen oder Quoten in regulatorischen Antworten. Originalquelle aufrufen — Behörde, Gesetz, Anbieter-Doku. Im Mittelstand reicht das oft, um den Unterschied klar zu machen.

Muster drei — verwechselte Akronyme

Drei- bis vierbuchstabige Akronyme sind Halluzinations-Magneten. Das Modell kennt das Akronym, hat den genauen Kontext aber nicht griffig — und „löst" es plausibel, aber falsch auf. Klassiker: „MCP" als „Multi-Cloud Pipeline" statt „Model Context Protocol", „RAG" als „Risk Assessment Group" statt „Retrieval-Augmented Generation", „SOC 2" als „Security Operations Center 2" statt „System and Organization Controls 2".

Erkennungsmerkmal: Akronym in Kombination mit unspezifischer Beschreibung. Schnellcheck: das Akronym in die Suchmaschine, erstes Anbieter-Dokument aufrufen, Auflösung verifizieren. Bei Fachbegriffen lohnt zusätzlich der Blick ins Glossar in der Community — einundsechzig Einträge, jeder mit der echten Auflösung.

Muster vier — erfundene technische Mechanismen

Wer einem Modell technische Tiefe abverlangt, die in keinem öffentlich zugänglichen Material steht, bekommt manchmal eine plausible Erfindung. „Claude Sonnet hat ein dynamisches Kontext-Fenster zwischen 128.000 und 4.000.000 Tokens je nach GPU-Auslastung." Klingt nach Tech-Doku, ist erfunden. Anthropic stellt Modelle mit festen Kontextfenstern bereit, kein „dynamisches Fenster auf GPU-Basis".

Erkennungsmerkmal: Wenn das Modell technische Details beschreibt, die in der offiziellen Anbieter-Dokumentation nicht auftauchen — Quellen prüfen. Ein zweiter Tab mit der Hersteller-Doku ist bei Tech-Aussagen Pflicht.

Muster fünf — überspezifische Datumsangaben

„Der EU AI Act verpflichtet seit dem 17. März 2024 alle Hochrisiko-KI-Systeme zu jährlicher TÜV-Zertifizierung." Tagesgenaue Daten in regulatorischen Aussagen sind ein klassischer Tell. Echte Verordnungen werden meist mit dem Inkrafttretens-Datum benannt, nicht mit einer KI-Phantasiekonstruktion. Wenn das Modell „seit dem 17. März 2024" schreibt, ohne dass das aus dem Kontext klar war, ist Vorsicht angebracht.

Erkennungsmerkmal: Spezifische Datumsangaben für regulatorische Pflichten ohne Quellenangabe. Originalverordnung suchen (EUR-Lex für EU-Recht, Bundesgesetzblatt für deutsches Recht), Inkrafttretens-Datum prüfen.

Muster sechs — vermeintliche Zitate

Modelle erfinden gelegentlich Zitate aus echten Personen oder Studien. „Wie Sam Altman 2023 sagte: ‚KI wird das Bürgerliche Gesetzbuch in zehn Jahren ersetzen.'" Klingt zitierfähig, ist aber Phantasie. Auch Studien-Zitate: „Eine McKinsey-Studie aus 2024 zeigt, dass 78 Prozent der mittelständischen Verwaltungen KI bis 2027 einsetzen werden." Die McKinsey-Studie existiert, die Zahl ist Phantasie.

Erkennungsmerkmal: Konkrete Zitate von realen Personen oder Studien — bei Wichtigem nie ungeprüft übernehmen. Suchmaschine, Originalquelle, Stichprobe.

Muster sieben — ko-halluzinierte Folgekontexte

Das gefährlichste Muster. Wenn eine erste Halluzination im Gespräch nicht erkannt und korrigiert wird, baut das Modell auf der falschen Information weiter — und die Folgeantworten klingen kohärent, weil sie zur ersten Erfindung passen. „Du hast vorhin die EN 81-Aufzugswartungsverordnung erwähnt — wie hängt die mit der DGUV V3 zusammen?" Das Modell antwortet kohärent, „erklärt" einen Zusammenhang, der nicht existiert, weil die EN 81-Aufzugswartungsverordnung nicht existiert.

Erkennungsmerkmal: Wenn ein Modell auf eine Korrektur nicht zurückrudert, sondern stur weitermacht. Im Zweifel den Faden abbrechen, neuen Chat starten, mit korrekten Fakten neu einsteigen.

Was Halluzinationen nicht sind

Drei Verwechslungen, die im Verwalter-Alltag oft auftauchen.

Eine Halluzination ist nicht eine veraltete Information. Wenn das Modell eine Tatsache aus seinem Trainingszeitpunkt liefert, die inzwischen überholt ist, ist das kein Halluzinations-, sondern ein Cutoff-Problem. Lösung: Modell mit aktuellem Kontext füttern oder Web-Search-Tool aktivieren.

Eine Halluzination ist nicht eine vorsichtige Antwort. Wenn das Modell sagt „ich bin mir nicht sicher", „das hängt vom Einzelfall ab" oder „bitte prüfen Sie das mit dem Anwalt", ist das keine Halluzination, sondern eine ehrliche Selbsteinschätzung. Genau das ist im Mittelstand wertvoll.

Eine Halluzination ist nicht das gleiche wie ein Übersetzungsfehler. Wenn das Modell einen englischen Fachbegriff falsch ins Deutsche überträgt, ist das ein Übersetzungs- oder Kontext-Problem. Korrektur durch klareres Prompting („Bitte das deutsche Standardvokabular verwenden, nicht direkt übersetzen") löst das meist.

Was die Community konkret hilft

Drei Sektionen in der Reihenfolge der praktischen Wirksamkeit:

Der Halluzinationen-Trainer ist der Einstieg. Sieben Aufgaben, jede mit zwei Antworten — eine plausibel, eine halluziniert. Klick wählt die Halluzination aus, die Auflösung erklärt das Erkennungsmerkmal. Wer drei Runden macht, hat das Auge geschult.

Der Mythen-Check ergänzt das auf der Konzept-Ebene: neun Behauptungen, die im Mittelstand kursieren („KI nimmt uns die Jobs weg", „mehr Kontext ist immer besser", „mit US-Anbietern ist Datenschutz unmöglich") — mit Status-Badge und auf Klick aufklappender Aufklärung.

Der Prompt-Validator prüft den eigenen Prompt gegen Anti-Patterns, die Halluzinationen begünstigen — fehlende Quellenpflicht, fehlende Format-Vorgabe, mehrere Aufgaben in einem Prompt. Wer den Validator durchläuft, bevor er den Prompt produktiv nutzt, reduziert das Halluzinations-Risiko spürbar.

Was im Mittelstand pragmatisch hilft

Drei Gewohnheiten, die das Halluzinationsrisiko in der Praxis halbieren:

Erstens — Quellenpflicht im Prompt. „Beantworte die Frage nur, wenn du eine Quelle nennen kannst, andernfalls sag ‚ich weiß es nicht'." Reduziert die Phantasie-Antworten um den Großteil. Funktioniert besonders gut bei Claude — Constitutional AI ist auf vorsichtige Antworten trainiert.

Zweitens — Format-Vorgaben. „Antworte als Tabelle mit drei Spalten: Aussage, Quelle, Konfidenz." Erzwingt eine Struktur, in der Halluzinationen schwerer unterzubringen sind.

Drittens — Stichprobe. Bei jedem produktiven Output: zwei zufällige Aussagen am Originaltext gegenchecken. Drei Sätze pro Tag, fünf Minuten — und ihr habt ein verlässliches Gefühl dafür, wo das Modell gut ist und wo es phantasiert.

Niemand erreicht null Halluzinationen — sie sind ein strukturelles Merkmal generativer Sprachmodelle, kein Fehler. Wer im Mittelstand mit ihnen rechnet wie mit Tippfehlern, liegt richtig: erkennen, korrigieren, weiterarbeiten. Das Modell ist nicht weniger nützlich, wenn es gelegentlich erfindet — es ist nur weniger nützlich, wenn man die Erfindung übernimmt.

Zur Community-Lese-Karte →

Beitrag teilen

Verwandte Beiträge