Das stimmt. Deshalb kann man auch nicht pauschal behaupten, und den Eindruck erwecken hier einzelne Beiträge, es gäbe keine KI, die sich mit dem deutschen Steuer- und Sozialversicherungsrecht „auskennt“. Das hängt immer vom jeweiligen Modell, den verwendeten Datenquellen und vor allem davon ab, wie die KI eingesetzt wird.
Die eigentliche Frage ist, wie zuverlässig die Informationen im konkreten Anwendungsfall sind.
Hier liegt ein weit verbreitetes Missverständnis über die Funktionsweise eines LLM vor. Du glaubst, wenn man nur genügend Informationen, z.B. über Sozialrecht, in ein Modell hineinwirft, würde man zuverlässige Aussagen zu diesem Thema aus dem Modell bekommen. Oder mit anderen Worten: das Modell würde sich damit auskennen."
Und genau diese Sicht ist falsch. Das LLM wird dadurch nicht zu einem kompetenten Sozialrechtler, dessen Antworten auf spezielle Fragen zu seinem Fachthema in den meisten Fällen korrekt sein werden. Dadurch, dass ein LLM wie ein Mensch kommuniziert, schreibt man ihm unbewusst menschliche Eigenschaften zu. Das LLM besitzt aber kein Wissen, keine juristische Logik und auch kein Verständnis von Gesetzen. Es erzeugt lediglich sprachlich plausible Antworten, basierend auf Mustern aus Trainingsdaten oder ggf. externen Quellen.
Ob ein LLM "zuverlässig" wirkt, hängt daher nur davon ab, wie gut die statistischen Muster zu der gestellten Frage passen. Hier ist genau der Unterschied zu einem menschlichen Experten. Dem kann man eine Frage in unterschiedlichen Wort-Variationen stellen, er wird normalerweise verstehen(!), was gemeint ist und entsprechend antworten. Bei einem LLM hingegen ist genau diese Wortwahl entscheidend. Kleine Abweichungen, die für Menschen irrelevant sind, können dafür sorgen, dass die Antwort völlig anders ausfällt, weil sie statistisch wahrscheinlicher ist. Das LLM weiß nicht, dass seine Antwort u.U. völliger Unfug ist. Genau dieses Verhalten hat auch der TE beobachtet und daraus fälschlicherweise geschlossen, dass sich die verwendete KI nicht "auskenne".
Eine KI kennt sich nicht aus, sie erzeugt lediglich statistisch plausible Fortsetzungen von Text. Daher ist auch die Aussage: "Es hängt vom Modell ab." ähnlich sinnvoll wie: "Welcher Taschenrechner kennt sich am bestem mit Integralrechnung aus?" Die Antwort ist klar: Keiner. Ein Taschenrechner rechnet, er versteht nicht. Ein LLM generiert Text, es versteht nicht.