Welche KI kennt sich mit deutschen Steuer- und Sozialabgaben aus?

sam51

Zitat von Einundzwanzig

Es kommt darauf an, wie man die KI füttert und wie man sie nutzt. Wenn man es richtig anstellt, ist die KI dem Menschen heute schon in bestimmten Bereichen überlegen.

Das ist ein Taschenrechner auch.

Ein LLM ist eben ein Werkzeug, das, wie jedes Werkzeug, richtig eingesetzt, sehr nützlich sein kann. Setzt man es zu einem Zweck ein, für den es nicht geeignet ist, kann es im schlimmsten Fall zu einem Schaden führen. Ein gutes Beispiel hierfür das Erzeugen von Programmcode durch LLM, neudeutsch Vibe Coding genannt.

Einundzwanzig

Zitat von sam51

Das ist ein Taschenrechner auch.
Ein LLM ist eben ein Werkzeug, das, wie jedes Werkzeug, richtig eingesetzt, sehr nützlich sein kann. Setzt man es zu einem Zweck ein, für den es nicht geeignet ist, kann es im schlimmsten Fall zu einem Schaden führen. Ein gutes Beispiel hierfür das Erzeugen von Programmcode durch LLM, neudeutsch Vibe Coding genannt.

Das stimmt. Deshalb kann man auch nicht pauschal behaupten, und den Eindruck erwecken hier einzelne Beiträge, es gäbe keine KI, die sich mit dem deutschen Steuer- und Sozialversicherungsrecht „auskennt“. Das hängt immer vom jeweiligen Modell, den verwendeten Datenquellen und vor allem davon ab, wie die KI eingesetzt wird.

Die eigentliche Frage ist, wie zuverlässig die Informationen im konkreten Anwendungsfall sind. Genauso wenig wie man jeden Taschenrechner für jede Aufgabe nutzen würde, sollte man auch nicht jede KI blind für jede Fragestellung verwenden.

Zurück zur Ausgangsfrage. Leider kann ich kein LLM empfehlen, welches die Ansprüche erfüllt, da ich nur rudimentäres Wissen im Bereich Steuergesetze habe, aber vielleicht hat ja wer positive Erfahrungen mit bestimmten Modellen auf dem Gebiet gesammelt.

ichbins

Die KI gibt gute oder schlechte allgemeine Informationen, wenn man steuerlich in seine eigenen Details geht, dann wird es schwierig. Habe von noch niemandem gehört, der seine Steuererklärung über eine KI macht. Bei wiso Steuer nutze ich ab und an die angeschlossene KI, ist dann aber auch eine sehr spezielle Sache. Lasse mich aber auch gerne eines besseren belehren.

sam51

Zitat von Einundzwanzig

Das stimmt. Deshalb kann man auch nicht pauschal behaupten, und den Eindruck erwecken hier einzelne Beiträge, es gäbe keine KI, die sich mit dem deutschen Steuer- und Sozialversicherungsrecht „auskennt“. Das hängt immer vom jeweiligen Modell, den verwendeten Datenquellen und vor allem davon ab, wie die KI eingesetzt wird.
Die eigentliche Frage ist, wie zuverlässig die Informationen im konkreten Anwendungsfall sind.

Hier liegt ein weit verbreitetes Missverständnis über die Funktionsweise eines LLM vor. Du glaubst, wenn man nur genügend Informationen, z.B. über Sozialrecht, in ein Modell hineinwirft, würde man zuverlässige Aussagen zu diesem Thema aus dem Modell bekommen. Oder mit anderen Worten: das Modell würde sich damit auskennen."

Und genau diese Sicht ist falsch. Das LLM wird dadurch nicht zu einem kompetenten Sozialrechtler, dessen Antworten auf spezielle Fragen zu seinem Fachthema in den meisten Fällen korrekt sein werden. Dadurch, dass ein LLM wie ein Mensch kommuniziert, schreibt man ihm unbewusst menschliche Eigenschaften zu. Das LLM besitzt aber kein Wissen, keine juristische Logik und auch kein Verständnis von Gesetzen. Es erzeugt lediglich sprachlich plausible Antworten, basierend auf Mustern aus Trainingsdaten oder ggf. externen Quellen.

Ob ein LLM "zuverlässig" wirkt, hängt daher nur davon ab, wie gut die statistischen Muster zu der gestellten Frage passen. Hier ist genau der Unterschied zu einem menschlichen Experten. Dem kann man eine Frage in unterschiedlichen Wort-Variationen stellen, er wird normalerweise verstehen(!), was gemeint ist und entsprechend antworten. Bei einem LLM hingegen ist genau diese Wortwahl entscheidend. Kleine Abweichungen, die für Menschen irrelevant sind, können dafür sorgen, dass die Antwort völlig anders ausfällt, weil sie statistisch wahrscheinlicher ist. Das LLM weiß nicht, dass seine Antwort u.U. völliger Unfug ist. Genau dieses Verhalten hat auch der TE beobachtet und daraus fälschlicherweise geschlossen, dass sich die verwendete KI nicht "auskenne".

Eine KI kennt sich nicht aus, sie erzeugt lediglich statistisch plausible Fortsetzungen von Text. Daher ist auch die Aussage: "Es hängt vom Modell ab." ähnlich sinnvoll wie: "Welcher Taschenrechner kennt sich am bestem mit Integralrechnung aus?" Die Antwort ist klar: Keiner. Ein Taschenrechner rechnet, er versteht nicht. Ein LLM generiert Text, es versteht nicht.

Einundzwanzig

Zitat von sam51

Hier liegt ein weit verbreitetes Missverständnis über die Funktionsweise eines LLM vor. Du glaubst, wenn man nur genügend Informationen, z.B. über Sozialrecht, in ein Modell hineinwirft, würde man zuverlässige Aussagen zu diesem Thema aus dem Modell bekommen. Oder mit anderen Worten: das Modell würde sich damit auskennen."
Und genau diese Sicht ist falsch. Das LLM wird dadurch nicht zu einem kompetenten Sozialrechtler, dessen Antworten auf spezielle Fragen zu seinem Fachthema in den meisten Fällen korrekt sein werden. Dadurch, dass ein LLM wie ein Mensch kommuniziert, schreibt man ihm unbewusst menschliche Eigenschaften zu. Das LLM besitzt aber kein Wissen, keine juristische Logik und auch kein Verständnis von Gesetzen. Es erzeugt lediglich sprachlich plausible Antworten, basierend auf Mustern aus Trainingsdaten oder ggf. externen Quellen.
Ob ein LLM "zuverlässig" wirkt, hängt daher nur davon ab, wie gut die statistischen Muster zu der gestellten Frage passen. Hier ist genau der Unterschied zu einem menschlichen Experten. Dem kann man eine Frage in unterschiedlichen Wort-Variationen stellen, er wird normalerweise verstehen(!), was gemeint ist und entsprechend antworten. Bei einem LLM hingegen ist genau diese Wortwahl entscheidend. Kleine Abweichungen, die für Menschen irrelevant sind, können dafür sorgen, dass die Antwort völlig anders ausfällt, weil sie statistisch wahrscheinlicher ist. Das LLM weiß nicht, dass seine Antwort u.U. völliger Unfug ist. Genau dieses Verhalten hat auch der TE beobachtet und daraus fälschlicherweise geschlossen, dass sich die verwendete KI nicht "auskenne".
Eine KI kennt sich nicht aus, sie erzeugt lediglich statistisch plausible Fortsetzungen von Text. Daher ist auch die Aussage: "Es hängt vom Modell ab." ähnlich sinnvoll wie: "Welcher Taschenrechner kennt sich am bestem mit Integralrechnung aus?" Die Antwort ist klar: Keiner. Ein Taschenrechner rechnet, er versteht nicht. Ein LLM generiert Text, es versteht nicht.

Deswegen schrieb ich ja auch „auskennt“ in Anführungszeichen. Die Funktionsweise ist mir schon bekannt. Durch das Füttern von Informationen und Rückmeldungen (Feedback) zu den Antworten werden die LLM in Zukunft kontinuierlich „besser“ oder anders ausgedrückt: Die Wahrscheinlichkeiten steigen mit der Zeit, dass die Antworten richtig bzw. gut sind, je mehr Feedback die KI bekommt. Und da gibt es sehr wohl Unterschiede zwischen den verschiedenen LLM. – Siehe Beitrag #18:

Beitrag

RE: Welche KI kennt sich mit deutschen Steuer- und Sozialabgaben aus?

[…]

Dazu ab 3:50 min:

youtu.be/YNavwk7qk24?si=qy3ChgIFIbNjjoR8&t=227

Es kommt darauf an, wie man die KI füttert und wie man sie nutzt. Wenn man es richtig anstellt, ist die KI dem Menschen heute schon in bestimmten Bereichen überlegen.

Einundzwanzig

1. Juni 2026 um 14:37

lieberjott

Zitat von sam51

Hier liegt ein weit verbreitetes Missverständnis über die Funktionsweise eines LLM vor. Du glaubst, wenn man nur genügend Informationen, z.B. über Sozialrecht, in ein Modell hineinwirft, würde man zuverlässige Aussagen zu diesem Thema aus dem Modell bekommen. Oder mit anderen Worten: das Modell würde sich damit auskennen."
(…) Das LLM besitzt aber kein Wissen, keine juristische Logik und auch kein Verständnis von Gesetzen. Es erzeugt lediglich sprachlich plausible Antworten, basierend auf Mustern aus Trainingsdaten oder ggf. externen Quellen.

Auch hier bin ich nicht so ganz deiner Meinung; mittels Reasoning gibt es schon eine Art Verstandnis und Logik. Diese funktioniert nicht 1:1 wie im menschlichen Sinne, aber das ist für die Lösung vielleicht gar nicht mal entscheident.

Ich halte es daher für überholt zu behaupten, aktuelle KIs würden die statistisch wahrscheinlichste Antwort anhand ihrer Traningsdaten geben.

Micha-1

Zitat von sam51

Ein gutes Beispiel hierfür das Erzeugen von Programmcode durch LLM, neudeutsch V

Das ist ein schlechtes Beispiel, da Programmiersprachen eben Sprachen sind. Und darauf sind LLM trainiert. Nur weil die KI nicht immer perfekt ist, bedeutet es nicht das sie schlechtere Ergebnisse als ein Mensch liefert. Und auch hier bringe ich Erfahrung mit diversen LLM und Menschen mit.

Micha-1

Ich habe mal die KI gefragt, warum Copilot so schlecht ist :

Dass Microsoft Copilot trotz der zugrundeliegenden OpenAI-Technologie (wie GPT-4o) oft spürbar schlechtere, trägere oder ungenauere Ergebnisse liefert als das originale ChatGPT, ist ein bekanntes Phänomen. Es liegt vor allem daran, dass Copilot kein reines "ChatGPT im Microsoft-Gewand" ist, sondern eine völlig andere Software-Architektur nutzt.

Es gibt noch mehr Details, aber Fazit ist, dass Copilot nicht identisch ist mit ChatGPT.

sam51

Zitat von Micha-1

Das ist ein schlechtes Beispiel, da Programmiersprachen eben Sprachen sind. Und darauf sind LLM trainiert.

Nur weil für zwei Dinge die gleiche Bezeichnung verwendet wird, bedeutet dies nicht, dass sie gleich sind. Programmiersprachen sind formal, deterministisch und semantisch eindeutig. Natürliche Sprache hingegen ist unpräzise, kontextabhängig und voller Zweideutigkeiten. Das ist schon ein deutlicher Unterschied.

Ein LLM ist für statistische Muster in natürlicher Sprache optimiert. Es kann Programmcode erzeugen, weil es viele Beispiele gesehen hat. Aber es versteht nicht, was es da tut, es simuliert nur ein Codeverständnis. Daher passieren bei der "Codegenerierung" gerne mal die typischen LLM-Fehler wie verwechselte Variablen, error-by-one-Fehler oder es werden Funktionen frei erfunden. Ein LLM kann eben nur wahrscheinlich richtige Muster erzeugen. Das reicht bei Programmcode eben nicht aus.

So langsam erkennt man die Auswirkungen von KI-generiertem Code auch in der Praxis:

KI-Code führt vermehrt zu Produktionsausfällen | heise online

Mischu

Und euer selbstgefälliges Klugschwätzen hilft dem TO jetzt wie genau ?

Horst Talski

Ganz genau wirst du die Steuer eh erst vom Finanzamt erfahren.

Vorher abschätzen kannst du hier:

https://www.test.de/Steuerberechnu…zung-1231254-0/

Oder hier:

https://www.n-heydorn.de/rentenbesteuerung.html

Wenn du die grobe Richtung kennst reicht das ja aus.
Ich rechne lieber ein bisschen mehr weg.

Die absolute Steuer-Sicherheit gibt’s sowieso erst nach dem Tod.

britty

RedBarom von heute:

Was KI nicht leisten kann

1. Über aktuelle steuerliche Regeln informieren

https://www.n-tv.de/ratgeber/Steue…id30878027.html

itschytoo

Zitat von Mischu

Und euer selbstgefälliges Klugschwätzen hilft dem TO jetzt wie genau ?

Manchmal bekommt man eben nicht die gewünschte Antwort.

Manchmal bekommt man erklärt wieso es keine Lösung geben kann.

Pfennigbaron

Zitat von sam51

Programmiersprachen sind formal, deterministisch und semantisch eindeutig. Natürliche Sprache hingegen ist unpräzise, kontextabhängig und voller Zweideutigkeiten. Das ist schon ein deutlicher Unterschied.

Und ich behaupte obendrein, dass die Sprache von Gesetzen nochmal eine ganz andere ist. Da wird die Präzision und Eindeutigkeit der Sprache erst dadurch erreicht, dass man die Gesetzeshierarchien, Zuständigkeiten sachlich/örtlich, Geltungszeiträume,... drumherum mit beachtet. Die vom Themenersteller beschriebenen Probleme der KI sind da wenig überraschend. Wer in Behörden Schreiben bis hin zu Widersprüchen KI-generiert entgegennehmen "darf", kennt das Phänomen. Da werden die wildesten Ansichten in wunderbar ausformulierter Sprache präsentiert, landen aber im falschen Jahr bei der falschen Behörde auf der falschen staatlichen Ebene und haben mit dem, was den Widerspruchsführer im Ausgangsbescheid störte oder was er eigentlich beantragen will auch relativ selten überhaupt noch eine Schnittmenge. Aber es ist ja KI, es ist modern, es wird wohl stimmen...

Ob oder wann sich KI insgesamt so entwickelt, oder es spezialisierte KI-Instrumente extra für solche Rechtsthemen geben wird, keine Ahnung. Bis auf weiteres bin ich für mich aber komplett überzeugt:

Zitat von RedBarom

welche KI ist aus eurer Sicht die "kompetenteste"?

Der Steuerberater ums Eck.

Prima523

Zitat von Pfennigbaron

Der Steuerberater ums Eck.

Gerade auch, wenn es um reale und individuelle Gestaltungsmöglichkeiten geht. Bekomnt KI nicht hin.

sam51

Zitat von Mischu

Und euer selbstgefälliges Klugschwätzen hilft dem TO jetzt wie genau ?

Im Gegensatz zu deinem wenig sachlichen Beitrag hier habe ich versucht, dem TE zu erklären, warum sein Ansatz nicht funktionieren kann und ihm gleichzeitig Alternativen aufgezeigt.

Wenn in der Folge einige Mitforisten der Meinung sind, meine Aussagen in Zweifel zu ziehen, mögen sich diese bitte nicht darüber beschweren, dass ich dazu Stellung beziehe.

sam51

Zitat von Pfennigbaron

Ob oder wann sich KI insgesamt so entwickelt, oder es spezialisierte KI-Instrumente extra für solche Rechtsthemen geben wird, keine Ahnung.

Ich bezweifle, dass es Spezial-KIs dieser Art in der Zukunft geben wird. Der Grund ist einfach: das, was heute gerne als KI bezeichnet wird, sind Large Language Models (LLM). Deren Funktionsweise ist grundsätzlich nicht kompatibel mit den Anforderungen an eine Rechtsauskunft, bei der Korrektheit essentiell ist. Da hilft es auch nicht, wenn man so ein LLM mit allen deutschen Gesetzestexten, Kommentaren und Urteilen trainiert. Trotzdem wird es immer wieder zu falschen Antworten, den sog. Halluzinationen kommen. Das ist eine inhärente Eigenschaft dieser Modelle und daher grundsätzlich nicht behebbar.

Einundzwanzig

Zitat von sam51

Ich bezweifle, dass es Spezial-KIs dieser Art in der Zukunft geben wird. Der Grund ist einfach: das, was heute gerne als KI bezeichnet wird, sind Large Language Models (LLM). Deren Funktionsweise ist grundsätzlich nicht kompatibel mit den Anforderungen an eine Rechtsauskunft, bei der Korrektheit essentiell ist. Da hilft es auch nicht, wenn man so ein LLM mit allen deutschen Gesetzestexten, Kommentaren und Urteilen trainiert. Trotzdem wird es immer wieder zu falschen Antworten, den sog. Halluzinationen kommen. Das ist eine inhärente Eigenschaft dieser Modelle und daher grundsätzlich nicht behebbar.

Die gibt es doch aber bereits:

https://www.harvey.ai/

Und diese „Spezial-KIs“ basieren dann nicht ausschließlich auf LLM, sondern verknüpfen verschiedene Daten und Technologien miteinander. Für Standardfälle wie Vertragsprüfung, Steuerberechnungen, Fristenkontrolle oder die Beantwortung einfacher Rechtsfragen wird die Fehlerquote künftig vermutlich niedriger sein als bei vielen menschlichen Anwendern. Bei neuartigen, komplexen oder strittigen Rechtsfragen wird menschliche Expertise aber vermutlich noch lange erforderlich bleiben, da solche Systeme in diesen Bereichen weiterhin an Grenzen stoßen und Fehler machen können.

sam51

Zitat von Einundzwanzig

Die gibt es doch aber bereits:
https://www.harvey.ai/
Und diese „Spezial-KIs“ basieren dann nicht ausschließlich auf LLM, sondern verknüpfen verschiedene Daten und Technologien miteinander. Für Standardfälle wie Vertragsprüfung, Steuerberechnungen, Fristenkontrolle oder die Beantwortung einfacher Rechtsfragen wird die Fehlerquote künftig vermutlich niedriger sein als bei vielen menschlichen Anwendern. Bei neuartigen, komplexen oder strittigen Rechtsfragen wird menschliche Expertise aber vermutlich noch lange erforderlich bleiben, da solche Systeme in diesen Bereichen weiterhin an Grenzen stoßen und Fehler machen können.

Auch harvey.ai ist lediglich ein LLM, basierend auf GPT-4 und juristisch feingetuned. Um die Halluzinationen zu verringern, nutzt es weitere herkömmliche Tools. Die Halluzinationen kann man trotzdem nicht komplett verhindern. Und genau diese Halluzinationen sind ein K.O-Kriterium in Bereichen wie z.B. dem Recht. Der Hersteller schließt jede Haftung aus. Haftbar ist immer der Mensch oder die Organisation, die so ein Tool einsetzt.

Es gab eben schon Fälle, vornehmlich in den USA, in denen Anwälte KI-generierte Schriftsätze mit frei erfundenen Urteilen bei Gericht einreichten. In allen Fällen wurden die Anwälte sanktioniert. Sie nutzten wohl überwiegend ChatGPT, das den den Unsinn produzierte, aber auch mit Tools wie harvey.ai wird man dieses Verhalten nicht zum Verschwinden bringen.

Letztlich verhält es sich wie bei der Programmierung. Ob das Modell nun Programmcode oder juristische Schriftsätze erzeugt, man muss die Korrektheit immer als Mensch überprüfen. Ob man bei einem solchen Vorgehen wirklich Zeit und damit Geld spart, daran habe ich Zweifel.

Das Problem ist einfach, dass sich viele Menschen von der scheinbar phantastischen Performance solcher Modelle blenden lassen. Besonders Managern kann man auf dieser Technologie basierende Verfahren, wenn man sie noch mit etwas Marketing-Blabla schmückt, leicht verkaufen. Die Ernüchterung folgt dann zwangsläufig.

Das liegt nicht an den Modellen. Die können in bestimmten Bereich, in denen es nicht auf hundertprozentige Genauigkeit ankommt, erstaunliche Dinge leisten. Ob man sich nun einen Text zusammenfassen oder eine Mail formulieren lässt, das funktioniert mit LLMs sehr gut und kann bei zielgerichtetem Einsatz tatsächlich die Produktivität erhöhen. Aber man sollte nicht glauben, ein LLM sei so etwas wie der Computer der Enterprise.

Einundzwanzig

Zitat von sam51

Auch harvey.ai ist lediglich ein LLM, basierend auf GPT-4 und juristisch feingetuned. Um die Halluzinationen zu verringern, nutzt es weitere herkömmliche Tools. Die Halluzinationen kann man trotzdem nicht komplett verhindern. Und genau diese Halluzinationen sind ein K.O-Kriterium in Bereichen wie z.B. dem Recht. Der Hersteller schließt jede Haftung aus. Haftbar ist immer der Mensch oder die Organisation, die so ein Tool einsetzt.
Es gab eben schon Fälle, vornehmlich in den USA, in denen Anwälte KI-generierte Schriftsätze mit frei erfundenen Urteilen bei Gericht einreichten. In allen Fällen wurden die Anwälte sanktioniert. Sie nutzten wohl überwiegend ChatGPT, das den den Unsinn produzierte, aber auch mit Tools wie harvey.ai wird man dieses Verhalten nicht zum Verschwinden bringen.
Letztlich verhält es sich wie bei der Programmierung. Ob das Modell nun Programmcode oder juristische Schriftsätze erzeugt, man muss die Korrektheit immer als Mensch überprüfen. Ob man bei einem solchen Vorgehen wirklich Zeit und damit Geld spart, daran habe ich Zweifel.
Das Problem ist einfach, dass sich viele Menschen von der scheinbar phantastischen Performance solcher Modelle blenden lassen. Besonders Managern kann man auf dieser Technologie basierende Verfahren, wenn man sie noch mit etwas Marketing-Blabla schmückt, leicht verkaufen. Die Ernüchterung folgt dann zwangsläufig.
Das liegt nicht an den Modellen. Die können in bestimmten Bereich, in denen es nicht auf hundertprozentige Genauigkeit ankommt, erstaunliche Dinge leisten. Ob man sich nun einen Text zusammenfassen oder eine Mail formulieren lässt, das funktioniert mit LLMs sehr gut und kann bei zielgerichtetem Einsatz tatsächlich die Produktivität erhöhen. Aber man sollte nicht glauben, ein LLM sei so etwas wie der Computer der Enterprise.

Liest du meine Beiträge überhaupt? Genau das hab ich doch geschrieben. Überarbeite mal deinen Prompt, mit dem du deine Antworten formulierst ...