Kann KI Verträge besser prüfen als ein Anwalt? Was die Daten sagen…

Die Prüfung und Erstellung von Verträgen – ein Eckpfeiler auch im Staffing – ist nach wie vor einer der zeitaufwändigsten Teile des Deal-Lebenszyklus. Die Erstellung von Verträgen ist sowohl eine Kunst als auch eine Wissenschaft: Es gibt selten einen einzigen „richtigen” Vertragsentwurf, sondern nur einen, der im jeweiligen Kontext „zweckmäßig” ist. Doch trotz dieser Subjektivität haben Anwältinnen oft gemeinsame unausgesprochene Standards dafür, was einen Entwurf solide oder „völlig daneben” macht.

Aufgrund der unausgesprochenen, subjektiven Standards muss die Frage erlaubt sein, ob Verträge, die von einer KI geprüft und erstellt werden, tatsächlich so gut sein können wie Verträge, die von Anwältinnen erstellt wurden.

In einer aktuellen Studie von Guo et al.[1] (Vertragsgestaltung: Vergleich zwischen künstlicher Intelligenz und juristischen Fachkräften) haben Wissenschaftler versucht, die Arbeit von Anwältinnen mit 10 Jahren In-House Berufserfahrung und KI bei der Vertragsgestaltung zu vergleichen.

Die Ergebnisse der Wissenschaftler zeigen, dass unser hybrider Ansatz bei dealdraft der beste Weg ist, um Staffing-Verträge zu prüfen und zu entwerfen:

Die Studienergebnisse lassen sich wie folgt zusammenfassen:

  1. KI-Tools lagen bei der Erstellung eines zuverlässigen sog. „ersten Vertragsentwurfs“ mit Anwältinnen gleichauf. In einigen Fällen übertraf die KI sogar den „ersten Vertragsentwurf“ der Anwältinnen. Menschen waren bei 56,7 % der Aufgaben zuverlässig, aber KI-Lösungen erreichten oder übertrafen diesen Basiswert.
  2. Das beste KI-Tool schnitt geringfügig besser ab als der beste menschliche Anwalt. Der beste menschliche Anwalt erstellte in 70 % der Fälle einen zuverlässigen ersten Entwurf, während das beste KI-Tool in 73,3 % der Fälle einen zuverlässigen ersten Entwurf erstellte.
  3. Speziell für die Vertragsprüfung entwickelte KI-Tools (wie dealdraft) deckten wesentliche Risiken auf, die Anwältinnen völlig übersehen hatten. Diese KI-Tools waren weitaus eher in der Lage, rechtliche Entscheidungen zu treffen, und gaben in 83 % der Ergebnisse ausdrückliche Risikowarnungen aus. Menschen hingegen gaben keine ab.
  4. Allgemeine KI-Lösungen (z.B. ChatGPT) hatten einen leichten Vorsprung bei der Zuverlässigkeit der Ergebnisse, während spezialisierte Vertragsprüfungs-KI-Lösungen (wie dealdraft) bei der Nützlichkeit der Ergebnisse besser abschnitten.

Was wurde überprüft?

Die Wissenschaftler verglichen die Genauigkeit und Zuverlässigkeit der Vertragsprüfung und -erstellung von

  • KI-Tools zur Vertragsprüfung (wie dealdraft)
  • allgemeiner KI-Assistenten wie ChatGPT und
  • menschlichen Anwältinnen (In-House Rechtsanwältinnen mit durchschnittlich 10 Jahren Berufserfahrung)

Die Ergebnisse der menschlichen Mitarbeiter wurden dann nach denselben Kriterien wie die KI-Tools bewertet und bildeten einen Referenzpunkt für die Leistung eines durchschnittlichen Unternehmensjuristen.

Ergebnisse

  1. Generelle Ergebnisse
  • Generell lag die Gesamtzuverlässigkeitsrate der KI-Tools bei durchschnittlich 57,3 %. Die menschlichen Anwältinnen erreichten 56,7 % (mit KI-Unterstützung stieg dieser Wert auf 61,5 %).
  • KI-Tools erreichten eine durchschnittliche Gesamtpunktzahl von 8,13/9 Punkten in Bezug auf die Nützlichkeit der Ergebnisse. Die menschlichen Anwältinnen erzielten 7,53/9 Punkte. Spezialisierte-KI-Plattformen (wie dealdraft) lieferten unmittelbar nützlichere Ergebnisse als die menschlichen Anwältinnen und die meisten universellen KI-Assistenten.
  • Insgesamt waren die Ergebnisse der KI-Tools zuverlässiger als die Ergebnisse menschlicher Arbeit, aber menschliche Ergebnisse sind nützlicher als die Ergebnisse von KI-Tools.
  • Menschen sind besser darin, rechtliche Anweisungen zu interpretieren, kommerzielle und rechtliche Entscheidungen zu treffen, kontextbezogene Vertragsentwürfe zu erstellen und unnötige Zugeständnisse an die Gegenseite zu vermeiden.

2. So schnitten die Anwältinnen ab

  • Im Durchschnitt erreichten menschliche Anwältinnen eine Zuverlässigkeitsrate von 56,7 % (die mit KI-Unterstützung auf 61,5 % stieg), verglichen mit 57 % bei KI-Tools.
  • In Bezug auf die Nützlichkeit erzielten Menschen 7,53 von 9 Punkten und lagen damit knapp über den 7,25 von 9 Punkten der KI, was ihren Vorsprung bei der kontextbezogenen und urteilsintensiven Ausarbeitung widerspiegelt.
  • Der größte Unterschied liegt jedoch in der Geschwindigkeit: Menschen benötigten fast 13 Minuten pro Aufgabe, während KI Entwürfe in Sekundenschnelle erstellte.
  • Entscheidend ist, dass die besten KI-Tools den besten menschlichen Anwalt übertrafen. Dies zeigt, dass KI im High-End-Bereich mittlerweile in puncto Zuverlässigkeit von „ersten Vertragsentwürfen“ führend ist.

Mensch vs. KI: Stärken und Schwächen

a) Stärken des Menschen

Menschen waren durchweg zuverlässiger in folgenden Bereichen:

  • Interpretation von Absichten und Anpassung von Entwürfen an die Ziele der Nutzer, ohne der Gegenpartei unnötige Zugeständnisse zu machen.
  • Ausübung von wirtschaftlichem Urteilsvermögen, Vermeidung von Entwürfen, die übermäßig aggressiv waren oder sich von der realen Geschäftsdynamik entfernten.
  • Erstellung juristisch präziser Texte mit ausgefeiltem Stil, angemessener Formulierung und minimaler Mehrdeutigkeit.

b) Stärken des KI-Tools

  • KI-Lösungen zeichneten sich durch Geschwindigkeit, Konsistenz und Routine bei der Erstellung von Vertragsentwürfen aus. Sie waren in der Lage, in einem Bruchteil der Zeit, die menschliche Anwältinnen benötigten, korrekte Ergebnisse zu liefern, und zeigten besondere Stärken bei der Erstellung von Standardformulierungen und Formeln.
  • KI-Tools neigten weniger zu Untertreibungen. Während Menschen oft übermäßige Erklärungen vermieden, fehlten ihren Ergebnissen manchmal der Kontext oder die für die praktische Anwendung erforderlichen Verifizierungsmerkmale. Experten beschrieben mehrere menschliche Entwürfe als „viel zu kurz“ oder unzureichend ausgearbeitet, sodass zusätzliche Arbeit erforderlich war, um sie nutzbar zu machen. Im Vergleich dazu boten KI-generierte Klauseln – wenn auch nicht immer nuanciert – in der Regel eine umfassendere Abdeckung.

Mensch vs. KI: Die wichtigsten Erkenntnisse

Insgesamt zeigen die Ergebnisse der Umfragen ein ausgewogenes Verhältnis zwischen den Stärken und Schwächen von Menschen und KI-Tools. Beide sind dort erfolgreich, wo der andere versagt, und beide decken die Schwachstellen des anderen auf.

Aus diesem Grund haben wir dealdraft gegründet. Wir glauben, dass die beste KI-Lösung für die Vertragsprüfung bidirektional ist. Menschen sind unverzichtbar, um die Ergebnisse der KI auf Nuancen und wirtschaftliche Ausgewogenheit zu überprüfen. Aber auch das Gegenteil trifft zu: KI kann einfache Fehler vermeiden, die Menschen machen, und sogar komplexe Versäumnisse aufdecken, die Menschen möglicherweise übersehen würden.

Dealdraft kombiniert auf das Staffing maßgeschneiderte KI für die Personalbeschaffung mit menschlichen Anwältinnen, um Inhabern von Personalvermittlungsunternehmen eine erstklassige Lösung für die Vertragsprüfung zu bieten: KI driven, human backed.

Dealdraft vs. ChatGPT

Eine generelle Anmerkung zu der Frage, warum Sie maßgeschneiderte KI für das Staffing benötigen und nicht einfach „Ihren Vertrag durch ChatGPT laufen lassen“ können:

Speziell entwickelte juristische KI zeigte einen klaren Vorteil in der praktischen Nützlichkeit der Ergebnisse sowie in der maßgeschneiderten Unterstützung von Arbeitsabläufen:

  • Risikowarnungen / rechtliche Beurteilung: Bei der Erstellung von Szenarien mit hohem Durchsetzungs- oder Compliance-Risiko gab die juristische KI in 83 % der Ergebnisse explizite Risikowarnungen aus, gegenüber 55 % bei der allgemeinen KI. Das bedeutet, dass z.B. ChatGPT die Risiken Ihres Staffing-Vertrages fast genauso oft übersieht, wie es sie erkennt. Angesichts der rechtlichen Konsequenzen sollte man hier kein russisches Roulette spielen.
  • Unterstützung des Einstellungsworkflows. Unser KI-Tool zur Vertragsprüfung ist auf die tatsächliche Arbeitsweise von Staffing-Professionals zugeschnitten. Allgemeine KI-Tools wie ChatGPT unterstützen den Lebenszyklus von Einstellungsverträgen nicht (intuitiv).

[1] Guo, A., Rodrigues, A., Mamari, M., Udeshi, S. und Astbury, M. (2025). Benchmarking von Menschen und KI bei der Vertragsgestaltung. Abgerufen unter https://www.legalbenchmarks.ai/research/phase-2-research

Newsletter abonnieren!

Bleiben Sie informiert und nicht überfordert, abonnieren Sie jetzt!