Dokumente und Verträge dienen als verlässliche Quelle für die Rechte und Pflichten, die ein Unternehmen gegenüber seiner Umwelt eingeht. Deshalb muss man den gesamten Lebenszyklus von Dokumenten und Verträgen zuverlässig und möglichst standardisiert steuern und verwalten. Dies gilt von den zugrundeliegenden Datenquellen über die Erstellung und den Versand bis hin zur Archivierung. Mit der rasant steigenden Leistungsfähigkeit künstlicher Intelligenz (KI) vervielfachen sich auch die Einsatzmöglichkeiten im Bereich der komplexen Dokumente. Damit rückt ein radikaler Wandel im Document and Contract Lifecycle Management (DCLM) in greifbare Nähe.
Bleiben Sie auf dem neuesten Stand beim Thema Personalwesen und folgen Sie ESCRIBA auf LinkedIn.
Dokumente im Allgemeinen und Verträge im Speziellen dienen in erster Linie dazu, für alle Beteiligten eine verbindliche Grundlage zu schaffen, auf die man sich berufen und die im Zweifelsfall zur Klärung von Streitigkeiten herangezogen werden kann. Idealerweise sollten der relevante Sachverhalt und die sich daraus ergebenden Rechte und Pflichten nur einmal und dann möglichst eindeutig und widerspruchsfrei dargestellt werden. Wenn diese Voraussetzungen erfüllt sind, können Dokumente und die Untergruppe der Verträge ihren eigentlichen Zweck als „Single Source of Truth“ (SSOT) erfüllen)1.
Dokumente als digitalisierte „Single Source of Truth“ im Widerspruch
Dokumente als traditionelle Art der Speicherung und Verwaltung von Daten und Informationen stehen per se im Widerspruch zur Informationstechnologie. Denn IT-Systeme basieren letztlich auf Rechnern, die gebaut wurden, um Berechnungen in den Bereichen Algebra, Analysis, Geometrie usw. durchzuführen und nicht, um Texte zu verstehen. Texte sind lediglich Repräsentationen binärer Daten, um sie für den Menschen lesbar zu machen. Natürlich kann der Computer Dokumente und die darin enthaltenen Daten und Werte (Dokumentdaten im engeren Sinne) speichern und auch bei der Erstellung und Bearbeitung von Texten unterstützen. Er kann aber nicht per se erkennen und verstehen, was der Regelungsgehalt der Texte ist und was die Daten bedeuten.
In der Konsequenz bedeutet dies, dass es immer einen Zwischenschritt geben muss, um Daten aus Texten zu extrahieren und zu klassifizieren, um sie dann mit einem Computer verarbeiten zu können. Inhalt und Bedeutung von Texten müssen in formale Logiken übersetzt werden, die für den Computer verständlich sind – nichts anderes sind Programmiersprachen. All diese Schritte sind bzw. waren bisher nur durch menschliches Zutun möglich und damit fehleranfällig – und in der Regel auch fehlerbehaftet. Betrachtet man diesen Medien- bzw. Konzeptbruch, digitalisierte Dokumente als einzig verlässliche Informationsquelle anzusehen, so erkennt man den Widerspruch. Alleinige Quelle zu sein, scheitert schon daran, dass man relevante Daten und Informationen (Inhalte) aus Dokumenten extrahier und transformieren muss, um sie in den Systemen verarbeiten zu können, also immer abgeleitet und sekundär sind.
KI revolutioniert die Erzeugung digitaler Dokumente
Der Einsatz künstlicher Intelligenz bedeutet nicht weniger als einen Paradigmenwechsel in der Erstellung und Verwaltung von Dokumenten. Die Möglichkeit, Texte zu vektorisieren, d.h. in Zahlen umzuwandeln, und auf der Basis dieser Vektoren neuronale Netze zu spezifizieren – nichts anderes ist das Training von Foundation-Modellen -, um dann algebraische Regeln auf Texte anwenden zu können, ist ein wissenschaftlicher Fortschritt, dessen Tragweite wir noch kaum ermessen können. Gleichzeitig ist mit der Fähigkeit von Maschinen, Texte zu lesen und zu „verstehen“, eine Grauzone im Hinblick auf den Schutz und die Nutzung von geistigem Eigentum und Dokumenten im Allgemeinen entstanden.
Der Aufsatz „Attention is all you need“ (Vaswani et al., 2017) hat die Forschung im Bereich der künstlichen Intelligenz weltweit grundlegend verändert. Der Aufsatz führt das Transformer-Modell, den Encoder, ein. Dieses Modell verarbeitet ganze Sätze gleichzeitig und nicht mehr Wort für Wort. Dadurch bleibt der Kontext, also die Beziehung der Wörter zueinander im Satzgefüge, erhalten.
Wenn Texte vektorisiert, also in Zahlen umgewandelt werden, wird immer der ganze Satz oder Textabschnitt verwendet und nicht nur das einzelne Wort oder Zeichen. Anschließend wird statistisch ermittelt, welche Bestandteile des Satzes für die Bedeutung relevant sind (Self Attention Layer). Das Verb „sitzen“ gibt dem Nomen „Bank“ eine andere Bedeutung als z.B. die Wörter „anlegen“ oder „Geld“. Die Ergebnisse basieren auf einfachen algebraischen Rechenvorschriften (logistische Regression), also etwas, was der Computer sehr gut kann.
Maschinen können erstmals Texte verstehen und selbst verfassen
Der nächste Durchbruch wurde schon 2018 mit dem Konzept der vortrainierten bi-direktionalen Transformer (Devlin et al., 2018)2 erzielt. Die Modelle nutzen De- und Encoder (bidirektionale Transformer) und minimieren dabei die Anzahl der Knoten, die erforderlich sind, um Ergebnisse zu erzielen. Vortrainiert bedeutet, dass man neuronale Netze so spezifiziert, dass Lücken (Maskierung) im Text richtig geschlossen oder gekürzte Texte richtig fortgesetzt werden.
Dieser Ansatz eignet sich hervorragend für das selbstüberwachende Lernen und ermöglicht es, die Netze mit wesentlich größeren Datenmengen zu trainieren und die Knoten effizienter zu nutzen als dies bisher möglich war. Durch diese Skalenverschiebung konnte man die Trennschärfe der Regressionsmodelle extrem verbessern. Die bidirektionalen Transformer-Modelle haben es ermöglicht, Wörter, Sätze und ganze Texte konzeptuell, also abstrakt und inhaltsbezogen, zu repräsentieren3. Dabei ist zu betonen, dass man keine linguistischen Ansätze verwendet, sondern rein algebraische (Rechen-) Vorschriften diesen Durchbruch ermöglichen. Mit diesen Ansätzen haben Computer (Rechner) erstmals die sonst nur dem Menschen vorbehaltene Fähigkeit erlangt, einen Text zu verstehen.
Die Bedeutung von Foundation-Modellen für den Umgang mit Dokumenten und Verträgen
Geeignet trainierte Foundation-Modelle ermöglichen es, per natürlicher Sprache4 mit dem Computer zu kommunizieren: Wir sind in der Lage in unserer Sprache Anweisungen zu erteilen, Fragen zu stellen und solange nachzufassen, bis wir mit dem Ergebnis zufrieden sind, oder die maximale Prompt-Länge5 erreicht ist. Die Maschine wird zum Dialogpartner. Allein diese Eigenschaft ist bahnbrechend. Im Kontext der DCLM-Systeme wird sie dazu führen, die Erfassung von Dokument-Daten und Inhalten, eine Tätigkeit, die bisher dem Menschen vorbehalten war, dem Computer zu übertragen. Es ist ohne weiteres möglich, das Modell damit zu beauftragen, Daten und relevante Textabschnitte aus den Texten zu extrahieren und für Folgesysteme oder Aufgaben und Analysen aufzubereiten.
Eine Anweisung in der Art von „Erstelle eine Liste aller Verträge, die wir mit Unternehmen A und dessen Nachfolgern und Vorgängern hatten, zeige auf wann und wie sich die Verträge geändert haben und markiere alle Stellen an denen Regelungen zu Change of Control getroffen wurden“, wird im ersten Anlauf nicht die erhofften Ergebnisse bringen. Mit hinreichender Erfahrung und Expertise lässt sich aber ein modifiziertes GenAI-System erstellen, das in der Lage ist, diese Aufgabe und andere wesentlich anspruchsvollere Aufgaben, schnell und zuverlässig zu erledigen.
KI könnte Dokumente zum „Verhandeln und Abstimmen“ erstellen
Eine weitere Aufgabe, die die Maschine übernehmen kann und wird, sind das Erstellen von Dokumenten sowie bestimmte Aufgaben aus der Phase „Verhandeln und Abstimmen“. Eine erste, wenn auch noch sehr schwache Indikation, was hier möglich sein wird, geben die Co-Pilot Modelle von Microsoft.
Beim Erstellen geht es darum, ob Form und Regelungsgehalt den Anforderungen des Erstellers entsprechen. Beim Verhandeln und Abstimmen geht es oft darum, Texte so anzupassen, dass sie das Gewollte tatsächlich abbilden und dabei ausreichend klar und präzise sind, um im Streitfall zu tragen. Ein weiterer Aspekt ist es, ob eine Regelung ausgewogen oder eher zugunsten einer Partei ist.
Diese Aspekte lassen sich durch semantische Nähe sehr gut und damit gerade von Transformer-basierten Modellen abbilden. Wenn Single- und Few-Shot-Learning (Fine-Tuning) nicht ausreichen, kann man eigene kleine Modelle auf Basis von synthetischen Daten trainieren. Wir nutzen unsere Dokumentgeneratoren, um gezielt Trainingsdaten mit geringer Varianz zu erzeugen. Gerade kleine Abweichungen sorgen für sehr gute Trainingseffekte.
KI als trainiertes Expertensystem für Rechtstexte
Der zweite Ansatz ist es, die GenAI auf die Steuerung einer Document Generation Engine zu trainieren, die dann die Einhaltung von Regeln sichert und über kuratierte Metadaten Anforderungen wie „klar und präzise“, „trägt vor Gericht“ oder „ausgewogen“ abbildet. Das Training der KI-Modelle auf eine formal logische Anweisungssprache zur Steuerung einer Engine ist Standard und zeigt hervorragende Ergebnisse. Vieles was heute per Hand eingestellt und vergeben wird, kommt zukünftig von der GenAI.
Die dritte Möglichkeit ist es, die Modelle auf das Extrahieren und Einpflegen von Content-Objekten zu trainieren und heuristisch basierte Vorschläge zur Bewertung, zur Kuratierung, zu machen. Kuratierte Datensätze sind Grundlage für das Training von Expertensystemen, die dann wieder zu einer erhöhten Leistung der GenAI-Modelle durch Reinforced Learning beitragen können. Eines der 16 oder mehr Modelle von GPT-5 könnte zukünftig ein breit trainiertes Expertensystem für Rechtstexte sein. Denn der wichtigste Trend in der KI ist momentan die Kombination von großen Sprachmodellen mit konzeptuell trainierten domainspezifischen Expertensystemen. Hier liegt ein enormes Potenzial im Verstehen und Erstellen komplexer fachspezifischer Texte und Dokumente mithilfe von KI. Ob es dann noch DCLM-Systeme im heutigen Sinne braucht, muss bezweifelt werden. Während viele noch mit der digitalen Transformation kämpfen, hat die GenAI-Revolution schon begonnen.
Dieser Beitrag erschien zuerst in der Fachpublikation Deutscher AnwaltSpiegel. Die ausführliche Langfassung sowie viele weitere spannende Beiträge aus dem Bereich „Legal Operations“ finden Sie im gleichnamigen Publikation des Deutschen Instituts für Rechtsabteilungen und Unternehmensjuristen (diruj). Hier geht es direkt zum kostenlosen Download.
Quellen & Anmerkungen
- „Praxishandbuch Legal Operations“, herausgegeben von Dr. Michael Henning, Alisha Andert, LL.M. und Martin Clemm, diruj, 2024 ↩︎
- Die Abkürzung BERT steht für „Bi-directional Encoder Representations from Transformers“ ↩︎
- Die Darstellung von Binärdaten als Text ist lediglich eine symbolische Repräsentation. Dem Großbuchstaben „B“ wird der ASCII-Code 66 und damit der Binär-Wert 01000010 zugewiesen. Eine konzeptuelle Repräsentation bedeutet, dass Objekte (Wörter, Sätze, Texte) in ihrem Kontext begriffen im Sinne von „verstanden“ werden. ↩︎
- Die Behauptung Prompting sei eine „eigene“ Computer-Abfragesprache vertritt niemand mehr ernsthaft. ↩︎
- Die Prompt-Länge liegt aktuell bei rund 4000 Token, was in etwa 8 bis 12-Tausend Worten, oder 20 bis 40 DINA4 Seiten anspruchsvollem Text entspricht. Um die obige oder vergleichbare Aufgaben zu lösen, reicht die Prompt-Länge oft nicht aus. Ein iteratives Vorgehen ist nicht möglich, da die Modelle alle zustandslos sind, sich Ergebnisse nicht merken können. ↩︎