Zwischen Anonymisierung und Pseudonymisierung – Warum echte KI in Kanzleien (noch) ein rechtliches Paradox ist

Kanzleien stehen am Beginn einer technischen Revolution: Sprachmodelle (LLMs)
können juristische Recherche, Dokumentenanalyse und Wissenstransfer in bislang unerreichter
Tiefe unterstützen. Doch das größte Hindernis ist nicht technischer, sondern rechtlicher Natur.
Zwischen Anonymisierung und Pseudonymisierung verschwimmt die Grenze – und damit die
Grundlage für den rechtskonformen Einsatz von KI im Mandatskontext

Der rechtliche Rahmen: § 203 StGB und DSGVO § 203 StGB verpflichtet Anwälte zur Wahrung
des Mandatsgeheimnisses. Bereits die unbefugte Offenbarung von Daten, die einem bestimmten
Mandanten zugeordnet werden können, ist strafbar.
Die DSGVO unterscheidet: – Anonymisierte Daten fallen nicht unter die Verordnung. –
Pseudonymisierte Daten gelten weiterhin als personenbezogen, weil Re-Identifikation theoretisch
möglich bleibt.
Mit modernen KI-Methoden – semantische Suche, Mustervergleich, Embeddings – lässt sich aber
selbst stark anonymisierter Text oft wieder einer Person oder einem Fall zuordnen. Was als
„Anonymisierung“ gedacht war, wird faktisch zur Pseudonymisierung – mit allen rechtlichen
Pflichten (Art. 5, 6, 32 DSGVO).

Praktische Folge: Das NLP-Dilemma in der Kanzlei Ein NLP- oder LLM-System benötigt
umfangreiche Textdaten, um juristische Zusammenhänge zu erkennen. Doch sobald diese Daten
Mandantenbezug haben, gilt: – Speicherung oder Verarbeitung ohne Einwilligung ist unzulässig. –
Auch interne Nutzung kann ein Verstoß gegen § 203 StGB darstellen. – Vollständige
Anonymisierung ist technisch kaum sicherstellbar.
Damit wird der Einsatz von KI im juristischen Alltag – zumindest in seiner leistungsfähigsten Form –
praktisch blockiert.

Ausweg: Zugriffsgesteuertes RAG mit LLM Der sinnvolle Kompromiss: LLM +
mandatsgesteuertes Retrieval-Augmented Generation (RAG).
Kernidee: – LLM bleibt generisches Sprachmodell – es speichert keine Mandatsdaten. –
RAG-Schicht durchsucht zwei klar getrennte Datenräume: 1. Gesicherte, mandatsbezogene
Dokumente, die nur für berechtigte Nutzer des jeweiligen Mandats zugänglich sind. 2. Offene oder
kanzleiinterne, nicht mandatsgebundene Dokumente, etwa Vorlagen, Gutachten oder
Wissenssammlungen, die allen autorisierten Mitarbeitern zur Verfügung stehen. – Zugriff erfolgt nur
auf die Datenquellen, für die der eingeloggte Nutzer per Claim autorisiert ist (§ 32 DSGVO –
„Technische und organisatorische Maßnahmen“). – Das RAG kann dadurch sowohl
mandatsbezogene Informationen als auch kanzleiweites, neutrales Wissen in die Verarbeitung des
Modells einbeziehen – unter Beibehaltung klarer Trennlinien und Zugriffsbeschränkungen.
Ergebnis: Mandatsbezogenes Wissensmanagement unter Wahrung der Vertraulichkeit.
Erkenntnisse bleiben strikt innerhalb des autorisierten Datenkontexts, während neutrales
Kanzleiwissen ergänzend genutzt werden kann.

Fazit Die Trennung von Modell und Daten ist der einzige praktikable Weg, um Sprachmodelle in
der anwaltlichen Praxis DSGVO- und § 203-konform zu nutzen.
LLM + zugriffsgesteuertes RAG bedeutet: – Das Modell denkt, aber speichert nicht. – Die Datenbank
weiß, aber teilt nur selektiv. – Die Kanzlei bleibt Herrin über ihr Wissen – und über ihre Pflichten.

Ähnlicher Beitrag

Hinterlasse einen Kommentar Antwort abbrechen