Zwischen Anonymisierung und Pseudonymisierung – Warum echte KI in Kanzleien (noch) ein rechtliches Paradox ist

Kanzleien stehen am Beginn einer technischen Revolution: Sprachmodelle (LLMs)
können juristische Recherche, Dokumentenanalyse und Wissenstransfer in bislang unerreichter
Tiefe unterstützen. Doch das größte Hindernis ist nicht technischer, sondern rechtlicher Natur.
Zwischen Anonymisierung und Pseudonymisierung verschwimmt die Grenze – und damit die
Grundlage für den rechtskonformen Einsatz von KI im Mandatskontext

  1. Der rechtliche Rahmen: § 203 StGB und DSGVO § 203 StGB verpflichtet Anwälte zur Wahrung
    des Mandatsgeheimnisses. Bereits die unbefugte Offenbarung von Daten, die einem bestimmten
    Mandanten zugeordnet werden können, ist strafbar.
    Die DSGVO unterscheidet: – Anonymisierte Daten fallen nicht unter die Verordnung. –
    Pseudonymisierte Daten gelten weiterhin als personenbezogen, weil Re-Identifikation theoretisch
    möglich bleibt.
    Mit modernen KI-Methoden – semantische Suche, Mustervergleich, Embeddings – lässt sich aber
    selbst stark anonymisierter Text oft wieder einer Person oder einem Fall zuordnen. Was als
    „Anonymisierung“ gedacht war, wird faktisch zur Pseudonymisierung – mit allen rechtlichen
    Pflichten (Art. 5, 6, 32 DSGVO).
  1. Praktische Folge: Das NLP-Dilemma in der Kanzlei Ein NLP- oder LLM-System benötigt
    umfangreiche Textdaten, um juristische Zusammenhänge zu erkennen. Doch sobald diese Daten
    Mandantenbezug haben, gilt: – Speicherung oder Verarbeitung ohne Einwilligung ist unzulässig. –
    Auch interne Nutzung kann ein Verstoß gegen § 203 StGB darstellen. – Vollständige
    Anonymisierung ist technisch kaum sicherstellbar.
    Damit wird der Einsatz von KI im juristischen Alltag – zumindest in seiner leistungsfähigsten Form –
    praktisch blockiert.
  1. Ausweg: Zugriffsgesteuertes RAG mit LLM Der sinnvolle Kompromiss: LLM +
    mandatsgesteuertes Retrieval-Augmented Generation (RAG).
    Kernidee: – LLM bleibt generisches Sprachmodell – es speichert keine Mandatsdaten. –
    RAG-Schicht durchsucht zwei klar getrennte Datenräume: 1. Gesicherte, mandatsbezogene
    Dokumente, die nur für berechtigte Nutzer des jeweiligen Mandats zugänglich sind. 2. Offene oder
    kanzleiinterne, nicht mandatsgebundene Dokumente, etwa Vorlagen, Gutachten oder
    Wissenssammlungen, die allen autorisierten Mitarbeitern zur Verfügung stehen. – Zugriff erfolgt nur
    auf die Datenquellen, für die der eingeloggte Nutzer per Claim autorisiert ist (§ 32 DSGVO –
    „Technische und organisatorische Maßnahmen“). – Das RAG kann dadurch sowohl
    mandatsbezogene Informationen als auch kanzleiweites, neutrales Wissen in die Verarbeitung des
    Modells einbeziehen – unter Beibehaltung klarer Trennlinien und Zugriffsbeschränkungen.
    Ergebnis: Mandatsbezogenes Wissensmanagement unter Wahrung der Vertraulichkeit.
    Erkenntnisse bleiben strikt innerhalb des autorisierten Datenkontexts, während neutrales
    Kanzleiwissen ergänzend genutzt werden kann.
  1. Fazit Die Trennung von Modell und Daten ist der einzige praktikable Weg, um Sprachmodelle in
    der anwaltlichen Praxis DSGVO- und § 203-konform zu nutzen.
    LLM + zugriffsgesteuertes RAG bedeutet: – Das Modell denkt, aber speichert nicht. – Die Datenbank
    weiß, aber teilt nur selektiv. – Die Kanzlei bleibt Herrin über ihr Wissen – und über ihre Pflichten.

Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert