Interview zum Schutz von Gesundheitsdaten: "Niemand geht in der Masse unter"

Überall im Gesundheitswesen soll KI integriert werden, doch das ist datenschutztechnisch nicht unbedenklich. Warum, erklärt Privacy-Forscher Prof. Mohammadi.

In Pocket speichern vorlesen Druckansicht 32 Kommentare lesen
Datennetze in einer Hand

(Bild: TippaPatt/Shutterstock.com)

Lesezeit: 12 Min.
Inhaltsverzeichnis

Erst kürzlich kündigte Gesundheitsminister Karl Lauterbach an, Deutschland mit KI an die Spitze der digitalen Medizin und Forschung führen zu wollen. Dafür sollen viele Daten fließen, beim Forschungsdatenzentrum Gesundheit werden dazu die Abrechnungsdaten der Krankenkassen gesammelt. Ab Mitte 2025 sollen die Daten aus den elektronischen Patientenakten folgen. Doch für den Umgang mit besonders schützenswerten Patientendaten bedarf es auch besonderer Schutzmethoden – vor allem, wenn datenhungrige KI-Methoden hinzukommen und Informationen immer effektiver verarbeitet werden.

Professor Mohammadi lehrt und forscht an der Universität Lübeck zu IT-Sicherheit und leitet das vom Bund geförderte Forschungsprojekt AnoMed.

Das Forschungsprojekt AnoMed beschäftigt sich mit der bestmöglichen Wahrung von Privatheit oder Anonymität durch Privacy im maschinellen Lernen. AnoMed ist eines von fünf Kompetenzclustern und soll als Katalysator für die Anonymisierungsforschung in medizinischen Anwendungen dienen und die medizinischen Anwender über die Gefahren der Deanonymisierung aufklären.

Zwischenergebnisse zu den vom Bundesministerium für Bildung und Forschung geförderten fünf Kompetenzcluster und 17 Privacy-Projekte werden am 16. und 17. April 2024 auf einem Kongress für eine sichere Datennutzung vorgestellt. Darüber und warum noch weitere Forschung nötig ist, haben wir mit Prof. Esfandiar Mohammadi gesprochen. Er ist Leiter der Arbeitsgruppe Privacy and Security von der Universität Lübeck.

heise online: Was droht, wenn Gesundheitsdaten nicht sorgsam geschützt werden?

Esfandiar Mohammadi: Man könnte versucht sein zu denken: "Ich habe nichts zu verstecken. Ich verhalte mich wie alle anderen und mache nichts Besonderes. Meine Information ist so, wie die von meinem Nachbarn." Das wäre allerdings ein Trugschluss. Der Nachbar sammelt eventuell Briefmarken und du nicht. Dein Nachbar mag vielleicht Katzen und du hast eine Katzenhaarallergie.

Wenn man genau hinguckt, sind wir alle was Besonderes und niemand geht in der Masse unter. Warum ist das relevant? Nehmen wir zum Beispiel etwas wie eine Schreibstilanalyse: Jede Person bevorzugt eine andere Kombination an Formulierungen. Selbst wenn man kein Problem damit hat, dass man anhand eines eigenen Textes deanonymisiert werden kann, gibt es ein subtileres Problem: In der Zukunft könnten Studien Schreibstile zum Beispiel mit Narzissmus, Anfälligkeit für Spielsucht oder Anfälligkeit für psychische Krankheiten verknüpfen. Wir wissen aktuell einfach nicht, was in der Zukunft noch alles verknüpfbar sein wird, mit den Informationen, die wir heute preisgeben.

Bei den Gesundheitsdaten kann es schon heute in anderen Ländern wie den USA passieren, dass Krankenkassengebühren bei Anzeichen von Vorerkrankungen oder Anfälligkeiten steigen oder man mit seinen Daten zahlen muss. In Deutschland sind wir da noch gut geschützt, aber wir wissen nicht, was die Zukunft bringt und die heute veröffentlichten Daten sind potenziell auch in der Zukunft einsehbar.

Sollte dann jeder einzelne Datensatz anonymisiert werden?

In der Privacy-Forschung gehen wir davon weg, individuelle Datenpunkte zu anonymisieren. Es ist informationstheoretisch einfacher, die Rohdaten unangetastet zu lassen, sie dafür aber nicht zu teilen, sondern abgeleitete Informationen daraus. Ein Ansatz ist, die Daten möglichst dort sicher zu verwahren, wo sie gesammelt wurden und verteilte Datenverarbeitungsverfahren zu entwerfen – ganz im Sinne des föderierten, oder allgemeiner, des verteilten Lernens. Die Daten werden dezentral, beziehungsweise verteilt, verarbeitet und die Daten bleiben lokal auf den Endgeräten der Nutzer. Nur Informationen zu den Lernfortschritten werden zentral übermittelt. Im Allgemeinen ist das verteilte Rechnen, insbesondere das verteilte Lernen sehr aufwendig, aber wir arbeiten mit Varianten, beispielsweise dem sicheren verteilten Addieren, die sehr gut funktionieren und hoch skalierbar sind.

Wäre es sinnvoll, die Datenweitergabe auf Forschungseinrichtungen zu beschränken und Pharmaunternehmen erst mal auszuklammern?

Das kann ich nicht entscheiden. Natürlich muss Deutschland wettbewerbsfähig sein, aber die Privacy-Forschung steckt noch in den Kinderschuhen. Es braucht noch jahrelange und intensivere Grundlagenforschung, bis es maschinelle Lern- beziehungsweise KI-Verfahren geben wird, die Privacy-Angriffe beweisbar verhindern und trotzdem sinnvolle Ergebnisse liefern.

In der Praxis ist es wichtig, das Vertrauen von Patienten nicht zu verletzen und zu verhindern, dass es in ein paar Jahren ein böses Erwachen gibt, weil Patienten, deren Daten weitergegeben wurden, ihre Informationen für alle einsehbar in verschiedensten Produkten wiederfinden. Meiner Meinung ist es erstens wichtig, allen Beteiligten klarzumachen, dass maschinell gelernte Modelle extrahierbare Informationen über ihre Trainingsdaten enthalten. In medizinischen Anwendungen sind diese Trainingsdaten Patientendaten. Zweitens sollte den Patienten klar kommuniziert werden, an wen die Daten weitergegeben werden. Eine Möglichkeit wäre es, auf Datenspenden zu setzen. Die einen wollen Pharmaunternehmen Daten spenden, die anderen vielleicht lieber nur universitären Einrichtungen.

AnoMed ist darauf ausgelegt, Gesundheitsdaten zu schützen, Sie verwenden aber ungern den Begriff Anonymisierung. Warum ist das so?

Oftmals wird über "Anonymisierung" gesprochen, wenn es um Techniken geht, um persönliche Daten zu schützen. Dieser Begriff kann irreführend sein, weil man darunter klassische Anonymisierungstechniken verstehen kann, diese sich aber als unzureichend herausgestellt haben. Ich spreche lieber über Output Privacy. Moderne Output-Privacy-Techniken anonymisieren keine Datensätze, sondern verarbeiten die unveränderten Rohdaten auf eine Weise, die Privacy-Angriffe verhindert. Für maschinelle Lernverfahren wird beispielsweise aktuell intensiv an solchen Verarbeitungstechniken geforscht. In einigen Fällen können auf diese Weise sogar bessere Ergebnisse erzielt werden, als wenn man mit klassisch anonymisierten Daten arbeitet.

Anonymisierung, beziehungsweise Privacy

Klassischerweise wird der Begriff Anonymisierung für Datensätze verwendet. Dabei ist die Erwartung, dass ein anonymisierter Datensatz verwendet werden kann, ohne dass sensible Informationen über Einzelne preisgegeben werden. Verschiedene Angriffe haben gezeigt, dass eine reine Datenreinigung nicht ausreicht, um Angriffe zu verhindern. Privatheitserhaltende Datenverarbeitung (Privacy-preserving data processing) lässt die Daten unverändert und geht davon aus, dass die Daten sicher verwahrt bleiben und nicht geteilt werden. Stattdessen ist die Datenverarbeitung, etwa ein maschinelles Lernverfahren, so angepasst, dass die Informationen über die Daten aus dem Ergebnis (zum Beispiel ein Modell) durch Privacy-Angriffe nicht mehr extrahiert werden können. Eine mathematische Anforderung, die hierfür oftmals angestrebt wird, ist Differential Privacy, die fordert, dass der Einfluss jedes einzelnen Datenpunktes von einem Verteidiger abgestritten werden kann. Dadurch muss der Einfluss einzelner Datenpunkte in der Datenverarbeitung beschränkt sein.

Viele datenhungrige Anwendungen sind anfällig für Privacy-Angriffe, die persönliche Informationen extrahieren. Die datenhungrigsten Anwendungen, die persönliche Daten brauchen, sind durch maschinelle Lernverfahren gelernte KI-Modelle. Die großen Sprachmodelle wie GPT sind sehr gute Beispiele dafür, dass sich Trainingsdaten rekonstruieren lassen. Daten, die wir heute leichtfertig preisgeben, könnten uns in Zukunft zum Verhängnis werden. Es gab jüngst eine Reihe an Angriffen auf diese großen Sprachmodelle, bei denen klar wurde, dass sich Informationen aus den Trainingsdaten extrahieren lassen.

Haben Sie auch selbst KI-Modelle zur Wahrung von Privatsphäre entwickelt oder um Angriffe auf diese zu simulieren?

Ja, wir entwickeln maschinelle Lernverfahren, die so gebaut sind, dass sie zwar Rohdaten benutzen, aber die gelernten Modelle nicht mehr anfällig gegenüber Privacy-Angriffen sind. Diese Eigenschaft beweisen wir, indem wir die Differential-Privacy-Eigenschaft beweisen.

Was ist das Ziel des Kompetenzzentrums AnoMed?

Die Zielsetzung des AnoMed-Kompetenzzentrums besteht aus vier Säulen: erstens die Erforschung neuer maschineller Lernverfahren (sogenannte KI-Verfahren) für medizinische Anwendungen, die Differential Privacy erfüllen, für Cloud-Dienste geeignet sind und verteilt gelernt werden können, zweitens die Entwicklung neuer Privacy-Angriffe, um potenzielle Schwachstellen in existierenden Verteidigungen zu entdecken, drittens, die juristische und regulatorische Analyse von technischem Datenschutz, und viertens einer Wettbewerbsplattform für Output Privacy in medizinischen Anwendungen, die sich auf die internationale Forschung fokussieren und bessere Vergleichbarkeit schaffen soll.

Unsere Verteidigungsstrategien kommen alle mit einem Beweis, einem Differential-Privacy-Beweis. Es kann dabei allerdings sein, dass der Beweis zu streng ist und die Angriffe nicht so gut werden können, wie wir es in dem Beweis abgeschätzt haben. In diesem Fall kann es passieren, dass die Verteidigungsstrategien den Einfluss von einzelnen Datenpunkten zu sehr beschränken. Außerdem kann es sein, dass Sicherheitsbeweise Aspekte übersehen. Wir entwickeln komplementär zu den Verteidigungsmaßnahmen auch Privacy-Angriffe, um auf diese Lücken aufmerksam zu werden.

Um Privacy-Angriffe auf maschinelle Lernverfahren zu veranschaulichen, hat AnoMed auch ein Spiel hervorgebracht. Wie funktioniert das?

Ja, um zu zeigen, wie angreifbar KI-Modelle sind, hat der international renommierte Privacy Forscher, Sebastian Meiser, der ebenfalls in meiner Arbeitsgruppe mitwirkt, ein Brettspiel entwickelt. Das Spiel haben wir entwickelt, um zu zeigen, wie Privacy-Angriffe funktionieren und welche Auswirkungen sie haben. Es basiert auf Karten mit persönlichen Angaben zu Personen wie Beruf, Interessensmerkmalen und Haushaltssituationen wie etwa Tarana, die Bauarbeiterin, iPhone-Besitzerin und frisch verlobt ist.

Brettspiel: Spurensuche in der KI (4 Bilder)

Der international anerkannte Privacy Forscher Dr. Sebastian Meiser hat zur besseren Wissenschaftskommunikation im Rahmen von AnoMed das Lern-Brettspiel "Spurensuche in der KI –Privatsphäreangriffe auf neuronale Netze" entwickelt. (Bild: AnoMed )

Ein Spieler wählt fünf Karten aus und trainiert ein Modell. Daraus ergeben sich direkt die Modellparameter als Positionen von Spielsteinen. Die anderen Spieler in der Rolle der Angreifer versuchen dann, aus den Positionen der Spielsteine herauszufinden, was die privaten Attribute der Karten genau waren.

Sie haben auch eine Wettbewerbsplattform entwickelt. Was hat es damit auf sich?

Die Wettbewerbsplattform, auf die wir uns in AnoMed neben der Forschung an Angriffs- und Verteidigungsmechanismen konzentrieren, soll die internationale Privacy-Forschung auf medizinische Anwendungen fokussieren und bessere Vergleichbarkeit schaffen. Wir wollen herausfinden, was weltweit die besten Verteidigungsstrategien für Machine-Learning-Angriffe sind. Die Wettbewerbsplattform wird verschiedene offene Challenges bereitstellen, zu der alle Forschenden Lösungen einreichen können. In der ersten Demo beginnen wir mit einem EKG-Datensatz, danach kommen weitere Datensätze aus medizinischen Anwendungen dazu, wie etwa ein Radiologie-Datensatz, der verschiedene Aufnahmen von Lungen zeigt, oder IRIS-Scans. Bei dem vom Bundesamt für Bildung und Forschung initiierten Forschungskongress für eine sichere Datennutzung "Anonymisierung für eine sichere Datennutzung (AnoSiDat)" stellen wir eine Demo der Wettbewerbsplattform mit dem EKG Datensatz und erste Verteidigungsverfahren vor.

Zu jedem Datensatz haben wir Partner aus der Medizin oder der Medizininformatik, die die Aufgaben zu diesem Datensatz formulieren und die automatisierten Gütemaße implementieren. Aus Datensatz und automatisierten Güteprüfungen setzen sich in der Wettbewerbsplattform Privacy-Challenges zusammen. Gleichzeitig implementieren wir generische, automatisch ausführbare Privacy-Angriffe. Wird eine Lösung zu einer Privacy-Challenge eingereicht, wird erstens automatisch geprüft, wie gut diese Lösung die gestellte medizinische Aufgabe erledigt, und zweitens automatisch geprüft, wie anfällig diese Lösung gegenüber Privacy-Angriffen ist. Diese Ergebnisse werden dann auf einer Webseite angezeigt.

Warum werden solche Techniken nicht schon heute eingesetzt?

Die Forschung an maschinellen Lernverfahren, die Output Privacy (also auch Differential Privacy) erfüllen, steckt noch in den Kinderschuhen. Nehmen wir als Beispiel mal Differential Privacy, weil es intensiv beforscht wird. Bei vielen maschinellen Lernverfahren, die Differential Privacy erfüllen, werden die erzielten Ergebnisse besser, je größer die Menge an Personen ist, deren Daten in einem Datensatz erfasst sind. Das liegt daran, dass bei einer größeren Menge an Personen, ähnliche Informationen bei hinreichend vielen unterschiedlichen Personen auftauchen. Dadurch kann diese Information gelernt werden, ohne dass Information über Einzelne preisgegeben werden müssen.

Würde man mit den besten heutigen maschinellen Lernverfahren, die Differential Privacy erfüllen, Modelle auf sensible Daten lernen, bräuchte man für die von mir geforderten Ziele Patientendaten von schätzungsweise 20 Millionen Menschen. Bei weniger Personen werden entweder die Ergebnisse unbrauchbar oder der gebotene Schutz unzureichend. 20 Millionen Personen ist für die meisten Anwendungen unrealistisch hoch. Es gibt aber Licht am Ende des Tunnels. In den letzten 10 Jahren hat intensive Spitzenforschung zu einer Verbesserung um einen Faktor 1000 geführt: im Vergleich zu vor 10 Jahren brauchen die heutigen Verfahren einen Faktor 1000 weniger Personen als früher, um starke Differential-Privacy-Garantien zu erreichen. Es ist noch viel Forschung in diesem Bereich notwendig. Ich bin da optimistisch, dass wir in den nächsten Jahren die benötigte Menge an Personen um weitere Größenordnungen verringern können. Das klappt nur nicht von heute auf morgen.

Auch eine größere Zahl an öffentlich verfügbaren Foundation Models, beispielsweise SimCLR, Dinov2, oder große Sprachmodelle wie GPT4, würden dabei helfen Output Privacy zu erreichen, sofern die Daten auf denen diese Modelle gelernt wurden, nicht sensibel sind, weil sie beispielsweise gespendet wurden. Solche umfassenden Foundation Models, die nicht auf schützenswerten Daten trainiert wurden, helfen bei der Erreichung von Output Privacy, weil sie das Lernproblem vereinfachen und dadurch weniger Informationen aus schützenswerten Daten (etwa Patientendaten) gezogen werden müssen.

(mack)