Direkt zu den Inhalten springen

Künstliche Intelligenz
in der Medizin

Der Einsatz von Methoden der Künstlichen Intelligenz (KI) in der Medizin verspricht eine effizientere Diagnosestellung und individuell angepasste Therapien. Aufgrund potenziell direkter gesundheitlicher Einwirkungen auf den Patienten bedürfen solche KI-Systeme jedoch während des gesamten Lebenszyklus einer engen Begleitung durch die Qualitätsinfrastruktur.

Künstliche Intelligenz in der Medizin

In unserem Pilotprojekt entwickeln wir Lösungen für eine effektive Qualitätssicherung. Diese werden der technologischen Herausforderung einer fundierten Prüfung von KI-Systemen gerecht und erfüllen die besonderen Anforderungen gesundheitskritischer Anwendungen.

Online-Prüfplattform für KI-Algorithmen

Testdaten herunterladen, mit der eigenen KI-gestützten Software auswerten und die Ergebnisse zur Zertifizierung wieder hochladen – so einfach sollen Firmen bald ihre KI-Services auf Qualität und Verlässlichkeit testen können. Die Online-Prüfplattform wird Teil des TraCIM-Systems, über das die PTB digitale metrologische Dienstleistungen anbietet.

Die Plattform stellt dem Kunden dafür im ersten Schritt Testdaten bereit. Diese enthalten medizinische Schnittbilder, deren Segmentierungsergebnis der Kunden nicht kennt. Im zweiten Schritt segmentiert der Kunde diese Bilder mit Hilfe seiner KI und übermittelt die Ergebnisse an den Service. Dort wird das Kundenergebnis automatisch mit Referenzdaten verglichen, die der bestmöglichen Segmentierung entsprechen. Ein digitaler Prüfbericht zertifiziert die erreichte Qualität und Verlässlichkeit der KI.

Ziel ist es, in der Prüfplattform die verschiedenen Metriken und Methoden der Qualitätsprüfung zusammenzuführen, die in den verschiedenen Unterprojekten entwickelt werden. Ein Prototyp der Plattform zeigt das Vorgehen am Beispiel von Herzdaten, die mithilfe eines Magnetresonanztomografen (MRT) erhoben wurden.

Weitere Maßnahmen

Beitrag

  • Geeignete Metriken zur Beurteilung der KI-Leistungsfähigkeit, die insbesondere Robustheit, Erklärbarkeit und Vorhersagesicherheit einschließt
  • Referenzdatensätze zur Bewertung der Qualität von KI
  • „Good practice“ Beispiele für die Bewertung großer Datensätze bzgl. Unsicherheit, Repräsentativität, Vergleichbarkeit
  • Weiterentwickelte Messverfahren und Messdatenauswertung durch den Einsatz von KI

Damit KI-Systeme als vertrauenswürdig gelten können, müssen sie eine Reihe von Qualitätskriterien erfüllen.

Ihr Verhalten muss erklärbar sein, um sicherzustellen, dass sie ihre Voraussagen für die Anwendung aufgrund relevanter Information in den Daten treffen.

In der Medizintechnik spielen Robustheit und Generalisierbarkeit von KI-Methoden eine große Rolle, also der Fall das Eingangsdaten von den Daten abweichen, die zum Trainieren der Methode genutzt wurden. Dies gilt vor allem dann, wenn gewisse Merkmale nicht in den Trainingsdaten abgebildet sind.

Zusammen mit den Vorhersagen der KI muss auch deren Unsicherheit zu Verfügung stehen. Inhärente Beschränkungen des KI-Systems, die Datenqualität und von Trainings- und Testbedingungen abweichende Anwendungskontexte sind dabei zu berücksichtigen.

Das Pilotprojekt wird geeignete Metriken zur Beurteilung der KI-Leistungsfähigkeit entwickeln, unter Berücksichtigung von Robustheit, Erklärbarkeit und Vorhersagesicherheit.

Wichtig ist, dass analog zur Vorhersagegüte, Ansätze etwa zur Schätzung der Unsicherheit oder zur Bereitstellung von Erklärungen selbst rigoros anhand von Benchmarks validiert werden müssen. Im Rahmen von M4AIM werden derzeit entsprechende Benchmarks und Metriken zur Bewertung von „explainable AI“ Ansätzen entwickelt. 

KI-Methoden trainieren ihre Fähigkeit unbekannte Eingangsdaten zu interpretieren mithilfe von Referenzdatensätzen. Die Qualität der KI-Methoden basiert deshalb in großem Maße auf der Qualität dieser Trainingsdaten. Diese zu gewährleisten, bedarf einer sorgfältigen Auswahl und Beurteilung der Daten sowie ihrer Anreicherung mit semantischen Informationen und anderen Metadaten. Auch müssen die Trainingsdaten untereinander vergleichbar sein, sowie repräsentativ für die anvisierten Anwendungsfälle.

Ein weiterer Aspekt ist der Datenschutz. Insbesondere klinische Routinedaten können nicht ohne Weiteres der Fachöffentlichkeit zugängig gemacht werden. Ein Gegenstand aktiver Forschung ist daher die Erzeugung synthetischer Referenzdaten mittels numerischer Simulation sowie generativer Modellierung mit Methoden des maschinellen Lernens. Im Rahmen von M4AIM wird dieser Ansatz gegenwärtig auf Daten aus Intensivstationen erprobt.

Dedizierte Testdatensätze sind essenziell, um KI-Anwendungen zu validieren und zu testen. Sie spielen deswegen bei der Konformitätsbeurteilung von KI-Anwendungen eine herausragende Rolle.

Hieraus ergeben sich vielschichtige Herausforderungen an die QI:

  • Entwicklung und Validierung von Methodiken und Werkzeugen für die Bewertung von Test- und Trainigsdaten
  • Empfehlungen für Annotationsvorschriften und Metadaten (Einheiten, Unsicherheiten, Messverfahren) in ausgewählten Anwendungsbereichen
  • Normen und Standards für quantifizierbare und prüfbare Kriterien für die Datenqualität
  • Qualifizierung der Prüfstellen zur Abdeckung des Prüfbedarfs („Digitalisierung der Menschen“)