Datenqualität und Kausalität in auf maschinellem Lernen basierender Software
Eine gute Datenqualität ist entscheidend für die Zuverlässigkeit von Systemen, die auf maschinellem Lernen und künstlicher Intelligenz basieren. Daher verbringen Datenwissenschaftler die meiste Zeit damit, Daten vorzubereiten und Datenqualitätsprobleme zu lösen. In diesem Blogbeitrag spricht unser KI-Experte Dr. Julien Siebert untersucht das Potenzial kausalitätsbasierter Methoden, um Rückschlüsse auf die Datenqualität zu ziehen und bei der Bewältigung von Datenqualitätsproblemen zu helfen.
Was ist der Unterschied zu KI/ML-basierter Software?
Anwendungen und Systeme, die auf künstlicher Intelligenz (KI), maschinellem Lernen (ML), Data Mining oder Statistik basieren, sind Softwarekomponenten, bei denen die Entscheidungsfindung nicht klassisch programmiert ist, sondern auf einem oder mehreren Entscheidungsmodellen basiert, die automatisch ablaufen (z. B. Lernen). oder durch Data Mining) oder es kann auf der Grundlage von Expertenannahmen entwickelt werden. Datengetriebene Methoden kommen in der Regel dann zum Einsatz, wenn die klassische „regelbasierte“ Programmierung an ihre Grenzen stößt (siehe beispielsweise Computer Vision oder Natural Language Processing). Dadurch können Modelle sehr komplex, also nichtlinear, sein. Dies bedeutet, dass es schwierig ist, zu erklären und zu verstehen, wie interne Entscheidungen getroffen werden, und dass eine kleine Störung der Eingaben zu drastischen Änderungen der Ausgabe führen kann (siehe Gegenbeispiele). Auch die Anzahl der möglichen Einträge kann nahezu unbegrenzt sein (z. B. alle möglichen Bilder oder Texte). All dies macht es schwierig, solche Systeme zu testen.
Datenqualität: Trainingsdaten sind nur ein Teil der Realität
Die Datenqualität spielt sowohl bei der Entwicklung („Schulung“) als auch bei der Systemqualitätsbewertung eine wichtige Rolle. Zunächst ist es wichtig zu erkennen, dass Daten nicht der Realität entsprechen. Die Daten werden zweckgebunden erhoben. Daher bieten sie nur eine vereinfachte Sicht auf das reale System und einige Aspekte bleiben unberücksichtigt (siehe Abbildung 1). Wenn wir datengesteuerte Software entwickeln, gehen wir davon aus, dass wir Entscheidungen ausschließlich auf der Grundlage der in den Daten enthaltenen Informationen treffen können. Die Gültigkeit dieser Annahme hängt von der Qualität der Daten ab.
Ursachen für Datenqualitätsprobleme
Datenqualität ist ein komplexes Thema, aber vereinfacht gesagt können Probleme bei der Datenerfassung (z. B. fehlerhafte Sensoren) oder im System selbst (z. B. Komponentenausfall, sich ändernde Systemumgebung) auftreten. Eine Möglichkeit, die Robustheit entwickelter datengesteuerter Software gegenüber Datenqualitätsproblemen zu testen und zu verbessern, besteht darin, die Daten zu vervollständigen oder Fehler einzuführen und das erwartete Verhalten zu korrigieren. Abhängig von Ihren Kenntnissen und Ihrem Verständnis des zugrunde liegenden Systems und Datenerfassungsprozesses kann die Simulation von Datenqualitätsmängeln auf beiden Ebenen mehr oder weniger komplex sein.
Datenverbreitung
In der Bildverarbeitung ist es mittlerweile üblich, die Trainingsdaten während der Trainingsphase zu verteilen. Beispielsweise kann ein Bild gedreht, zugeschnitten, Kontrast und Helligkeit geändert werden usw. (siehe Abbildung 2). Ziel ist es, das System für diese Veränderungen zu stärken. Die Grundannahme ist, dass diese Änderungen keinen Einfluss auf die Beziehung zwischen Eingaben und erwarteten Entscheidungen haben. Hierbei handelt es sich um Änderungen, die sich auf den Datenerfassungsprozess auswirken, nicht jedoch auf das System selbst. In gewisser Weise ähnelt es dem metamorphen Testen, bei dem Testfälle erstellt werden, bei denen erwartet wird, dass Eingabe und Ausgabe eine bestimmte (metamorphe) Beziehung haben. Ort
Wenn sich etwas ändert
Probleme mit der Datenqualität können auch auftreten, wenn sich das System oder die Umgebung ändert. Drift und Neuheit sind solche Probleme („Neuheit“ ist nicht auf ein Datenerfassungsproblem zurückzuführen, sondern auf eine tatsächliche Änderung oder ein neues Verhalten des Systems). Der Grund dafür, dass dies problematisch sein kann, liegt darin, dass die Software jetzt außerhalb des Rahmens ihrer Trainingsdaten arbeitet und extrapolieren muss. Wenn Sie Glück haben, bleibt die Art der Beziehung zwischen den Eingabe- und Ausgabedaten gleich. Möglicherweise ändert sich der Wertebereich, aber das resultierende Modell kann die Beziehung, die es zu erfassen versucht, immer noch erfassen, selbst wenn sie extrapoliert wird.
Stellen Sie sich als Beispiel eine Bildklassifizierungssoftware vor, die in Deutschland auf die Erkennung von Verkehrszeichen trainiert und in Frankreich verwendet wurde (siehe Abbildung 3). Einige Verkehrszeichen, wie zum Beispiel Gefahrenschilder, sehen in den beiden Ländern etwas anders aus. Aber die Beziehung, die die Klassifizierungssoftware lernen konnte, wie „Dreieck + Rot = Risiko“, bleibt bestehen.
Was passiert, wenn sich die Beziehung zwischen Eingabe- und Ausgabedaten ändert? Im Beispiel einer Verkehrszeichen-Klassifizierungssoftware wäre es beispielsweise möglich, das System auch in einem anderen Land einzusetzen. B. in Australien, wo die Formen der Verkehrszeichen völlig anders sind als in Europa. Die Beziehung „Dreieck + Rot = Gefahr“ würde hier nicht gelten. (Einen detaillierten Vergleich der Verkehrsampeln weltweit finden Sie hier
Wo datengesteuerte Ansätze Schwierigkeiten haben
Wenn die Daten repräsentativ wären, gäbe es theoretisch keinen Grund, sich über Datenqualitätsprobleme wie Drift (oder überhaupt Datenqualitätsprobleme) Gedanken zu machen.
Das erste Problem besteht darin, dass die gesammelten Daten selten das gesamte Spektrum dessen abbilden, was im System passieren kann: Ausreißer sind per Definition selten; Drift kann im Laufe der Zeit auftreten und wird nicht in den Daten erfasst; Möglicherweise fehlen Werte; Die gesammelten Daten können rauschfrei sein, während dies bei realen Daten nicht der Fall ist usw.
Das zweite Problem ist, wie die Daten im System entstehen, also die Annahmen über Ursache und Wirkung im System. Die meisten heute verwendeten datengesteuerten Methoden (z. B. maschinelles Lernen) gehen von einer sehr vereinfachten Kausalitätsannahme aus: Alle Eingaben sind unabhängig voneinander, das heißt, sie beeinflussen sich nicht gegenseitig oder werden nicht durch externe (nicht gemessene) Einflussfaktoren beeinflusst.
Rein datengesteuerte Methoden verfügen über keine Informationen darüber, wie sich die Daten ändern können, und sind daher anfällig für Datenqualitätsprobleme wie Drift oder Aktualität.
Wo kausale Modellierung und Schlussfolgerung hilfreich sein können
Die Erklärung der Kausalität ist nicht einfach, insbesondere wenn die gesammelten Daten die einzigen verfügbaren Informationen über ein System sind. Wenn die internen Mechanismen des Systems bekannt wären, wäre ein datengesteuerter Modellierungsansatz (manchmal auch First-Principles-Modellierung genannt) wahrscheinlich angemessener.
Hier kommen kausale Methoden ins Spiel (kausale Folgerung, kausale Entdeckung). Sie ermöglichen die Erklärung kausaler Hypothesen und das Ziehen von Rückschlüssen auf kausale Wirkungen [2]. Es wird zunehmend anerkannt, dass Zuverlässigkeit und Vertrauenswürdigkeit KI-basierter Systeme Annahmen und Schlussfolgerungen über die Kausalität beinhalten müssen. [3][4].
Die Verwendung eines Kausaldiagramms kann auch dabei helfen, Probleme mit der Datenqualität zu identifizieren. Das Diagramm in Abbildung 3 ist vereinfacht, hilft aber zu verstehen, woher eine Abweichung kommen kann und wie man darauf reagieren kann. Auch andere Qualitätsprobleme lassen sich mithilfe von Kausaldiagrammen erklären: fehlende Werte [5][6]Renn weg [7] oder sogar Gerechtigkeit [8].
Fazit: Kausalitätsbasierte Methoden bieten Chancen für maschinelles Lernen und Datenqualität
Mit der Entwicklung und zunehmender Abhängigkeit von datengesteuerter Software steigt der Bedarf an Zuverlässigkeit und Vertrauen. Während sich Datenwissenschaftler und KI/ML-Ingenieure seit langem mit Datenqualitätsproblemen befassen, ermöglichen Ursachendiagramme und kausalitätsbasierte Methoden nun eine (automatisierte) softwaregesteuerte Diskussion und Argumentation über Datenqualität, Zuverlässigkeit und Vertrauen.
Literaturverzeichnis
[1] Chen, T., Kornblith, S., Norouzi, M. und Hinton, G. (2020, November). Ein einfacher Rahmen für das kontrastive Lernen visueller Darstellungen. In Internationale Konferenz zum maschinellen Lernen (S. 1597-1607). PMLR.
[2] Pearl, J. (2019). Die sieben Werkzeuge der kausalen Schlussfolgerung mit Überlegungen zum maschinellen Lernen. Mitteilungen der ACM, 62(3), 54-60.
[3] Ganguly, N., Fazlija, D., Badar, M., Fisichella, et al. (2023). Ein Überblick über die Rolle der Kausalität bei der Entwicklung zuverlässiger KI-Systeme. arXiv-Vorabdruck arXiv:2302.06975.
[4] Meyer-Vitali, A. (2024). KI-Engineering für Vertrauen durch Design. 12. Internationale Konferenz für modellbasierte Software- und Systemtechnik (MODELSWARD 2024)357-364.
[5] Infante-Rivard C und Cusson A. (2018). Überlegungen zu modernen Methoden: Auswahlverzerrung: ein Überblick über die jüngsten Entwicklungen. Int J Epidemiol., 47 (5): 1714-1722.
[6] Almeida RJ, Adriaans G und Shapovalova Y. (2020). Kausale grafische Modelle und Imputation fehlender Daten: eine Vorstudie. Informationsverarbeitung und Unsicherheitsmanagement in wissensbasierten Systemen1237, 485-496.
[7] Budhathoki, K., Minorics, L., Blöbaum, P. und Janzing, D. (2022). Ursachenanalyse anhand der Kausalstruktur. In Internationale Konferenz zum maschinellen Lernen (S. 2357-2369). PMLR.
[8] Plecko, D. und Bareinboim, E. (2022). Analyse der kausalen Korrektheit. arXiv-Vorabdruck arXiv:2207.11385.