Datenerweiterung mit generativer KI – Wie gut produziert ChatGPT 4o Bilder mit realen Qualitätsmängeln?
Die Verbesserung von Datensätzen durch das Hinzufügen von Eingabevariationen oder Datenqualitätsdefiziten erfolgt häufig mithilfe von Ansätzen zur Datenerweiterung. Diese Ansätze nutzen klassische Bildverarbeitungstechniken, Deep-Learning-Modelle wie Convolutional Neural Networks (CNN) oder Generative Adversarial Networks (GAN). Mit dem Aufstieg der generativen KI (GenAI) und den unglaublichen Möglichkeiten zur Bilderzeugung scheint GenAI für die Datenerweiterung vielversprechend zu sein. Wir haben ChatGPT 4o verwendet, um Verkehrszeichenbilder zu erweitern und die Ergebnisse mit einem Erweiterungsframework verglichen [1][2] Basierend auf der klassischen Bildverarbeitung, die wir vor einigen Jahren entwickelt haben.
Was ist Datenerweiterung?
Durch die Datenerweiterung werden neue Datenpunkte aus vorhandenen Daten erstellt. Es wird verwendet, um einen Datensatz zu verbessern, ohne neue Daten zu sammeln. Wenn Datenerweiterung angewendet wird, die Originaldaten werden so verändert bzw. transformiert, dass wir die vermerkte Bezeichnung weiterhin kennen (dh die Grundwahrheit). Wenn Sie beispielsweise ein Bild eines Schmetterlings drehen, ist immer noch ein Schmetterling zu sehen. Dies hat den Vorteil, dass zusätzliche Datenpunkte nicht manuell beschriftet werden müssen.
Die Datenerweiterung wird häufig für Bilddaten verwendet, z. B. durch Drehen, Spiegeln oder Zuschneiden des Bildes, oder mit Transformationen, die den Pixelwerten Rauschen hinzufügen. Dadurch ist es möglich, ein Modell für maschinelles Lernen (ML) anhand eines großen Datensatzes zu trainieren erhöhen die Robustheit des Modells bei der späteren Verwendung des Modells auf diese Arten von Eingabevariationen achten.
Sie bilden eine weitere Anwendung Erweitern des Testdatensatzes. Normalerweise ist es besser, echte Datenpunkte zum Testen zu haben. Einige Situationen treten jedoch nicht häufig auf und sind daher beim Sammeln von Daten schwer zu erfassen, beim Testen des Modells jedoch dennoch wichtig. Beispielsweise schneit es in Deutschland nicht oft, aber Sie möchten trotzdem testen, ob Ihr Fußgängererkennungsmodell aus den Fugen gerät, wenn die Eingabebilder viele weiße Bereiche aufweisen. Bei der Auswahl der zu berücksichtigenden Arten der Datenerweiterung ist es nützlich, darüber nachzudenken, welche Faktoren das Erscheinungsbild des Bildes und damit die Ausgabe des Modells beeinflussen können. [1].
Wie können Bilder bei Eingabeänderungen vergrößert werden?
Viele Bildverbesserungen können erreicht werden Klassische Ansätze zur Bildverarbeitung. Affine Transformationen wie Rotation, Spiegelung oder Skalierung nutzen Matrixmultiplikation und Vektoraddition. Rauschen wird normalerweise pro Pixel hinzugefügt und Farbton oder Helligkeit können durch Farbraumoperationen angepasst werden. Bilder werden typischerweise im RGB-Farbraum interpretiert, was bedeutet, dass jedes Pixel drei Werte (manchmal vier, mit einem zusätzlichen Opazitätswert) von Rot, Grün und Blau mit Werten zwischen 0 und 255 hat. Wenn alle Werte Null sind, erhalten wir Schwarz. . Wenn alle Werte 255 sind, erhalten wir Weiß. RGB-Werte können jedoch in andere Farbräume umgewandelt werden, beispielsweise HSV (Hue, Saturation, Value) oder HSL (Hue, Saturation, Lightness), wo Farbton oder Helligkeit einfacher angepasst werden können.
Auf Bildverarbeitung basierende Variationen können auch zu Kompositionen kombiniert werden, die komplexere Variationen darstellen (mehr dazu in [2]). Regen kann beispielsweise durch das Hinzufügen von Linien zum Bild oder durch das Hinzufügen einer halbtransparenten Schicht braunen, rauschenden Schmutzes auf die Kameralinse umgesetzt werden.
Es ist eine weitere Option Übertragung im neuronalen Stil [3], das Deep-Learning-Ansätze (z. B. Faltungs-Neuronale Netze oder generative gegnerische Netze) verwendet, um einen bestimmten Stil auf ein bestimmtes Bild anzuwenden. Auf diese Weise können Sie beispielsweise ein Bild, das in einer Sommerumgebung aufgenommen wurde, in eine Winterumgebung umwandeln (z. B [4]).
Zusätzlich, Generative KI (GenAI) GPT-4o und Dall-E von OpenAI eröffnen mehr Möglichkeiten zur Erweiterung und Verbesserung von Bilddatensätzen.
Welche Hindernisse gibt es bei der Bildvergrößerung?
Grad des Realismus: Bei der Datenerweiterung wird ein Datensatz realer Bilder verwendet und künstlich transformiert. Verwendung eines echten Datensatzes es behält seine eigenen realistischen Variationen bei, was besser ist als völlig künstliche Daten (z. B. aus Simulationen). Jedoch, Abhängig von den fotorealistischen Qualitäten der künstlichen Transformationen sieht das Ergebnis dennoch realistisch aus. Um beispielsweise mehrere Bilder mit Regen zu ergänzen, kann das Hinzufügen derselben vertikalen Linien mit derselben Länge und Richtung zu allen Bildern dazu führen, dass das ML-Modell das Linienmuster lernt. In realen Bildern gibt es Variationen in der Tröpfchenlänge, oder Windrichtung und -geschwindigkeit beeinflussen die Richtung der Tropfen.
Abhängigkeiten zwischen mehreren Eingabeänderungen: Möglicherweise müssen wir mehrere Eingabevarianten zusammen anwenden (wenn es beispielsweise nachts regnet, möchten wir dem Bild möglicherweise Regen und auch Dunkelheit hinzufügen). Dabei müssen zwei Dinge beachtet werden: Erstens die Reihenfolge, in der die Inkremente angewendet werden. Wenn wir beispielsweise eine Schmutzansammlung auf dem Kameraobjektiv hinzufügen und dann Linien als Regentropfen hinzufügen, um den Regen zu verstärken, platzieren wir die Linien versehentlich vor dem Schmutz, obwohl der Schmutz dem Betrachter (d. h. der Kamera) am nächsten ist. . Sichtlinie Der zweite zu berücksichtigende Punkt ist Folgendes Abhängigkeiten zwischen Erweiterungen. Beispielsweise reflektieren Verkehrsschilder das Licht, wenn nachts die Scheinwerfer eines Autos darauf treffen. Daher wird der Bildbereich des Verkehrszeichens aufgehellt, während der Hintergrund abgedunkelt wird. Befindet sich jedoch Schmutz in der Ampel, wird dieser an den schmutzigen Stellen nicht so stark reflektiert, was bedeutet, dass wir die Helligkeit des Bildes für die betroffenen Pixel nicht so stark erhöhen müssen.
Vorhersehbarkeit der Ergebnisse: verwenden Klassische Bildbearbeitungstechniken haben den Vorteil, dass der Entwickler die volle Kontrolle hat vom Aussehen der einzelnen Eingabevarianten. Beim Einsatz von Deep-Learning-Ansätzen oder GenAI ist der Aufwand für den Entwurf und die Entwicklung von Varianten geringer, aber da es sich um datengesteuerte Ansätze handelt, können wir nicht vollständig kontrollieren, ob wir das erwartete Ergebnis erhalten oder nicht.
Iterative Ergänzungen mit GenAI
Vor einigen Jahren haben wir ein Framework zur Bildvergrößerung anhand des Anwendungsfalls der Verkehrszeichenerkennung entwickelt [1][2]. Die Verkehrszeichenerkennung zielt darauf ab, die Art des Verkehrszeichens in Bildern zu klassifizieren, die normalerweise aus den Begrenzungsrahmen um die Schilder erstellt werden. Begrenzungsrahmen können in einem vorherigen Schritt mithilfe eines Ampelerkennungsmodells definiert werden. Daher fallen die Bilder recht klein aus, d. h. im von uns verwendeten deutschen Verkehrszeichenerkennungs-Benchmark (GTSRB) variieren die Bilder zwar in der Größe, sind aber meist kleiner als 100×100 Pixel. Das Augmentation-Framework nutzt die klassische Bildverarbeitung, zielt auf ein hohes Maß an Realismus ab und berücksichtigt Abhängigkeiten, wenn mehrere Eingabevarianten auf dasselbe Bild angewendet werden müssen. Die Entwicklung eines solchen Frameworks für einen bestimmten Anwendungsfall ist recht zeitaufwändig. Da wir sehen wollten, ob GenAI selbst Erweiterungen durchführen oder uns zumindest dabei helfen kann, bessere Ergebnisse zu erzielen, haben wir versucht, einige Variationen unseres Erweiterungs-Frameworks zu replizieren.
Unten sind einige grundlegende Eingabevarianten, die nicht mehrere Varianten kombinieren. Das Originalbild wurde zu ChatGPT 4o beigetragen (das auch Zugriff auf Dall-E 3 hat) und „Add [input variation] zum Originalbild hinzufügen“ oder „Anpassen, als ob das Originalbild extrahiert worden wäre.“ [describe input variation]”:
Regen und Nebel sehen bisher gut aus. Für Dunkelheit und Gegenlicht wurden Helligkeitsanpassungen im gesamten Bild vorgenommen, ohne zwischen Signal und Hintergrund zu unterscheiden. Wenn nachts ein Auto ein Verkehrsschild beleuchtet, wird das Schild deutlich heller, während der Hintergrund dunkel bleibt. Wenn eine Hintergrundbeleuchtung vorhanden ist, sollte das Signal nicht heller, sondern dunkler sein, um die Helligkeit der Hintergrundbeleuchtung auszugleichen. Bei der Bewegungsunschärfe handelt es sich lediglich um eine allgemeine Unschärfe und nicht um eine schrittweise gezielte Unschärfe. Weder Schmutz oder Dampf auf der Linse noch Schmutz auf dem Poster scheinen das Bild zu beeinträchtigen.
Was den Realismus betrifft, Wechselwirkung zwischen Windgeschwindigkeit, Windrichtung und Fahrtrichtung es wird in unserem inkrementellen Framework berücksichtigt wenn der Regen zunimmt. Wir haben ChatGPT-4o gefragt: „Erstellen Sie eine Serie von drei Bildern. Jedes Bild fügt dem Originalbild Regen hinzu, berücksichtigt jedoch beim Hinzufügen von Regentropfen unterschiedliche Windgeschwindigkeiten und Windrichtungen. Die Bilder sollten jeweils schwachen, mittleren und starken Regen hinzufügen.“ Das Ergebnis ist unten dargestellt:
Verschiedene Regenintensitäten zu bekommen hat ziemlich gut funktioniert. Das Modell verstand auch die Aufgabe, die Richtung von Regentropfen durch Wind zu ändern.
Ein wichtiger Vorteil unseres inkrementellen Rahmenwerks ist die Rücksichtnahme Abhängigkeiten zwischen Variationen mehrerer Eingaben. Beispielsweise reflektiert Schmutz auf einem Verkehrsschild nicht so viel Licht wie das Schild selbst, oder eine beschlagene Linse beeinträchtigt das Bild, indem es es verwischt und aufhellt, aber wenn es draußen dunkel ist, haben wir weniger Licht. Wir haben dies veranschaulicht [1] mit der folgenden Bildmatrix durch Kombination von drei Eingangsvarianten (d. h. Dunkelheit, Schmutz im Signal und Dampf im Kameraobjektiv) bei höherer Intensität:
Mit ChatGPT 4o haben wir versucht, die Kombination dieser drei Eingabevarianten zu reproduzieren, was zu Folgendem führte:
Obwohl wir im Fragebogen Erläuterungen gaben, entsprach das Ergebnis nicht unseren Erwartungen. Es sieht so aus, als hätte er eine dreieckige Maske angewendet, um das Schild vom Hintergrund zu trennen, allerdings mit einer falschen Drehung. Der Hintergrund verdunkelt das Originalbild nicht, sondern wird durch einen Grauverlauf ersetzt.
Wir haben auch versucht, GenAI zu verwenden Eingabevarianten, die komplexer zu entwickeln sind wie bei der klassischen Bildbearbeitung:
Da es Zeit braucht, mit Bildverarbeitungstechniken realistische Vergrößerungen zu erreichen, kann es interessant sein Erstellen Sie mit kontrollierbaren Techniken vereinfachte Ergebnisse und bitten Sie dann GenAI, diese realistischer aussehen zu lassen. In der Automold-Bibliothek [5]Es gibt vereinfachte Verbesserungen für Schatten als abgedunkelte Bereiche in zufälligen Polygonformen, und Schnee wird durch die Beleuchtung von Bildbereichen simuliert. Wir haben ChatGPT 4o gebeten, realistischer zu sein, haben aber nicht die erwarteten Ergebnisse erzielt:
Weitere Artikel zum Thema kreative KI und große Sprachmodelle:
Verwendung kreativer KI statt Bildvergrößerung
Auch die Aufforderung an die GenAI-Modelle, direkt eine Szene oder ein Verkehrszeichen mit den gewünschten Eingabevariablen zu generieren, kann eine Option sein. Dies lässt jedoch viel Spielraum für Interpretationen im Modell und es kann viel Aufwand erfordern, die Eingabeaufforderung zu erstellen. Darüber hinaus steigt die Wahrscheinlichkeit, dass einige Aspekte der generierten Inhalte die Realität nicht genau widerspiegeln:
Einige Ergebnisse sind jedoch recht gut, teilweise aber aufgrund allgemeiner Erscheinung oder Generierungsartefakten noch von echten Fotos zu unterscheiden:
Wir haben uns noch nicht mit anderen GenAI-Tools wie Midjourney oder Adobe Firefly befasst, die in Zukunft interessant sein könnten.
Verweise:
[1] Jöckel, L., Kläs, M., „Steigerung des Vertrauens in die datengesteuerte Modellvalidierung – Ein Framework für die probabilistische Bild- und Metadatengenerierung mithilfe von Anwendungs-Framework-Funktionen“, 38Th Internationale Konferenz über Computersicherheit, Zuverlässigkeit und Sicherheit (SAFECOMP), 2019, doi: 10.1007/978-3-030-26601-1_11.
[2] Jöckel, L., Kläs, M., Martínez-Fernández, S., „Sichere Verkehrszeichenerkennung durch Datenerweiterung für Software für autonome Fahrzeuge“, 19Th IEEE International Conference on Software Quality, Reliability and Security Companion (QRS-C), 2019, doi: 10.1109/QRS-C.2019.00114.
[3] Gatys, LA, Ecker, AS, Bethge, M., „Image Style Transfer Using Convolutional Neural Networks“, 2016 IEEE-Konferenz zu Computer Vision und Mustererkennung (CVPR)2016, doi: 10.1109/CVPR.2016.265.
[4] Zhang, F., Wang, C., „MSGAN: Generative Adversarial Networks for Image Seasonal Style Transfer“, in IEEE-Zugriff, Bd. 8, S. 104830-104840, 2020, doi: 10.1109/ACCESS.2020.2999750.
[5] Automold-Bibliothek, konsultiert am 24.07.2024.