Beispiele für Verzerrungen in KI-generierten Bildern

[Anzeige_1]

Wie funktioniert der KI-Bildgenerator?

KI-basierte Bildgeneratoren nutzen maschinelle Lernmodelle, die aus vom Benutzer eingegebenem Text ein oder mehrere Bilder generieren, die der Beschreibung entsprechen. Das Training dieser Modelle erfordert riesige Datensätze mit Millionen von Bildern.

Wer hat die seltsamen Fehler im Bild verursacht? Bild 1 — Die Bildgestaltung mit KI wird immer einfacher. Foto: Ijnet

Obwohl weder Midjourney noch DALL-E 2 die Funktionsweise ihrer Algorithmen öffentlich machen, verwenden die meisten KI-Bildgeneratoren einen Prozess namens Diffusion. Diffusionsmodelle funktionieren, indem sie Trainingsdaten zufälliges „Rauschen“ hinzufügen und dann lernen, die Daten durch Entfernen der verrauschten Teile zu rekonstruieren. Das Modell wiederholt diesen Prozess, bis es ein Bild erzeugt, das mit der Eingabe übereinstimmt.

Dies unterscheidet sich von großen Sprachmodellen wie ChatGPT. Große Sprachmodelle werden anhand von unbeschrifteten Textdaten trainiert, die sie analysieren, um Sprachmuster zu erlernen und menschenähnliche Antworten zu generieren.

Bei der generativen KI beeinflusst die Eingabe die Ausgabe. Gibt ein Nutzer beispielsweise an, dass er nur Personen mit einer bestimmten Hautfarbe oder einem bestimmten Geschlecht in ein Bild aufnehmen möchte, berücksichtigt das Modell dies.

Darüber hinaus neigt das Modell jedoch auch dazu, standardmäßig bestimmte Bilder zurückzugeben. Dies ist häufig auf einen Mangel an Vielfalt in den Trainingsdaten zurückzuführen.

In einer aktuellen Studie wurde untersucht , wie Midjourney scheinbar generische Begriffe visualisiert, darunter spezialisierte Medienberufe (wie „Nachrichtenanalyst“, „Nachrichtenkommentator“ und „Faktenprüfer“) und allgemeinere Berufe (wie „Journalist“, „Reporter“, „Journalismus“).

Die Studie begann im vergangenen August. Sechs Monate später wurden die Ergebnisse erneut ausgewertet, um zu sehen, wie sich das System in dieser Zeit verbessert hatte. Insgesamt analysierten die Forscher in diesem Zeitraum über 100 KI-generierte Bilder.

Altersdiskriminierung und Sexismus

Wer hat die seltsamen Fehler im Bild verursacht? Bild 2 — Bei bestimmten Berufen sind die Ältesten immer Männer. Foto: IJN

Bei unspezifischen Berufsbezeichnungen zeigt Midjourney nur Bilder von jüngeren Männern und Frauen. Bei spezifischen Rollen werden sowohl jüngere als auch ältere Menschen gezeigt, wobei die älteren Menschen immer männlich sind.

Diese Ergebnisse verstärken implizit eine Reihe von Stereotypen, darunter die Annahme, dass ältere Menschen nicht in nicht spezialisierten Positionen arbeiten, dass nur ältere Männer für eine professionelle Arbeit geeignet sind und dass weniger spezialisierte Arbeit typischerweise Frauen vorbehalten ist.

Auch in der Darstellung von Männern und Frauen gibt es auffällige Unterschiede. So sind Frauen beispielsweise jünger und faltenfrei, während Männer Falten haben „dürfen“.

KI scheint das Geschlecht auch binär darzustellen, anstatt Beispiele für einen fließenderen Geschlechtsausdruck zu zeigen.

Rassistische Vorurteile

Wer hat die seltsamen Fehler im Bild verursacht? Bild 3 — Bilder für „Reporter“ oder „Journalisten“ zeigen oft nur weiße Menschen. Foto: IJN

Alle Bilder, die für Begriffe wie „Journalist“, „Reporter“ zurückgegeben werden, zeigen nur Bilder von weißen Menschen.

Dies kann auf einen Mangel an Vielfalt und Unterrepräsentation in den der KI zugrunde liegenden Trainingsdaten zurückzuführen sein.

Klassismus und Konservatismus

Alle Figuren im Bild haben zudem ein „konservatives“ Erscheinungsbild. So hat keiner von ihnen Tätowierungen, Piercings, ungewöhnliche Frisuren oder sonstige Merkmale, die sie von traditionellen Darstellungen unterscheiden würden.

Viele Menschen tragen auch formelle Kleidung wie Hemden und Anzüge. Diese sind Indikatoren für die sozialen Erwartungen. Dies mag zwar für bestimmte Rollen, wie z. B. Fernsehmoderatoren, angemessen sein, spiegelt aber nicht unbedingt die allgemeine Kleidung von Reportern oder Journalisten wider.

Städtebau

Wer hat die seltsamen Fehler im Bild verursacht? Bild 4 — Die Bilder sind standardmäßig alle in der Stadt angesiedelt, obwohl kein geografischer Bezug besteht. Foto: IJN

Obwohl weder ein Ort noch ein geografischer Kontext angegeben wurde, enthielten die von der KI zurückgegebenen Bilder städtische Räume wie Wolkenkratzer oder belebte Straßen. Dies ist nicht wahr, da etwas mehr als die Hälfte der Weltbevölkerung in Städten lebt.

Veraltet

Auf Bildern von Medienschaffenden sind veraltete Technologien wie Schreibmaschinen, Drucker und Vintage-Kameras zu sehen.

Da viele Berufsgruppen heute gleich aussehen, scheint die KI auf differenziertere Technologien zurückzugreifen (einschließlich veralteter und ungenutzter), um die beschriebenen Rollen deutlicher hervorzuheben.

Wenn Sie also Ihre eigenen KI-Bilder erstellen, berücksichtigen Sie bei der Beschreibung mögliche Vorurteile. Andernfalls verstärken Sie möglicherweise unbeabsichtigt schädliche Stereotypen, die die Gesellschaft seit Jahrzehnten zu zerstreuen versucht.

Hoang Ton (laut IJN)

[Anzeige_2]
Quelle