05.11.20 – Hand in Hand mit der KI
Fashion-Artikel mithilfe neuronaler Netze KI-basiert klassifizieren
Für einen deutlichen Zugewinn an Effizienz sorgt künstliche Intelligenz – insbesondere im Hinblick auf die Klassifizierung von Fashion-Artikeln.
Ein Bild sagt mehr als tausend Worte – diese Redewendung ist durch ihren inflationären Gebrauch etwas abgenutzt. Bei genauerer Betrachtung zeigt sich jedoch: Methoden der Bilderkennung haben auch im E-Commerce großes Potenzial – insbesondere dann, wenn sie mithilfe einer KI automatisch erfolgt. Kein Wunder, ist doch bei einem gut fotografierten Bild sofort ersichtlich, ob es sich um einen Pullover, eine Hose, einen Turnschuh oder eine Halskette handelt, und welche Farbe der Artikel hat. Sehr viel komplexer wird es, wenn eine künstliche Intelligenz zwischen Artikeln derselben Warengruppe unterscheiden soll.
- Künstliche Intelligenz (KI) ist kein düsteres Science-Fiction-Szenario mehr, in dem Maschinen die Herrschaft über uns Menschen übernehmen. Ganz im Gegenteil: Sie ist schon heute wertvoller Bestandteil zahlreicher Branchenlösungen, etwa im Handel. Dort gehören Product-Information-Management-Systeme (PIM) zur technologischen Grundausstattung. Dabei kann es mitunter sehr aufwändig sein, Produktdaten zu erfassen, zu pflegen und fortlaufend aktuell zu halten – zumal der menschliche Faktor eine große Rolle spielt.
KI-gestützte Klassifikation am Beispiel von Schuhen
Wie genau die KI-gestützte Klassifikation funktioniert, lässt sich am Beispiel von Schuhen anschaulich verdeutlichen. Schuhe mit den richtigen Attributen zu versehen und im wahrsten Sinne des Wortes passgenau zu beschreiben, ist keineswegs trivial.
Über Merkmale wie Schuh-Typ, Material, Farbe und Größe hinaus stellt ein PIM-System zahlreiche weitere produktspezifische Informationen und Metadaten bereit.
Mit einem solchen Tool können Unternehmen sehr große Datenbestände gut strukturiert verwalten. Von dort fließen die produktrelevanten Informationen über eine Schnittstelle in die entsprechende Produktseite eines angebundenen Online-Shops. Dem vorgelagert, kann eine KI den Prozess der Klassifizierung von Schuhen auf Bildern deutlich effizienter gestalten.
KI erkennt
- um welchen Schuh-Typ es sich handelt: Sandale, Sneaker, Pumps, Wanderschuh, Stiefel etc.,
- aus welcher Perspektive das Foto aufgenommen wurde: von oben, unten oder von der Seite,
- welche Farbe der Schuh hat und
- wer der Hersteller ist (falls Markenname oder -logo sichtbar sind).
Schuhe mithilfe neuronaler Netze zuverlässig erkennen
Die technologische Grundlage bilden künstliche neuronale Netze. Ihre besondere Stärke spielen sie dort aus, wo die kognitiven Fähigkeiten des Menschen an ihre Grenzen stoßen: beim Abstrahieren und Klassifizieren. In der Identifikation von Mustern in großen Datenmengen, etwa im Hinblick auf Text-, Video-, Bild- und Audiodateien, ist eine KI dem Menschen überlegen.
- Eine KI-gestützte Bilderkennung erlaubt, Bilder von Schuhen binnen Millisekunden auszuwerten und den darauf abgebildeten Schuh in Echtzeit zu kategorisieren – unabhängig von Lichtverhältnissen, Blickwinkel und Hintergrund.
- Der Clou: Um einen Schuh zu klassifizieren, muss er nicht hundertprozentig mit dem jeweiligen Referenzobjekt übereinstimmen, eine ausreichend hohe Wahrscheinlichkeit genügt.
- Ist ein vorab definierter Schwellenwert erreicht, gilt es als wahrscheinlich, dass das Bild einen bestimmten Schuh zeigt.
Kann das KI-basierte System das Bild nicht eindeutig klassifizieren, ist der Mensch gefragt:
Mitarbeiter können aus Vorschlägen, die das System automatisch generiert, den passenden Schuh manuell auswählen. Neben optischen Merkmalen kann auch das Gewicht als unterscheidungsstarkes Attribut dienen. Schließlich ist eine sommerliche Sandale deutlich leichter als ein gefütterter Winterstiefel. Generell gilt: Je vielfältiger und qualitativ hochwertiger die Daten sind, desto besser fallen die Ergebnisse aus.
Trainingslager für die KI: Deep Learning
Damit das neuronale Netz unterschiedlichste Schuhe auf Bildern treffsicher erkennt, ist es für diesen Zweck zu trainieren (Deep Learning). Der Mensch muss ihm beibringen, Schuhe eigenständig zu klassifizieren. Als Übungsmaterial dienen Unmengen an Schuh-Bildern, die in einem PIM-System gespeichert und mit aussagekräftigen Metadaten versehen sind. Deep Learning liefert immer dann überzeugende Ergebnisse, wenn für das Training große Datenmengen (Big Data) zur Verfügung stehen. Damit ist die Objekt- beziehungsweise Bilderkennung ein prädestinierter Anwendungsfall für neuronale Netze. Das KI-basierte System erkennt einen Schuh auch dann, wenn er verdreht, teilweise verdeckt oder in ungünstigen Lichtverhältnissen aufgenommen wurde. Richtig angelernt, entlastet das neuronale Netz die Mitarbeiter von zeitaufwändigen repetitiven Aufgaben.
Von der Theorie in die Praxis
Für das Training der KI müssen verschiedene Komplexitätsstufen festgelegt werden:
- 1. Stufe: Welche Art von Schuh zeigt ein Bild?
- 2. Stufe: Welche Farbe hat der Schuh?
- 3. Stufe: Von welcher Marke stammt der Schuh?
- 4. Stufe: Welche Größe hat der Schuh?
- 5. Stufe: Hat der Schuh ein auffälliges Muster?
- 6. Stufe: Aus welchem Material besteht der Schuh?
- Und so weiter.
Dabei zeigt sich: Auf den ersten beiden Stufen liefert eine KI sehr überzeugende Ergebnisse. Sie kann zuverlässig zwischen Stiefeln, Sneakern und Sandalen unterscheiden. Ab der dritten Stufe, spätestens ab Stufe vier tut sie sich spürbar schwerer mit der Klassifizierung. Sofern die Formgebung, etwa bei Designerschuhen, eindeutig oder ein Logo erkennbar ist, kann die KI zwischen verschiedenen Marken differenzieren und auch Fälschungen erkennen. So können zum Beispiel Betreiber von Shopping-Plattformen Markenrechtsverletzungen wirkungsvoll vorbeugen. Bei den weiteren Aufgabenstellungen stößt eine KI momentan (noch) an ihre Grenzen. Das liegt zum einen an der oft mangelnden Bildqualität. Zum anderen braucht ein neuronales Netz sehr viel Training, um solche komplexen Herausforderungen zu meistern.
Schuhe zuverlässig klassifizieren
Darum ist zu Beginn der Trainingsphase kontinuierlich zu überprüfen, ob es der KI gelingt, die gewünschten Ergebnisse zu liefern. Ist das der Fall, können Shop-Betreiber einen Schritt weiter gehen und mit dem KI-basierten System arbeiten. Der Prozess gestaltet sich folgendermaßen:
- Ein Bild fließt ins PIM-System, wo die KI den darauf abgebildeten Schuh automatisch klassifiziert und mit Wahrscheinlichkeiten versieht: Das Foto zeigt zu 95 Prozent eine Sandale, zu 100 Prozent seitlich. Bei derart hohen Wahrscheinlichkeiten kann der Mitarbeiter die vorgeschlagene Klassifizierung samt eindeutigen Schlagwörtern (Tags) bedenkenlos übernehmen und das Produktbild im PIM-System ablegen. Ebenso kann er festlegen, dass das Foto, welches den Schuh von der Seite zeigt, automatisch als erstes Bild im Online-Shop erscheint. Ohne diese manuelle Regel ist es nämlich möglich, dass das System ein Bild der Sohle auswählt – was natürlich weniger aussagekräftig ist. Darum ist es unerlässlich, dass ein Mitarbeiter die Reihenfolge festlegt, in der die Produktbilder auszuspielen sind.
Mitarbeiter bleiben weiterhin unverzichtbar
Ein wenig anders gestaltet sich der Workflow, wenn das System keine ausreichend große Übereinstimmung erkennt. Liegt die Wahrscheinlichkeit unterhalb eines zuvor festgelegten Schwellenwerts – beispielsweise 80 Prozent Übereinstimmung mit dem Referenzobjekt –, muss der Mitarbeiter die Vorklassifizierung überprüfen und die vorgeschlagenen Tags im Zweifel anpassen. Ebenso hat er die Reihenfolge der Bilder zu bestimmen.
Nicht ohne meinen Dienstleister
Nachdem sie bereits praxiserprobt ist, hat die Technologie das Potenzial, manuelle Prozesse in der Produktdatenpflege zu einem hohen Grad zu automatisieren – unter der Voraussetzung, dass die entsprechenden Metadaten im PIM-System gepflegt sind und damit eine optimale Grundlage für aussagekräftige Tags bilden, die wiederum für das Training der KI unentbehrlich sind. Auch wenn Menschen einer KI beim Vorklassifizieren und Sortieren nicht das Wasser reichen können, sind und bleiben sie unverzichtbar.
Damit eine KI ihre Arbeit erledigen kann, muss ein kompetenter Dienstleister zunächst den Projektrahmen abstecken:
- Was ist überhaupt machbar?
- Welche Grenzen gibt es?
- Sind die benötigten Metadaten im PIM-System verfügbar?
- Wie ist ein bestimmter Anwendungsfall zu designen?
- Wie lässt sich das neuronale Netz speziell hierfür trainieren?
Aufgrund ihrer Komplexität braucht es für derartige Projekte erfahrene Produktdatenexperten, die ein großes Verständnis für Daten und Schnittstellen haben und darum in der Lage sind, Vorhaben im Bereich der KI-gestützten Bilderkennung professionell zu begleiten. Es bleibt spannend, welche weiteren Möglichkeiten es in Zukunft geben wird.
Adrian Gasch, Manager PIM Technical Solutions bei Arvato Systems
Über den Autor:
Als Manager PIM Technical Solutions leitet Adrian Gasch das Team der Softwareentwickler im Bereich Product Experience Management bei Arvato Systems. Er ist seit rund 20 Jahren bei Arvato Systems bzw. im Bertelsmann Konzern beschäftigt. Seine fachlichen Schwerpunkte liegen im Bereich Product Information Management sowie dem damit zusammenhängenden Cloud-Ökosystem, darunter Machine-Learning- und DevOps.