Machine Learning

Was ist Unsupervised Learning (Unüberwachtes Lernen)?

Unsupervised Learning umfasst Methoden des maschinellen Lernens, bei denen das maschinelle Lernverfahren in nicht kategorisierten Daten nach bisher unbekannten Mustern und Zusammenhängen sucht. Dieser Prozess funktioniert mit minimaler menschlicher Intervention.

Im Folgenden gehe ich auf die Definition, Arten und Beispiele von unsupervised Learning ein und zeige die Unterschiede zu supervised Learning auf.

Steigen wir direkt ein!

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
In diesem Video erkläre ich an einem einfachen Beispiel was Unüberwachtes Lernen im Machine Learning bedeutet!

Alles auf einem Blick: Unsupervised Lerning

  • Lernt selbstständig Muster und Beziehungen aus Daten
  • Wird für Clustering und Segmentierung verwendet
  • Kann nicht für Prognosen verwendet werden
  • Kann in Echtzeit verwendet werden
  • Anzahl der Kategorien ist vorab nicht bekannt
  • Minimaler menschlicher Aufwand bei der Vorbereitung

Was ist Unsupervised Learning? 

Unsupervised Learning (deutsch: unüberwachtes Lernen) bezeichnet ein Verfahren des maschinellen Lernens, bei dem der Algorithmus lernt, selbstständig und ohne Aufsicht Muster und Zusammenhänge in Daten explorativ zu erkennen. Die Eingabedaten sind hier nicht beschriftet (gelabelt) und haben keine vorgegebene Zielvariable, d.h. die gewünschten Ausgabedaten sind nicht vorgegeben.

Unsupervised Learning (unüberwachtes Lernen) ist eine Art von Maschinellem Lernen, die  eigenständig Muster und Zusammenhänge in den Daten findet.
Unsupervised Learning (unüberwachtes Lernen) ist eine Art von Maschinellem Lernen, die eigenständig Muster und Zusammenhänge in den Daten findet.

Unsupervised Learning ist abstrakt gesehen vergleichbar mit einem komplexen Legobaukasten, bei dem man die Bauanleitung verloren hat. Nun hat man einen riesigen Haufen von Bausteinen und muss selbst herausfinden, in welcher Beziehung die Steine zueinander stehen und welches Ergebnis dabei herauskommen könnte. Je nachdem, welche Steine man zur Verfügung hat und welche Formen man wählt, kann man ganz unterschiedliche Strukturen erhalten.

Warum setzt man Unsupervised Learning ein?

Die Hauptsächlichen Gründe für die Nutzung von unüberwachtem Lernen: 

  • Unsupervised Learning findet unbekannte Muster jeder Art in Daten 
  • Unüberwachtes Lernen hilft dabei, neue Kriterien (engl: Features) für Kategorisierungen zu finden 
  • Unsupervised Learning passiert in Echtzeit, aktuelle Daten können verwendet werden 
  • Unbeschriftete Daten sind einfacher zu akquirieren als beschriftete, welche manuell erarbeitet werden müssen 

Ein Beispiel: Angenommen, ein Webshop-Betreiber möchte mehr über das Kaufverhalten seiner Kunden erfahren, so hat er zwei Möglichkeiten. Er kann seine Waren mit unüberwachtem Lernen nach verschiedenen Merkmalen gruppieren lassen und so z.B. herausfinden, welche Merkmale zu Kaufentscheidungen führen. Nutzt er überwachtes Lernen, gruppiert er seine Waren selbst in feste Segmente, die als Grundlage für die Analyse dienen.

Unsupervised Learning (deutsch: unüberwachtes Lernen): unterteilt einen Datensatz selbstständig in unterschiedliche Cluster.
Unsupervised Learning (deutsch: unüberwachtes Lernen): unterteilt einen Datensatz selbstständig in unterschiedliche Cluster.

Arten von Unsupervised Learning

Es gibt unterschiedliche Arten von unüberwachte Lernenverfahren:

Clustering 

Wenn es um unüberwachtes Lernen geht, ist Clustering ein wichtiges Konzept. Beim Clustering geht es darum, Strukturen und Muster in unklassifizierten Daten zu finden, auf deren Grundlage natürliche Gruppierungen oder Cluster gebildet werden.

Folgende Clustering-Algorithmen gibt es: 

  • DB-Scan 
  • K-Means 
  • Hierarchische Clusteranalyse 

Assoziationen 

Die Assoziationsanalyse befasst sich mit der Suche nach starken Regeln in dem Datensatz, welche Korrelationen zwischen Datenpunkten beschreiben. Warenkorbanalysen basieren meist auf Assoziationsanalysen. 

Folgende Algorithmen werden für Assoziationsanalysen verwendet: 

  • Apriori-Algorithmus 
  • FP Growth-Algorithmus 
  • Eclat-Algorithmus 

Dimensionsreduktion 

Bei der Dimensionsreduktion geht es darum, die Auswahl der in den Daten vorhandenen Variablen auf die wesentlichen und zielführenden Variablen zu beschränken. Mit dieser Methode wird verhindert, dass der Algorithmus nur die spezifischen Muster des Trainingsdatensatzes lernt (Overfitted) und später keine sinnvollen Aussagen über fremde Datensätze machen kann.

Hier werden folgende Verfahren verwendet: 

  • Principal Components Analysis (PCA) 
  • K-nearest-neighbor (k-NN) 
  • Nicht negative Matrixfaktorisierung (NMF) 

Beispiele für den Einsatz von unüberwachtem Lernen 

Unüberwachtes Lernen wird in folgenden Bereichen und Geschäftsprozessen verwendet: 

Personalisierung im Marketing mit Kundensegmenten 

Kundendaten sind in der Regel sehr vielfältig und beinhalten sehr viele nützliche Informationen, die man mit klassischen Methoden aus dem Marketing nicht herausfinden könnte. 

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
In diesem Beispiel zu Unsupervised Learning zeigen wir, wie man eine Kundensegmentierung in Python erstellt.

Moderne Methoden nutzen unüberwachtes Lernen, um Kunden anhand dieser Daten in Segmente zu unterteilen. Kundengruppen sind sinnvoll für die Planung von Marketingkampagnen und –aufwendungen. Next Best Offer ist ein gutes Beispiel, hier werden Ähnlichkeiten in der Nutzung und Demografie der Kunden gefunden, um dem Kunden das nächste, beste Produkt vorzuschlagen. Amazons Webshop und Netflix modulare Startseite nutzen ebenfalls unter Anderem diese Methode. 

Anomalie-Erkennung und Fraud Detection – Überwachung 

Unternehmen, die täglich tausende oder mehr Kundendaten in ihrem Datenstrom verarbeiten müssen, stehen vor der großen Herausforderung, Anomalien oder betrügerische Nutzungsversuche zu erkennen. Unsupervised Learning wird hier eingesetzt, um Abweichungen von der Norm in Echtzeit zu erkennen und direkt eingreifen zu können. Auch komplexe automatisierte Prozesse können so kontinuierlich überwacht werden.

Warenkorbanalysen im Vertrieb und Handel – Assoziationen 

In der Kaufhistorie der Kunden können mit Unüberwachtes Lernen Muster in den Warenkörben der Kunden gefunden werden. Es werden Assoziationsregeln aufgestellt, die das Kaufverhalten des gesamten Kunden erklären, nach dem Motto: “Wer ein Fahrrad gekauft hat, kauft meistens auch eine Reifenpumpe”. Nach diesem Prinzip werden Strategien und Produktplatzierungen optimiert, um den Umsatz signifikant zu steigern.

Unsupervised Learning vs. Supervised Learning: Was ist der Unterschied?

Die hauptsächlichen Unterschiede in einer Tabelle zusammengefasst:

 Supervised learning  Unsupervised learning  
Prozess Input- und Outputdaten sind vorgegeben Nur Inputdaten sind gegeben 
Inputdaten  Beispieldaten mit ZielvaribaleBeispieldaten ohne Zielvaribale
Echtzeiteinsatz Das Lernen passiert vor dem Deployment Kann in Echtzeit genutzt werden 
Anzahl der Features Anzahl ist bekannt Anzahl ist unbekannt 
EinsatzgebieteVorhersagen von Werten und Klassen: z.B. Vorhersage von einer Kündigung, Kaufwahrscheinlichkeiten oder den Stromverbrauch.Generierung von Wissen und Mustern aus großen Datenmengen: z.B. Clustering von Kundenmerkmalen, Dimensionsreduktion von großen Datensätzen oder Extraktion von einem Regelwerk.
Die Hauptunterschiede in einer Tabelle zusammengefasst

 

Bildlich lässt sich der Unterschied viel besser veranschaulichen: 

Supervised Learning vs. Unsupervised Learning
Supervised Learning vs. Unsupervised Learning

Bei Supervised Learning wissen wir im Voraus, dass es zwei Segmente gibt, unsupervised Learning erkennt Muster und Zusammenhänge in den Datensätzen und findet die Kundengruppen selbst heraus. 

Wer mehr zu Supervised Learning erfahren will, hier ist ein ausführlicher Wiki-Beitrag zu dem Thema.

Zusammenfassung und Potenzial von unüberwachtem Lernen 

Unüberwachtes Learning ist eine Methode, um unbekannte Muster und Beziehungen in nicht kategorisierten Daten zu finden. Unsupervised Learning wird vor allem bei der Erstellung von Assoziationsregeln (wer Produkt x kauft, wird wahrscheinlich auch Produkt y kaufen), der Segmentierung von z.B. Kundengruppen und der Reduktion von Dimensionen in einem Datensatz eingesetzt.

Unüberwachtes Lernen zeichnet sich vor allem durch die Fähigkeit aus, Muster und Zusammenhänge aus ungelabelten Daten zu erkennen. Aus diesem Grund wird es bereits heute bei der Konzeption und Planung einer Vielzahl von Marketingkampagnen und auch bei der Überprüfung von Datenströmen zur Betrugserkennung eingesetzt.

In Zukunft werden sowohl die Menge als auch die Form der zu verarbeitenden Daten weiter zunehmen und herkömmliche Methoden der Datenanalyse und Merkmalsextraktion nicht mehr mithalten können. Unüberwachtes Learning bietet die Möglichkeit, dieses Problem zu lösen.

Profilbild von Vinzent Wuttke Leiter Business Development Datasolut GmbH
Vinzent Wuttke
Leiter Business
 Development

Ihr Ansprechpartner

Ob und wie künstliche Intelligenz Ihnen weiterhelfen kann, können Sie in einem ersten, unverbindlichen Gespräch mit uns herausfinden.

In diesem Gespräch erfahren Sie:

  • Wie Ihr Use-Case technisch am besten umgesetzt werden kann
  • Wie wir maximal sicher mit Ihren Kundendaten umgehen
  • Wie lange wir für die Umsetzung benötigen und wie ein konkreter Projektplan aussehen könnte
Termin buchen

Weiterlesen

Clusteranalyse einfach erklärt

Clusteranalysen sind beliebte Methoden, um Daten nach einem Ähnlichkeitsmaß in homogene Gruppen einzuteilen. Sie finden Anwendung in Wirtschaft und Forschung. Dieser Artikel zeigt, was eine Clusteranalyse ist, welche Arten es […]

Künstliche Intelligenz einfach erklärt! Definition, Arten und wo KI eingesetzt wird

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik und ermöglicht Maschinen autonom Probleme zu lösen und Entscheidungen zu treffen. Schon heute wird KI in vielen Anwendungen eingesetzt, um Prozesse zu […]

Was ist ein Algorithmus?

Woher weiß eine Software, wer die Liebe meines Lebens ist? Das versprechen zumindest die großen Dating-Portale – dabei hat das Programm keine Ahnung von Partnerschaft, geschweige denn von Liebe. Aber […]

Amazon Personalize: Funktionen, Anwendung und Vorteile

Der von Amazon Web Services (AWS) angebotene Service namens Amazon Personalize bietet Nutzern die Möglichkeit, die gleiche Machine Learning-Technologie zur Personalisierung zu verwenden, welche Amazon selbst nutzt. Dazu werden vom Nutzer keinerlei Erfahrungen […]

Was ist ein Machine Learning Engineer?

Ein Machine Learning Engineer ist ein wichtiger Bestandteil eines Data Science Teams. Er kümmert sich darum, dass Machine Learning Modelle in Produktion eingesetzt und das alle nötigen Prozesse dafür ineinander […]

Amazon Comprehend: Anwendung, Funktionen und Vorteile

Amazon Web Services (AWS) stellt einen voll verwalteten Natural Language Processing-Service namens Amazon Comprehend zur Verfügung. Amazon Comprehend bietet dem Nutzer die Möglichkeit, Informationen aus Texten zu extrahieren und Zusammenhänge zu erkennen. Durch Amazon Comprehend lassen sich zudem Bereiche wie die Extraktion von […]

AWS Transcribe

AWS Transcribe ist ein von Amazon angebotener Service, der zur Transkription von Audiodateien und gesprochener Sprache in Textform genutzt wird. Auf Basis von Deep-Learning-Prozessen agiert der Dienst automatisiert und hilft bei der […]

Was ist Amazon SageMaker?

Amazon SageMaker ist eine Everything-as-a-service-Cloud-Maschinenlernplattform von Amazon Web Services. Amazon SageMaker wird vor allem von Datenwissenschaftler und Entwicklern genutzt, um Modelle auf Basis von Machine Learning, in der Cloud zu erstellen, trainieren und einzusetzen. Das […]

Was ist Supervised Learning (Überwachtes Lernen)?

Supervised Learning ist eine Methode des maschinellen Lernens, welche aufgrund einer Analyse von Eingangsdaten mit vorgegebener Zielvariable präzise Empfehlungen ausgibt und Prognosen macht. Dieser Prozess ist durch die notwendige Datenvorverarbeitung […]
Newsletter und Updates

Sie sehen gerade einen Platzhalterinhalt von HubSpot. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen
Termin buchen