Knowledge Discovery, Graph Neural Networks, and Language Models

Inhalt

Die Vorlesung bietet einen umfassenden Überblick über verschiedene Ansätze des maschinellen Lernens und des Data Mining zur Wissensextraktion. Es werden mehrere Bereiche erforscht, darunter maschinelles Lernen, Verarbeitung natürlicher Sprache und Wissensdarstellung. Das Hauptaugenmerk liegt auf der Entdeckung von Mustern und Regelmäßigkeiten in umfangreichen Datensätzen, insbesondere in unstrukturiertem Text (z.B. Nachrichtenartikel, Publikationen, sozialen Medien). Dieser Prozess wird als Knowledge Discovery bezeichnet. Die Vorlesung befasst sich mit spezifischen Techniken, Methoden, Herausforderungen sowie aktuellen und zukünftigen Forschungsthemen auf diesem Gebiet.
Ein Teil der Vorlesung ist dem Verständnis von großen Sprachmodellen (LLMs) wie ChatGPT gewidmet, indem die zugrundeliegenden Prinzipien, Trainingsmethoden und Anwendungen untersucht werden. Außerdem widmet sich die Vorlesung dem Graph Representation Learning, bei dem es darum geht, sinnvolle Repräsentationsformen von Graphdaten zu bilden. Es werden die mathematischen Grundlagen des Graph- und geometrischen Deep Learning behandelt und die neuesten Anwendungen in Bereichen wie erklärbare Empfehlungssysteme hervorgehoben.
Darüber hinaus geht die Vorlesung auf die Integration von Wissensgraphen in große Sprachmodelle ein, bekannt als neurosymbolische KI. Diese Integration zielt darauf ab, strukturierte und unstrukturierte Daten zu kombinieren, um die Extraktion und Darstellung von Wissen zu verbessern.
Der Inhalt der Vorlesung umfasst den gesamten Prozess des maschinellen Lernens und der Datengewinnung. Es werden Themen zu überwachten und unüberwachten Lerntechniken sowie zur empirischen Evaluierung behandelt. Es werden verschiedene Lernmethoden erforscht, die von klassischen Ansätzen wie Entscheidungsbäumen, Support Vector Machines und neuronalen Netzen bis hin zu neueren Entwicklungen wie Graph Neural Networks reichen.

Lernziele:

Studierende

  • kennen die Grundlagen des Maschinellen Lernen, Data Minings und Knowledge Discovery.
  • können lernfähige Systeme, konzipieren, trainieren und evaluieren.
  • führen Knowledge Discovery Projekte unter Berücksichtigung von Algorithmen, Repräsentationen and Anwendungen durch.

Arbeitsaufwand:

  • Gesamtaufwand bei 4,5 Leistungspunkten: ca. 135 Stunden
  • Präsenzzeit: 45 Stunden
  • Vor- und Nachbereitung der LV: 60 Stunden
  • Prüfung und Prüfungsvorbereitung: 30 Stunden
VortragsspracheEnglisch
Literaturhinweise
  • T. Hastie, R. Tibshirani, J. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (http://www-stat.stanford.edu/~tibs/ElemStatLearn/)
  • T. Mitchell. Machine Learning. 1997
  • M. Berhold, D. Hand (eds). Intelligent Data Analysis - An Introduction. 2003
  • P. Tan, M. Steinbach, V. Kumar: Introduction to Data Mining, 2005, Addison Wesley