Stage-oe-small.jpg

Thema4808

Aus Aifbportal
Wechseln zu:Navigation, Suche



GPT, BERT, RNN – Untersuchung des Einsatzes von NLP zur automatischen Generierung von Experimentbeschreibungen in der Chemie




Informationen zur Arbeit

Abschlussarbeitstyp: Bachelor, Master
Betreuer: Andreas OberweisDemian FristerClemens Schreiber
Forschungsgruppe: Betriebliche Informationssysteme

Archivierungsnummer: 4808
Abschlussarbeitsstatus: Offen
Beginn: 30. November 2021
Abgabe: unbekannt

Weitere Informationen

Beschreibung:

Natural Language Processing (NLP) hat durch die Entwicklung von „Massive Deep Learning Language Models“, wie GPT und BERT, in den vergangenen Jahren extreme Fortschritte erzielt. Dabei werden stetig neue Einsatzmöglichkeiten gefunden (bspw. im Bereich des Software-Testens https://aifb.kit.edu/web/Thema4834). Eine besondere Herausforderung im NLP ist die automatische Textgenerierung (Natural Language Generation, NLG) basierend auf wenigen Eingabedaten. Das bisher größte, englischsprachige NLP-Modell GPT-3 hat gezeigt, dass es für diese Art von Aufgabe sehr gut geeignet ist und selbständig kreative Texte (bspw. Zeitungsartikel: https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3) generieren kann. Trotz der vielseitigen Einsatzmöglichkeiten, die die neuen Modelle wie GPT und BERT bieten, haben sie auch einige wesentliche Nachteile in Bezug auf den benötigten Rechenaufwand, der Erklärbarkeit der Ergebnisse und der Qualität der generierten Texte. In dieser Arbeit soll insbesondere untersucht werden, wie erfolgreich GPT und BERT für die Generierung von Experimentbeschreibungen in der Chemie eingesetzt werden können. Im Vergleich dazu sollen auch Recurrent Neural Networks (RNNs) eingesetzt werden, um besser die Vor- und Nachteile von „Massive Deep Learning Language Models“ aufzuzeigen. Die Arbeit wird im Rahmen des interdisziplinären Forschungsprojektes MoMaF (https://momaf.scc.kit.edu/) durchgeführt.

Aufgaben:

Im Rahmen der Arbeit soll ein Vergleich von existierenden NLG-Ansätzen im Kontext von Chemischen Forschungsdaten durchgeführt werden. Dabei werden Daten zur Analyse von unserem Forschungspartner dem Institut für Organische Chemie (IOC) bereitgestellt. Ebenfalls vorhanden ist bereits eine Implementierung des GPT-J Modells auf einem unserer Institutsrechner (https://6b.eleuther.ai/). Des Weiteren soll eine Verknüpfung zwischen dem existierenden Elektronischen Laborjournal (https://www.chemotion.net/chemotionsaurus/index.html) und dem NLP Modell erstellt werden. Ziel dabei ist, dass die Forscherin nach der Eingabe einiger Forschungsdaten einen Vorschlag für eine textuelle Beschreibung des durchgeführten Experiments erhält, und diesen im Anschluss beliebig selbstständig anpassen kann.

Nützliche Kenntnisse:

- Erfahrung mit NLP