Stage-oe-small.jpg

Thema3585: Unterschied zwischen den Versionen

Aus Aifbportal
Wechseln zu:Navigation, Suche
 
(7 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 
{{Abschlussarbeit
 
{{Abschlussarbeit
|Titel=OLAP of Linked Open Data
+
|Titel=OLAP auf Linked Open Data
 
|Abschlussarbeitstyp=Master
 
|Abschlussarbeitstyp=Master
|Betreuer=Benedikt Kämpgen;
+
|Betreuer=Benedikt Kämpgen; Achim Rettinger;
 
|Forschungsgruppe=Wissensmanagement
 
|Forschungsgruppe=Wissensmanagement
|Abschlussarbeitsstatus=Offen
+
|Abschlussarbeitsstatus=Abgeschlossen
 
|Beschreibung DE='''Lust auf exploratives Data Mining im Semantic Web?'''
 
|Beschreibung DE='''Lust auf exploratives Data Mining im Semantic Web?'''
  
Stichworte: OLAP, Linked Open Data, OLAP auf Graphdaten, Data Mining auf Web-Daten.
+
Stichworte: OLAP, Linked Open Data, OLAP auf Graphdaten, Data Mining auf Web-Daten, Semantic Web
  
 
==Motivation==
 
==Motivation==
Zeile 18: Zeile 18:
 
Vorteile von OLAP sind:
 
Vorteile von OLAP sind:
 
* Bekannte konzeptuelles Modell aus Datenwürfeln (Data Cubes), Dimensionen und Kennzahlen (Measures).
 
* Bekannte konzeptuelles Modell aus Datenwürfeln (Data Cubes), Dimensionen und Kennzahlen (Measures).
* Bekannte Operationen auf Datenwürfeln, z.B. Slice, Dice, Roll-Up, Drill-Down
+
* Operationen zur explorativen Analyse von Datenwürfeln, z.B. Slice, Dice, Roll-Up, Drill-Down
 
* Systematische und automatische Vorverarbeitung von Daten in wiederholbaren ETL-Prozessen  
 
* Systematische und automatische Vorverarbeitung von Daten in wiederholbaren ETL-Prozessen  
* Optimierungstechniken zur effizienten Ausführung von OLAP-Operationen
+
* Optimierungstechniken zur effizienten Ausführung von OLAP-Operationen (z.B. Materialisierung)
  
 
In der Arbeit soll OLAP auf Linked Open Data erlaubt werden.
 
In der Arbeit soll OLAP auf Linked Open Data erlaubt werden.
Zeile 55: Zeile 55:
 
* [http://www.springerlink.com/index/C4770X06907V8467.pdf Generating Possible Interpretations for Statistics from Linked Open Data]
 
* [http://www.springerlink.com/index/C4770X06907V8467.pdf Generating Possible Interpretations for Statistics from Linked Open Data]
 
* [http://linkinghub.elsevier.com/retrieve/pii/S1570826812000352 An empirical survey of Linked Data conformance]
 
* [http://linkinghub.elsevier.com/retrieve/pii/S1570826812000352 An empirical survey of Linked Data conformance]
 +
* [http://link.springer.com/chapter/10.1007%2F978-3-642-38288-8_15 Observing Linked Data Dynamics]
  
 
===OLAP auf Graphdaten===
 
===OLAP auf Graphdaten===
Zeile 61: Zeile 62:
 
* [http://www.springerlink.com/index/717235V47JH175M5.pdf A Framework and a Language for On-Line Analytical Processing on Graphs]
 
* [http://www.springerlink.com/index/717235V47JH175M5.pdf A Framework and a Language for On-Line Analytical Processing on Graphs]
  
===Effiziente Abfrage von riesigen Datenmengen====
+
===Effiziente Abfrage von riesigen Datenmengen===
 
* [http://research.google.com/pubs/pub36632.html Google Dremel] erlaubt analytische Abfragen über mehr als 10.000 Servern und auf Petabytes von Daten in Sekunden.
 
* [http://research.google.com/pubs/pub36632.html Google Dremel] erlaubt analytische Abfragen über mehr als 10.000 Servern und auf Petabytes von Daten in Sekunden.
 
* Hadoop, Hive und MapReduce sind als Technologien geplant, um Abfragen parallelisiert auszuführen.
 
* Hadoop, Hive und MapReduce sind als Technologien geplant, um Abfragen parallelisiert auszuführen.
Zeile 68: Zeile 69:
 
* Sehr gutes technisches Verständnis.
 
* Sehr gutes technisches Verständnis.
 
* Vorkenntnisse in Semantischen Technologien. Empfohlen zu Lesen: [http://www.semantic-web-book.org/page/Foundations_of_Semantic_Web_Technologies Foundations of Semantic Web Technologies].
 
* Vorkenntnisse in Semantischen Technologien. Empfohlen zu Lesen: [http://www.semantic-web-book.org/page/Foundations_of_Semantic_Web_Technologies Foundations of Semantic Web Technologies].
 
 
}}
 
}}

Aktuelle Version vom 27. Oktober 2017, 13:00 Uhr



OLAP auf Linked Open Data





Informationen zur Arbeit

Abschlussarbeitstyp: Master
Betreuer: Benedikt KämpgenAchim Rettinger
Forschungsgruppe: Wissensmanagement

Archivierungsnummer: 3585
Abschlussarbeitsstatus: Abgeschlossen
Beginn: unbekannt
Abgabe: unbekannt

Weitere Informationen

Lust auf exploratives Data Mining im Semantic Web?

Stichworte: OLAP, Linked Open Data, OLAP auf Graphdaten, Data Mining auf Web-Daten, Semantic Web

Motivation

Als Linked Open Data wird die Menge aller Daten bezeichnet, die im Web durch Semantische Technologien mit einer freien Lizenz veröffentlicht worden sind. Beispiele für enthaltene Datensätze sind DBpedia, Freebase, US Census (Für eine Übersicht, siehe the Linking Open Data cloud Diagramm) Seit mehreren Jahren wächst Linked Open Data exponentiell.

Die große und thematisch breite Menge an Linked Open Data verspricht nützliches Wissen zu erzeugen. Data-Mining-Methoden extrahieren interessante Muster aus riesigen Datenmengen.

Online Analytical Processing (OLAP) ist eine explorative Data-Mining-Methode, die sich insbesondere in der Industrie zur Analyse von Statistikdaten bewährt hat.

Vorteile von OLAP sind:

  • Bekannte konzeptuelles Modell aus Datenwürfeln (Data Cubes), Dimensionen und Kennzahlen (Measures).
  • Operationen zur explorativen Analyse von Datenwürfeln, z.B. Slice, Dice, Roll-Up, Drill-Down
  • Systematische und automatische Vorverarbeitung von Daten in wiederholbaren ETL-Prozessen
  • Optimierungstechniken zur effizienten Ausführung von OLAP-Operationen (z.B. Materialisierung)

In der Arbeit soll OLAP auf Linked Open Data erlaubt werden.

Herausforderungen

Folgende Herausforderungen gibt es beispielsweise beim Anwenden von OLAP auf Linked Open Data:

  • Milliarden von Daten.
  • Daten sind über Server verteilt.
  • Nicht relationale Daten, sondern graph-basierte Daten
  • Unsaubere Daten
  • Besondere Semantik der Daten (Inferenzen möglich)
  • Verschiedene Abstraktionslevel, z.B., Top-Level-Domänen, Domains, Datei, URI

Ziele der Arbeit

Folgende Fragestellungen sollen in der Arbeit untersucht werden:

  • Welche Kennzahlen zu Linked Open Data sind interessant?
  • Wie kann man OLAP-Operationen auf Linked Open Data ausführen?
  • Wie können OLAP-Operationen effizient ausgeführt werden?
  • Wie können Ergebnisse von OLAP-Analysen visualisiert werden?

Unterstützung:

  • Für die Arbeit kann auf leistungsstarke Server zugegriffen werden.
  • Als repräsentatives Linked Open Data kann auf das Billion Triple Challenge Dataset zurückgegriffen werden.

Benachbarte Arbeiten

Folgende Arbeiten sind beispielsweise für die Arbeit interessant (Hinweis: Arbeiten können ggf. nur im Intranet der Uni heruntergeladen werden):

Data Mining auf Linked Open Data

OLAP auf Graphdaten

Effiziente Abfrage von riesigen Datenmengen

  • Google Dremel erlaubt analytische Abfragen über mehr als 10.000 Servern und auf Petabytes von Daten in Sekunden.
  • Hadoop, Hive und MapReduce sind als Technologien geplant, um Abfragen parallelisiert auszuführen.

Voraussetzungen