Stage-oe-small.jpg

Thema3585: Unterschied zwischen den Versionen

Aus Aifbportal
Wechseln zu:Navigation, Suche
Zeile 5: Zeile 5:
 
|Forschungsgruppe=Wissensmanagement
 
|Forschungsgruppe=Wissensmanagement
 
|Abschlussarbeitsstatus=Offen
 
|Abschlussarbeitsstatus=Offen
 +
|Beschreibung DE='''Lust auf exploratives Data Mining im Semantic Web?'''
 +
 +
Stichworte:
 +
 +
==Motivation==
 +
Als [http://de.wikipedia.org/wiki/Linked_Open_Data Linked Open Data] wird die Menge aller Daten bezeichnet, die im Web durch Semantische Technologien mit einer freien Lizenz veröffentlicht worden sind. Beispiele für enthaltene Datensätze sind [http://thedatahub.org/dataset/dbpedia DBpedia], [http://thedatahub.org/dataset/freebase Freebase], [http://thedatahub.org/dataset/2000-us-census-rdf US Census] (Für eine Übersicht, siehe the [http://thedatahub.org/dataset/2000-us-census-rdf Linking Open Data cloud Diagramm]) Seit mehreren Jahren wächst Linked Open Data exponentiell.
 +
 +
Die große und thematisch breite Menge an Linked Open Data verspricht nützliches Wissen zu erzeugen. Data-Mining-Methoden extrahieren interessante Muster aus riesigen Datenmengen.
 +
 +
[http://de.wikipedia.org/wiki/Online_Analytical_Processing Online Analytical Processing] (OLAP) ist eine explorative Data-Mining-Methode, die sich insbesondere in der Industrie zur Analyse von Statistikdaten bewährt hat.
 +
 +
Vorteile von OLAP sind:
 +
* Bekannte konzeptuelles Modell aus Datenwürfeln (Data Cubes), Dimensionen und Kennzahlen (Measures).
 +
* Bekannte Operationen auf Datenwürfeln, z.B. Slice, Dice, Roll-Up, Drill-Down
 +
* Systematische und automatische Vorverarbeitung von Daten in wiederholbaren ETL-Prozessen
 +
* Optimierungstechniken zur effizienten Ausführung von OLAP-Operationen
 +
 +
In der Arbeit soll OLAP auf Linked Open Data erlaubt werden.
 +
 +
==Herausforderungen==
 +
Folgende Herausforderungen gibt es beispielsweise beim Anwenden von OLAP auf Linked Open Data:
 +
 +
* Milliarden von Daten.
 +
* Daten sind über Server verteilt.
 +
* Nicht relationale Daten, sondern graph-basierte Daten
 +
* Unsaubere Daten
 +
* Besondere Semantik der Daten (Inferenzen möglich)
 +
* Verschiedene Abstraktionslevel, z.B., Top-Level-Domänen, Domains, Datei, URI
 +
 +
==Benachbarte Arbeiten==
 +
 +
==Ziele der Arbeit==
 +
 +
 
}}
 
}}

Version vom 5. Februar 2013, 17:41 Uhr



OLAP of Linked Open Data




Informationen zur Arbeit

Abschlussarbeitstyp: Master
Betreuer: Benedikt Kämpgen
Forschungsgruppe: Wissensmanagement

Archivierungsnummer: 3585
Abschlussarbeitsstatus: Offen
Beginn: unbekannt
Abgabe: unbekannt

Weitere Informationen

Lust auf exploratives Data Mining im Semantic Web?

Stichworte:

Motivation

Als Linked Open Data wird die Menge aller Daten bezeichnet, die im Web durch Semantische Technologien mit einer freien Lizenz veröffentlicht worden sind. Beispiele für enthaltene Datensätze sind DBpedia, Freebase, US Census (Für eine Übersicht, siehe the Linking Open Data cloud Diagramm) Seit mehreren Jahren wächst Linked Open Data exponentiell.

Die große und thematisch breite Menge an Linked Open Data verspricht nützliches Wissen zu erzeugen. Data-Mining-Methoden extrahieren interessante Muster aus riesigen Datenmengen.

Online Analytical Processing (OLAP) ist eine explorative Data-Mining-Methode, die sich insbesondere in der Industrie zur Analyse von Statistikdaten bewährt hat.

Vorteile von OLAP sind:

  • Bekannte konzeptuelles Modell aus Datenwürfeln (Data Cubes), Dimensionen und Kennzahlen (Measures).
  • Bekannte Operationen auf Datenwürfeln, z.B. Slice, Dice, Roll-Up, Drill-Down
  • Systematische und automatische Vorverarbeitung von Daten in wiederholbaren ETL-Prozessen
  • Optimierungstechniken zur effizienten Ausführung von OLAP-Operationen

In der Arbeit soll OLAP auf Linked Open Data erlaubt werden.

Herausforderungen

Folgende Herausforderungen gibt es beispielsweise beim Anwenden von OLAP auf Linked Open Data:

  • Milliarden von Daten.
  • Daten sind über Server verteilt.
  • Nicht relationale Daten, sondern graph-basierte Daten
  • Unsaubere Daten
  • Besondere Semantik der Daten (Inferenzen möglich)
  • Verschiedene Abstraktionslevel, z.B., Top-Level-Domänen, Domains, Datei, URI

Benachbarte Arbeiten

Ziele der Arbeit