Stage-oe-small.jpg

UnarXive: Unterschied zwischen den Versionen

Aus Aifbportal
Wechseln zu:Navigation, Suche
(make title properly start with a lowercase letter)
 
(Eine dazwischenliegende Version desselben Benutzers wird nicht angezeigt)
Zeile 2: Zeile 2:
 
|Forschungsgruppe=Web Science
 
|Forschungsgruppe=Web Science
 
|name=unarXive
 
|name=unarXive
 +
|DISPLAYTITLE=unarXive
 +
|lowercase
 
|short description EN=Data set based on all publications available on arXiv.org
 
|short description EN=Data set based on all publications available on arXiv.org
 
|short description DE=Datensatz mit allen Publikationen auf arXiv.org
 
|short description DE=Datensatz mit allen Publikationen auf arXiv.org
Zeile 16: Zeile 18:
  
 
   
 
   
For citing this resource we can refer to our workshop paper "Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks," describing a preliminary version of the data set.
+
For citing this resource we can refer to our journal article "unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata" describing the data set and its creation in more detail
 
|long description DE=In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt.
 
|long description DE=In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt.
  
Zeile 26: Zeile 28:
  
  
Zum Referenzieren des Datensatzes können Sie die Publikation "Bibliometric-Enhanced arXiv: Ein Datensatz für papierbasierte und zitierbasierte Aufgaben" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.
+
Zum Referenzieren des Datensatzes können Sie die Publikation "unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.
 
|contributors=Tarek Saier;Michael Färber
 
|contributors=Tarek Saier;Michael Färber
 
|dataOrTool=Data
 
|dataOrTool=Data
 
}}
 
}}

Aktuelle Version vom 21. September 2020, 08:34 Uhr



Transparent.png

unarXive

Datensatz mit allen Publikationen auf arXiv.org


Kontaktperson: Tarek SaierMichael Färber

https://zenodo.org/record/3385851

Forschungsgruppe: Web Science

Veröffentlichungsdatum: 2019/09/30


Beschreibung

In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt. Wir schlagen einen neuen Datensatz vor, der auf allen Veröffentlichungen von arXiv.org (mit allen verfügbaren wissenschaftlichen Disziplinen) basiert. Neben der Bereitstellung der reinen Volltexte wurden Zitationsmarker im Text mit globalen Bezeichnern annotiert. Darüber hinaus wurden die zitierenden und zitierten Veröffentlichungen mit dem Microsoft Academic Graph verknüpft, um den Zugriff auf umfangreiche Metadaten zu ermöglichen. Unser Datensatz besteht aus über einer Million Dokumenten und 29,2 Millionen Zitierkontexten. Der Datensatz, der für Forschungszwecke frei zur Verfügung gestellt wird, kann nicht nur zur Evaluation von Ansätzen, die auf Veröffentlichungen und/oder Zitaten basieren, verwendet werden, sondern auch als Grundlage für neue Möglichkeiten, Zitate in Texten zu analysieren. Unter https://github.com/IllDepence/unarXive finden Sie den Quellcode, mit dem der Datensatz erstellt wurde. Zum Referenzieren des Datensatzes können Sie die Publikation "unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.


Involvierte Personen
Tarek SaierMichael Färber


Publikationen

article
Tarek Saier, Michael Färber
unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata
Scientometrics, März, 2020
(Details)


↑ top

inproceedings
Tarek Saier, Michael Färber
Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks
Proceedings of the 8th International Workshop on Bibliometric-enhanced Information Retrieval (BIR) co-located with the 41st European Conference on Information Retrieval (ECIR 2019), Seiten: 14–26, CEUR-WS, April, 2019
(Details)


↑ top


Projekte