Stage-oe-small.jpg

UnarXive: Unterschied zwischen den Versionen

Aus Aifbportal
Wechseln zu:Navigation, Suche
(Die Seite wurde neu angelegt: „{{DataOrTool |Forschungsgruppe=Web Science |name=unarXive |short description EN=Data set based on all publications available on arXiv.org |short description DE…“)
 
Zeile 8: Zeile 8:
 
|publication date=2019/09/30
 
|publication date=2019/09/30
 
|long description EN=In recent years, scholarly data sets have been used for various purposes, such as paper recommendation, citation recommendation, citation context analysis, and citation context-based document summarization. The evaluation of approaches to such tasks and their applicability in real-world scenarios heavily depend on the used data set. However, existing scholarly data sets are limited in several regards.
 
|long description EN=In recent years, scholarly data sets have been used for various purposes, such as paper recommendation, citation recommendation, citation context analysis, and citation context-based document summarization. The evaluation of approaches to such tasks and their applicability in real-world scenarios heavily depend on the used data set. However, existing scholarly data sets are limited in several regards.
 +
  
 
We propose a new data set based on all publications from all scientific disciplines available on arXiv.org. Apart from providing the papers' plain text, in-text citations were annotated via global identifiers. Furthermore, citing and cited publications were linked to the Microsoft Academic Graph, providing access to rich metadata. Our data set consists of over one million documents and 29.2 million citation contexts. The data set, which is made freely available for research purposes, not only can enhance the future evaluation of research paper-based and citation context-based approaches, but also serve as a basis for new ways to analyze in-text citations.
 
We propose a new data set based on all publications from all scientific disciplines available on arXiv.org. Apart from providing the papers' plain text, in-text citations were annotated via global identifiers. Furthermore, citing and cited publications were linked to the Microsoft Academic Graph, providing access to rich metadata. Our data set consists of over one million documents and 29.2 million citation contexts. The data set, which is made freely available for research purposes, not only can enhance the future evaluation of research paper-based and citation context-based approaches, but also serve as a basis for new ways to analyze in-text citations.
 +
  
 
See https://github.com/IllDepence/unarXive for the source code which has been used for creating the data set.
 
See https://github.com/IllDepence/unarXive for the source code which has been used for creating the data set.
 +
 
   
 
   
 
For citing this resource we can refer to our workshop paper "Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks," describing a preliminary version of the data set.
 
For citing this resource we can refer to our workshop paper "Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks," describing a preliminary version of the data set.
 
|long description DE=In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt.
 
|long description DE=In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt.
 +
  
 
Wir schlagen einen neuen Datensatz vor, der auf allen Veröffentlichungen von arXiv.org (mit allen verfügbaren wissenschaftlichen Disziplinen) basiert. Neben der Bereitstellung der reinen Volltexte wurden Zitationsmarker im Text mit globalen Bezeichnern annotiert. Darüber hinaus wurden die zitierenden und zitierten Veröffentlichungen mit dem Microsoft Academic Graph verknüpft, um den Zugriff auf umfangreiche Metadaten zu ermöglichen. Unser Datensatz besteht aus über einer Million Dokumenten und 29,2 Millionen Zitierkontexten. Der Datensatz, der für Forschungszwecke frei zur Verfügung gestellt wird, kann nicht nur zur Evaluation von Ansätzen, die auf Veröffentlichungen und/oder Zitaten basieren, verwendet werden, sondern auch als Grundlage für neue Möglichkeiten, Zitate in Texten zu analysieren.
 
Wir schlagen einen neuen Datensatz vor, der auf allen Veröffentlichungen von arXiv.org (mit allen verfügbaren wissenschaftlichen Disziplinen) basiert. Neben der Bereitstellung der reinen Volltexte wurden Zitationsmarker im Text mit globalen Bezeichnern annotiert. Darüber hinaus wurden die zitierenden und zitierten Veröffentlichungen mit dem Microsoft Academic Graph verknüpft, um den Zugriff auf umfangreiche Metadaten zu ermöglichen. Unser Datensatz besteht aus über einer Million Dokumenten und 29,2 Millionen Zitierkontexten. Der Datensatz, der für Forschungszwecke frei zur Verfügung gestellt wird, kann nicht nur zur Evaluation von Ansätzen, die auf Veröffentlichungen und/oder Zitaten basieren, verwendet werden, sondern auch als Grundlage für neue Möglichkeiten, Zitate in Texten zu analysieren.
 +
  
 
Unter https://github.com/IllDepence/unarXive finden Sie den Quellcode, mit dem der Datensatz erstellt wurde.
 
Unter https://github.com/IllDepence/unarXive finden Sie den Quellcode, mit dem der Datensatz erstellt wurde.
 +
  
 
Zum Referenzieren des Datensatzes können Sie die Publikation "Bibliometric-Enhanced arXiv: Ein Datensatz für papierbasierte und zitierbasierte Aufgaben" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.
 
Zum Referenzieren des Datensatzes können Sie die Publikation "Bibliometric-Enhanced arXiv: Ein Datensatz für papierbasierte und zitierbasierte Aufgaben" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.

Version vom 17. November 2019, 09:11 Uhr



Transparent.png

unarXive

Datensatz mit allen Publikationen auf arXiv.org


Kontaktperson: Tarek SaierMichael Färber

https://zenodo.org/record/3385851

Forschungsgruppe: Web Science

Veröffentlichungsdatum: 2019/09/30


Beschreibung

In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt. Wir schlagen einen neuen Datensatz vor, der auf allen Veröffentlichungen von arXiv.org (mit allen verfügbaren wissenschaftlichen Disziplinen) basiert. Neben der Bereitstellung der reinen Volltexte wurden Zitationsmarker im Text mit globalen Bezeichnern annotiert. Darüber hinaus wurden die zitierenden und zitierten Veröffentlichungen mit dem Microsoft Academic Graph verknüpft, um den Zugriff auf umfangreiche Metadaten zu ermöglichen. Unser Datensatz besteht aus über einer Million Dokumenten und 29,2 Millionen Zitierkontexten. Der Datensatz, der für Forschungszwecke frei zur Verfügung gestellt wird, kann nicht nur zur Evaluation von Ansätzen, die auf Veröffentlichungen und/oder Zitaten basieren, verwendet werden, sondern auch als Grundlage für neue Möglichkeiten, Zitate in Texten zu analysieren. Unter https://github.com/IllDepence/unarXive finden Sie den Quellcode, mit dem der Datensatz erstellt wurde. Zum Referenzieren des Datensatzes können Sie die Publikation "Bibliometric-Enhanced arXiv: Ein Datensatz für papierbasierte und zitierbasierte Aufgaben" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.


Involvierte Personen
Tarek SaierMichael Färber


Publikationen

article
Tarek Saier, Michael Färber, Tornike Tsereteli
Cross-Lingual Citations in English Papers: A Large-Scale Analysis of Prevalence, Usage, and Impact
International Journal on Digital Libraries, 23, (2), Seiten 179–195, Dezember, 2021
(Details)


Tarek Saier, Michael Färber
unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata
Scientometrics, März, 2020
(Details)


↑ top

inproceedings
Tarek Saier, Michael Färber
Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks
Proceedings of the 8th International Workshop on Bibliometric-enhanced Information Retrieval (BIR) co-located with the 41st European Conference on Information Retrieval (ECIR 2019), Seiten: 14–26, CEUR-WS, April, 2019
(Details)


↑ top


Projekte