基于Unicode-8的信德语带注释文本的语言学数据集。

Unicode-8 based linguistics data set of annotated Sindhi text.

作者信息

Dootio Mazhar Ali, Wagan Asim Imdad

机构信息

Shaheed Zulifqar Ali Bhutto Institute of Science & Technology (SZABIST), Karachi, Sindh, Pakistan.

Benazir Bhutto Shaheed University Lyari, Karachi, Sindh, Pakistan.

出版信息

Data Brief. 2018 May 22;19:1504-1514. doi: 10.1016/j.dib.2018.05.062. eCollection 2018 Aug.

DOI:10.1016/j.dib.2018.05.062

PMID:30225294

原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6139473/

Abstract

Sindhi Unicode-8 based linguistics data set is multi-class and multi-featured data set. It is developed to solve the natural languages processing (NLP) and linguistics problems of Sindhi language. The data set presents information on grammatical and morphological structure of Sindhi language text as well as sentiment polarity of Sindhi lexicons. Therefore, data set may be used for information retrieving, machine translation, lexicon analysis, language modeling analysis, grammatical and morphological analysis, Semantic and sentiment analysis.

摘要

基于信德语Unicode-8的语言学数据集是一个多类别、多特征的数据集。它的开发旨在解决信德语的自然语言处理（NLP）和语言学问题。该数据集呈现了信德语语文本的语法和形态结构信息以及信德语词汇的情感极性。因此，该数据集可用于信息检索、机器翻译、词汇分析、语言建模分析、语法和形态分析、语义和情感分析。