Suppr超能文献

基于Unicode-8的信德语带注释文本的语言学数据集。

Unicode-8 based linguistics data set of annotated Sindhi text.

作者信息

Dootio Mazhar Ali, Wagan Asim Imdad

机构信息

Shaheed Zulifqar Ali Bhutto Institute of Science & Technology (SZABIST), Karachi, Sindh, Pakistan.

Benazir Bhutto Shaheed University Lyari, Karachi, Sindh, Pakistan.

出版信息

Data Brief. 2018 May 22;19:1504-1514. doi: 10.1016/j.dib.2018.05.062. eCollection 2018 Aug.

Abstract

Sindhi Unicode-8 based linguistics data set is multi-class and multi-featured data set. It is developed to solve the natural languages processing (NLP) and linguistics problems of Sindhi language. The data set presents information on grammatical and morphological structure of Sindhi language text as well as sentiment polarity of Sindhi lexicons. Therefore, data set may be used for information retrieving, machine translation, lexicon analysis, language modeling analysis, grammatical and morphological analysis, Semantic and sentiment analysis.

摘要

基于信德语Unicode-8的语言学数据集是一个多类别、多特征的数据集。它的开发旨在解决信德语的自然语言处理(NLP)和语言学问题。该数据集呈现了信德语语文本的语法和形态结构信息以及信德语词汇的情感极性。因此,该数据集可用于信息检索、机器翻译、词汇分析、语言建模分析、语法和形态分析、语义和情感分析。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/acd4/6139473/6671a818b3b3/gr1.jpg

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验