• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

相似文献

1
Dataset for studying gender disparity in English literary texts.用于研究英语文学文本中性别差异的数据集。
Data Brief. 2022 Feb 2;41:107905. doi: 10.1016/j.dib.2022.107905. eCollection 2022 Apr.
2
Balinese story texts dataset for narrative text analyses.用于叙事文本分析的巴厘岛故事文本数据集。
Data Brief. 2024 Aug 8;56:110781. doi: 10.1016/j.dib.2024.110781. eCollection 2024 Oct.
3
A learner corpus is born this way: From raw data to processed dataset.学习者语料库是这样产生的:从原始数据到经过处理的数据集。
Data Brief. 2022 Aug 8;44:108527. doi: 10.1016/j.dib.2022.108527. eCollection 2022 Oct.
4
A Standardized Project Gutenberg Corpus for Statistical Analysis of Natural Language and Quantitative Linguistics.一个用于自然语言统计分析和定量语言学的标准化古登堡计划语料库。
Entropy (Basel). 2020 Jan 20;22(1):126. doi: 10.3390/e22010126.
5
A bi-annotated Malay-English code-switching (Manglish) dataset of X posts for biological gender identification and authorship attribution.一个用于生物性别识别和作者身份归属的包含X篇帖子的双注释马来语-英语语码转换(马式英语)数据集。
Data Brief. 2024 Jan 8;52:110034. doi: 10.1016/j.dib.2024.110034. eCollection 2024 Feb.
6
Inventory of tools for Dutch clinical language processing.荷兰临床语言处理工具清单。
Stud Health Technol Inform. 2012;180:245-9.
7
Advanced Data Analytics for Clinical Research Part II: Application to Cardiothoracic Surgery.临床研究的高级数据分析 第二部分:在心胸外科的应用。
Innovations (Phila). 2020 Mar/Apr;15(2):155-162. doi: 10.1177/1556984520902824. Epub 2020 Feb 28.
8
Automatically Detecting Failures in Natural Language Processing Tools for Online Community Text.自动检测在线社区文本自然语言处理工具中的故障。
J Med Internet Res. 2015 Aug 31;17(8):e212. doi: 10.2196/jmir.4612.
9
Parallel texts dataset for Uzbek-Kazakh machine translation.乌兹别克语-哈萨克语机器翻译的平行文本数据集。
Data Brief. 2024 Feb 15;53:110194. doi: 10.1016/j.dib.2024.110194. eCollection 2024 Apr.
10
An open dataset for oracle bone character recognition and decipherment.甲骨文识别与破译开放数据集。
Sci Data. 2024 Sep 6;11(1):976. doi: 10.1038/s41597-024-03807-x.

引用本文的文献

1
Balinese story texts dataset for narrative text analyses.用于叙事文本分析的巴厘岛故事文本数据集。
Data Brief. 2024 Aug 8;56:110781. doi: 10.1016/j.dib.2024.110781. eCollection 2024 Oct.

用于研究英语文学文本中性别差异的数据集。

Dataset for studying gender disparity in English literary texts.

作者信息

Nagaraj Akarsh, Kejriwal Mayank

机构信息

University of Southern California, Information Sciences Institute, 4676 Admiralty Way, Suite 1001, Marina del Rey 90292 CA, United States.

出版信息

Data Brief. 2022 Feb 2;41:107905. doi: 10.1016/j.dib.2022.107905. eCollection 2022 Apr.

DOI:10.1016/j.dib.2022.107905
PMID:35198684
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8842022/
Abstract

Recent discourse has highlighted significant gender disparity in many aspects of economic, social and cultural life. With the advent of advanced tools in Artificial Intelligence (AI) and Natural Language Processing (NLP), there is an opportunity to use computational and digital tools to analyze corpora, such as copyright-expired literature in the pre-modern period (defined herein as books published approximately between 1800 and 1950) from the Project Gutenberg corpus. Nevertheless, there are challenges in using such tools, especially for maintaining high-enough quality to explore interesting hypotheses. We present a dataset and materials that illustrate how modern processes in NLP can be used on the raw text of more than 3,000 literary texts in Project Gutenberg to (i) extract characters and pronouns from the text with high quality, (ii) disambiguate characters so that they are not overcounted, (iii) detect the gender of each character. Furthermore, we also used manual labeling to determine the genders of authors who have published these texts, and published the labels as part of the dataset to facilitate future digital humanities research.

摘要

近期的论述突出了经济、社会和文化生活诸多方面存在的显著性别差异。随着人工智能(AI)和自然语言处理(NLP)先进工具的出现,有机会利用计算和数字工具来分析语料库,比如古登堡计划语料库中前现代时期(本文定义为大约在1800年至1950年间出版的书籍)版权已过期的文献。然而,使用此类工具存在挑战,尤其是要保持足够高的质量以探究有趣的假设。我们展示了一个数据集和相关材料,阐述了如何将NLP的现代方法应用于古登堡计划中3000多篇文学文本的原始文本,以(i)高质量地从文本中提取人物和代词,(ii)消除人物歧义,使其不被重复计算,(iii)检测每个人物的性别。此外,我们还通过人工标注来确定发表这些文本的作者的性别,并将这些标注作为数据集的一部分发布,以促进未来的数字人文研究。