• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

文本分类性能:样本量是唯一需要考虑的因素吗?

Text classification performance: is the sample size the only factor to be considered?

作者信息

Figueroa Rosa L, Zeng-Treitler Qing

机构信息

Departamento de Ingeniería Eléctrica, Facultad de Ingeniería, Universidad de Concepción, Chile.

出版信息

Stud Health Technol Inform. 2013;192:1193.

PMID:23920967
Abstract

The use of text mining and supervised machine learning algorithms on biomedical databases has become increasingly common. However, a question remains: How much data must be annotated to create a suitable training set for a machine learning classifier? In prior research with active learning in medical text classification, we found evidence that not only sample size but also some of the intrinsic characteristics of the texts being analyzed-such as the size of the vocabulary and the length of a document-may also influence the resulting classifier's performance. This study is an attempt to create a regression model to predict performance based on sample size and other text features. While the model needs to be trained on existing datasets, we believe it is feasible to predict performance without obtaining annotations from new datasets once the model is built.

摘要

在生物医学数据库上使用文本挖掘和监督式机器学习算法已变得越来越普遍。然而,一个问题仍然存在:为机器学习分类器创建合适的训练集必须标注多少数据?在先前关于医学文本分类中主动学习的研究中,我们发现证据表明,不仅样本大小,而且被分析文本的一些内在特征——如词汇量大小和文档长度——也可能影响最终分类器的性能。本研究试图创建一个回归模型,以基于样本大小和其他文本特征预测性能。虽然该模型需要在现有数据集上进行训练,但我们相信,一旦模型构建完成,无需从新数据集中获取标注就可以预测性能。

相似文献

1
Text classification performance: is the sample size the only factor to be considered?文本分类性能:样本量是唯一需要考虑的因素吗?
Stud Health Technol Inform. 2013;192:1193.
2
Key-phrase based classification of public health web pages.基于关键短语的公共卫生网页分类。
Stud Health Technol Inform. 2013;192:1133.
3
POSBIOTM-NER: a trainable biomedical named-entity recognition system.POSBIOTM-NER:一个可训练的生物医学命名实体识别系统。
Bioinformatics. 2005 Jun 1;21(11):2794-6. doi: 10.1093/bioinformatics/bti414. Epub 2005 Apr 6.
4
Using text prediction for facilitating input and improving readability of clinical text.利用文本预测来促进临床文本的输入并提高其可读性。
Stud Health Technol Inform. 2013;192:1149.
5
Building a common pipeline for rule-based document classification.构建用于基于规则的文档分类的通用管道。
Stud Health Technol Inform. 2013;192:1211.
6
Text categorization of biomedical data sets using graph kernels and a controlled vocabulary.使用图核和受控词汇对生物医学数据集进行文本分类。
IEEE/ACM Trans Comput Biol Bioinform. 2013 Sep-Oct;10(5):1211-7. doi: 10.1109/TCBB.2013.16.
7
Exploring supervised and unsupervised methods to detect topics in biomedical text.探索用于检测生物医学文本主题的监督和无监督方法。
BMC Bioinformatics. 2006 Mar 16;7:140. doi: 10.1186/1471-2105-7-140.
8
Statistical text classifier to detect specific type of medical incidents.用于检测特定类型医疗事件的统计文本分类器。
Stud Health Technol Inform. 2013;192:1053.
9
Multi-focus cluster labeling.多焦点聚类标注
J Biomed Inform. 2015 Jun;55:116-23. doi: 10.1016/j.jbi.2015.03.012. Epub 2015 Apr 11.
10
A method for verifying a vector-based text classification system.一种验证基于向量的文本分类系统的方法。
AMIA Annu Symp Proc. 2008 Nov 6:1030.