• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

用于机器学习应用的生物医学数据的安全且可扩展收集。

Secure and Scalable Collection of Biomedical Data for Machine Learning Applications.

作者信息

Fracchia Charles

机构信息

BioBright, Boston, MA, USA.

出版信息

Methods Mol Biol. 2021;2190:317-336. doi: 10.1007/978-1-0716-0826-5_16.

DOI:10.1007/978-1-0716-0826-5_16
PMID:32804374
Abstract

Recently, digitization of biomedical processes has accelerated, in no small part due to the use of machine learning techniques which require large amounts of labeled data. This chapter focuses on the prerequisite steps to the training of any algorithm: data collection and labeling. In particular, we tackle how data collection can be set up with scalability and security to avoid costly and delaying bottlenecks. Unprecedented amounts of data are now available to companies and academics, but digital tools in the biomedical field encounter a problem of scale, since high-throughput workflows such as high content imaging and sequencing can create several terabytes per day. Consequently data transport, aggregation, and processing is challenging.A second challenge is maintenance of data security. Biomedical data can be personally identifiable, may constitute important trade-secrets, and be expensive to produce. Furthermore, human biomedical data is often immutable, as is the case with genetic information. These factors make securing this type of data imperative and urgent. Here we address best practices to achieve security, with a focus on practicality and scalability. We also address the challenge of obtaining usable, rich metadata from the collected data, which is a major challenge in the biomedical field because of the use of fragmented and proprietary formats. We detail tools and strategies for extracting metadata from biomedical scientific file formats and how this underutilized metadata plays a key role in creating labeled data for use in the training of neural networks.

摘要

近年来,生物医学流程的数字化进程加速,这在很大程度上得益于机器学习技术的应用,而机器学习技术需要大量的标注数据。本章重点介绍任何算法训练的前期步骤:数据收集和标注。特别是,我们将探讨如何以可扩展性和安全性来设置数据收集,以避免出现代价高昂且会导致延迟的瓶颈。如今,公司和学术界能够获取前所未有的大量数据,但生物医学领域的数字工具面临规模问题,因为诸如高内涵成像和测序等高通量工作流程每天可能会产生数太字节的数据。因此,数据传输、聚合和处理具有挑战性。

第二个挑战是数据安全的维护。生物医学数据可能包含个人身份信息,可能构成重要的商业机密,且生成成本高昂。此外,人类生物医学数据通常是不可变的,基因信息就是如此。这些因素使得保护这类数据变得至关重要且紧迫。在此,我们将介绍实现安全性的最佳实践,重点关注实用性和可扩展性。我们还将探讨从收集到的数据中获取可用的、丰富的元数据这一挑战,由于使用了碎片化和专有的格式,这在生物医学领域是一项重大挑战。我们详细介绍了从生物医学科学文件格式中提取元数据的工具和策略,以及这种未得到充分利用的元数据在创建用于神经网络训练的标注数据方面如何发挥关键作用。

相似文献

1
Secure and Scalable Collection of Biomedical Data for Machine Learning Applications.用于机器学习应用的生物医学数据的安全且可扩展收集。
Methods Mol Biol. 2021;2190:317-336. doi: 10.1007/978-1-0716-0826-5_16.
2
An open-source solution for advanced imaging flow cytometry data analysis using machine learning.一种使用机器学习进行高级成像流式细胞术数据分析的开源解决方案。
Methods. 2017 Jan 1;112:201-210. doi: 10.1016/j.ymeth.2016.08.018. Epub 2016 Sep 2.
3
Active learning using deep Bayesian networks for surgical workflow analysis.基于深度贝叶斯网络的主动学习在手术流程分析中的应用。
Int J Comput Assist Radiol Surg. 2019 Jun;14(6):1079-1087. doi: 10.1007/s11548-019-01963-9. Epub 2019 Apr 9.
4
SecureLR: Secure Logistic Regression Model via a Hybrid Cryptographic Protocol.SecureLR:通过混合加密协议实现安全逻辑回归模型。
IEEE/ACM Trans Comput Biol Bioinform. 2019 Jan-Feb;16(1):113-123. doi: 10.1109/TCBB.2018.2833463. Epub 2018 May 7.
5
The case of the missing data.数据缺失的情况。
Qual Health Res. 2011 Sep;21(9):1163-4. doi: 10.1177/1049732311410359.
6
Big data and machine learning algorithms for health-care delivery.大数据和机器学习算法在医疗中的应用。
Lancet Oncol. 2019 May;20(5):e262-e273. doi: 10.1016/S1470-2045(19)30149-4.
7
qPortal: A platform for data-driven biomedical research.qPortal:一个用于数据驱动型生物医学研究的平台。
PLoS One. 2018 Jan 19;13(1):e0191603. doi: 10.1371/journal.pone.0191603. eCollection 2018.
8
Extracting Biomedical Events with Parallel Multi-Pooling Convolutional Neural Networks.基于并行多池卷积神经网络的生物医学事件抽取。
IEEE/ACM Trans Comput Biol Bioinform. 2020 Mar-Apr;17(2):599-607. doi: 10.1109/TCBB.2018.2868078. Epub 2018 Aug 31.
9
Enhancing the security of patients' portals and websites by detecting malicious web crawlers using machine learning techniques.利用机器学习技术检测恶意网络爬虫,增强患者门户和网站的安全性。
Int J Med Inform. 2019 Dec;132:103976. doi: 10.1016/j.ijmedinf.2019.103976. Epub 2019 Sep 25.
10
Using Neural Networks for Relation Extraction from Biomedical Literature.基于神经网络的生物医学文献关系抽取。
Methods Mol Biol. 2021;2190:289-305. doi: 10.1007/978-1-0716-0826-5_14.