• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

人口活动数据的升尺度处理:一种统计生态学方法。

Upscaling human activity data: A statistical ecology approach.

机构信息

Dipartimento di Fisica e Astronomia "Galileo Galilei", Istituto Nazionale di Fisica Nucleare, Università degli Studi di Padova, Padova, Italy.

Dipartimento di Matematica "Tullio Levi-Civita", Università degli Studi di Padova, Padova, Italy.

出版信息

PLoS One. 2021 Jul 1;16(7):e0253461. doi: 10.1371/journal.pone.0253461. eCollection 2021.

DOI:10.1371/journal.pone.0253461
PMID:34197484
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC8248688/
Abstract

Big data require new techniques to handle the information they come with. Here we consider four datasets (email communication, Twitter posts, Wikipedia articles and Gutenberg books) and propose a novel statistical framework to predict global statistics from random samples. More precisely, we infer the number of senders, hashtags and words of the whole dataset and how their abundances (i.e. the popularity of a hashtag) change through scales from a small sample of sent emails per sender, posts per hashtag and word occurrences. Our approach is grounded on statistical ecology as we map inference of human activities into the unseen species problem in biodiversity. Our findings may have applications to resource management in emails, collective attention monitoring in Twitter and language learning process in word databases.

摘要

大数据需要新的技术来处理其所带来的信息。在这里,我们考虑了四个数据集(电子邮件通信、Twitter 帖子、维基百科文章和古腾堡书籍),并提出了一个新颖的统计框架,以便从随机样本中预测全局统计数据。更准确地说,我们从每个发件人发送的少量电子邮件、每个标签的帖子和单词出现次数中,推断出整个数据集的发件人数量、标签和单词数量,以及它们的丰度(即标签的流行度)如何随尺度变化。我们的方法基于统计生态学,因为我们将人类活动的推断映射到生物多样性中看不见的物种问题中。我们的发现可能适用于电子邮件中的资源管理、Twitter 中的集体注意力监测以及单词数据库中的语言学习过程。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/2d9cf81363d8/pone.0253461.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/86d345606dbf/pone.0253461.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/f2b6dbdf0963/pone.0253461.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/2d9cf81363d8/pone.0253461.g003.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/86d345606dbf/pone.0253461.g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/f2b6dbdf0963/pone.0253461.g002.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/0892/8248688/2d9cf81363d8/pone.0253461.g003.jpg

相似文献

1
Upscaling human activity data: A statistical ecology approach.人口活动数据的升尺度处理:一种统计生态学方法。
PLoS One. 2021 Jul 1;16(7):e0253461. doi: 10.1371/journal.pone.0253461. eCollection 2021.
2
Link prediction on Twitter.推特上的链接预测。
PLoS One. 2017 Jul 18;12(7):e0181079. doi: 10.1371/journal.pone.0181079. eCollection 2017.
3
Qualitative and quantitative evaluation of the use of Twitter as a tool of antimicrobial stewardship.定性和定量评估 Twitter 在抗菌药物管理中的应用。
Int J Med Inform. 2019 Nov;131:103955. doi: 10.1016/j.ijmedinf.2019.103955. Epub 2019 Aug 20.
4
Content shared on social media for national cancer survivors day 2018.2018 年全国癌症幸存者日分享的社交媒体内容。
PLoS One. 2020 Jan 15;15(1):e0226194. doi: 10.1371/journal.pone.0226194. eCollection 2020.
5
Electronic and Social Media-based Radiology Learning Initiative: Development, Implementation, Viewership Trends, and Assessment at 1 Year.电子和社交媒体为基础的放射学学习计划:1 年的发展、实施、收视率趋势和评估。
Acad Radiol. 2018 Jun;25(6):687-698. doi: 10.1016/j.acra.2017.11.025.
6
#Covid-19: An exploratory investigation of hashtag usage on Twitter.Covid-19:推特话题标签使用情况的探索性调查。
Health Policy. 2021 Apr;125(4):541-547. doi: 10.1016/j.healthpol.2021.01.001. Epub 2021 Jan 9.
7
The Effect of Social Network Size on Hashtag Adoption on Twitter.社交网络规模对推特上主题标签使用的影响。
Cogn Sci. 2018 Nov;42(8):3149-3158. doi: 10.1111/cogs.12675. Epub 2018 Sep 21.
8
The Food, Feelings, and Family Study: comparison of the efficacy of traditional methods, social media, and broadcast email to recruit pregnant women to an observational, longitudinal nutrition study.食物、情感与家庭研究:传统方法、社交媒体和群发电子邮件在招募孕妇参与一项观察性纵向营养研究中的效果比较
BMC Pregnancy Childbirth. 2021 Mar 12;21(1):203. doi: 10.1186/s12884-021-03680-1.
9
How Facebook, Twitter and other data troves are revolutionizing social science.脸书、推特及其他数据宝库如何正在彻底改变社会科学。
Nature. 2020 Jun;582(7812):328-330. doi: 10.1038/d41586-020-01747-1.
10
Upscaling Statistical Patterns from Reduced Storage in Social and Life Science Big Datasets.从社会与生命科学大数据集的精简存储中提升统计模式。
Entropy (Basel). 2020 Sep 26;22(10):1084. doi: 10.3390/e22101084.

引用本文的文献

1
Deviation from neutral species abundance distributions unveils geographical differences in the structure of diatom communities.偏离中性种丰度分布揭示了硅藻群落结构的地理差异。
Sci Adv. 2024 Mar 8;10(10):eadh0477. doi: 10.1126/sciadv.adh0477.
2
Upscaling Statistical Patterns from Reduced Storage in Social and Life Science Big Datasets.从社会与生命科学大数据集的精简存储中提升统计模式。
Entropy (Basel). 2020 Sep 26;22(10):1084. doi: 10.3390/e22101084.

本文引用的文献

1
Maximum Entropy Theory of Ecology: A Reply to Harte.生态学的最大熵理论:对哈特尔的回应。
Entropy (Basel). 2018 Apr 24;20(5):308. doi: 10.3390/e20050308.
2
Remarks on the Maximum Entropy Principle with Application to the Maximum Entropy Theory of Ecology.关于最大熵原理及其在生态最大熵理论中的应用的评论
Entropy (Basel). 2017 Dec 27;20(1):11. doi: 10.3390/e20010011.
3
Accelerating dynamics of collective attention.集体关注的加速动力学。
Nat Commun. 2019 Apr 15;10(1):1759. doi: 10.1038/s41467-019-09311-w.
4
Upscaling species richness and abundances in tropical forests.热带森林物种丰富度和丰度的升尺度研究。
Sci Adv. 2017 Oct 18;3(10):e1701438. doi: 10.1126/sciadv.1701438. eCollection 2017 Oct.
5
Waves of novelties in the expansion into the adjacent possible.在向相邻可能性扩展过程中的新奇浪潮。
PLoS One. 2017 Jun 8;12(6):e0179303. doi: 10.1371/journal.pone.0179303. eCollection 2017.
6
Identifying and modeling the structural discontinuities of human interactions.识别和建模人类交互的结构不连续性。
Sci Rep. 2017 Apr 26;7:46677. doi: 10.1038/srep46677.
7
Emergence of consensus as a modular-to-nested transition in communication dynamics.共识的出现是沟通动态中从模块化到嵌套化的转变。
Sci Rep. 2017 Jan 30;7:41673. doi: 10.1038/srep41673.
8
Optimal prediction of the number of unseen species.未观测物种数量的最优预测
Proc Natl Acad Sci U S A. 2016 Nov 22;113(47):13283-13288. doi: 10.1073/pnas.1607774113. Epub 2016 Nov 8.
9
Quantifying the evolution of individual scientific impact.量化个体科学影响力的演变。
Science. 2016 Nov 4;354(6312). doi: 10.1126/science.aaf5239.
10
Scaling identity connects human mobility and social interactions.规模认同将人类流动性与社会互动联系起来。
Proc Natl Acad Sci U S A. 2016 Jun 28;113(26):7047-52. doi: 10.1073/pnas.1525443113. Epub 2016 Jun 6.