• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

WET:大规模在线开放课程(MOOC)视频讲座数据集的词嵌入-主题分布向量

WET: Word embedding-topic distribution vectors for MOOC video lectures dataset.

作者信息

Kastrati Zenun, Kurti Arianit, Imran Ali Shariq

机构信息

Dept. of Computer Science and Media Technology, Linnaeus University, Växjö, Sweden.

Dept. of Computer Science, Norwegian University of Science and Technology, Trondheim, Norway.

出版信息

Data Brief. 2020 Jan 3;28:105090. doi: 10.1016/j.dib.2019.105090. eCollection 2020 Feb.

DOI:10.1016/j.dib.2019.105090
PMID:31921958
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC6950834/
Abstract

In this article, we present a dataset containing word embeddings and document topic distribution vectors generated from MOOCs video lecture transcripts. Transcripts of 12,032 video lectures from 200 courses were collected from Coursera learning platform. This large corpus of transcripts was used as input to two well-known NLP techniques, namely Word2Vec and Latent Dirichlet Allocation (LDA) to generate word embeddings and topic vectors, respectively. We used Word2Vec and LDA implementation in the Gensim package in Python. The data presented in this article are related to the research article entitled "Integrating word embeddings and document topics with deep learning in a video classification framework" [1]. The dataset is hosted in the Mendeley Data repository [2].

摘要

在本文中,我们展示了一个数据集,该数据集包含从大规模开放在线课程(MOOC)视频讲座转录本生成的词嵌入和文档主题分布向量。从Coursera学习平台收集了来自200门课程的12,032个视频讲座的转录本。这个庞大的转录本语料库被用作两种著名的自然语言处理(NLP)技术的输入,即Word2Vec和潜在狄利克雷分配(LDA),分别用于生成词嵌入和主题向量。我们使用了Python中Gensim包的Word2Vec和LDA实现。本文呈现的数据与题为“在视频分类框架中通过深度学习整合词嵌入和文档主题”的研究文章[1]相关。该数据集托管在Mendeley数据存储库[2]中。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/05358d9b2813/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/2a4eea2bfc4e/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/6a56479a2ddf/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/05358d9b2813/gr3.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/2a4eea2bfc4e/gr1.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/6a56479a2ddf/gr2.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/047d/6950834/05358d9b2813/gr3.jpg

相似文献

1
WET: Word embedding-topic distribution vectors for MOOC video lectures dataset.WET:大规模在线开放课程(MOOC)视频讲座数据集的词嵌入-主题分布向量
Data Brief. 2020 Jan 3;28:105090. doi: 10.1016/j.dib.2019.105090. eCollection 2020 Feb.
2
Contextual Word Embeddings and Topic Modeling in Healthy Dieting and Obesity.健康饮食与肥胖中的上下文词嵌入和主题建模
J Healthc Inform Res. 2019 Jun 10;3(2):159-183. doi: 10.1007/s41666-019-00052-5. eCollection 2019 Jun.
3
Investigating the Efficient Use of Word Embedding with Neural-Topic Models for Interpretable Topics from Short Texts.研究基于神经主题模型的词向量有效利用,以实现短文本的可解释主题。
Sensors (Basel). 2022 Jan 23;22(3):852. doi: 10.3390/s22030852.
4
Short text topic modelling using local and global word-context semantic correlation.使用局部和全局词上下文语义相关性的短文本主题建模
Multimed Tools Appl. 2023 Feb 2:1-23. doi: 10.1007/s11042-023-14352-x.
5
Gaussian hierarchical latent Dirichlet allocation: Bringing polysemy back.高斯层次潜在狄利克雷分配:使多义性回归。
PLoS One. 2023 Jul 12;18(7):e0288274. doi: 10.1371/journal.pone.0288274. eCollection 2023.
6
Projection Word Embedding Model With Hybrid Sampling Training for Classifying ICD-10-CM Codes: Longitudinal Observational Study.用于对ICD-10-CM编码进行分类的混合采样训练投影词嵌入模型:纵向观察研究
JMIR Med Inform. 2019 Jul 23;7(3):e14499. doi: 10.2196/14499.
7
A Method of Short Text Representation Based on the Feature Probability Embedded Vector.一种基于特征概率嵌入向量的短文本表示方法。
Sensors (Basel). 2019 Aug 28;19(17):3728. doi: 10.3390/s19173728.
8
Can MOOC Instructor Be Portrayed by Semantic Features? Using Discourse and Clustering Analysis to Identify Lecture-Style of Instructors in MOOCs.慕课教师能否通过语义特征来刻画?运用话语和聚类分析识别慕课中教师的授课风格。
Front Psychol. 2021 Sep 14;12:751492. doi: 10.3389/fpsyg.2021.751492. eCollection 2021.
9
Use of word and graph embedding to measure semantic relatedness between Unified Medical Language System concepts.使用词和图嵌入来衡量统一医学语言系统概念之间的语义相关性。
J Am Med Inform Assoc. 2020 Oct 1;27(10):1538-1546. doi: 10.1093/jamia/ocaa136.
10
Improving the Polarity of Text through word2vec Embedding for Primary Classical Arabic Sentiment Analysis.通过词向量嵌入提高文本极性用于初级古典阿拉伯语情感分析
Neural Process Lett. 2023 Jan 23:1-16. doi: 10.1007/s11063-022-11111-1.

引用本文的文献

1
Mapping the Bibliometrics Landscape of AI in Medicine: Methodological Study.人工智能在医学中的文献计量学图谱绘制:方法研究。
J Med Internet Res. 2023 Dec 8;25:e45815. doi: 10.2196/45815.
2
Application of Massive Open Online Course to Grammar Teaching for English Majors Based on Deep Learning.基于深度学习的大规模在线开放课程在英语专业语法教学中的应用
Front Psychol. 2022 Jan 7;12:755043. doi: 10.3389/fpsyg.2021.755043. eCollection 2021.