• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

重尾核在t-SNE可视化中揭示了更精细的聚类结构。

Heavy-tailed kernels reveal a finer cluster structure in t-SNE visualisations.

作者信息

Kobak Dmitry, Linderman George, Steinerberger Stefan, Kluger Yuval, Berens Philipp

机构信息

Institute for Ophthalmic Research, University of Tübingen, Germany.

Applied Mathematics Program, Yale University, New Haven, USA.

出版信息

Mach Learn Knowl Discov Databases. 2020;11906:124-139. doi: 10.1007/978-3-030-46150-8_8. Epub 2020 Apr 30.

DOI:10.1007/978-3-030-46150-8_8
PMID:33103160
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC7582035/
Abstract

T-distributed stochastic neighbour embedding (t-SNE) is a widely used data visualisation technique. It differs from its predecessor SNE by the low-dimensional similarity kernel: the Gaussian kernel was replaced by the heavy-tailed Cauchy kernel, solving the 'crowding problem' of SNE. Here, we develop an efficient implementation of t-SNE for a t-distribution kernel with an arbitrary degree of freedom , with → ∞ corresponding to SNE and = 1 corresponding to the standard t-SNE. Using theoretical analysis and toy examples, we show that < 1 can further reduce the crowding problem and reveal finer cluster structure that is invisible in standard t-SNE. We further demonstrate the striking effect of heavier-tailed kernels on large real-life data sets such as MNIST, single-cell RNA-sequencing data, and the HathiTrust library. We use domain knowledge to confirm that the revealed clusters are meaningful. Overall, we argue that modifying the tail heaviness of the t-SNE kernel can yield additional insight into the cluster structure of the data.

摘要

T分布随机邻域嵌入(t-SNE)是一种广泛使用的数据可视化技术。它与其前身SNE的不同之处在于低维相似性核:高斯核被重尾柯西核所取代,解决了SNE的“拥挤问题”。在此,我们针对具有任意自由度的t分布核开发了一种高效的t-SNE实现,其中 → ∞ 对应于SNE,而 = 1 对应于标准t-SNE。通过理论分析和示例,我们表明 < 1 可以进一步减少拥挤问题,并揭示标准t-SNE中不可见的更精细的聚类结构。我们进一步展示了重尾核在MNIST、单细胞RNA测序数据和哈钦斯信托图书馆等大型现实生活数据集上的显著效果。我们利用领域知识来确认所揭示的聚类是有意义的。总体而言,我们认为修改t-SNE核的尾部厚重程度可以对数据的聚类结构产生额外的见解。

相似文献

1
Heavy-tailed kernels reveal a finer cluster structure in t-SNE visualisations.重尾核在t-SNE可视化中揭示了更精细的聚类结构。
Mach Learn Knowl Discov Databases. 2020;11906:124-139. doi: 10.1007/978-3-030-46150-8_8. Epub 2020 Apr 30.
2
Shape-aware stochastic neighbor embedding for robust data visualisations.形状感知随机近邻嵌入的稳健数据可视化。
BMC Bioinformatics. 2022 Nov 14;23(1):477. doi: 10.1186/s12859-022-05028-8.
3
The art of using t-SNE for single-cell transcriptomics.使用 t-SNE 进行单细胞转录组学分析的艺术。
Nat Commun. 2019 Nov 28;10(1):5416. doi: 10.1038/s41467-019-13056-x.
4
GPGPU Linear Complexity t-SNE Optimization.通用并行图形处理单元线性复杂度t-SNE优化
IEEE Trans Vis Comput Graph. 2020 Jan;26(1):1172-1181. doi: 10.1109/TVCG.2019.2934307. Epub 2019 Aug 23.
5
Dimensionality reduction and visualisation of hyperspectral ink data using t-SNE.使用 t-SNE 对高光谱墨水数据进行降维和可视化。
Forensic Sci Int. 2020 Jun;311:110194. doi: 10.1016/j.forsciint.2020.110194. Epub 2020 Feb 12.
6
Using Global t-SNE to Preserve Intercluster Data Structure.使用全局 t-SNE 保持簇间数据结构。
Neural Comput. 2022 Jul 14;34(8):1637-1651. doi: 10.1162/neco_a_01504.
7
Multi-view data visualisation manifold learning.多视图数据可视化 流形学习
PeerJ Comput Sci. 2024 May 24;10:e1993. doi: 10.7717/peerj-cs.1993. eCollection 2024.
8
Self-Organizing Nebulous Growths for Robust and Incremental Data Visualization.用于稳健且增量式数据可视化的自组织星云状生长
IEEE Trans Neural Netw Learn Syst. 2021 Oct;32(10):4588-4602. doi: 10.1109/TNNLS.2020.3023941. Epub 2021 Oct 5.
9
Hyperspectral Image-Based Variety Classification of Waxy Maize Seeds by the t-SNE Model and Procrustes Analysis.基于 t-SNE 模型和 Procrustes 分析的糯玉米种子高光谱图像品种分类。
Sensors (Basel). 2018 Dec 11;18(12):4391. doi: 10.3390/s18124391.
10
A Preprocessing Manifold Learning Strategy Based on t-Distributed Stochastic Neighbor Embedding.一种基于t分布随机邻域嵌入的预处理流形学习策略
Entropy (Basel). 2023 Jul 14;25(7):1065. doi: 10.3390/e25071065.

引用本文的文献

1
Application of machine learning techniques for warfarin dosage prediction: a case study on the MIMIC-III dataset.机器学习技术在华法林剂量预测中的应用:以MIMIC-III数据集为例的研究
PeerJ Comput Sci. 2025 Jan 2;11:e2612. doi: 10.7717/peerj-cs.2612. eCollection 2025.
2
Visual Clustering of Transcriptomic Data from Primary and Metastatic Tumors-Dependencies and Novel Pitfalls.原发性和转移性肿瘤转录组数据的可视化聚类——相关性和新的陷阱。
Genes (Basel). 2022 Jul 26;13(8):1335. doi: 10.3390/genes13081335.
3
The art of using t-SNE for single-cell transcriptomics.使用 t-SNE 进行单细胞转录组学分析的艺术。
Nat Commun. 2019 Nov 28;10(1):5416. doi: 10.1038/s41467-019-13056-x.

本文引用的文献

1
Automated optimized parameters for T-distributed stochastic neighbor embedding improve visualization and analysis of large datasets.自动优化的 T 分布随机近邻嵌入参数可改善大数据集的可视化和分析。
Nat Commun. 2019 Nov 28;10(1):5415. doi: 10.1038/s41467-019-13055-y.
2
The art of using t-SNE for single-cell transcriptomics.使用 t-SNE 进行单细胞转录组学分析的艺术。
Nat Commun. 2019 Nov 28;10(1):5416. doi: 10.1038/s41467-019-13056-x.
3
Fast interpolation-based t-SNE for improved visualization of single-cell RNA-seq data.基于快速插值的 t-SNE 用于改善单细胞 RNA-seq 数据的可视化。
Nat Methods. 2019 Mar;16(3):243-245. doi: 10.1038/s41592-018-0308-4. Epub 2019 Feb 11.
4
Shared and distinct transcriptomic cell types across neocortical areas.不同脑区共有的和独特的转录组细胞类型。
Nature. 2018 Nov;563(7729):72-78. doi: 10.1038/s41586-018-0654-5. Epub 2018 Oct 31.
5
Molecular Architecture of the Mouse Nervous System.小鼠神经系统的分子结构。
Cell. 2018 Aug 9;174(4):999-1014.e22. doi: 10.1016/j.cell.2018.06.021.
6
viSNE enables visualization of high dimensional single-cell data and reveals phenotypic heterogeneity of leukemia.viSNE 能够可视化高维单细胞数据,并揭示白血病的表型异质性。
Nat Biotechnol. 2013 Jun;31(6):545-52. doi: 10.1038/nbt.2594. Epub 2013 May 19.