Suppr超能文献

在合成数据中保留缺失数据分布

Preserving Missing Data Distribution in Synthetic Data.

作者信息

Wang Xinyue, Asif Hafiz, Vaidya Jaideep

机构信息

Rutgers University, Newark, USA.

出版信息

Proc Int World Wide Web Conf. 2023 Apr-May;2023:2110-2121. doi: 10.1145/3543507.3583297. Epub 2023 Apr 30.

Abstract

Data from Web artifacts and from the Web is often sensitive and cannot be directly shared for data analysis. Therefore, synthetic data generated from the real data is increasingly used as a privacy-preserving substitute. In many cases, real data from the web has missing values where the missingness itself possesses important informational content, which domain experts leverage to improve their analysis. However, this information content is lost if either imputation or deletion is used before synthetic data generation. In this paper, we propose several methods to generate synthetic data that preserve both the observable and the missing data distributions. An extensive empirical evaluation over a range of carefully fabricated and real world datasets demonstrates the effectiveness of our approach.

摘要

来自网络工件和网络的数据通常很敏感,不能直接共享用于数据分析。因此,从真实数据生成的合成数据越来越多地被用作隐私保护替代品。在许多情况下,来自网络的真实数据存在缺失值,而缺失值本身就包含重要的信息内容,领域专家会利用这些信息来改进他们的分析。然而,如果在合成数据生成之前使用插补或删除方法,这些信息内容就会丢失。在本文中,我们提出了几种生成合成数据的方法,这些方法既能保留可观测数据的分布,又能保留缺失数据的分布。对一系列精心构建的数据集和真实世界数据集进行的广泛实证评估证明了我们方法的有效性。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/a2fd/11771246/7a8f1306e4b9/nihms-2047066-f0005.jpg

文献AI研究员

20分钟写一篇综述,助力文献阅读效率提升50倍。

立即体验

用中文搜PubMed

大模型驱动的PubMed中文搜索引擎

马上搜索

文档翻译

学术文献翻译模型,支持多种主流文档格式。

立即体验