• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用GPT-4的无监督方法评估创意的新颖性、可行性和价值。

Assessing novelty, feasibility and value of creative ideas with an unsupervised approach using GPT-4.

作者信息

Kern Felix B, Wu Chien-Te, Chao Zenas C

机构信息

International Research Center for Neurointelligence (WPI-IRCN), UTIAS, The University of Tokyo, Tokyo, Japan.

出版信息

Br J Psychol. 2024 Jul 22. doi: 10.1111/bjop.12720.

DOI:10.1111/bjop.12720
PMID:39037067
Abstract

Creativity is defined by three key factors: novelty, feasibility and value. While many creativity tests focus primarily on novelty, they often neglect feasibility and value, thereby limiting their reflection of real-world creativity. In this study, we employ GPT-4, a large language model, to assess these three dimensions in a Japanese-language Alternative Uses Test (AUT). Using a crowdsourced evaluation method, we acquire ground truth data for 30 question items and test various GPT prompt designs. Our findings show that asking for multiple responses in a single prompt, using an 'explain first, rate later' design, is both cost-effective and accurate (r = .62, .59 and .33 for novelty, feasibility and value, respectively). Moreover, our method offers comparable accuracy to existing methods in assessing novelty, without the need for training data. We also evaluate additional models such as GPT-4 Turbo, GPT-4 Omni and Claude 3.5 Sonnet. Comparable performance across these models demonstrates the universal applicability of our prompt design. Our results contribute a straightforward platform for instant AUT evaluation and provide valuable ground truth data for future methodological research.

摘要

创造力由三个关键因素定义

新颖性、可行性和价值。虽然许多创造力测试主要关注新颖性,但它们往往忽视可行性和价值,从而限制了它们对现实世界创造力的反映。在本研究中,我们使用大型语言模型GPT-4来评估日语替代用途测试(AUT)中的这三个维度。我们采用众包评估方法,获取了30个问题项目的真实数据,并测试了各种GPT提示设计。我们的研究结果表明,在单个提示中要求提供多个回答,采用“先解释,后评分”的设计,既具有成本效益又准确(新颖性、可行性和价值的相关系数分别为0.62、0.59和0.33)。此外,我们的方法在评估新颖性时提供了与现有方法相当的准确性,而无需训练数据。我们还评估了其他模型,如GPT-4 Turbo、GPT-4 Omni和Claude 3.5 Sonnet。这些模型的可比性能证明了我们提示设计的普遍适用性。我们的结果为即时AUT评估提供了一个简单的平台,并为未来的方法学研究提供了有价值的真实数据。

相似文献

1
Assessing novelty, feasibility and value of creative ideas with an unsupervised approach using GPT-4.使用GPT-4的无监督方法评估创意的新颖性、可行性和价值。
Br J Psychol. 2024 Jul 22. doi: 10.1111/bjop.12720.
2
Diagnostic accuracy of vision-language models on Japanese diagnostic radiology, nuclear medicine, and interventional radiology specialty board examinations.视觉语言模型在日本放射诊断学、核医学和介入放射学专业委员会考试中的诊断准确性。
Jpn J Radiol. 2024 Dec;42(12):1392-1398. doi: 10.1007/s11604-024-01633-0. Epub 2024 Jul 20.
3
Large Language Models for Therapy Recommendations Across 3 Clinical Specialties: Comparative Study.大型语言模型在 3 个临床专业领域的治疗推荐中的应用:比较研究。
J Med Internet Res. 2023 Oct 30;25:e49324. doi: 10.2196/49324.
4
Automating creativity assessment with SemDis: An open platform for computing semantic distance.使用 SemDis 自动化创造力评估:一个用于计算语义距离的开放式平台。
Behav Res Methods. 2021 Apr;53(2):757-780. doi: 10.3758/s13428-020-01453-w.
5
Controlling stimulus ambiguity reduces spurious creative ideation variance in a cyclic adaptation of the alternative uses task.控制刺激的模糊性可以减少在交替用途任务的循环适应中虚假的创造性思维差异。
Sci Rep. 2024 May 31;14(1):12492. doi: 10.1038/s41598-024-63225-2.
6
Assessing ChatGPT's Mastery of Bloom's Taxonomy Using Psychosomatic Medicine Exam Questions: Mixed-Methods Study.使用心身医学考试问题评估 ChatGPT 对布鲁姆教育目标分类法的掌握程度:混合方法研究。
J Med Internet Res. 2024 Jan 23;26:e52113. doi: 10.2196/52113.
7
Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study.使用大型语言模型对临床综述进行自动化论文筛选:数据分析研究。
J Med Internet Res. 2024 Jan 12;26:e48996. doi: 10.2196/48996.
8
Quality of Answers of Generative Large Language Models Versus Peer Users for Interpreting Laboratory Test Results for Lay Patients: Evaluation Study.生成式大语言模型与同行用户对解释非专业患者实验室检测结果的答案质量比较:评估研究。
J Med Internet Res. 2024 Apr 17;26:e56655. doi: 10.2196/56655.
9
Evaluating Large Language Models for the National Premedical Exam in India: Comparative Analysis of GPT-3.5, GPT-4, and Bard.评估印度全国医预考用大型语言模型:GPT-3.5、GPT-4 和 Bard 的比较分析。
JMIR Med Educ. 2024 Feb 21;10:e51523. doi: 10.2196/51523.
10
Creative or not? Hierarchical diffusion modeling of the creative evaluation process.有创意还是没有创意?创造性评价过程的层次扩散建模。
J Exp Psychol Learn Mem Cogn. 2023 Jun;49(6):849-865. doi: 10.1037/xlm0001177. Epub 2022 Nov 3.

引用本文的文献

1
Application of large language models in disease diagnosis and treatment.大语言模型在疾病诊断与治疗中的应用。
Chin Med J (Engl). 2025 Jan 20;138(2):130-142. doi: 10.1097/CM9.0000000000003456. Epub 2024 Dec 26.