• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用拉施模型评估聊天机器人在台湾精神科医师执照考试中的表现。

Assessing the Performance of Chatbots on the Taiwan Psychiatry Licensing Examination Using the Rasch Model.

作者信息

Chang Yu, Su Chu-Yun, Liu Yi-Chun

机构信息

Department of Psychiatry, Changhua Christian Hospital, Changhua 500, Taiwan.

Taichung Municipal Taichung Special Education School for The Hearing Impaired, Taichung 407, Taiwan.

出版信息

Healthcare (Basel). 2024 Nov 18;12(22):2305. doi: 10.3390/healthcare12222305.

DOI:10.3390/healthcare12222305
PMID:39595502
原文链接:https://pmc.ncbi.nlm.nih.gov/articles/PMC11594248/
Abstract

BACKGROUND/OBJECTIVES: The potential and limitations of chatbots in medical education and clinical decision support, particularly in specialized fields like psychiatry, remain unknown. By using the Rasch model, our study aimed to evaluate the performance of various state-of-the-art chatbots on psychiatry licensing exam questions to explore their strengths and weaknesses.

METHODS

We assessed the performance of 22 leading chatbots, selected based on LMArena benchmark rankings, using 100 multiple-choice questions from the 2024 Taiwan psychiatry licensing examination, a nationally standardized test required for psychiatric licensure in Taiwan. Chatbot responses were scored for correctness, and we used the Rasch model to evaluate chatbot ability.

RESULTS

Chatbots released after February 2024 passed the exam, with ChatGPT-o1-preview achieving the highest score of 85. ChatGPT-o1-preview showed a statistically significant superiority in ability ( < 0.001), with a 1.92 logits improvement compared to the passing threshold. It demonstrated strengths in complex psychiatric problems and ethical understanding, yet it presented limitations in up-to-date legal updates and specialized psychiatry knowledge, such as recent amendments to the Mental Health Act, psychopharmacology, and advanced neuroimaging.

CONCLUSIONS

Chatbot technology could be a valuable tool for medical education and clinical decision support in psychiatry, and as technology continues to advance, these models are likely to play an increasingly integral role in psychiatric practice.

摘要

背景/目的:聊天机器人在医学教育和临床决策支持中的潜力和局限性,尤其是在精神病学等专业领域,仍然未知。通过使用拉施模型,我们的研究旨在评估各种最先进的聊天机器人在精神病学执照考试问题上的表现,以探索它们的优势和劣势。

方法

我们使用来自2024年台湾精神病学执照考试的100道多项选择题,评估了22个领先的聊天机器人的表现,这些聊天机器人是根据LMArena基准排名挑选出来的,该考试是台湾精神病学执照所需的全国标准化考试。对聊天机器人的回答进行正确性评分,并使用拉施模型评估聊天机器人的能力。

结果

2024年2月之后发布的聊天机器人通过了考试,ChatGPT-o1-preview获得了85分的最高分。ChatGPT-o1-preview在能力方面显示出统计学上的显著优势(<0.001),与及格阈值相比,对数几率提高了1.92。它在复杂的精神病学问题和伦理理解方面表现出优势,但在最新的法律更新和专业精神病学知识方面存在局限性,如《精神卫生法》的近期修订、精神药理学和先进的神经影像学。

结论

聊天机器人技术可能是精神病学医学教育和临床决策支持的宝贵工具,随着技术的不断进步,这些模型可能在精神病学实践中发挥越来越重要的作用。

https://cdn.ncbi.nlm.nih.gov/pmc/blobs/547f/11594248/354d1d92231d/healthcare-12-02305-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/547f/11594248/354d1d92231d/healthcare-12-02305-g001.jpg
https://cdn.ncbi.nlm.nih.gov/pmc/blobs/547f/11594248/354d1d92231d/healthcare-12-02305-g001.jpg

相似文献

1
Assessing the Performance of Chatbots on the Taiwan Psychiatry Licensing Examination Using the Rasch Model.使用拉施模型评估聊天机器人在台湾精神科医师执照考试中的表现。
Healthcare (Basel). 2024 Nov 18;12(22):2305. doi: 10.3390/healthcare12222305.
2
Comparing the performance of ChatGPT GPT-4, Bard, and Llama-2 in the Taiwan Psychiatric Licensing Examination and in differential diagnosis with multi-center psychiatrists.将 ChatGPT GPT-4、Bard 和 Llama-2 在台湾精神科医师执照考试中的表现与多中心精神科医生的鉴别诊断进行比较。
Psychiatry Clin Neurosci. 2024 Jun;78(6):347-352. doi: 10.1111/pcn.13656. Epub 2024 Feb 26.
3
Performance of ChatGPT-3.5 and GPT-4 in national licensing examinations for medicine, pharmacy, dentistry, and nursing: a systematic review and meta-analysis.ChatGPT-3.5 和 GPT-4 在医学、药学、牙科和护理国家执照考试中的表现:系统评价和荟萃分析。
BMC Med Educ. 2024 Sep 16;24(1):1013. doi: 10.1186/s12909-024-05944-8.
4
Exploring the Performance of ChatGPT-4 in the Taiwan Audiologist Qualification Examination: Preliminary Observational Study Highlighting the Potential of AI Chatbots in Hearing Care.探索 ChatGPT-4 在台湾听力学家资格考试中的表现:初步观察性研究强调 AI 聊天机器人在听力保健中的潜力。
JMIR Med Educ. 2024 Apr 26;10:e55595. doi: 10.2196/55595.
5
Performance of ChatGPT-3.5 and ChatGPT-4 in the Taiwan National Pharmacist Licensing Examination: Comparative Evaluation Study.ChatGPT-3.5和ChatGPT-4在台湾国家药剂师执照考试中的表现:比较评估研究。
JMIR Med Educ. 2025 Jan 17;11:e56850. doi: 10.2196/56850.
6
Exploring the Possible Use of AI Chatbots in Public Health Education: Feasibility Study.探索人工智能聊天机器人在公共卫生教育中的潜在用途:可行性研究。
JMIR Med Educ. 2023 Nov 1;9:e51421. doi: 10.2196/51421.
7
Experimental assessment of the performance of artificial intelligence in solving multiple-choice board exams in cardiology.人工智能在解决心脏病学多选题考试中的性能的实验评估。
Swiss Med Wkly. 2024 Oct 2;154:3547. doi: 10.57187/s.3547.
8
Comparison of the Performance of ChatGPT, Claude and Bard in Support of Myopia Prevention and Control.ChatGPT、Claude和Bard在支持近视防控方面的性能比较。
J Multidiscip Healthc. 2024 Aug 13;17:3917-3929. doi: 10.2147/JMDH.S473680. eCollection 2024.
9
The performance of artificial intelligence chatbot large language models to address skeletal biology and bone health queries.人工智能聊天机器人大型语言模型在解决骨骼生物学和骨骼健康问题方面的表现。
J Bone Miner Res. 2024 Mar 22;39(2):106-115. doi: 10.1093/jbmr/zjad007.
10
Performance Comparison of ChatGPT-4 and Japanese Medical Residents in the General Medicine In-Training Examination: Comparison Study.ChatGPT-4与日本内科住院医师在普通内科培训考试中的表现比较:比较研究
JMIR Med Educ. 2023 Dec 6;9:e52202. doi: 10.2196/52202.

引用本文的文献

1
Evaluating chatbots in psychiatry: Rasch-based insights into clinical knowledge and reasoning.评估精神病学中的聊天机器人:基于拉施模型对临床知识和推理的见解。
PLoS One. 2025 Aug 14;20(8):e0330303. doi: 10.1371/journal.pone.0330303. eCollection 2025.
2
Potential of ChatGPT in youth mental health emergency triage: Comparative analysis with clinicians.ChatGPT在青少年心理健康紧急分诊中的潜力:与临床医生的比较分析
PCN Rep. 2025 Jul 15;4(3):e70159. doi: 10.1002/pcn5.70159. eCollection 2025 Sep.