Horesh Nir, Emile Sameh Hany, Gupta Shashank, Garoufalia Zoe, Gefen Rachel, Zhou Peige, da Silva Giovanna, Wexner Steven D
Department of Colorectal Surgery, Ellen Leifer Shulman and Steven Shulman Digestive Disease Center, Cleveland Clinic Florida, Weston, Florida.
Department of Surgery and Transplantations, Sheba Medical Center, Ramat Gan, Israel.
Dis Colon Rectum. 2025 Jan 1;68(1):41-47. doi: 10.1097/DCR.0000000000003504. Epub 2024 Sep 27.
Management of anorectal cancers requires a multidisciplinary team approach. Recently, large language models have been suggested as potential tools for various applications in health care.
Assess suggested management recommendations provided by a generative artificial intelligence chatbot with those of a colorectal cancer multidisciplinary team to evaluate applicability in clinical settings.
Comparative pilot study where management recommendations from a generative artificial intelligence chatbot for patients with anal or colorectal cancers were compared against historical consensus decisions from multidisciplinary team meetings.
Single referral tertiary center.
Fifteen patients (mean age of 66.5 years; 53.5% woman) were included; 80% were primarily diagnosed with rectal cancer, predominantly stage II and III disease (46.6%). The mean tumor height from the anal verge was 4 cm.
From a generative artificial intelligence chatbot, we generated management recommendations for each patient, which were subsequently compared to historical decisions from a multidisciplinary team to gauge concordance.
Primary outcomes included a degree of concordance between generative artificial intelligence chatbot recommendations and the multidisciplinary team decisions, assessed on a scale from 1 (complete disagreement) to 5 (complete agreement), and justification was evaluated by 3 experienced colorectal surgeons.
A generative artificial intelligence chatbot achieved a high concordance rate with multidisciplinary team decisions, with an average concordance rating of 4.08. Multidisciplinary team treatment strategies included neoadjuvant therapy for 33.3% of patients, upfront surgery for 26.6%, and further diagnostic assessment for 20%. Interrater agreement on concordance was found to be moderate (κ coefficient range, 0.333-0.577), whereas agreement on decision justification was slight (κ coefficient range, 0.047-0.094).
Retrospective study with small sample size.
The findings indicate a high level of concordance between generative artificial intelligence chatbot recommendations and the decisions from a colorectal cancer multidisciplinary team, suggesting the potential of large language models to support clinical decision-making in the management of anal and colorectal cancers. See Video Abstract.
ANTECEDENTES:El manejo de los cánceres anorrectales requiere un enfoque de equipo multidisciplinario. Recientemente, se han sugerido modelos extensos de lenguaje como herramientas potenciales para diversas aplicaciones en la asistencia sanitaria.OBJETIVO:Evaluar las recomendaciones de gestión sugeridos por un chatbot de inteligencia artificial generativa con las de un equipo multidisciplinario de cáncer colorrectal para evaluar la aplicabilidad en entornos clínicos.DISEÑO:Estudio piloto comparativo entre las recomendaciones de gestión de un chatbot de inteligencia artificial generativa con pacientes de cáncer anal o colorrectal y con las decisiones consensuadas históricas de reuniones de equipos multidisciplinarios.LUGAR:Un único centro terciario de referencia.PACIENTES:Se incluyeron 15 pacientes (edad media de 66,5 años; 53,5% mujeres); el 80% fueron diagnosticados principalmente de cáncer de recto, con predominio de la enfermedad en estadio II-III (46,6%). La altura media del tumor desde el borde anal fue de 4 cm.INTERVENCIONESUtilizando de un chatbot de inteligencia artificial generativa, producimos recomendaciones de manejo para cada paciente, que posteriormente se compararon con las decisiones del equipo multidisciplinario histórico para medir la concordancia.PRINCIPALES MEDIDAS DE RESULTADO:Los resultados primarios incluyeron el grado de concordancia entre las recomendaciones de un chatbot de inteligencia artificial generativa y las decisiones del equipo multidisciplinario, evaluadas en una escala de 1 (desacuerdo total) a 5 (acuerdo total), y la justificación evaluada por tres cirujanos colorrectales experimentados.RESULTADOS:Un chatbot de inteligencia artificial generativa logró una alta tasa de concordancia con las decisiones del equipo multidisciplinario, con una calificación media de concordancia de 4,08. Las estrategias de tratamiento del equipo multidisciplinario incluyeron terapia neoadyuvante para el 33,3% de los pacientes, cirugía inicial para el 26,6% y evaluación diagnóstica adicional para el 20%. La concordancia entre los evaluadores fue moderada (rango del coeficiente kappa: 0,333 a 0,577), mientras que la concordancia en la justificación de las decisiones fue leve (rango del coeficiente kappa: 0,047 a 0,094).LIMITACIONES:Estudio retrospectivo con pequeño tamaño muestral.CONCLUSIONES:Los hallazgos indican un alto nivel de concordancia entre las recomendaciones de un chatbot de inteligencia artificial generativa y las decisiones de un equipo multidisciplinario de cáncer colorrectal, lo que sugiere el potencial de los modelos extensos de lenguaje en apoyar la toma de decisiones clínicas en el manejo del cáncer anal y colorrectal. (Traducción: Dr. Fidel Ruiz Healy).
肛管直肠癌的管理需要多学科团队协作。近来,大语言模型被认为是医疗保健领域各种应用的潜在工具。
将生成式人工智能聊天机器人提供的管理建议与结直肠癌多学科团队的建议进行评估比较,以评估其在临床环境中的适用性。
比较性试点研究,将生成式人工智能聊天机器人对肛管或结直肠癌患者的管理建议与多学科团队会议的历史共识决策进行比较。
单一转诊三级中心。
纳入15例患者(平均年龄66.5岁;53.5%为女性);80%主要诊断为直肠癌,主要为II期和III期疾病(46.6%)。距肛缘的平均肿瘤高度为4厘米。
通过生成式人工智能聊天机器人,为每位患者生成管理建议,随后将其与多学科团队的历史决策进行比较,以衡量一致性。
主要结果包括生成式人工智能聊天机器人建议与多学科团队决策之间的一致程度,采用1(完全不一致)至5(完全一致)的量表进行评估,并由3位经验丰富的结直肠外科医生评估决策依据。
生成式人工智能聊天机器人与多学科团队决策达成了较高的一致率,平均一致评分为4.08。多学科团队的治疗策略包括33.3%的患者接受新辅助治疗,26.6%的患者接受直接手术,20%的患者进行进一步诊断评估。评估者之间在一致性方面的一致性为中等(κ系数范围为0.333 - 0.577),而在决策依据方面的一致性较弱(κ系数范围为0.047 - 0.094)。
样本量小的回顾性研究。
研究结果表明,生成式人工智能聊天机器人的建议与结直肠癌多学科团队的决策之间具有高度一致性,这表明大语言模型在支持肛管和结直肠癌管理中的临床决策方面具有潜力。见视频摘要。
一项试点研究:背景:肛管直肠癌的管理需要多学科团队协作。近来,大语言模型被认为是医疗保健领域各种应用的潜在工具。目的:将生成式人工智能聊天机器人提供的管理建议与结直肠癌多学科团队的建议进行评估比较,以评估其在临床环境中的适用性。设计:比较性试点研究,将生成式人工智能聊天机器人对肛管或结直肠癌患者的管理建议与多学科团队会议的历史共识决策进行比较。地点:单一转诊三级中心。患者:纳入15例患者(平均年龄66.5岁;53.5%为女性);80%主要诊断为直肠癌,主要为II期和III期疾病(46.6%)。距肛缘的平均肿瘤高度为4厘米。干预措施:通过生成式人工智能聊天机器人,为每位患者生成管理建议,随后将其与多学科团队的历史决策进行比较,以衡量一致性。主要观察指标:主要结果包括生成式人工智能聊天机器人建议与多学科团队决策之间的一致程度,采用1(完全不一致)至5(完全一致)的量表进行评估,并由3位经验丰富的结直肠外科医生评估决策依据。结果:生成式人工智能聊天机器人与多学科团队决策达成了较高的一致率,平均一致评分为4.08。多学科团队的治疗策略包括33.3%的患者接受新辅助治疗,26.6%的患者接受直接手术,20%的患者进行进一步诊断评估。评估者之间在一致性方面的一致性为中等(κ系数范围为0.333 - 0.577),而在决策依据方面的一致性较弱(κ系数范围为0.047 - 0.094)。局限性:样本量小的回顾性研究。结论:研究结果表明,生成式人工智能聊天机器人的建议与结直肠癌多学科团队的决策之间具有高度一致性,这表明大语言模型在支持肛管和结直肠癌管理中的临床决策方面具有潜力。(翻译:菲德尔·鲁伊斯·希利博士)