
你让 agent 做的不是“给我结论”,而是“给我一张可追溯的证据地图”:主题→子问题→关键词→数据库→命中论文→筛选理由。HN 上流行的“deep search / deep research”产品之所以被讨论,是因为它们把这条链路做成了多步流程。Source
配图(示例:论文综述 agent/深度研究 agent 的工作流概念图)

图源:Moonlight 对 deep research agents 的综述页截图 Source
你给 agent 的验收标准建议是:
论坛里更稳妥的共识是:
一个实操技巧:把纳排标准写成机器可执行的 checklist(字段化),让 agent 只做“填表与标注证据段落”,最终由你点选。
一些学术工具开始把 agent 用在“从宽问题→细问题”的递进:agent 先跑多轮检索,再生成多个假设候选,并对每个候选写“新颖性/可行性/意义/风险”。这类“假设树”方式在工具评测文章中被认为是 agent 相对聊天机器人的关键跃迁。Source
配图(示例:学术 agent 的 literature review 与 gap finding 入口)

你要防的坑是“迎合型假设”:agent 往往会顺着你的预设立场找证据。所以建议给它一个对立角色:反方 agent(critic),专门找反例、找不可证伪点、找方法学漏洞。
在 r/MachineLearning 的讨论里,有研究者说自己用 Claude code 辅助实现 JAX RL 库与实验目录管理,自己越来越像“代码 reviewer”。他们的实践细节很工程化:每个实验独立目录+配置文件+Git tag 标记里程碑,便于回滚复现。Source
这类用法的关键是:把实验组织方式规范化,agent 才不会“越改越乱”。
同一帖高赞回答强调:让 agent 快速写交互式可视化页面,能帮你“看见模型在做什么”,从而更快定位逻辑错误;并指出只盯指标可能掩盖行为差异。Source
这对做 ML、计算生物、流体/材料仿真等领域尤其显著:你把 agent 当成“前端工程师”,把复杂中间量变成可探索图形。
HN 那个“综述文章生成系统”的经验非常值得借鉴:他们专门写了 LaTeX 修复、bibliography 去重与一致性校验的流程,说明“能写”不难,“交付能编译、引用不炸、格式合规”才难。Source
因此更推荐的分工是:你给大纲与论点链路,agent 做语言润色、排版、引用格式、图表 caption 草稿;最后你再做学术判断与事实核对。
分享
告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

BMJ重磅综述揭示,孕期服用对乙酰氨基酚与子代自闭症/ADHD无关。通过“同胞对照”研究,此前观察到的风险关联消失,表明遗传和环境因素是主要驱动因素,而非药物神经毒性。专家建议,孕期发烧疼痛仍应优先选择对乙酰氨基酚,切勿因噎废食。

本文揭示,当前呼吸防护体系存在巨大漏洞,面对野火、病毒、污染等威胁,口罩并不能提供全面防护。数亿人暴露在风险中,且防护不均、设备不适配,导致隐性经济损失。文章呼吁建立国家级通用防护体系,整合NIOSH和NIEHS资源,保障全民呼吸安全。

本文揭示扩散模型并非简单抄袭,而是分“学套路”和“死记硬背”两阶段。研究发现,训练数据越多,AI越“健忘”,抄袭发生越晚,从而提供防抄袭的“安全窗口”。

北京大学口腔医学院团队发现蛀牙元凶变异链球菌的耐酸“命门”——FtsZ蛋白的Arg68位点。通过精准阻断其在酸性环境下的分裂增殖,有望开发出不伤好菌的新型防蛀牙疗法。