
细胞捕手
2026年2月26日,新泽西理工学院及汉密尔顿学院的研究人员在《Briefings in Bioinformatics》上发表题为“Artificial Intelligence agents for biological research: a survey”的综述文章。
文章通过系统梳理临床分析、分子与药物设计、多组学分析和知识发现等领域的100余项代表性研究,对生物学人工智能智能体的最新进展进行了系统性整合。研究团队提出五维分类法,从任务领域、系统架构、交互模式、评估策略和资源整合维度对现有工作进行组织。基于该框架,分析了常见设计模式,揭示了智能体范式催生的新兴能力,并指出了可靠性、隐私性、可扩展性和标准化评估等关键挑战。本综述整体阐明了生物学人工智能智能体的概念与方法论,为构建更稳健、透明和协作的生物学智能体系统指明了方向。
基准测试及资源仓库:
https://github.com/MineSelf2016/biological_agents_survey
定义生物学智能体
在生物学研究中,人工智能智能体可以定义为一个嵌入生物学研究工作流程中的、具备自主能力的计算参与者,能够进行迭代的、目标导向的推理和决策。这类系统将复杂问题分解为可操作的步骤模块,同时在分析过程中根据中间结果和不确定性信号动态调整其推理策略。它们能进一步利用外部工具包和相关知识库,并在必要时与其他计算系统或领域专家交互,以确保研究的可靠性和生物学可解释性。换言之,它们的价值在于过程导向而非输出导向,从而形成一条可追踪、可重用且能自我改进的科学路径。
如图1所示,生物学人工智能智能体通过一个"任务-推理-行动-反馈"循环运作,该循环由一个整合了多个功能组件的中央协调器驱动。在接收到生物学查询后,规划智能体解释任务并将其分解为可执行的分析步骤,例如质量控制、细胞注释或文献检索。子智能体执行其专业化角色,并通过共享内存机制交换中间结果,以保持推理的全局一致性和可追溯性。此外,系统利用检索增强生成来整合外部知识,并将推理行动与已建立的工具包动态耦合,同时评估模块在工作流程的每个阶段以及最终输出中评估结果的稳健性、不确定性和可重复性。基于这样的交互过程,人工智能智能体可以促进人机协同智能,使模型能够遵循科学推理实践,为生物学发现做出贡献。
人工智能智能体与基础模型
人工智能智能体的目标是超越静态推理,迈向动态推理和自主实验流程。如图2所示,智能体通常采用基础模型作为其核心推理引擎,通过整合用于规划、行动和交互协调的附加模块对其进行扩展。这种设计使得人工智能智能体能够解读科学问题,将其分解为逐步操作,选择合适的工具或资源,检查中间结果并迭代地更新工作流程。这些过程赋予了智能体上下文敏感性和适应性,使其从被动的预测器转变为科学发现过程中的共同研究者。表1总结了生物学中人工智能智能体和基础模型的比较。

为了更系统、更清晰地阐述生物学智能体研究的进展,作者引入了一个包含五个维度的统一分类法:生物学任务、系统架构、评估策略、交互模式和资源整合(图3)。五维分类法旨在作为生物学研究中智能体在功能正交层面上的结构化抽象。具体而言,每个维度回答一个独特且不重叠的问题:智能体解决什么生物学问题(任务),认知和协调是如何组织的(架构),推理如何随时间展开(交互),如何评估成功性、稳健性和可靠性(评估),以及如何整合外部知识、工具和数据资源(资源)。
图4展示了多智能体系统中用于减轻生物学推理任务中幻觉现象的纠正和监督机制示例。
智能体特有的评估维度总结在表2中。智能体的性能可以从几个互补的维度进行刻画。首先,显式约束下的端到端任务成功率反映了智能体是否能在有限的步骤、时间和工具预算内,在遵守规定流程的前提下完成完整的分析工作流。其次,规划与重新规划的正确性捕捉了中间步骤与总体目标之间的一致性,以及智能体在遇到中断或检测到不一致后修改其策略的能力。第三,工具使用可靠性不仅涉及选择合适的计算或数据库工具,还包括正确地调用它们,避免参数化错误、输出误解或违反基本的统计假设。第四,证据基础与来源评估结论在多大程度上得到可验证的数据库标识符或原始文献的支持,从而限制无依据的或幻觉式的断言。第五,错误管理与恢复评估智能体是否能够识别现实的生物学或计算故障模式,并评估在合理步骤内采取适当纠正措施是否能改善下游结果。第六,记忆一致性与状态跟踪衡量关键中间产物在整个分析阶段是否保持连贯和准确。最后,长周期稳健性考察智能体行为在良性扰动下的稳定性以及在长时间交互中抵抗性能下降的能力。
表3中总结的代表性系统展示了为生物学研究设计的人工智能智能体日益增长的多样性。每个系统都体现了架构设计、交互模式、评估方法和资源整合的独特组合。像Biomni、CellAgent和CoScientist这样的多智能体架构强调协作推理和分布式任务分解,而包括 AutoMAxO、Tokensome和mergen在内的神经符号模型则将符号约束或本体结构嵌入语言模型流程中。像GeneGPT、CRISPR-GPT和NagGPT这类工具集成系统将大语言模型连接到外部API或实验数据库,实现了生物信息学任务的自动化检索、验证和执行。逐步推理在决策支持和方案生成智能体中占主导地位,而零样本泛化则更受青睐于像PhenoGPT、scWGBS-GPT、SleepBert和RAG-HPO这样的领域自适应框架中。评估策略涵盖了从全自动基准测试到人在回路验证,反映了生物医学环境中不同水平的实验控制。知识和工具整合仍然是核心:像 BRAD和AutoBA这样的系统将语言模型与经过筛选的生物医学本体和工作流程工具连接起来,以确保可追溯性和可重复性。
当前生物学人工智能智能体的研究既展现了进展,也暴露了局限性。图5总结了所调研系统中观察到的跨维度关系和耦合模式。
尽管AI智能体在生物学研究中取得了进展,但现有系统在不同子领域的分布极不均衡。在闭环湿法实验中,当前多数智能体仍局限于协议生成或数据分析,缺乏能够自主执行物理实验、进行实时故障诊断和自适应调整的系统。主要障碍在于硬件异构性、实验结果的噪声以及安全约束。生态与进化系统具有长时间跨度、强环境耦合的特点,目前仍以静态预测为主,缺乏能够整合异构数据、生成竞争性假设并迭代优化的自适应智能体。对于时间性与调控性生物学过程,现有智能体多处理静态快照数据,难以捕捉发育轨迹或进行因果干预;在临床试验设计和监管推理等需要高自主性协调的领域,全面智能体仍然缺失。
当前生物学AI智能体发展面临的核心障碍主要分为以下六点:(1)从聊天式助手到端到端智能体:现有系统多为问答模式,缺乏自主规划、任务分解和工具调用的能力,距离实现目标驱动的通用智能体尚有差距。(2)可靠性、幻觉与事实基础:语言模型易产生幻觉,在生物医学领域可能引发严重后果。当前的检索增强生成技术尚不稳定,缺乏多级验证机制。(3)领域专业化与生物学情境化:通用模型缺乏对生物系统复杂特性的理解,难以处理细胞亚群、分子网络等细节,必须接入领域知识库以增强其情境感知能力。(4)数据隐私、安全与伦理合规:强大的模型多为闭源云服务,而生物医学数据受严格隐私法规保护,两者之间存在根本矛盾,需在监管和基础设施层面创新。(5)标准化评估、可重复性与基准测试:该领域缺乏标准化评估框架,多数研究基于定性案例,导致难以客观比较不同系统,限制了可重复性。(6)计算成本与可扩展性:依赖GPT-4等大模型带来了高昂的计算和能源成本,难以在常规学术或临床基础设施上大规模部署。
下一代生物学AI智能体的演进方向如下:(1)智能体作为自主科学合作者:智能体不应仅是语言界面,而应发展为能够协助制定目标、执行流程、优化假设的自主科学合作者,将计算转变为面向过程的研究助手。(2)多智能体协作作为稳健性形式:引入规划器、执行器、验证器等多智能体架构,通过结构化的冗余和共识机制,可以有效缓解幻觉和偏见,提升系统的稳健性。(3)促进公平访问的轻量级、领域无关模型:通过知识蒸馏等技术发展专门的小型语言模型,在保留领域知识的同时降低计算门槛,促进分析智能的广泛普及。(4)标准化和透明性作为科学基础设施:随着智能体数量的增加,建立开放的、模块化的标准以及透明的系统设计,对于实现独立验证、确保可重复性至关重要。
参考链接:
https://doi.org/10.1093/bib/bbag075
--------- End ---------