人工智能正在变革软件开发,但现有的评估方法却难以跟上步伐。谷歌公司的一个研究团队取得了突破性发现,他们将重点从评估代码准确性转移到理解人工智能代理在协作环境中的行为。他们的研究建立了一个理想的代理行为基础分类体系,并确定了四个关键期望:遵守标准、代码质量、有效解决问题以及用户协作。
## 超越功能正确性的人工智能评估
人工智能评估领域正从简单地验证人工智能生成的代码是否有效,转向评估更广泛的维度,例如可读性、可维护性、安全性以及协作潜力。这需要多维度的基准和与实际应用相关的评估方法。评估人工智能代理面临诸多挑战,包括缺乏用于衡量可读性等主观品质的标准化指标,以及“最后一公里”问题——即人工智能代理生成的代码虽然接近功能正常,但仍需要大量的人工润色。
评估参与迭代对话的代理,以及解决有关负责任的人工智能开发(特别是关于偏见和潜在危害)的担忧,也需要新的评估框架。研究人员正积极测试低级逻辑模型(LLM)在诸如缺陷复现与修复、代码可读性评估等任务中的应用,并探索人工智能代理如何自主完成复杂的软件工程任务。了解开发人员如何与人工智能工具交互、研究开发人员如何实时学习,甚至将LLM用作测试工具,都是关键的研究领域。
## 以人为中心的人工智能代理行为分类
研究人员率先提出了一种评估软件工程中人工智能代理的新框架,超越了代码正确性,转而评估其协作行为。通过分析91组用户定义的代理规则,该团队提取了有效性能的关键预期,最终形成了一个包含四个关键行为的分类体系:遵守标准、确保代码质量、有效解决问题以及用户协作。这提供了一个以人为中心的评估视角,重点关注团队协作动态。
鉴于对代理行为的预期并非一成不变,研究人员开发了情境自适应行为(CAB)框架。这种方法理解了期望如何随情境而变化,同时考虑了“时间跨度”(从短期需求到长期目标)和“工作类型”(区分企业生产和快速原型开发)。这些维度是通过专家访谈和对原型开发代理的分析,以经验为基础得出的。
## 用于软件开发的AI代理行为
科学家们基于对91组用户自定义代理规则的分析,建立了一个适用于参与企业软件开发的AI代理的理想行为基础分类体系。确定的四个关键期望是:遵守标准、确保代码质量、高效解决问题以及与用户协作,从而提供了一个以人为本的评估框架。基于LLM的分类系统准确验证了该分类体系,F1分数达到83%(精确率:81%,召回率:85%)。
实验表明,尽管表达方式有所不同,但企业软件开发和快速原型开发在行为期望方面存在显著的相似性。用户始终期望智能体遵循最佳实践并参与协作规划。他们还期望智能体能够利用上下文知识、回顾对话历史或项目文档来解决问题,并主动验证反馈并从中学习。然而,这项研究强调了快速原型开发特有的期望,揭示了对专家角色和用户界面/用户体验质量的更高重视。
## 面向软件团队的上下文自适应人工智能行为
这项研究填补了评估旨在协作完成软件工程任务的人工智能智能体方面的一个重要空白。研究团队建立了一个理想的智能体行为基础分类体系,确定了四个关键期望:遵守标准、确保代码质量、有效解决问题以及与用户协作。这为理解成功的人工智能-人机协作提供了一个清晰的框架。在此基础上,研究人员提出了上下文自适应行为(CAB)框架,该框架展示了智能体行为的期望如何根据具体工作和项目的时间跨度而变化。
该框架考虑了从短期生产需求到长期目标、从日常任务到快速原型开发等诸多因素,展现了对人机交互的深刻理解。虽然该框架已在企业软件工程领域得到验证,但仍需进一步研究其在嵌入式系统或数据科学等其他领域的应用,以增强其全面适用性。




