开发能够自主执行多种任务的AI代理,且具有与人类软件开发者相同的灵活性和能力,这是一个重大挑战,这些任务包括编写和执行代码、与命令行交互以及浏览网页。现有的AI代理往往缺乏执行如此多样化和复杂操作所需的适应性和泛化能力,解决这一挑战对推进AI研究和增强其在现实世界场景中的应用,如软件开发、网络导航和跨各种领域的问题解决,至关重要。
目前开发AI代理的方法包括像AutoGPT、LangChains和MetaGPT这样的框架。这些框架提供了代理开发所需的基本工具,例如交互界面、操作环境和通信机制。
然而,这些方法具有特定的局限性。例如,AutoGPT和LangChains不支持沙箱化代码执行或内置网页浏览器,这限制了它们在需要安全代码执行和网络交互的任务中的应用。MetaGPT虽然支持多代理协作,但缺乏标准化的工具库,这阻碍了多样化代理技能的发展。总体而言,这些局限性限制了当前AI代理的性能和适用性,特别是在需要跨不同领域泛化的复杂、多步骤任务中。
来自UIUC、CMU、耶鲁、加州大学伯克利分校、Contextual AI、KAUST、ANU、胡志明市科技大学、阿里巴巴和All Hands AI的研究团队提出了OpenDevin。OpenDevin通过创建一个全面的平台来支持通用和专业AI代理的开发,该平台解决了现有方法的局限。
该平台通过整合强大的交互机制、一个用于安全代码执行的沙箱环境以及一个内置的用于基于网页任务的网页浏览器,来应对这些限制。OpenDevin的主要组件包括状态和事件流架构、代理运行环境和多代理委派框架。这种创新方法允许AI代理通过编写和执行代码、与命令行交互以及浏览网页来执行广泛的任务。OpenDevin的开源性质及其与评估基准的整合进一步增强了其在该领域的贡献,为AI代理的开发和评估提供了一个多功能且可扩展的平台。
OpenDevin的技术实现涉及多个关键组件。该平台具备一个沙箱操作系统和网页浏览器,使代理能够安全且高效地执行任务。代理可以通过一套核心的通用操作来与环境交互,例如执行Python代码、运行bash命令和使用BrowserGym的特定领域语言来导航网页。该平台的代理运行环境通过SSH协议连接代理到这些环境,确保任务执行的安全性和隔离性。OpenDevin还包括一个AgentSkills库,提供一套代理可以用来执行复杂任务的实用函数。这个库设计易于扩展,允许社区成员贡献新工具和技能。此外,该平台支持多代理协作,使代理能够将任务委派给专业代理,以提高性能。
OpenDevin在包括软件工程任务如SWE-Bench和HumanEvalFix、网页浏览任务如WebArena和MiniWoB++,以及包括GAIA和GPQA在内的杂项辅助任务上进行了评估。
OpenDevin的代理在这些基准测试中表现出竞争力。在SWE-Bench Lite中,CodeActAgent实现了26%的解决率,与其他专业代理相当。在HumanEvalFix中,OpenDevin代理修复了79.3%的Python错误,显著优于非代理方法。该平台在网页浏览任务中也显示出强大的结果,其BrowsingAgent在WebArena中实现了15.5%的成功率。这些结果突显了OpenDevin在处理多样任务方面的有效性,以及其作为一个通用AI平台的潜力。
OpenDevin在开发和部署AI代理方面提出了重大进展,解决了创建能够自主执行复杂任务的灵活而强大AI代理的关键挑战。通过整合一套全面的工具、环境和评估框架,OpenDevin克服了现有方法的局限,并为未来的AI研究和应用提供了一个坚实的平台。该平台的开源性质和社区驱动的开发也进一步增强了其对AI领域的潜在影响。
本文由LowCode低码时代根据公开资料整理,如有侵权请联系删除。
– END –
报告下载
大佬观点
西门子低代码-王炯 | 西门子低代码-阮铭 | 微软-李威 | 微软-徐玉涛 | 葡萄城-李佳佳 | 葡萄城-宁伟 | SAP-陈泽平 | 华为-周明旺 | 华为云-董鑫武 | 钉钉宜搭-邵磊 | 轻流-严琦东 | 腾讯云微搭-骆勤 | 网易数帆-陈谔、严跃杰 | 百特搭-姜楠