登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题


AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

这篇论文的作者均来自伊利诺伊大学香槟分校(uiuc)张令明老师团队,包括:steven xia,四年级博士生,研究方向是基于 ai 大模型的自动代码修复;邓茵琳,四年级博士生,研究方向是基于 ai 大模型的代码生成;soren dunn,科研实习生,目前为 uiuc 大三学生。张令明老师现任 uiuc 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。

更多详细信息请见张老师的个人主页:https://lingming.cs.illinois.edu/

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

然而,复杂的 Agent 系统会带来额外的开销和不确定性,我们真的需要使用如此复杂的 Agent 来解决 GitHub issue 吗?不依赖 Agent 的解决方案能接近它们的性能吗?

从这两个问题出发,伊利诺伊大学香槟分校(UIUC)张令明老师团队提出了 OpenAutoCoder-Agentless,一个简单高效并且完全开源的无 Agent 方案,仅需 $0.34 就能解决一个真实的 GitHub issue。Agentless 在短短几天内在 GitHub 上已经吸引了超过 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文:AGENTLESS : Demystifying LLM-based Software Engineering Agents

  • 论文地址:https://huggingface.co/papers/2407.01489

  • 开源代码:https://github.com/OpenAutoCoder/Agentless

AWS 研究科学家 Leo Boytsov 表示:“Agentless 框架表现优异,超过所有开源 Agent 解决方案,几乎达到 SWE Bench Lite 最高水平(27%)。而且,它以显著更低的成本击败了所有开源方案。该框架采用分层查询方法(通过向 LLM 提问来查找文件、类、函数等)以确定补丁位置。虽然利用 LLM,但不允许 LLM 做出规划决策。”

Agentless 是一种自动解决软件开发问题的方法,它使用简单的两阶段方法进行定位和修复,以修复代码库中的 bug。在定位阶段,Agentless 以分层方式来逐步缩小到可疑的文件、类 / 函数和具体的编辑位置。对于修复,它使用简单的 diff 格式(参考自开源工具 Aider)来生成多个候选补丁,并对其进行过滤和排序。

研究者将 Agentless 与现有的 AI Software Agent 进行了比较,其中包括最先进的开源和商业 / 闭源项目。令人惊讶的是,Agentless 可以以更低的成本超越所有现有的开源 Software Agent!Agentless 解决了 27.33% 的问题,是开源方案中最高的,并且解决每个问题平均仅需 $0.29,在所有问题上(包括能解决和未解决的)平均只需要约 $0.34。

不仅如此,Agentless 还有改进的潜力。在考虑所有生成的补丁时,Agentless 可以解决 41% 的问题,这个上限表明补丁排序和选择阶段有显著的改进空间。此外,Agentless 能够解决一些即使是最好的商业工具(Alibaba Lingma Agent)也无法解决的独特问题,这表明它可以作为现有工具的补充。

对 SWE-bench Lite 数据集的分析

研究者还对 SWE-bench Lite 数据集进行了人工检查和详细分析。

研究发现,SWE-bench Lite 数据集中,有 4.3% 的问题在问题描述中直接给出了完整的答案,也就是正确的修复补丁。而另外 10% 的问题描述了正确解决方案的确切步骤。这表明,SWE-bench Lite 中的某些问题可能更容易解决。

此外,研究团队观察到有 4.3% 的问题在问题描述中包含了用户提议的解决方案或者步骤,但这些方案与开发人员的真实补丁并不一致。这进一步揭示了该基准测试的潜在问题,因为这些误导性解决方案可能导致 AI 工具仅通过遵循问题描述来生成不正确的解决方案。

在问题描述质量方面,研究者观察到,虽然 SWE-bench Lite 中大部分的任务都包含了足够的信息,并且许多任务还提供了失败示例来复现错误,但是仍有 9.3% 的问题没有包含足够的信息。例如需要实现一个新的函数或者添加一个错误信息,但是特定的函数名或者特定的错误信息字符串并没有在问题描述中给出。这意味着即使正确实现了底层功能,如果函数名或错误信息字符串不完全匹配,测试也会失败。

普林斯顿大学的研究人员,同时也是 SWE-Bench 的作者之一,Ofir Press 确认了他们的发现:“Agentless 对 SWE-bench Lite 进行了不错的手动分析。他们认为 Lite 上的理论最高得分可能是 90.7%。我觉得实际的上限可能会更低(大约 80%)。一些问题的信息不足,另一些问题的测试过于严格。”

SWE-bench Lite-S:经过过滤的严格问题子集

针对这些问题,研究者提出了一个严格的问题子集 SWE-bench Lite-S(包含 252 个问题)。具体来说,从 SWE-bench Lite(包含 300 个问题)中排除了那些在问题描述中包含确切补丁、误导性解决方案或未提供足够信息的问题。这样可以去除不合理的问题,并使基准测试的难度水平标准化。与原始的 SWE-bench Lite 相比,过滤后的基准测试更准确地反映了自动软件开发工具的真实能力。

结语

尽管基于 Agent 的软件开发非常有前景,作者们认为技术和研究社区是时候停下来思考其关键设计与评估方法,而不是急于发布更多的 Agent。研究者希望 Agentless 可以帮助重置未来软件工程 Agent 的基线和方向。


# git  # 字符串  # github  # https  # 软件工程  # bug  # issue  # 开源  # 伊利诺伊  # 错误信息  # 更低  # 进行了  # 提出了  # 普林斯顿  # 仅需  # 研究方向 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 怎么用ai写产品说明书 AI功能介绍与使用步骤详解【实操】  Feelin网页版在线使用 Feelin官网登录入口  文本分类与聚类:网络安全中的自然语言处理应用  AI营销软件Top 5:提升业务的终极指南  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】  五大AI视频编辑工具:提升视频创作效率和质量  Android图像翻译器应用:技术、应用与未来展望  AI语音生成器终极指南:免费工具与逼真语音编辑  Motion:革新项目管理的智能日历解决方案  CallidusAI:提升合同起草效率的智能Word插件指南  雷小兔ai智能写作怎样导入素材_雷小兔ai智能写作素材上传与引用【技巧】  Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程  文心一言怎么一键生成会议纪要_文心一言纪要生成与重点提取【指南】  利用AI在五分钟内高效生成潜在客户:UpLead深度教程  开源AI Agent项目精选:赋能智能自动化  探索孟加拉音乐魅力:高尔德普林特莎丽,节日欢歌  Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】  教你用AI帮你写出有说服力的众筹项目文案  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  2025年10月狮子座运势:事业、爱情与生活指南  Claude如何导出对话记录_Claude对话导出方法【方法】  文本分类:生成模型与朴素贝叶斯算法的全面指南  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  n8n教程:如何用AI自动生成个性化简历  解读诗歌中的女性视角:Shelley Puhak 的作品解析  通义千问网页版怎么清历史_通义千问历史清理方法【方法】  探索未来:AI机器人AURORA揭秘亚特兰蒂斯之谜  扣子AI能否连接企业微信_扣子AI企业微信对接与接口配置【攻略】  批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】  通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】  Vidu AI:使用Q1模型轻松创建电影级短片  解锁 Gemini Gems 高级用法:打造专属 AI 专家助手  AI图片生成教程:轻松打造你的专属文化艺术照  如何用AI生成正则表达式?再也不怕复杂的文本匹配  正确安装梁托:终极指南与常见错误规避  Amazon Rekognition: 图像与视频分析的强大AI工具  利用AI模板高效创建产品需求文档 (PRD)  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  ChatGPT助力Instagram Reels脚本创作:提升内容质量  AI写作鱼怎么一键生成朋友圈文案_AI写作鱼文案风格切换与字数设置【指南】  AI图像生成平台深度对比:Midjourney vs. Stable Diffusion  AI绘图工具测评:告别复杂流程,高效创作流程图  Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图  AI简历优化指南:如何让你的简历轻松通过ATS筛选系统  LeetCode问题解析:移除回文子序列,掌握字符串技巧  利用AI自动化回复Google Voice短信:终极指南  AI项目管理软件如何利用自然语言处理?全面解析  找不到百度AI助手入口 最新官网登录入口  AI客户服务的最新趋势:个性化与情感智能 

 2024-07-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.