明明的 AI Engineering 日报

聚焦软件工程、AI agent、coding agent 和 harness engineering 的 arXiv 摘要。
生成时间:2026-06-03T05:16:25;今日精选:5 篇;候选池:5 篇 候选池是程序从 arXiv 抓取并按关键词筛过的论文数量;今日精选是最终发布到日报里的条数,默认 5 篇。;LLM:5/5 条深度摘要

AI 编程工具配置对构建与购买决策的影响:一项研究方案

2026-06-02 · cs.SE, cs.AI, cs.HC arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
提出研究方案,探究不同配置机制如何影响 AI 编程工具在“自行构建”与“引入库”之间的决策。

为什么重要
AI 编程工具的“构建与购买”决策直接影响软件的安全性、合规性、性能和长期可维护性。目前缺乏关于配置机制如何有效引导这些决策的实证研究,该研究旨在填补这一空白。
可执行启发
为开发者提供了评估和引导 AI 编程工具依赖引入决策的实证框架。其发布的基准数据集和分析流程可作为评估 AI 编程工具行为的可复用工具。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。这是一项预先注册的研究方案,而非已完成的研究结果,其价值在于严谨的实验设计和可复用的评估框架。其结论的有效性有待后续实验验证,且可能受限于所选工具和任务范围。

原题:The Impact of Configuring Agentic AI Coding Tools on Build-vs-Buy Decisions: A Study Protocol

AI 编程工具软件工程实证研究配置管理基准评测 deepseek-ai/DeepSeek-V3.2

DDOR:基于 Delta Debugging 的可解释过度拒绝测试与修复

2026-06-02 · cs.SE, cs.AI arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
提出自动化框架 DDOR,通过 Delta Debugging 定位并修复 LLM 对良性查询的过度拒绝问题。

为什么重要
LLM 的安全对齐可能导致过度拒绝,影响可用性。DDOR 提供黑盒、可解释的测试与修复方案,无需访问模型内部机制,具有较高实用价值。
可执行启发
开发者可借鉴其 Delta Debugging 思路,构建针对特定模型行为的自动化测试与修复流程。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。核心价值在于将软件工程中的调试方法(Delta Debugging)系统化应用于 LLM 行为分析,提供了可操作的工程路径。主要限制是依赖黑盒输入输出,修复效果可能受模型固有机制约束。

原题:DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair

LLM 安全自动化测试Delta Debugging模型行为分析提示工程 deepseek-ai/DeepSeek-V3.2

大语言模型在确定性编程任务上的准确性、稳定性与重复运行可靠性

2026-05-30 · cs.LG, cs.AI, cs.SE arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
研究发现,单次运行通过率会高估无需重试的覆盖率,差距最大可达17.8个百分点。

为什么重要
该研究揭示了在评估LLM执行确定性任务时,仅报告单次运行通过率会严重高估模型的稳定覆盖能力,尤其是在中等性能系统上。这对于依赖LLM稳定输出的生产环境(如代码生成、自动化脚本)至关重要,因为不稳定的输出会增加调试和集成的成本。
可执行启发
开发者在评估和选择用于生产环境的代码生成模型时,应引入重复运行稳定性指标,而不仅仅依赖单次或最优运行结果。这提示了更严谨的模型评测流程和基准设计方向。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。真实价值在于为LLM在确定性任务上的工程化评估提供了具体的量化方法和洞见,强调了稳定性与准确性的区别。限制在于其发现主要基于特定类型的编程问题(LeetCode风格),结论在更复杂、开放性的软件工程任务上的普适性有待验证。

原题:Accuracy, Stability, and Repeated-Run Reliability of Large Language Models on Deterministic Programming Tasks

大语言模型评估代码生成基准测试软件工程稳定性分析 deepseek-ai/DeepSeek-V3.2

人机协作与软件工程工作的转型

2026-06-02 · cs.SE arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
分析生成式AI和智能体AI如何将软件工程从代码编写转向人机协作、验证与治理。

为什么重要
该论文基于大规模实证数据,系统性地描绘了AI时代软件工程范式的转变。它提供了一个理论驱动的能力框架,为行业转型、教育变革和组织领导力提供了清晰的路线图。
可执行启发
开发者应更关注意图规范、关键判断和问责监督,而非代码产量。产品和工作流设计需适应人机协作与智能体编排的新模式。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。真实价值在于提供了一个结构化框架来理解AI对软件工程角色的重塑,而非提出具体技术方案。限制在于其基于当前观察的预测性质,且框架的实践有效性有待实证检验。

原题:Human-AI Collaboration and the Transformation of Software Engineering Work

软件工程AI智能体人机协作能力框架范式转变 deepseek-ai/DeepSeek-V3.2

交接债务:编码代理接管中断任务时的重新发现成本

2026-06-01 · cs.AI arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
研究编码代理在任务中断后,不同交接上下文对后继代理恢复效率的影响。

为什么重要
真实软件开发常涉及任务中断和交接,现有基准测试仅评估单一代理的连续任务解决能力。该研究量化了‘交接债务’——即因前任工作不透明或不完整导致的后继代理重新发现成本,填补了评估维度空白。
可执行启发
为编码代理工作流设计应包含结构化的交接上下文(如摘要或结构化笔记),以显著降低后继代理的恢复成本。评估编码代理时,除解决率外,还应报告其工作产出的‘可交接性’成本。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。真实价值在于将软件工程中的人为协作模式(中断、交接、上下文传递)引入AI代理评估,提供了可量化的交接效率指标和一套可复用的实验协议。限制在于实验规模有限(75个源任务),且对解决率的提升效果因模型而异,主要收益体现在效率提升而非成功率突破。

原题:Handoff Debt: The Rediscovery Cost When Coding Agents Take Over Interrupted Tasks

编码代理任务交接评估基准软件工程AI工作流 deepseek-ai/DeepSeek-V3.2