明明的 AI Engineering 日报

聚焦软件工程、AI agent、coding agent 和 harness engineering 的 arXiv 摘要。
生成时间:2026-05-23T04:08:00;今日精选:5 篇;候选池:5 篇 候选池是程序从 arXiv 抓取并按关键词筛过的论文数量;今日精选是最终发布到日报里的条数,默认 5 篇。;LLM:5/5 条深度摘要

基于差分测试时扩展的代码生成

2026-05-19 · cs.SE, cs.AI, cs.LG arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
无需测试用例或额外LLM调用,通过模糊测试聚类选择最佳代码候选。

为什么重要
现有测试时扩展方法依赖公开测试用例或大量LLM推理,本工作提出无需外部测试用例和额外模型调用的差分分析方案,显著降低token和时间开销。它完全异步且模型无关,适合当前agentic coding趋势。
可执行启发
开发者可直接复用其覆盖引导模糊测试+行为聚类策略来提升代码生成质量,避免昂贵的大模型候选筛选。该方法能无缝集成到现有agent工作流中。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。方法创新且实验充分,但仅限于代码生成任务,且依赖模糊测试有效性;对于复杂逻辑或安全攸关场景,生成输入的质量可能不足。真实价值在于提供了一种低开销、可扩展的测试时扩展替代方案。

原题:Code Generation by Differential Test Time Scaling

代码生成测试时扩展覆盖引导模糊测试行为聚类agentic coding deepseek-ai/DeepSeek-V4-Flash

面向连续AI智能体评估的无分布不确定性量化

2026-05-19 · cs.AI, cs.LG arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
用共形预测为AI agent评分提供分布自由的可信区间。

为什么重要
该工作为持续变化的AI agent评估提供了无需假设数据分布的不确定性量化方法,可在agent发布后自动调整区间宽度,对实时监控和排名稳定性判断有直接帮助。
可执行启发
开发者可将分裂共形预测集成到agent监控流水线,获得校准误差低于0.02的24小时覆盖区间;利用共形弃权规则控制排名中的错误率,避免不可靠对比。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。方法扎实,实验覆盖多种相关性场景,但需注意其依赖于实时信号采样(每小时18个信号),实际部署成本较高;共形预测本身计算代价低,适合工程集成。

原题:Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation

AI agent评估共形预测不确定性量化时序监控多智能体系统 deepseek-ai/DeepSeek-V4-Flash

契约基准:LLM智能体能遵守观察契约吗?

2026-05-17 · cs.SE, cs.AI arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 8.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
评估LLM agent处理API返回临时工件的时效与完整性能力。

为什么重要
当前LLM agent普遍忽略API返回工件的有效期与字节完整性,导致实际应用中频繁出错。ContractBench首次系统性地测量这一失效模式,揭示了模型能力的不连续涌现与尺度悖论。
可执行启发
开发者在构建agent工作流时,应加入对返回工件的时间戳检查和哈希校验;避免完全依赖模型自身的“不动手”能力,需显式验证中间结果。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。真实价值:提供了可复现的确定性评测框架,并指出“观察契约”是一种欠考虑但至关重要的能力。限制:基准任务仅33个,覆盖有限;部分失效标签依赖具体API规范,通用性待验证。

原题:ContractBench: Can LLM Agents Preserve Observation Contracts?

AI agentLLM评估观察契约工具使用代码智能体 deepseek-ai/DeepSeek-V4-Flash

SynAE:衡量工具调用智能体评估中合成数据质量的框架

2026-05-21 · cs.CL, cs.LG, cs.SE arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 7.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
评估多轮工具调用agent合成基准数据质量的多维框架。

为什么重要
真实数据集常因隐私或稀疏性不足,合成数据日益关键。SynAE提供了系统化评估合成数据有效性、保真度和多样性的方法,帮助开发者判断合成测试集能否可靠替代真实数据。
可执行启发
开发者可用SynAE验证自己生成的agent评估数据集质量,避免因数据偏差导致评测失效;框架开源可集成到测试流水线中。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。聚焦于数据质量度量而非数据生成本身,真实价值在于提供标准化评估维度。局限在于依赖已有的agent基准轨迹,且指标可能需要针对特定任务调整。

原题:SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations

合成数据评估工具调用agent基准测试质量多维评估工程实践 deepseek-ai/DeepSeek-V4-Flash

无效Bug报告的自动根原因子分类与无代码修复生成

2026-05-17 · cs.SE, cs.AI, cs.MA arXiv 分类代码,例如 cs.SE 表示 Software Engineering,cs.AI 表示 Artificial Intelligence,cs.CL 表示 Computation and Language。 · score 5.0 score 是生成器和模型对这篇论文进入日报价值的 0-10 分判断,越高越值得优先读。

一句话总结 模型把论文核心贡献压缩成一句话,帮助你快速判断是否继续读。
自动对无效Bug报告进行根因分类并生成无代码修复建议。

为什么重要
无效Bug报告占客户支持大量资源,自动分类和修复生成可显著减少人工分析成本。该工作系统比较了RAG、Agentic搜索等方法,为后续自动化triage提供了参考。
可执行启发
对无效报告的处理可复用RAG或Agentic搜索提升分类准确率;但需注意特定子类(如Wrong Version)效果差,应优先改进特征工程。

去 hype 去掉营销和夸张表述,说明这篇论文真实价值、限制和需要谨慎看待的地方。方法实用但F1最高仅0.66,非再现性和特性请求类效果较好,版本错误类几乎无效;价值集中在减轻客服负担,但不可直接迁移至代码bug修复。

原题:Automated Root-Cause Subclassification and No-Code Fix Generation for Invalid Bug Reports

无效Bug报告根因分类无代码修复检索增强生成Agentic搜索 deepseek-ai/DeepSeek-V4-Flash