#1宝玉的分享
Claude Code 省 Token 指南:慎用 1M 上下文,不开新会话或者总是开新会话都不对
- 频繁开启新会话会导致提示缓存失效并触发全价重建,保持活跃会话反而更节省Token。
- 任务未切换且缓存未过期时应继续当前会话,任务变更或闲置超1小时再果断开新会话。
- 日常开发慎用1M上下文窗口,建议配置自动压缩阈值至20万Token以控制成本并维持性能。
阅读全文#2Microsoft Research Blog
ADeLe: Predicting and explaining AI performance across tasks
微软研究院联合高校提出ADeLe评估框架,通过18项核心能力维度对大模型与任务进行双向量化评分。该方法能构建模型能力画像,以约88%的准确率预测未知任务表现,并精准定位模型失败原因,有效弥补传统基准测试缺乏解释性与预测力的缺陷。
- ADeLe将模型与任务映射至18项核心能力维度(0-5分),实现需求与能力的结构化对齐。
- 基于能力画像匹配,该方法预测新任务准确率达88%,可提前识别模型在复杂场景下的短板。
- 框架揭示现有基准测试常混淆多项能力或难度单一,为科学设计评测集与模型选型提供依据。
阅读全文#3Spring Blog
Spring AI Agentic Patterns (Part 7): Session API — Event-Sourced Short-Term Memory with Context Compaction
本文介绍 Spring AI 全新 Session API,采用事件溯源架构管理短期对话记忆,通过“轮次”原子化保障工具调用完整性,并提供可组合的上下文压缩触发器与策略,解决传统 ChatMemory 粗暴截断导致的上下文断裂问题,为多智能体协作提供结构化记忆底座。
- 采用事件溯源日志替代扁平消息列表,以“轮次”为原子单位管理上下文,彻底避免工具调用序列被截断导致的模型幻觉。
- 提供可插拔的上下文压缩机制,支持按轮次、Token阈值或组合条件触发压缩,智能保留关键对话结构。
- 新 API 将作为 Spring AI 2.1 核心组件取代旧版 ChatMemory,原生支持多智能体分支隔离与元数据检索。
阅读全文#4Next.js Blog
Building Next.js for an agentic future
Next.js 团队分享了将 AI Agent 视为一等公民的架构演进历程。通过废弃内置浏览器 Agent,转向基于 MCP 协议暴露框架内部状态,并引入结构化日志、agents.md 和 Next.js Skills,从根本上解决了 Agent 调试盲区与上下文缺失问题,为 AI 原生开发框架设计提供了新范式。
- AI Agent 调试需突破浏览器盲区,Next.js 通过 MCP 协议将运行时错误、路由与组件状态结构化暴露给外部 Agent。
- 框架内置 Agent 易与通用编码工具重叠,Next.js 选择将核心能力下沉为标准化接口与上下文文件(agents.md)。
- 面向 Agent 开发需转变设计思维,通过终端日志转发、压缩文档索引与标准化工作流,降低 Agent 幻觉与上下文获取成本。
阅读全文#5Next.js Blog
Next.js Across Platforms: Adapters, OpenNext, and Our Commitments
Next.js 16.2 正式发布稳定的 Adapter API,通过定义类型化、版本化的构建输出契约,联合 OpenNext 及主流云厂商解决多实例部署下的缓存同步与流式渲染难题,并开源 Vercel 官方适配器以统一跨平台部署标准。
- Next.js 16.2 推出稳定版 Adapter API,提供类型化构建输出契约,消除跨平台部署的配置黑盒。
- Vercel 官方适配器已开源并采用相同公共契约,配合共享测试套件保障各平台功能一致性。
- 联合 OpenNext 与主流云厂商成立生态工作组,建立长期协作机制以应对框架演进与多租户架构挑战。
阅读全文#6Engineering at Meta
KernelEvolve: How Meta’s Ranking Engineer Agent Optimizes AI Infrastructure
- KernelEvolve将底层算子优化转化为LLM驱动的自动化搜索问题,通过闭环评测反馈,数小时内完成专家数周的手动调优。
- 系统支持NVIDIA/AMD/MTIA/CPU等异构硬件,自动生成Triton/CUDA等高性能Kernel,大幅提升模型吞吐。
- Agentic编码方案打破人工调优瓶颈,为应对AI模型与硬件快速迭代的大规模基础设施优化提供可复用工程范式。
阅读全文#7Engineering at Meta
How Meta Used AI to Map Tribal Knowledge in Large-Scale Data Pipelines
- 针对大型复杂代码库,采用多智能体预计算引擎提取隐性知识,比直接让AI扫描代码更高效准确。
- AI上下文文件应遵循“指南针而非百科全书”原则,控制篇幅并聚焦关键路径、隐式规则与交叉引用。
- 构建自维护的知识层与自然语言路由机制,可显著降低AI工具调用开销,并实现与底层大模型的解耦。
阅读全文#8The Cloudflare Blog
The AI engineering stack we built internally — on the platform we ship
Cloudflare在11个月内构建了基于自身平台的内部AI工程栈,覆盖93%研发人员,月处理4795万AI请求,显著提升代码合并效率。
- 内部AI工具栈完全运行于Cloudflare对外产品上,实现自用即公测的开发闭环。
- 通过AI Gateway统一路由与Workers AI推理,支撑日均百万级请求并保障零数据留存安全。
- 引入AI Code Reviewer和知识图谱,系统化解决多仓库协同、质量控制与新人上手问题。
阅读全文