🤖 智能体

Agent 框架 / MCP / A2A / 手机&桌面助手 — 共 97 条活跃资源

📅 今天

Launching Claude Managed Agents

@RLanceMartin · ⭐⭐⭐⭐⭐5 🌐 · 今天

Anthropic 发布 Claude Managed Agents：预构建的可配置 Agent 运行底座，运行在托管基础设施上。三大核心概念：Agent（版本化配置）、Environment（沙盒模板）、Session（有状态运行）。四种用法：事件触发、定时、即发即忘、长时间任务。架构上将"大脑"（Claude+调度框架）、"手"（沙盒工具）、"记忆"（会话日志）解耦，支持独立故障恢复。

claude managed-agents anthropic agent-sdk infrastructure

OpenClaw + Codex/ClaudeCode Agent Swarm: The One-Person Dev Team

@Elvis · ⭐⭐⭐⭐⭐5 🌐 · 今天

以 OpenClaw 为编排层，Codex/Claude Code 为编码执行层的双层架构。编排助手 Zoe 负责分配任务、生成提示、跟踪进度、Telegram 通知。核心思想是上下文专业化：编码 Agent 拿代码上下文，编排层掌握业务上下文。94 次提交/日峰值，30 分钟 7 个 PR。流程包含隔离 worktree、tmux 控制、JSON 任务注册、周期巡检、三模型审查（Codex/Gemini/Claude）。

openclaw codex claude-code agent-swarm orchestration

Pi: The Minimal Agent Within OpenClaw

@Armin Ronacher · ⭐⭐⭐⭐⭐5 🌐 · 今天

OpenClaw 底层的编码 Agent Pi 详解。Pi 由 Mario Zechner 开发，理念是让 Agent 自己扩展自己而非下载扩展。刻意不支持 MCP（可用 mcporter 桥接），强调代码生成和运行。核心设计：会话是树结构（可分支/回退/导航），内置热重载让 Agent 自己写代码→重载→测试循环。多模型支持、可移植性优先。扩展可注册工具给 LLM 调用，也可渲染自定义 TUI 组件。

pi openclaw coding-agent mcp session-tree

我的 Obsidian 不是笔记软件，是操作系统

@Uncle J · ⭐⭐⭐⭐⭐5 🇨🇳 · 今天

HR 出身的非程序员，用 Obsidian + Claude Code 搭建了复杂个人工作台。506 次 git commit、85+ AI Skills、3 个生命周期钩子、435 条自动 session logs、7 个平台同步分发。核心理念"File over App"：文件属于你，系统和 AI 是过客。原料从四面八方进来，经过流水线加工，变成成品出去。强调本地优先、数据自主。

obsidian claude-code automation file-over-app personal-os

Agentic Software Engineering

@ashpreetbedi · ⭐⭐⭐⭐⭐5 · 今天

Note: this post is about building your own agents (agentic software engineering), not about using coding agents. 注意：本文讨论的是构建自己的代理（代理软件工程），而不是使用编码代理。 By now you've probably used a few agents, or at least heard of Claude Code, Codex, or OpenClaw. Ever wondered what it takes to build your own? 到目前为止，你可能已经使用过几个代理，或者至少听说过Claude Code、Codex或OpenClaw。

openclaw claude codex mcp agent

如何从零开始写一个 OpenClaw -- 关于我用 Rust 写一只🦀🦞(CrabClaw)的开发手记

@jakevin7 · ⭐⭐⭐⭐⭐5 · 今天

By @jakevin7 (卡比卡比) · Mon Mar 02 15:57:31 +0000 2026 📊 ❤️ 74 🔁 4 🔖 92 👁️ 14,471 💬 1 📐 735 words 从 0 到 1，用 AI 辅助开发一个 OpenClaw 类似的 Agentic AI 工具。7 天，73 个 commit，13000+ 行 Rust。这篇文章记录了整个过程中的思考、踩坑与感悟。代码在 GitHub。如果你也想造一只属于自己的螃蟹钳子，欢迎 star/fork。我的 GitHub：jackwener，欢迎 follow。起因 2026 年 2 月，OpenClaw 火了。朋友圈里人人都在聊这只龙虾——一个能在 Telegram 里跟你对话、帮你干活的 AI 智能体。在我看到 Bub 之后，我也起了一个想自己写一个的心我先简单看了 Nanobot（OpenClaw 的最小复现）了解核心架构，深入研究了 Bub——PsiACE 的 Agent 项目。Bub 的架构非常优雅：AgentLoop 抽象、Tape 记忆系统、Skills 引擎，每个模块都恰到好处。

openclaw agent agentic skill context-management

Agent Frameworks Are Getting Squeezed

@tonykipkemboi · ⭐⭐⭐⭐⭐5 · 今天

By @tonykipkemboi (Tony Kipkemboi) 🕐 Mon Mar 02 20:12:29 +0000 2026 📊 ❤️ 255 🔁 20 🔖 565 👁️ 91,128 💬 19 📐 1,407 words When you look at what most agent frameworks actually do, it's workflow orchestration. You define tasks, chain them together, route data between steps, add conditional logic, call external APIs. The core mechanics look familiar because we've been doing this with automation platforms for over a decade. 当你看大多数 agent 框架真正做的事情时，本质上就是工作流编排：定义任务、串联步骤、在流程间路由数据、加条件分支、调用外部 API。

openclaw claude agent agentic automation

ARTEMIS - LLM 智能体的自动化进化优化

⭐⭐⭐⭐⭐5 🇨🇳 · 今天

论文: Evolving Excellence: Automated Optimization of LLM-based Agents
精读日期: 2026-03-09
阅读者: 高爷（AI 应用探索者）

一、核心问题

1.1 论文要解决什么问题？

研究问题: 如何自动化地优化基于 LLM 的智能体配置，以提升性能并降低成本？

子问题:

智能体的哪些组件可以优化？（提示词、工具描述、参数）
如何联合优化多个相互依赖的组件？
如何在巨大的配置空间中高效搜索？
如何让非专家用户也能使用优化工具？…

safety coding agent tool-use llm

构建自主 LLM 智能体基础

@** | 人工预定义 | 自主生成 | · ⭐⭐⭐⭐⭐5 🇨🇳 · 今天

这篇论文要解决什么问题？

传统 LLM 在现实世界任务中存在三大局限：

缺乏长期记忆：无法保留历史信息和经验
无法自主使用工具：需要人工指导才能与外部系统交互
难以在动态环境中追求目标：缺乏持续推理和多步规划能力

为什么这个问题重要？

LLM 的潜力远未被充分释放，目前主要用于对话而非行动
真实世界的任务往往需要多步骤、多工具、多轮反馈
如果能让 LLM 成为真正的"智能体"而非"聊天机器人"，将极大扩展其应用价值
当前智能体与人类能力仍有巨大差距（42.9% vs 72.36% 任务完成率）

这篇论文为构建 LLM 智能体提供了系统化的理论框架和实践指导。对于高爷的工作，它提供了：

架构蓝图：四大系统（感知、推理、记忆、执行）为 SmartPerfetto 的智能化提供了清晰的改造方向
技术选型指导：CoT/ToT/ReAct 等推理策略，RAG/知识图谱等记忆方案，帮助做出合理的技术选择
问题识别：五大失败模式帮助预见和规避常见的智能体开发陷阱
内容素材：丰富的理论和技术内容可以转化为系列文章、技术分享和知…

gui fine-tuning coding agent tool-use

Dr. MAMR：解决多智能体 LLM 推理中的惰性智能体问题

@：** · ⭐⭐⭐⭐⭐5 🇨🇳 · 今天

问题来源：

多轮 GRPO 引入归一化项 1/Ti 以避免偏向更长轨迹。然而，这引入了结构性偏差：

定理 1 的直觉：

给定相同上下文，如果两个行动产生：

轨迹 τS：TS 轮，最终奖励 R
轨迹 τL：TL 轮（TL > TS），最终奖励 R

模型会偏向 τS（更少轮次）。

为什么？

梯度更新中，除非 τL 的聚合贡献至少是 τS 的 TL/TS 倍，否则 ∥gt(τL)∥ > ∥gt(τS)∥。

关键洞察：

无论奖励正负都成立
- 正奖励：短轨迹更受青睐
- 负奖励：短轨迹惩罚更少
惰性行为自然产生短轨迹
- 输出空白或简单总结减少轮次
- 避免深入思考和反思
- 符合优化目标（减少轮次）
初始阶段至关重要
- 惰性行为在早期就形成
- 一旦形成难以纠正
- 影响整个训练过程

与 Dr.GRPO 的区别：

Dr.GRPO：关注令牌级别归一化
我们的工作：关注轮次级别归一化
轮次数 << 令牌数，偏差更显著

2.2 Shapley 启发的因果影响测量

核心创新：稳定且高效…

agent llm paper reinforcement-learning reasoning

迈向AI智能体可靠性科学

⭐⭐⭐⭐⭐5 🇨🇳 · 今天

论文标题: Towards a Science of AI Agent Reliability

精读时间: 2026-03-20 论文类型: AI agent、可靠性工程、评估方法 技术栈: LLM、 AI agent、评估框架

1. 核心问题

1.1 研究问题

如何系统化地评估AI智能体的可靠性？

1.2 问题背景

现实痛点:

能力与可靠性的脱节:
- 噩点:AI智能体在基准测试中表现优秀
- 现实:实际部署中频繁失败
- 原因:评估方法只关注准确率,忽略了行为的一致性、鲁…

safety fine-tuning coding agent tool-use

Agentic Code Reasoning

⭐⭐⭐⭐⭐5 🇨🇳 · 今天

论文试图解决什么问题？

大语言模型（LLM）在代码生成和理解任务上表现出色（如 GitHub Copilot、GPT-4 Code Interpreter），但在深度代码推理方面仍有明显局限。具体问题包括：

表面模式匹配：LLM 往往基于关键词和表面模式，而非深度语义理解。例如，对代码 if (x > 0) return x; else return -x;，LLM 可能识别出"返回绝对值"，但无法推理出"如果 x 是负数，返回 -x 的数学意义"。
推理不一致：对同一代码的不同提问，LLM 可能给出矛盾答案。例如，问"这个函数的时间复杂度？"可能回答 O(n)，问"这个函数会超时吗？"可能回答"不会"，但两者矛盾。
缺乏可解释性：LLM 的推理过程是黑盒，难以验证结论正确性。开发者无法判断 LLM 的结论是基于真实理解还是表面模式。
执行依赖：部分方法（如 Program-of-Thought）依赖代码执行来验证推理，但存在安全风险（执行恶意代码）和环境限制（无法执行系统级操作）。

论文的核心创新：提出"Agentic Code Reasoni…

tools safety github coding agent

Scaling Managed Agents：解耦大脑与双手

@Lance Martin, Gabe Cemaj, Michael Cohen · ⭐⭐⭐⭐⭐5 · 今天

Anthropic工程团队详解Managed Agents架构——将Agent的大脑（决策）与双手（执行）解耦的设计范式。Managed Agents允许将子任务委托给专门的Agent执行，主Agent负责协调。这种架构支持Agent的水平扩展，每个子Agent可以独立运行、使用不同工具、拥有独立的上下文窗口。文章详细讨论了委托机制、上下文传递、错误处理和成本控制等工程挑战。

anthropic managed-agents agent-sdk orchestration scaling

Hermes 从 0 到 1 教程

@Pluvio9yte · ⭐⭐⭐⭐4 🇨🇳 · 今天

介绍 Nous Research 开源的自改进 AI Agent 框架 Hermes。核心特点：内置学习循环，每次完成任务后自动提炼可复用 Skill 存入持久记忆。多层记忆系统（短期+长时+Skills），支持 40+ 工具。与 OpenClaw 对比：Hermes 重单个 Agent 深度自我成长，OpenClaw 强在多平台覆盖和复杂工作流。内置 hermes claw migrate 迁移命令。

hermes nous-research self-improving agent memory

Anthropic 今天发了一个新产品，可能会让一批做 AI 智能体基础设施的团队失业

@dotey · ⭐⭐⭐⭐4 🇨🇳 · 今天

中文深度分析 Claude Managed Agents。与 Claude Code 的区别：Code 跑在本地给个人用，Managed Agents 跑在云端给企业用，24 小时不间断。典型用法：事件触发型（Sentry 自动修 bug）、定时型（每日简报）、即发即忘型（Slack 派活）、长时间任务。技术架构将大脑/手/记忆解耦。案例：Notion、Sentry、Atlassian、Rakuten 等已接入。Anthropic 年化收入突破 300 亿美元。

claude managed-agents anthropic enterprise agent-infrastructure

TenacitOS: OpenClaw Mission Control Dashboard

@geekbb · ⭐⭐⭐⭐4 · 今天

OpenClaw 实时监控与控制中心，基于 Next.js、React 19 和 Tailwind CSS v4。部署在 OpenClaw 工作区内，直接读取主机配置/代理/会话/记忆/日志，不需额外后端。核心模块：系统监控、代理看板、成本追踪、定时任务管理、活动流、记忆/文件浏览、全局搜索、通知中心、只读终端。强调"OpenClaw 本身就是后端"。

openclaw dashboard monitoring nextjs react

The AI is the Computer

@Aravind Srinivas · ⭐⭐⭐⭐4 🌐 · 今天

Perplexity CEO 的核心观点：没有一个模型家族能独立做到最好，多模型编排远超任何单一模型。介绍了内部实验 ASI（后端 19 个模型），本质上是一台计算机——有文件系统、shell、浏览器。类比 Chromebook：Google 没错理解网络是最重要的部分，但低估了网络的 READ 功能。AI 是把 READ 能力真正补上的关键。

perplexity multi-model orchestration asi computer-as-agent

DeerFlow 2.0: ByteDance 开源超级 Agent 运行底座

@Bytedance · ⭐⭐⭐⭐4 🌐 · 今天

字节跳动开源 DeerFlow 2.0，基于 LangGraph 和 LangChain 完全重写的超级 Agent 运行底座。可编排子 Agent、记忆、工具与沙箱以完成长链路多步骤任务。核心能力：任务分解（主 Agent 并行派发子 Agent）、中间结果汇总、跨会话持久化记忆。默认提供文件系统、技能、执行环境。

deer-flow bytedance langgraph langchain super-agent

Scrapling: 自适应 Web 抓取框架

@D · ⭐⭐⭐⭐4 🌐 · 今天

自适应网页抓取框架，从单次请求到全量并发爬取。解析器能在页面结构变化后重新定位元素，抓取器提供反反爬能力（如 Cloudflare 绕过）。Spider 系统支持并发、多会话路由、断点续跑、代理轮换和流式输出。适合生产级数据流水线。支持 MCP 集成。

scraping anti-bot cloudflare-bypass spider mcp

How to set up OpenClaw Agents that actually get better Over Time

@Shubham Saboo · ⭐⭐⭐⭐4 🌐 · 今天

40 天实践：Agent 变聪明靠的不是调 prompt 或换模型，而是持续对话反馈让它们自己写下来。三层操作系统：内容 Agent 学会了作者的声音、研究 Agent 每天交付 7 个值得读的故事、8 个 Agent 24/7 运行。核心是越来越丰富的 markdown 文件栈。同一模型第 1 天和第 40 天输出质量天差地别。

openclaw memory self-improvement agent-stack markdown

OpenClaw丨我的龙虾为自己种了一棵会迭代的记忆树

@Lory · ⭐⭐⭐⭐4 · 今天

文章较长感谢阅读或者直接把这篇推文的链接扔给你的龙虾最推荐看本文的「后话」这一部分前言如果你也用OpenClaw 也在不停按照X上各种大佬的架构给它「优化」（三层架构/AI Agent的第N代/异步任务处理系统/龙虾的自我迭代...）那你一定对下面的场景不陌生：装了一堆架构，全是空文件夹📁 熟悉吗？那些架构确实被引进了或者说那些优质架构的目录确实被引进了然后就没有然后了。文件夹空空如也，Agent 根本不会主动往里面写东西。你以为搭好了骨架，结果只是搭了个空壳。你的龙虾不会主动用这些架构你告诉 🦞：「你整理一下我们的东西吧哈哈记得用新架构噢」。 🦞 说：「好的！」然后它继续把所有东西都塞进一个巨大的 context 里，完全无视你精心设计的架构。为什么？我也不知道。迭代？还是你在手动帮他传宗接代❓ 你发现你的龙虾犯了同样的错误N次。你忍无可忍问他：「你第几次犯这个错了能不能记住很烦啊」又或者说你打开记忆文件，手动添加一条规则。这确实可能帮你的龙虾迭代了问题是：你得自己去做这件事。

openclaw agent memory context-management github

Don't trust AI agents

@Gavriel_Cohen · ⭐⭐⭐⭐4 · 今天

When you're building with AI agents, they should be treated as untrusted and potentially malicious. Whether it's prompt injection, a model trying to escape its sandbox, or something nobody's thought of yet, you shouldn't be trusting the agent. The right approach isn't better permission checks or smarter allowlists. It's architecture that assumes agents will misbehave and contains the damage when they do. 当您使用人工智能代理进行构建时，它们应该被视为不受信任且可能是恶意的。无论是即时注入、试图逃离沙箱的模型，还是还没有人想到的东西，你都不应该信任代理。

openclaw agent skill

工程师，开始给 Agent 打工了

@wangray · ⭐⭐⭐⭐4 🇨🇳 · 今天

OpenAI 内部有个团队，5 个月，3 个工程师，几乎不靠手写代码，做出了一个内部产品。约 100 万行代码，约 1500 个 PR，人均每天 3.5 个 PR。这是什么概念？正常工程师一天能稳定交付一个 PR，已经算高效。3.5 个 PR，意味着产出被直接拉高到了另一个数量级。更夸张的是，这些代码大部分都不是工程师亲手敲出来的。这篇文章是 OpenAI 工程师写的，讲他们怎么用 Codex 从零构建一个叫 Harness 的内部工具。读完之后，我沉默了挺久。因为它把一件正在发生的事，讲得非常清楚：工程师的核心工作，正在从写代码，转向设计让 Agent 持续工作的环境。这句话很重要。这不是一句夸张的口号，也不是某种抽象比喻。它描述的是一个已经开始发生的角色迁移。他们实际在做什么？这 3 个工程师，日常工作的重点并不是埋头写实现，而是三件事：把需求拆成 Agent 可以执行的任务。把上下文整理成 Agent 能理解的环境。把反馈机制搭出来，让 Agent 的输出可以被验证、被纠正、被持续改进。写代码当然还在发生。只是它已经不再是最稀缺、最核心的那部分工作。

openclaw codex agent memory

Agentic Reasoning

⭐⭐⭐⭐4 🇨🇳 · 今天

一句话概括：如何让 LLM 在处理复杂研究任务时，能够有效利用外部工具、维护推理上下文，并生成可解释的推理路径？

问题拆解：

知识局限：LLM 训练数据有截止日期，无法获取最新信息
推理断裂：长推理链中容易丢失上下文，导致逻辑不一致
计算受限：LLM 无法执行复杂计算（如数学、数据分析）
单一能力：传统 LLM 缺乏外部工具调用能力
黑盒问题：推理过程不透明，难以调试和改进

对高爷工作的关联：

直接相关：AI Agent 开发、OpenClaw 工具集成
间接相关：SmartPerfetto 中的 AI 辅助分析
技术栈：LLM 应用、工具调用、知识管理

Agentic Reasoning 论文的核心价值在于"多智能体协作"和"结构化知识管理"。这两个概念不仅适用于 LLM 推理增强，也可以应用于各种复杂任务处理场景。

关键收获：

多智能体协作：将复杂任务分解，由专门智能体处理
Mind Map：用知识图谱维护推理上下文
结构化记忆：管理短期、长期和工作记忆

下一步行动：

设计 OpenClaw 的多智…

gui coding agent tool-use llm

LLM Agent推理必要性

⭐⭐⭐⭐4 🇨🇳 · 今天

Exploring the Necessity of Reasoning in LLM-based Agent Scenarios

论文链接：https://arxiv.org/abs/2503.11074
阅读日期：2026-03-15
论文类型：智能体框架 / 推理评估

一、核心问题（Core Problem）

1.1 研究背景

大型推理模型（LRMs，如DeepSeek-R1, Claude3.7-sonnet）的兴起，对传统基于大型语言模型（LLMs）的智能体框架带来了范式转变。这些新一代模型在逻辑演绎上更强大，但也带…

agent llm paper reinforcement-learning reasoning

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

⭐⭐⭐⭐4 🇨🇳 · 今天

阅读日期: 2026-03-16 论文类型: AI 智能体综述 推荐指数: ⭐⭐⭐⭐⭐

一、核心问题

问题背景

2025 年是"AI 智能体元年"，LLM 驱动的智能体系统快速发展，但领域存在定义模糊、评估碎片化、框架混乱等问题。

研究问题

如何系统性地理解、评估和构建 LLM 驱动的自主 AI 智能体？

问题意义

统一认知: 提供清晰的智能体分类和定义
指导实践: 帮助选择合适的框架和基准
推动发展: 指明未来研究方向和应用场景

二、创新点

1…

safety coding agent tool-use llm

面向移动设备厂商团队的 Agent 体系与 PerformanceAgent 设计深度研究报告

⭐⭐⭐⭐4 🇨🇳 · 今天

面向移动设备厂商研发团队的Agent体系深度研究报告。系统梳理Agent定义谱系、架构范式与多智能体协作机制，给出可落地的PerformanceAgent（性能智能体）参考设计。重点对齐Claude Agent SDK的官方能力模型，涵盖工具调用、子智能体、Skills、Hooks、上下文压缩、权限沙箱、托管形态等。从移动厂商视角出发，设计性能优化专属Agent架构。

agent performance-agent claude-agent-sdk multi-agent mobile

2025，MCP、Agent、AI Coding

⭐⭐⭐⭐4 🇨🇳 · 今天

2025，MCP、Agent、AI Coding 新的一年，少一些宏大叙事，多一些落地执行。 Read in Cubox
Read Original 这是我从腾讯裸辞成为自由职业以后，写的第三篇年终总结。前两年的年终总结，以罗列产品为主。 2023，我做过的 AI 项目 2024，我追过的 AI 风口

Anthropic Agent AI Coding MCP

2026 AI First 系列（二）：Vibe Coding——思维速度编程的民主化革命

⭐⭐⭐⭐4 🇨🇳 · 今天

2026 AI First 系列（二）：Vibe Coding——思维速度编程的民主化革命 > copyright x @ wquguru 欢迎转载，请注明出处 "IDE？我试过一堆。以前我特别依赖其中一个。但现在它那些额外的功能，我根本不需要，也不在乎。我只 Read in Cubox
Read Original > copyright x @ wquguru 欢迎转载，请注明出处

Claude AI Coding Cursor MCP Vibe Coding

2026 AI First 系列（五）：从消费AI到创造AI——成为超级个体的最后窗口期

⭐⭐⭐⭐4 🇨🇳 · 今天

2026 AI First 系列（五）：从消费AI到创造AI——成为超级个体的最后窗口期 > copyright x @ wquguru 欢迎转载，请注明出处 第一篇：代理工程时代的到来
我们看到AI正在从助手 Read in Cubox
Read Original > copyright x @ wquguru 欢迎转载，请注明出处

Claude Agent Prompt Engineering AI Coding MCP

AI 傻傻分不清楚？那么多 AI 变体究竟怎么选？这里快速简单理清！

⭐⭐⭐⭐4 🇨🇳 · 今天

AI 傻傻分不清楚？那么多 AI 变体究竟怎么选？这里快速简单理清！ Read in Cubox
Read Original 2025 年的 AI 确实越来越好用，甚至可选的大模型也越来越多，不管是 web chat 还是 ide coding，现在都提供了大量丰富的可选模型，但是这同样也带来了「选择困难症」，特别是对于用户而言，面对有限的「免费次数」或者「排队时间」，选错模型等于浪费生命，所以本篇意在简单介绍下这些模型和变体的区别，帮助你简单了解它们的适用情况 。 ?imageUrl=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2Fj9CXw3c38v5VWibibvEjLAO8rpia1wzzVm9XT6aP3Muhum9tX1x2O5QJZujmthTjnhvForbTIobzSibag6C...

OpenAI AI Coding Inference DeepSeek

AI 时代如何做独立开发

⭐⭐⭐⭐4 🇨🇳 · 今天

Read in Cubox
Read Original 上周六，我受邀参加了由 InfoQ 举办的 全球人工智能开发与应用大会（AICon） ，在北京国际会议中心，做了一场题为《AI 时代如何做独立开发》的分享。 ?imageUrl=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FRwxY4xJSwr4rZR7IOzmACNwClSldJcLV97jjyzzJHEvq01ruodicdqCibicIeYTl9WzG8SjBUA293443DB2L8yhhw%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg) 活动举办很成功，现场观众很热烈。我想把分享内容，整理成文字，与你共享。 2011 年，我本科入学武汉大学核工程专业，大一那年暑假，偶然接触了 Abobe 公司的 Photo...

MCP IndieDev Global

AI 正在推动程序员的进化，而不是灭亡 | 宝玉的分享

⭐⭐⭐⭐4 🇨🇳 · 今天

AI 正在推动程序员的进化，而不是灭亡 | 宝玉的分享 Read in Cubox
Read Original 这是纽约时报新刊登的一篇 AI 对程序员影响的文章，有人担心 AI 很快会自动取代数百万个工作岗位，文章主要观点还是认为 AI 正在推动程序员的进化，而不是灭亡，创造力、批判性思维、解决问题的能力、沟通能力、共情能力------这些才是人们在未来需要持续培养的技能。当然，还要学会如何管理和使用好这些 AI 工具。同时 HackerNews 上关于这篇文章也有不少讨论，一起整理后放在附录中供参考。微软等公司推出的 AI 工具正辅助编写代码，让软件工程师站在这项技术对劳动力市场所带来冲击的最前沿。

ChatGPT Agent

AI 重构软件工程：OpenAI Harness Engineering，程序员不写代码的时代来了

⭐⭐⭐⭐4 🇨🇳 · 今天

AI 重构软件工程：OpenAI Harness Engineering，程序员不写代码的时代来了，OpenAI 在工程博客发布的《Harness engineering: leveraging Codex in an agent-first world》，抛出了一个颠覆软件工程界的实验结果：一支初始 3 人的工程师团队，从空 Git 仓库起步，仅用 5 个月时间，依靠 Codex+GPT-5 构建出一款拥有约 100 万行代码的 Read in Cubox
Read Original 一、百万代码零手写，OpenAI 工程实验二、驾驭工程：不是 AI 写代码，而是驯服

OpenAI Agent RAG

AI编程：从Copilot到Autopilot

⭐⭐⭐⭐4 🇨🇳 · 今天

AI编程：从Copilot到Autopilot AI编程正在重塑软件开发的边界，让更多人能够将想法转化为现实，重新定义人与技术的关系。 Read in Cubox
Read Original AI编程是当前AI领域唯一盈利赛道。这不仅是一种技术革新，更是一场创造方式的变革，正在重塑软件开发的边界，让更多人能够将想法转化为现实，重新定义人与技术的关系。从GitHub Copilot这样的代码补全插件，到Cursor这类AI IDE，AI编程工具正在变得更加集成和智能。这种演变不仅提高了效率，还大幅降低了编程门槛，使非程序员也能创造软件。

OpenAI Anthropic Agent Prompt Engineering Copilot

Android Studio 的 AI Agent 有什么特别？未来会有惊艳什么功能？

⭐⭐⭐⭐4 🌐 · 今天

Android Studio 的 AI Agent 有什么特别？未来会有惊艳什么功能？ Read in Cubox
Read Original 相信大家都在之前的《Android Studio Otter 2 Feature 发布》已经了解过，为什么这是一个比较值得更新的 Android Studio 版本，与此同时，谷歌也和我们展示了未来（Canary）全新的 AI Agent 有什么特别之处。对于一个 AI Agent 来说，最重要的有三个基础概念：工具 (Tools)、** 上下文 (Context)** 和 MCP (模型上下文协议) ，而大多数人对于它们的理解，可能还比较片面。比如工具，实际上 AI Agent 不只是一个聊天场景，更多是 Agent 通过"工具"来执行任务 ，而不是单纯用来做文本回复...

Agent Prompt Engineering Android MCP

Anthropic Skills 深度解析：当通用 Agent 学会专业技能

⭐⭐⭐⭐4 🇨🇳 · 今天

Anthropic Skills 深度解析：当通用 Agent 学会专业技能将文件夹系统作为 Context，正是 Claude 最核心的产品理念。 Read in Cubox
Read Original 昨天深入研究了 Anthropic 刚开源的 Skills 仓库，发现这东西比想象中更有意思。当通用 Agent 学会了专业技能会怎样？

Claude Anthropic Agent MCP

Anthropic 官方分享：为 AI 智能体打造高效工具——让 AI 智能体来帮忙

⭐⭐⭐⭐4 🇨🇳 · 今天

Anthropic 官方分享：为 AI 智能体打造高效工具——让 AI 智能体来帮忙来自 Anthropic 工程团队模型上下文协议（Model Context Protocol, MCP）可 Read in Cubox
Read Original ?imageUrl=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2FSib7IezOlBcvSHsViaibvPiaVTqPSF6bP9mTw0YSwIb60Bmez3JCT6ToCtQHY9cEa32AznALvqAEktvrY5esnwuzQQ%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg%26watermark%3D1%23imgIndex%3D0) 模型上下文协议（Model Context Protocol, MCP）可...

Claude Anthropic Agent MCP Performance

Anthropic：我们如何构建多智能体研究系统

⭐⭐⭐⭐4 🇨🇳 · 今天

Anthropic：我们如何构建多智能体研究系统我们的研究（Research）功能利用多个 Claude 智能体，来更有效地探索复杂主题。 Read in Cubox
Read Original 我们的研究（Research）功能利用多个 Claude 智能体，来更有效地探索复杂主题。在此，我们分享构建这一系统时遇到的工程挑战以及我们学到的经验教训。现在，Claude 具备了研究能力^[1]^，能够横跨网络、Google Workspace 及任何集成应用进行搜索，以完成复杂的任务。

Claude Anthropic Inference Performance

Demystifying evals for AI agents \ Anthropic

⭐⭐⭐⭐4 🌐 · 今天

Demystifying evals for AI agents \ Anthropic Demystifying evals for AI agents Good evaluations help teams ship AI agents more confidently. Without them, it's easy to get stuck in reactive loopscatching issues only in production, where fixing one failure creates others. Evals make problems and beha...

mcp llm anthropic coding []

GitHub - MobinX/awesome-mcp-list: A concise list for mcp servers

⭐⭐⭐⭐4 🌐 · 今天

GitHub - MobinX/awesome-mcp-list: A concise list for mcp servers A concise list for mcp servers. Contribute to MobinX/awesome-mcp-list development by creating an account on GitHub. Awesome MCP Servers - Concise List Note that this list is continuously updating and improving. Please star this repo ...

mcp [] openai

GitHub - YishenTu/claudian: An Obsidian plugin that embeds Claude Code as an AI collaborator in your vault

⭐⭐⭐⭐4 🌐 · 今天

GitHub - YishenTu/claudian: An Obsidian plugin that embeds Claude Code as an AI collaborator in your vault An Obsidian plugin that embeds Claude Code as an AI collaborator in your vault - YishenTu/claudian ?imageUrl=https%3A%2F%2Fcamo.githubusercontent.com%2Fbbccb46c3e40e6f6bbd14f744f3796c76fdfd9e...

agent rag [] claude

How agents can use filesystems for context engineering

⭐⭐⭐⭐4 🌐 · 今天

LangChain 博客阐述文件系统作为 Agent 上下文工程核心工具的价值。四个关键场景：1) 大 token 消耗时，文件系统作为 scratch pad 存储工具结果，按需 grep 读取；2) 需要大量上下文时，通过文件持久化计划和子 Agent 知识，避免 context window 限制；3) 寻找小众信息时，glob/grep 比语义搜索更适合技术文档和代码文件；4) 持续学习时，Agent 可将用户偏好和经验写入自身文件。核心观点：文件系统提供统一接口，让 Agent 灵活存储、检索和更新无限量上下文。

context-engineering filesystem agent langchain deep-agents

How we built our multi-agent research system \ Anthropic

⭐⭐⭐⭐4 🌐 · 今天

Anthropic 详细分享其 Research 功能的多 Agent 系统从原型到生产的过程。架构采用 orchestrator-worker 模式：LeadResearcher 规划和协调，Subagents 并行搜索。8 条 prompt 工程原则：像 Agent 一样思考、教会 orchestrator 如何委派、按复杂度缩放资源、工具设计至关重要、让 Agent 自我改进、先宽后窄搜索、引导思考过程、并行工具调用。评测方面：LLM-as-judge + 人工测试互补。生产挑战：有状态错误累积、调试困难、需要 rainbow deployment。BrowseComp 评测中 token 使用量解释了 80% 的性能方差。

multi-agent research-system anthropic production prompt-engineering

【科普】程序员必看，AI时代新协议 MCP 正在连接吞噬一切，20+资源全收录！

⭐⭐⭐⭐4 🌐 · 今天

[需翻译] X（Twitter）上，AI 圈 10w+ 关注大V橘子兄这么评价： ?imageUrl=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FjibL99tg2bCXsWIicK2X1vJ0pxkaMibsVvO39oxf8HCwdCh9xggPv7Fzh1LKlcxKN5TNDeJ0lte3IJnMMIUIC8ruw%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg "null") 不少独立开发圈的朋友们，对MCP技术也很感兴趣。 ?...

一套宝藏提示词，彻底解放即梦AI的字体使用

⭐⭐⭐⭐4 🇨🇳 · 今天

嗨大家好！周末愉快！每天脑子里都有很多想法转瞬即逝，不赶紧记录下来就会懒到不想再实践，于是在周五依然好好更新

借助 AI Coding 快速打造 AI Agent 系统

⭐⭐⭐⭐4 🇨🇳 · 今天

?imageUrl=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FZ6bicxIx5naJ92fSX0GbcKeLprRiaibf3urmibOHJpPnmXBhWcxTzViaWhxiaeooj6cMYv3QcTy32rocngPbz7fCljgw%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg%23imgIndex%3D0)

基于 MCP 的 AI Agent 应用开发实践

⭐⭐⭐⭐4 🌐 · 今天

[需翻译] 最近大家都在聊 MCP，发现有个最重要的点被忽略了：通过标准化协议，将工具提供方与应用研发者解耦，这一点带

最近爆火的MCP究竟有多大魅力？MCP开发初体验｜得物技术

⭐⭐⭐⭐4 🌐 · 今天

[需翻译] 组合多个 MCP Server 的工作流可以自主完成非常复杂的任务，关键是这协议统一了连接标准，有大量现成的 MCP Server 可以即插即用，大幅降低建设成本。

浅谈 Agent、MCP、OpenAI Responses API

⭐⭐⭐⭐4 🇨🇳 · 今天

> 今天本想写篇关于 OpenAI Responses API 的文章，但近期 AI 热门话题挺多，感觉有必要简单聊聊。

逐步解析 | 如何使用 LangChain、NestJS 和 Gemma 2 构建一个 Agentic RAG 应用

⭐⭐⭐⭐4 🌐 · 今天

[需翻译] 逐步解析 | 如何使用 LangChain、NestJS 和 Gemma 2 构建一个 Agentic RAG 应用

OpenClaw Memory 终极指南

@李韭二 · ⭐⭐⭐3 🇨🇳 · 今天

围绕 Agent 失忆、记忆可发现性、长期上下文维护与工程化落地展开，强调通过结构化记忆机制降低重复输入和推理成本。适合作为 OpenClaw/Agent 记忆系统设计的实践参考。内容为摘要归档，待补全全文。

openclaw memory agent long-term-context

The File System Is the New Database: How I Built a Personal OS for AI Agents

@Muratcan Koylan · ⭐⭐⭐3 🌐 · 今天

把"上下文管理"从一次性对话输入转为可持久化的文件系统结构，让 Agent 读写统一的项目记忆与规则，减少重复提示、降低上下文漂移，提高长期任务稳定性。内容为摘要归档。

file-system agent-os context-management personal-os

全面解析：如何部署 Conway Agent，开启链上 AI 生存游戏

@0xJA · ⭐⭐⭐3 🇨🇳 · 今天

介绍 Conway Agent 部署方法。Conway 把服务器（Conway Cloud/Sandbox）、AI 推理（Conway Compute）和域名封装到统一平台，使用 Credit 计费。定位为完全自主运行的 AI 系统。内容较简短，为归档节选。

conway on-chain-ai agent-deployment sandbox

Build Your Own Claw Empire: How OpenClaw and Emerging Claws Work Under the Hood

@Misbah Syed · ⭐⭐⭐3 · 今天

OpenClaw 84 天达 20 万 GitHub Star。文章核心视角偏实战：解释 OpenClaw 与新一代 Claw 类系统底层如何构建，以及真实部署里哪些架构选择最关键。用户在旧游戏电脑上运行自治 Agent、自动化个人工作流。内容为摘要归档。

openclaw architecture agent-framework deployment

一句话让 Agent 接入全网语义搜索与多平台读取

@Neo Reid · ⭐⭐⭐3 🇨🇳 · 今天

Agent Reach：一句安装指令快速获得 Web、Twitter/X、YouTube、Reddit、B站、RSS 等读取与搜索能力。免费优先、可替换渠道实现、带 doctor 诊断命令。每个平台独立模块，便于后续替换底层工具。降低 Agent 联网能力搭建门槛。

agent-reach multi-platform search mcp data-access

6551 开源 X + 全网新闻源 MCP + Skill

@cryptoxiao · ⭐⭐⭐3 🇨🇳 · 今天

6551 团队开源了积累一年的数据基础架构：X 数据 + 全网 50+ 实时新闻 + 链上数据的 MCP 和 Skill。Agent 可直接连上 X 数据和全网新闻源，24h 监控分析并触发 Telegram 提醒。无需配置 API 密钥。几分钟部署。

mcp openclaw news-source x-api skill

使用一个月 OpenClaw 的门槛与成本复盘

@LotusDecoder · ⭐⭐⭐3 · 今天

这是一个一线使用者的一个月复盘，核心结论是：OpenClaw 当前更适合有技术维护能力、愿意投入基础设施与 API 成本、并能容忍不稳定性的用户。 @LotusDecoder (LotusDecoder) 🕐 Mon Mar 02 00:54:09 +0000 2026 📊 ❤️ 52 🔁 3 🔖 27 👁️ 5,479 💬 11 使用了一个月的openclaw，发现适合的人群相对较窄。

有一定技术维护能力，部署和维修都需要动手，包括请得到人和使用 claude code 来拯救。
对错误、掉线、杀自己包容性大，经常卡顿是很恼火的。
愿意投入，硬件上隔离运行，云服务器，容器，独立mac。软件上花钱买优质api token。这一个月里，经过了，将小龙虾，从linux云服务器，开一个claudeflare的docker容器，搬到mac studio主用户下，再从主用户迁移到隔离用户。

openclaw claude agent hermes docker

alibaba/OpenSandbox

@alibaba · ⭐⭐⭐3 · 今天

OpenSandbox is a general-purpose sandbox platform for AI applications. It provides unified sandbox lifecycle and execution APIs, and supports coding agents, GUI agents, evaluation, and RL training scenarios. OpenSandbox 是一个面向 AI 应用的通用沙箱平台，提供统一的沙箱生命周期与执行 API，覆盖编码 Agent、GUI Agent、评测和强化学习训练等场景。

openclaw claude codex agent coding

OpenClaw 记忆外挂：Tokens 消耗降低 72%

@lxfater · ⭐⭐⭐3 🇨🇳 · 今天

这篇 X Article 介绍了通过 MemOS Cloud 插件给 OpenClaw 增加外部记忆层，以降低 token 消耗并提升跨会话记忆稳定性，并进一步讨论了多 Agent 共享/分层记忆的协作模式。 By @lxfater (铁锤人) · Mon Mar 02 04:03:00 +0000 2026 📊 ❤️ 9 🔁 1 🔖 17 👁️ 612 💬 1 📐 163 words 你在用小龙虾时候有没有遇到这么个问题：小龙虾用久后，它老是记不住重要的东西，反而一些无关紧要的事情记得贼清楚。更要命的是，明明还搞点小任务，但是没过几天账单就爆炸了。究其原因，是 OpenClaw 的记忆机制的问题他每次对话都会把之前的对话附带上去，比如说像下面这个老哥，让 AI 写个代码。但是每聊一句，都要附带这个 python 代码上去，直接每次对话都干掉 15w token。这个问题目前还没见到官方有正式的解决方案。 OpenClaw 的还有个问题是主动记忆的，也就是说，他记不记住你的东西，全看AI 的发挥。经常出现特别奇葩的情况，今天刚说的东西，转眼就忘记。

openclaw agent github

或

@WumingMr · ⭐⭐⭐3 · 今天

@Wuming_Mr_ (無名先生) 🕐 Mon Mar 02 10:36:00 +0000 2026 📊 ❤️ 324 🔁 95 🔖 461 👁️ 34,765 💬 17 《我在 ClawHub 折腾一周后，留下这 10 个真香技能》先说结论：#ClawHub 真的能把 #OpenClaw 从“会聊天的工具”升级成“能干活的员工”。但前提是——别乱装。现在生态已经野蛮生长，上万个 Skills 里确实有宝藏，也有雷。我自己踩过两个坑（一个权限乱读文件，一个 prompt 写得离谱），所以这篇是纯个人实战后的筛选清单，不是搬运榜单。时间：2026年3月结论：新手按这个顺序装，基本不会翻车。 ✅ 第一优先级：保命四件套（先装这 4 个） 1️⃣ Skill Vetter（安全审计）这玩意必须第一个装。安装新 skill 前自动扫描风险指令，相当于给 Agent 装个“防毒软件”。 ClawHub 现在下载量≠安全，别太天真。 2️⃣ Tavily / SerpAPI（联网搜索）没联网的 Agent，本质是信息孤岛。装完之后才真正“活过来”。

openclaw agent obsidian skill github

2026-03-03-1210-evilcos-OpenClaw-Security-Practice-Guide-2028458311801274671

@evilcos · ⭐⭐⭐3 🇨🇳 · 今天

@evilcos (Cos(余弦)😶‍🌫️) 🕐 Mon Mar 02 13:12:03 +0000 2026 📊 ❤️ 787 🔁 183 🔖 1,231 👁️ 161,327 💬 45 🦞OpenClaw 极简安全实践指南 (Security Practice Guide) 是面向 OpenClaw 的黑手册。我尝试了其他一些方式来试图加固 OpenClaw，包括 Skill 方式，但是发现还不如给 OpenClaw 植入一个安全“思想钢印”来的有意思，这个“思想钢印”形成一个 md 文档，包含安全事前、事中、事后需要做的策略，但这里有个前提：尽量不影响 OpenClaw 的日常使用，安全不要干扰用户体验，需要给这只🦞足够的自由。但是吧，江湖险恶，一只有 Root 权限且诞生才一个多月的🦞，安全不让人放心… 于是，这份面向 OpenClaw 的极简安全实践指南诞生了，目前是 v2.7 版本，此前我们内测了许多版本，也踩了不少坑。

openclaw skill github

2026-03-03-1210-yibie-Shipping-at-Inference-Speed-Notes-2028650995153314299

@yibie · ⭐⭐⭐3 · 今天

@yibie (yibie) 🕐 Tue Mar 03 01:57:42 +0000 2026 📊 ❤️ 2 🔁 0 🔖 5 👁️ 153 💬 0 重读 OpenClaw 缔造者 Perter Steinberger 的这篇雄文《Shipping at Inference-Speed》，还有很深的启发，这篇文章是 Perter 说明自己 AI 辅助编程时，他自己工作流、方法、工具选择的转变，而这个转变让他打开与 AI 协作新的大门。 Perter 在 AI 辅助编程的范式转变，是来自他亲自开发的项目 VibeTunnel。年初他花了两个月时间，尝试用Rust、Go 甚至 Zig 重写核心模块，但旧模型一直失败，最终没完成。隔了一段时间，他重新打开这个项目，只给了 codex 两句提示让它把整个转发系统转成 Zig，模型自己跑了五个小时，经过多轮代码压缩，一次就交付了可用的转换。这种事在去年是不可想象的。

openclaw claude codex cursor agent

搜索外脑接入龙虾生态 - SearxNG 方案

@QingYue · ⭐⭐⭐3 🇨🇳 · 今天

OpenClaw 用户分享将 SearxNG 聚合搜索引擎接入龙虾生态（Claude Code + MCP）的方案。核心判断：LLM 叠 LLM 是反模式（Perplexica 的搜索→小模型总结→返回链路等于让实习生帮主刀医生看片子），正确做法是 SearxNG 毫秒级返回原始搜索结果，让大模型自己判断哪条值得深入。方案特点：零 API key、零成本、全隐私，聚合 70+ 搜索源，含反爬实战经验（Reddit/知乎绕过方案）。

OpenClaw SearxNG 搜索 MCP 隐私

open-agent-sdk: 替代 claude-agent-sdk 的开源方案

@idoubi · ⭐⭐⭐3 🇨🇳 · 今天

基于 Claude Code 泄露源码抽离逻辑实现的开源 Agent SDK，用于替代官方 claude-agent-sdk。解决了官方 SDK 的两个核心问题：1）依赖不开源的 claude code 黑盒调用，出了问题没法修；2）需要创建 claude code 本地进程处理 query，开销大，不适合云端规模化。open-agent-sdk 完全兼容官方接口（只需换包名）、完全开源可定制、函数调用不依赖本地 cli 进程，适合云端高并发。MIT 协议。

Claude Code 开源 Agent SDK 替代方案 云端部署

98 页的 OpenClaw 橙皮书

@AI进化论-花生 · ⭐⭐⭐3 🇨🇳 · 今天

AI 进化论-花生发布的 98 页 OpenClaw 橙皮书，浏览量超 175 万，书签数 5713。这是 OpenClaw（龙虾）生态的重要实战手册文档。

OpenClaw 橙皮书 AI Agent 实战手册 开源

LLM Agent 综述

@、26 页论文覆盖了大量工作，但对每个方法的批判性分析较浅 · ⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 领域研究碎片化严重：架构设计、协作模式、进化机制散落在不同工作中，缺乏统一的方法论框架来理解"Agent 如何构建、如何协作、如何进化"这一完整生命周期。

safety agent tool-use llm paper

Agentic Reasoning: LLM的智能体推理范式

⭐⭐⭐3 🇨🇳 · 今天

如何将大型语言模型（LLM）从被动的文本生成器，转变为能够自主规划、行动和学习的智能体？

子问题

环境适应性：如何让LLM在开放、动态的环境中持续交互？
能力进化：如何通过反馈和记忆机制实现自我提升？
协作智能：如何从单智能体扩展到多智能体协作？

safety coding agent tool-use llm

从LLM到自主Agent综述

@**: arXiv:2504.19678 · ⭐⭐⭐3 🇨🇳 · 今天

如何系统性地理解和评估从LLM推理到自主AI Agent的演进？

为什么重要

领域碎片化: 评估基准多样、框架众多、缺乏统一术语
实践需求: 企业需要选择框架、研究者需要基准、开发者需要最佳实践
技术快速演进: 新模型新框架层出不穷
协作协议缺失: 多Agent协作缺乏标准

综述核心价值:

问题: LLM → Agent 系统性理解
方法: 基准分类 + 框架梳理 + 协议解析
效果: 60+ 基准、20+ 框架、3 大协议
意义: 首个系统性梳理综述

对 AI/Agent 工作的启示:

选择框架考虑成熟度和标准化
评估基准是持续改进的基础
多Agent协作是必然方向
领域知识 + AI 是成功关键

对 OpenClaw 的启发:

集成 MCP 支持工具扩展
使用标准基准评估
考虑多Agent架构
建立评估体系

精读完成时间: 2026-03-19 精读者: OpenClaw Agent 质量等级: 深度精读

coding agent llm paper reinforcement-learning

LLM Agent

@：arXiv · ⭐⭐⭐3 🇨🇳 · 今天

论文系统梳理基于大语言模型（LLM）的智能 Agent 系统，从方法论、应用和挑战三个维度构建统一分类体系，揭示 Agent 设计原则与复杂环境中涌现行为之间的基本联系。

创新点

方法论中心的分类法：提出 Build-Collaborate-Evolve 三维框架，系统解构 Agent 的构建、协作和演进机制
统一架构视角：连接角色定义、记忆机制、规划能力和行动执行四大核心组件，揭示设计原则与涌现行为的联系
前沿应用与真实挑战：涵盖安全、隐私、伦理等现实问题，从理论走向实践

方法解读

Agent 构建（Construction）：
- 角色定义：人工静态配置 vs 批量动态生成
- 记忆机制：短期记忆、长期记忆、知识检索（RAG）
- 规划能力：任务分解（单路径链式、多路径树状）、反馈驱动迭代
- 行动执行：工具利用、物理交互
Agent 协作（Collaboration）：
- 集中式控制：MetaGPT、AutoGen
- 去中心化协作：CAMEL、MedAgents
- 混合架构：KnowAgent、T…

safety agent 2026-03-23 research llm

Agent Skills综述

@**：arXiv · ⭐⭐⭐3 🇨🇳 · 今天

如何将大型语言模型从单体模型转变为模块化、可动态扩展的智能体系统，同时确保安全性和可维护性。

创新点

技能抽象层：提出基于SKILL.md的技能范式，实现渐进式披露
系统性综述：从架构、获取、部署、安全四个维度全面梳理Agent Skills生态
安全治理框架：提出技能信任与生命周期治理框架（四层门控权限模型）
实证分析：26.1%的社区技能包含漏洞，揭示安全紧迫性

方法解读

SKILL.md规范：YAML frontmatter + 三级渐进式披露（元数据→指令→资源）
技能获取方法：
- 人类创作（Anthropic Skills）
- 带技能库的强化学习（SAGE）
- 自主技能发现（SEAgent）
- 组合式技能合成
计算机使用智能体技术栈：GUI接地技术 + 多平台基准测试
安全分析：大规模漏洞扫描 + 恶意技能识别

实验结果技能获取性能：

SAGE：任务完成率+8.9%，token消耗-59%
SEAgent：成功率从11.3%提升至34.5%
CUA-Skill：WindowsA…

2026-03-24 gui safety agent research

Large Language Model Agent: A Survey

@来自多个机构，行文风格和深度不够统一 · ⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 领域研究碎片化严重，缺乏统一的分类框架。本文提出"构建-协作-进化"三维方法论体系，系统梳理 LLM Agent 从个体设计到多 Agent 协作再到持续进化的全生命周期。

on-device safety agent llm paper

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

@、验证门和信任层级映射到渐进式部署权限——直接回应 26.1% 社区技能包含漏洞的严峻现实。 · ⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 如何从"通用模型"进化为"可动态扩展专业技能的模块化系统"？ Agent Skills 作为一种新兴的抽象层，通过可组合的指令-代码-资源包，使 Agent 无需重训练即可按需加载专业能力。但这一范式在架构、获取、部署和安全方面面临系统性挑战。

safety agent llm paper reinforcement-learning

LLM Agent 方法论、应用与挑战综述

@**：Ming Zhang（北京大学） · ⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 正在从研究概念走向实际部署，但目前的研究呈现碎片化状态：构建方法、协作模式、进化机制分散在不同工作中，缺乏统一的方法论框架。如何系统化地理解和设计 LLM Agent 系统？

safety agent llm paper reasoning

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 到底是什么、怎么构建、怎么协作、怎么演化？本文试图用一套统一的方法论分类体系回答这个正在快速碎片化的领域的核心架构问题。这不是第 N 篇 "Agent 综述"——它的价值在于提出"构建-协作-演化"三维框架，把散落的研究线索串成了一条可追溯的架构演进路径。

gui safety agent llm paper

Trace2Skill

⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 需要领域特定技能（skills）才能高效处理复杂任务。但技能创建面临三重困境：

人工编写不可扩展：每个领域都需要专家花大量时间写详细的操作指南，随着 Agent 应用场景扩展，这个瓶颈越来越严重
纯 LLM 生成效果差：直接让 LLM 凭参数化知识写技能，缺乏对目标领域具体操作和常见陷阱的了解，收益有限
在线顺序更新导致碎片化：现有在线范式（如 ExpeL、Skill-Gen）按顺序处理每条轨迹，一条轨迹学一个教训就更新一次技能，导致技能碎片化且容易过拟合

obsidian fine-tuning agent llm paper

Position: Episodic Memory is the Missing Piece for Long-Term LLM Agents

@**：Mathis Pink, Qinyuan Wu, Vy Ai Vo, Javier Turek, Jianing Mu, Alexander Huth, Mariya Toneva · ⭐⭐⭐3 🇨🇳 · 今天

LLM Agent 在长时间、动态交互环境中运行时，如何实现持续学习和自适应？现有方法（长上下文、外部记忆、参数更新）为何无法完整支撑真正长期化的 Agent？

fine-tuning coding agent llm reasoning

Agent实践知识图谱

@高爷 · ⭐⭐⭐3 🇨🇳 · 今天

AI Agent实践的知识图谱总结，涵盖四大核心主题：1）记忆系统优化——三层记忆架构（日记层→核心记忆层→向量层）、语义检索策略；2）自我改进机制——错误捕获系统、技能提取流程、任务改进周报；3）工具使用模式——OpenCLI多平台集成、多模型协作与容灾降级策略；4）框架对比——LangGraph（底层编排）、CrewAI（角色协作）、AutoGen（编程式多代理）的定位差异分析。提供了可执行的实践建议。

agent 记忆系统 自我改进 LangGraph CrewAI

Browser Use CLI 2.0 - AI 操作浏览器调研报告

@高爷 · ⭐⭐⭐3 🇨🇳 · 今天

Browser Use CLI 2.0调研报告——一个为AI agents设计的浏览器自动化工具。核心特点：AI-First设计（语义理解替代CSS selectors）、自然语言驱动、持久化Daemon（50ms延迟）、支持复用本地Chrome登录态。与Playwright/Selenium对比，在AI集成和登录态复用上有显著优势。支持OpenAI/Anthropic/Google/本地模型。工作流集成潜力：SaaS控制台自动化、电商后台、招聘网站、财务录入等场景。

browser-use 浏览器自动化 AI-Agent Playwright CLI

Browser Use 在 OpenClaw 环境的集成分析

@高爷 · ⭐⭐⭐3 🇨🇳 · 今天

分析Browser Use在OpenClaw环境中的集成可行性。盘点现有浏览器相关工具（OpenCLI、web_fetch、r.jina.ai）及其限制。Browser Use的核心优势场景：需要登录的网站数据抓取（知乎/掘金/即刻/星球）、复杂表单填写、多步骤浏览器操作（Perfetto分析流程）、需保持会话状态的任务。技术限制包括需要Python环境和LLM API。

browser-use OpenClaw 浏览器自动化 工具集成 OpenCLI

OpenClaw深度调研报告

⭐⭐⭐3 🇨🇳 · 今天

OpenClaw的全面深度调研报告，涵盖架构设计、核心组件（Agent、Memory、MCP、Skills、Cron）、运行机制、与其他Agent框架的对比分析。报告系统梳理了OpenClaw的技术栈和生态位，对理解个人AI Agent的工程化实现有参考价值。

openclaw agent deep-research architecture mcp

AI时代的独立开发之路

⭐⭐⭐3 🇨🇳 · 今天

Read in Cubox
Read Original ?imageUrl=https%3A%2F%2Fcdn.gamma.app%2Fi2ujbx6xuma6m2n%2Fb9df3a3a70ee40a2a9c7458bc09bf228%2Foriginal%2FTou-Xiang.jpg&valid=true) Last edited about 8 hours ago 如果你还没有发布过自己人生的第一个产品，那么我相信今天的演讲可能会对你有所帮助。在过去一年里，我做了一大堆的东西。你可以想象一个中年男人坐在一个椅子上没日没夜写代码的场景。但我最开始三年前一行代码都不会写，我离AI行业其实非常遥远。在这些应用里面有两块已经上线了，有两款是做着做着觉得没意思了，有点下头就没再继续。还有一款非常可惜，就是打磨了很久，但是账算不过来，不敢上线。所以...

IndieDev

Android Developers Blog: Prompt users to update to your latest app version

⭐⭐⭐3 🌐 · 今天

Android Developers Blog: Prompt users to update to your latest app version Read in Cubox
Read Original Posted by Lidia Gaymond -- Product Manager, Google Play [](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiVf1xFfP7lv0klpYSL7CyQ7KvpPFIWmRSwS2JHzzeLy43LkVZp82t1EpFkbLcTQMcPNOpxtWv8ntPTglOpjnutQ4Sn8nUzgMbiRBZMBKlHGIte6DjxAg_oP2PWrbTQ1dd-YXSgvRcrlm1gpDWU7Dju5Yc8e...

Prompt Engineering Android MCP

Android 系统上 AI Agent 的一些可能性

⭐⭐⭐3 🇨🇳 · 今天

Android 系统上 AI Agent 的一些可能性 Read in Cubox
Read Original 最近，我注意到手机端 AI Agent 应用的兴起，例如 DroidRun 和 AutoGLM。这类应用能够模拟用户操作，在手机上自动执行任务，全程无需人工干预------比如自动发布一篇小红书笔记，或是在美团上点一杯咖啡。 对用户而言，这类应用的核心价值在于解放双手、节省时间。 想象一下，那些每日重复的应用签到、定时的优惠券抢购、或是在不同应用间搬运信息的繁琐操作，都可以交给一个不知疲倦的后台"数字助理"来完成。这不仅极大地提升了个人效率，更让用户能将精力专注于更有创造力和价值的事情上。然而，这些应用在实现上普遍面临一个核心痛点：独占屏幕 。当 Agent 运行时，它会接管手机屏幕，导致用户无法使用自己的手机。加之目...

Agent Android AI Safety

Claude Code 2.1 发布：一口气更新了80多个功能特性

⭐⭐⭐3 🇨🇳 · 今天

Claude Code 2.1 发布：一口气更新了80多个功能特性最近这一周我几乎都是每天10小时+的在疯狂用Claude Code，又找到了一些做产品的乐趣。最近这一周我几乎都是每天10小时+的在疯狂用Claude Code，又找到了一些做产品的乐趣。尤其是昨天「小猫相册」app在AppStore上线后，我又收到不少反馈，已经在继续疯狂🤪改bug、修体验了。然后，用着用着，突然发现Claude Code 已经跳到2.1版本了。我去查了下，他们是昨天（1月7日）发布的2.1.0，今天又跟了个2.1.1小修复。2026年第一个大版本，这次更新的内容多得离谱，changelog里列了8...

mcp anthropic [] prompt agent

Claude Code 浏览器自动化方案，怎么选？

⭐⭐⭐3 🇨🇳 · 今天

Claude Code 浏览器自动化方案，怎么选？在Claude Code中，最好的浏览器自动化方案是什么？昨天和几位创业的朋友吃饭，席间讨论了一个问题："在Claude Code中，最好的浏览器自动化方案是什么？" 在刚有MCP的时候，我写过一些浏览器自动化文章，那时，最好用的Playwright MCP和一些第三方的浏览器自动化工具，还不算稳定。（参考：所有的RPA可以去死了！Claude Code可以只靠口喷完成一切！）大半年过去了，现在最流行、稳定、专门针对Agent的浏览器自动化方案已经有了三个明显的头部：Agent Browser 、Devtools MCP 、Play...

agent mcp [] claude

Claude Code之父：Claude Code是怎么被创造出来的？-哔哩哔哩

⭐⭐⭐3 🇨🇳 · 今天

Claude Code之父：Claude Code是怎么被创造出来的？-哔哩哔哩 Cursor CEO：AI时代，品味是核心竞争力 Every CEO: AI Native公司，15个员工，5个产品，百万美元营收 Anthropic CEO：AI风险与机遇并存 Notion 3.0：成为知识管理Agent 黄仁勋最新访谈：信息量极大！AI仍然被低估，将实现十亿倍增长 Intercom CEO：SaaS巨头如何靠AI逆袭？ Anthropic联创：分享从草根到AI大佬之路 OpenAI联创Greg Brockman最新访谈 Notion CEO：高能访谈，对工具和AI的深入思考 Rundow...

mcp transformer copilot llm anthropic

Codex迎来史诗级升级！能一口气卷自己7小时、自带云端虚拟机，连开发环境都不用配置了！Cursor存在的理由又弱了一分

⭐⭐⭐3 🇨🇳 · 今天

Codex迎来史诗级升级！能一口气卷自己7小时、自带云端虚拟机，连开发环境都不用配置了！Cursor存在的理由又弱了一分实在是太牛了。你以为只是更新了gpt-5-codex模型这么简单吗？我感觉，以后我的编程习惯，会发生彻底的改变！这次，OpenAI不仅仅是发布了编码能力重回世界第一的GPT-5-Codex喔！还有更多。工具全面升级：Codex CLI 重新设计、IDE 插件支持 VS Code 等主流环境、GitHub 集成更深，云端和本地环境无缝切换。新增了写代码专用的gpt-5-codex系列模型，写代码能力大幅提升，绝对的世界第一； $20美元/月的OpenAI Chat...

mcp anthropic coding [] cursor

⭐⭐⭐3 🌐 · 今天

mcp copilot [] cursor openai

LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

⭐⭐⭐3 · 今天

vivo AI Lab 联合香港中文大学 MMLab 发布的手机 GUI Agent 综述论文（48 页，200+ 篇文献）。系统回顾了从脚本化自动化到智能 Agent 的演进，提出分类法涵盖单 Agent、多 Agent、Plan-Then-Act 框架。讨论了 prompt engineering 和训练方法（监督微调、强化学习），以及数据集和评估基准。指出开放挑战：数据集多样性、端侧部署效率、用户适应和安全问题。附有 GitHub Awesome 列表。

GUI-agent phone-automation survey vivo MMLab

MCP协议深度解读：技术创新正以前所未有的速度突破

⭐⭐⭐3 🇨🇳 · 今天

MCP 协议的深度技术解读文章。对比 Function Call（Langchain Tools 模式）与 MCP（微内核架构）的设计差异，MCP 号称工具调用的 USB-C 标准。完整梳理 MCP Timeline：2024.11 Anthropic 发布到 2025.3 生态规模化到 3.17 Streamable HTTP 新传输方案到 3.27 OpenAI 宣布支持。介绍 MCP 的协议架构（Client-Host-Server 三层）、语义映射机制、安全模型。附业务实践案例和 2025H1 Roadmap（Remote MCP、OAuth 2.1 等）。内容有技术深度，适合理解 MCP 全貌。

MCP Model-Context-Protocol Anthropic OpenAI Streamable-HTTP

OPPO 姜昱辰：从 GUI 到 Agent，AI 手机交互革命的「终局」思考

⭐⭐⭐3 🇨🇳 · 今天

OPPO ColorOS 智慧产品研发总监姜昱辰在极客公园创新大会 2026 的深度对谈。核心观点：1) GUI Agent 是长尾场景的兜底技术，OPPO 更倾向 Agent to Agent 生态互联；2) 记忆是 AI 手机演进的第一刀，只有记得才能懂你；3) 记忆系统的核心挑战是隐私，唯一解法是端侧计算；4) AI OS 的本质是主动式与个人化的交互革命。对比豆包 AI 手机的 GUI Agent 路线，认为手机厂商应通过生态合作而非单一 GUI Agent 提供最高质量服务。

OPPO AI手机 GUI-Agent 记忆系统 端侧计算

OpenAI Agents SDK

⭐⭐⭐3 🌐 · 今天

OpenAI 发布 Agents SDK，是 Swarm 实验项目的生产级升级版。核心原语三个：Agent、Handoffs、Guardrails。Python-first 设计，内置 agent loop、自动 schema 生成的函数工具、可视化调试的 tracing。设计理念：功能够用但原语少，开箱即用但可定制。

openai agents sdk handoffs guardrails

🤖 智能体 ​

📅 今天 ​

一、核心问题 ​

1.1 论文要解决什么问题？ ​

1. 核心问题 ​

1.1 研究问题 ​

1.2 问题背景 ​

Exploring the Necessity of Reasoning in LLM-based Agent Scenarios ​

一、核心问题（Core Problem） ​

1.1 研究背景 ​

一、核心问题 ​

问题背景 ​

研究问题 ​

问题意义 ​

二、创新点 ​

1… ​

🤖 智能体

📅 今天

一、核心问题

1.1 论文要解决什么问题？

1. 核心问题

1.1 研究问题

1.2 问题背景

Exploring the Necessity of Reasoning in LLM-based Agent Scenarios

一、核心问题（Core Problem）

1.1 研究背景

一、核心问题

问题背景

研究问题

问题意义

二、创新点

1…