Agent 与自动化 4.0 · 优秀 2026-04-27 · 文章

谁才是地表最强 Android Agent 大模型?Google官方测评来了!

Google 发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准,基于 GitHub 500+ Star 真实项目、38,989 个已合并 PR 中精选 100 道题。评测 11 个主流模型:GPT-5.4 与 Gemini 3.1 Pro Preview 以 72.4% 并列第一,Claude Opus 4.6 第四(66.6%),Gemini 2.5 Flash 垫底(16.1%)。第一梯队(65%+)与第三梯队(<50%)差距达 4.5 倍,揭示通用基准已无法反映垂直领域真实差距,垂直评测将成为趋势。

打开原文回到归档

谁才是地表最强 Android Agent 大模型?Google官方测评来了!

微信文章,来源:mp.weixin.qq.com 发布日期:2026-04-27

背景

现有代码评测基准(HumanEval、SWE-bench)几乎清一色面向 Python,无法覆盖 Android 开发的复杂性(Kotlin/Java 双语言、Jetpack Compose 与 View 体系并行、Gradle 构建配置、设备碎片化)。

Google 正式发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准。

Android Bench 设计

  • 任务来源:GitHub 上 500+ Star 的真实开源 Android 项目,从 38,989 个已合并的 PR 中精选 100 道题
  • 任务类型:修复 Breaking Changes、Compose 迁移、Room 数据库迁移、Hilt 依赖注入配置等
  • 技术栈分布:Kotlin 71% / Java 25%,Compose 41% / View 59%
  • 任务难度:小改动(<27行)46%,中等改动(27-136行)33%,大改动(>136行)21%
  • 评分方式:单元测试 + Android Instrumentation 测试,独立运行 10 次取平均
  • 防作弊:Canary 字符串、轨迹审查、全面开源

实际测评结果(2026年4月7日)

| 排名 | 模型 | 通过率 | |------|------|--------| | 1 (并列) | GPT-5.4 | 72.4% | | 1 (并列) | Gemini 3.1 Pro Preview | 72.4% | | 3 | GPT-5.3-Codex | 67.7% | | 4 | Claude Opus 4.6 | 66.6% | | 5 | Claude Opus 4.5 | 61.9% | | 6 | GPT-5.2-Codex | 62.5% | | 7 | Claude Sonnet 4.6 | 58.4% | | 8 | Claude Sonnet 4.5 | 54.2% | | 9 | Gemini 3 Flash | 42.0% | | 10 | Gemini 2.5 Flash | 16.1% |

核心结论

1. 双王并立:GPT-5.4 与 Gemini 3.1 Pro Preview 以 72.4% 并列第一 2. 三大阵营:第一梯队 65%+(GPT-5.4, Gemini 3.1 Pro, GPT-5.3-Codex, Claude Opus 4.6);第二梯队 50-65%;第三梯队 <50% 3. 差距悬殊:第一与最后相差 4.5 倍(72.4% vs 16.1%) 4. Gemini 2.5 Flash 垫底:架构升级影响远超参数堆叠,轻量级模型不适合复杂工程任务

关键洞察

  • 通用基准正在失去意义,垂直领域基准才是拉开差距的战场
  • 垂直评测将成为趋势(iOS Bench, Flutter Bench, React Native Bench)
  • 公开排行榜将倒逼模型在垂直领域针对性优化

相关链接

备注:原文抓取自微信文章内容。