谁才是地表最强 Android Agent 大模型？Google官方测评来了！

Google 发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准，基于 GitHub 500+ Star 真实项目、38,989 个已合并 PR 中精选 100 道题。评测 11 个主流模型：GPT-5.4 与 Gemini 3.1 Pro Preview 以 72.4% 并列第一，Claude Opus 4.6 第四（66.6%），Gemini 2.5 Flash 垫底（16.1%）。第一梯队（65%+）与第三梯队（<50%）差距达 4.5 倍，揭示通用基准已无法反映垂直领域真实差距，垂直评测将成为趋势。

谁才是地表最强 Android Agent 大模型？Google官方测评来了！

微信文章，来源：mp.weixin.qq.com 发布日期：2026-04-27

背景

现有代码评测基准（HumanEval、SWE-bench）几乎清一色面向 Python，无法覆盖 Android 开发的复杂性（Kotlin/Java 双语言、Jetpack Compose 与 View 体系并行、Gradle 构建配置、设备碎片化）。

Google 正式发布 Android Bench — 首个专门针对 Android 开发的 LLM 评测基准。

Android Bench 设计

任务来源：GitHub 上 500+ Star 的真实开源 Android 项目，从 38,989 个已合并的 PR 中精选 100 道题
任务类型：修复 Breaking Changes、Compose 迁移、Room 数据库迁移、Hilt 依赖注入配置等
技术栈分布：Kotlin 71% / Java 25%，Compose 41% / View 59%
任务难度：小改动（<27行）46%，中等改动（27-136行）33%，大改动（>136行）21%
评分方式：单元测试 + Android Instrumentation 测试，独立运行 10 次取平均
防作弊：Canary 字符串、轨迹审查、全面开源

实际测评结果（2026年4月7日）

| 排名 | 模型 | 通过率 | |------|------|--------| | 1 (并列) | GPT-5.4 | 72.4% | | 1 (并列) | Gemini 3.1 Pro Preview | 72.4% | | 3 | GPT-5.3-Codex | 67.7% | | 4 | Claude Opus 4.6 | 66.6% | | 5 | Claude Opus 4.5 | 61.9% | | 6 | GPT-5.2-Codex | 62.5% | | 7 | Claude Sonnet 4.6 | 58.4% | | 8 | Claude Sonnet 4.5 | 54.2% | | 9 | Gemini 3 Flash | 42.0% | | 10 | Gemini 2.5 Flash | 16.1% |

核心结论

1. 双王并立：GPT-5.4 与 Gemini 3.1 Pro Preview 以 72.4% 并列第一 2. 三大阵营：第一梯队 65%+（GPT-5.4, Gemini 3.1 Pro, GPT-5.3-Codex, Claude Opus 4.6）；第二梯队 50-65%；第三梯队 <50% 3. 差距悬殊：第一与最后相差 4.5 倍（72.4% vs 16.1%） 4. Gemini 2.5 Flash 垫底：架构升级影响远超参数堆叠，轻量级模型不适合复杂工程任务

关键洞察

通用基准正在失去意义，垂直领域基准才是拉开差距的战场
垂直评测将成为趋势（iOS Bench, Flutter Bench, React Native Bench）
公开排行榜将倒逼模型在垂直领域针对性优化