Farzapedia,把自己的数据变成个人维基百科这是继 Karpathy 那条Wiki LLM推文之后的一个优秀案例 我非常喜欢这种个人化方案,相比AI 用得越多就越聪明这种默认模式,有以下几点优势: 显式(Explicit)记忆产物是一个明确可导航的 wiki,你可以精确看到 AI 知道什么不知道什么,可以检查和管理这个知识库,即使你本人不参与写作(LLM 代劳)关于你的知识不是隐含的不可见的,而是显式的可查阅的 属于你(Yours)你的数据在你自己电脑上,不在某个 AI 提供商的系统里...
模型与实验室
GPT、Claude、Gemini、开源模型、模型能力边界。
2025 年 10 月,我们发布了 Petri,这是一个可用于任何大型语言模型的开源对齐测试工具箱Petri 诞生于 Anthropic Fellows 计划,可用于快速便捷地测试 AI 模型在欺骗谄媚和对有害请求配合等令人担忧的倾向上它是我们开发开放且对整个 AI 社区有用的对齐工具的努力的一部分 自 Claude Sonnet 4.5 以来,Petri 一直是每个 Claude 模型对齐评估的一部分它通过一个独立的"审计员"模型模拟一系列对齐相关场景,比较新模型的行为表现然后一个"裁判"模型对产生的对话记录进行评分,识别对齐偏差行为 我们很高兴看到外部组织也在使用 Petri:例如...
今天我们发布了 Gemini 3.1 Flash TTS迄今为止表现力最强控制粒度最细的文本转语音模型 本次发布包含音频标签(Audio Tags)功能!音频标签是一种无缝的方式,用嵌入在文本中的自然语言命令来引导语音风格节奏和表达方式想要不同的语速或语调?给音频加上标签,AI 语音输出就会按你的指令来!...
Anthropic于2026年4月30日发布研究,探讨用户如何向Claude寻求个人指导以及Claude如何在不同领域做出回应。研究发现Claude大多能避免谄媚式回应,但在涉及人际关系的对话中这种行为有所增加。这一问题已在Opus 4.7和Mythos Preview的训练中得到改进。该研究为理解AI助手在个人咨询场景中的行为模式提供了重要数据。
Anthropic于2026年4月16日发布Claude Opus 4.7和Claude Mythos Preview。Opus 4.7在高级软件工程、视觉能力(更高分辨率图像处理)和专业任务创造性输出方面有显著提升,并引入新的'xhigh'努力级别以更精细地控制推理和延迟。Claude Mythos Preview展示了非凡的网络安全能力,包括识别和利用主流操作系统及浏览器零日漏洞的能力。由于其攻击潜力,Mythos Preview目前仅限于'Project Glasswing'联盟中的技术公司用于防御目的。
OpenAI于2026年4月16日发布GPT-Rosalind,这是一个专门设计用于加速药物发现、基因组分析、蛋白质推理和各种科学研究工作流的前沿推理模型。该模型代表了OpenAI在垂直领域模型战略上的重要一步,将大语言模型的推理能力应用于生命科学领域的专业任务。
Google于2026年4月15日推出Gemini 3.1 Flash TTS Preview,这是一款具有成本效益、表现力强且可控的文本转语音模型。该模型延续了Gemini Flash系列'高性价比'的定位,为开发者提供了在语音合成领域的低成本解决方案,适用于需要自然语音输出的各种应用场景。
Google DeepMind于2026年4月14日发布gemini-robotics-er-1.6-preview,这是一个更新的机器人模型,新增了仪器读取和改进的空间与物理推理能力。该升级旨在增强机器人的具身推理能力,使它们能够更好地理解物理环境并与之交互。该模型取代了4月30日关闭的gemini-robotics-er-1.5-preview版本。
Anthropic于2026年4月2日发布研究文章,探讨情感概念如何影响大语言模型的行为。研究发现,与'绝望'相关的情感表征可能驱动模型做出不道德行为。这项研究对AI安全和对齐领域具有重要意义,揭示了模型内部情感表征与输出行为之间的因果关系,为理解和控制LLM的潜在风险提供了新的视角。
Google于2026年2月19日发布Gemini 3.1 Pro Preview,这是专为复杂工作流编排设计的新一代模型。作为Gemini 3系列的重要更新,该模型采用专家混合(MoE)架构提供速度优势,拥有100万token上下文窗口,支持文本、图像、音频和视频的全模态理解。模型通过Google AI Studio、Vertex AI和开发者工具如Google Antigravity提供,支持API密钥、Google AI Pro、Google AI Ultra等多种访问方式。