OpenAI近日推出了一项全新的基准测试GDPval,旨在衡量其AI模型在实际经济价值创造任务中与各行业专业人士的表现对比。这一测试是OpenAI探索通用人工智能(AGI)发展路径中的关键一步,重点评估AI系统在真实职业场景中替代或辅助人类工作的潜力。
根据测试结果,OpenAI最新的GPT-5模型以及Anthropic公司推出的Claude Opus 4.1,在多项任务中已接近甚至达到行业专家水平。尽管如此,OpenAI强调,当前版本的测试仍处于初步阶段,并不能全...
开源代码编辑器 zed 宣布对其 ai 辅助功能的计费模式进行重大调整,将从原有的“按 prompt 提交次数”计费,转向基于“token 实际用量”的新机制。此举旨在让费用结构更贴近实际资源消耗成本,同时为用户提供更高的使用灵活性。
主要变更内容
新的 Token 计费方案即日起适用于所有新用户;现有 Pro 订阅用户享有三个月的过渡期以适应变更。
免费用户将在 2025 年 10 月中旬正式切换至新计费体系。虽然不再限制 Prompt 提交次数,但编辑预测(...
最新推出的 Moondream3.0(预览版)凭借创新的混合专家(MoE)架构,以总计9B参数、实际激活仅2B的轻量化设计,在视觉理解与推理任务中展现出顶尖性能。这一版本在保持高效推理速度的同时,显著提升了模型能力边界,甚至在多项评测中超越GPT-5、Gemini及Claude4等闭源大模型。
相比年初发布的Moondream2(以验证码识别见长),3.0版本实现了全面升级:支持长达32K的上下文输入,适用于实时对话交互和自动化代理流程。其核心采用SigLIP作为视...
近日,openai被曝在未通知用户的情况下,悄然将chatgpt中原本使用的gpt-4与gpt-5等高性能模型替换为两款低算力的“隐形模型”——gpt-5-chat-safety和gpt-5-a-t-mini。
当用户提问涉及情感表达、敏感议题或可能违规的内容时,系统会自动切换至这两个轻量级模型进行响应,导致输出内容的质量明显下滑。
此举引发广泛争议,许多付费用户质疑其服务权益遭到削弱,原本支付高价所享有的高阶模型体验被暗中降级。OpenAI对此回应称...
作为轻量化推理模型的重要突破,xAI于上周五正式推出其旗舰级模型的高效版本Grok 4 Fast。
该模型通过端到端强化学习实现智能密度的显著提升,在多项基准测试中性能与Grok 4持平。得益于推理过程中平均token消耗降低40%,此次升级大幅压缩了模型调用成本。
官方数据显示,单次推理任务的最低成本已降至此前的2%,这一数字足以撼动当前大模型市场的竞争格局。
端到端强化学习驱动
若用三个关键词概括Grok 4 Fast的核心优势,那便是AI搜索、超长上下文...
蚂蚁集团近日宣布开源其自研的万亿参数思考模型 ring-1t 的预览版本——ring-1t-preview。
该模型继承了Ling 2.0高效的MoE架构,基于20T高质量语料完成预训练,并结合此前已公开的“棒冰”(icepop)方法,在蚂蚁自研的高效强化学习系统ASystem(其核心框架AReaL已开源)上,进行了专门针对推理能力优化的RLVR训练。
据官方介绍,在大规模强化学习训练的初期阶段,Ring-1T的语言基座模型便已展现出卓越的自然语言推理能力。在AIME...
openai 宣布其 ai 编程助手 codex 正式进入全面可用阶段(general availability),同时为团队和企业级开发者推出三大关键升级。
第一项更新是与 Slack 的深度集成。现在开发者可以在 Slack 聊天中直接 @Codex,使其根据对话上下文生成代码、排查错误、执行修复,并提交更改,实现无缝协作,无需在不同工具间频繁切换。
第二项是全新推出的 Codex SDK,支持结构化响应输出、上下文记忆管理以及自定义功能集成。借助该 SDK,...
中国信通院于日前正式发布新版本“方升”基准测试体系3.0。
“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升,新增模型基础属性测试,对参数规模、推理效率等底层特征进行体系化测试;同时前瞻性布局未来高级智能测试,围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力,并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。
为支撑“方升”3.0的实施,中国信通院将从以下几方面系统强化评测基础设施:
一是扩容高质测试数据资源,围绕复杂推理、多模态...
Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具,该工具基于英国人工智能安全研究所(AISI)开发的“Inspect”评估框架,致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。
公司指出,当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此,Petri(全称为“风险交互并行探索工具”)应运而生,旨在填补这一能力空白。
在 Petri 的工作流程中,研究人员首先输入一条自然语言形式的“种子指令”,描述希望测试的具体场景...
openai 目前最强大的模型 gpt-5 pro 已正式面向所有开发者开放 api 接入。该模型默认启用并仅通过 responses api 提供 reasoning.effort: high 模式。
作为旗舰级模型,GPT-5 Pro 拥有高达 40 万 Token 的上下文窗口,支持文本与图像输入,专为科研论文撰写、法律条文解析等高复杂度任务设计。尽管其输入价格为 15 美元 / 百万 Token,是基础模型的 15 倍,但精准契合高端应用场景对性能与精度的严苛要...