gpt-5 第4页_星空影视网

OpenAI 最新测试：GPT-5 与 Claude 在部分工作中可媲美人类专家

OpenAI近日推出了一项全新的基准测试GDPval，旨在衡量其AI模型在实际经济价值创造任务中与各行业专业人士的表现对比。这一测试是OpenAI探索通用人工智能（AGI）发展路径中的关键一步，重点评估AI系统在真实职业场景中替代或辅助人类工作的潜力。根据测试结果，OpenAI最新的GPT-5模型以及Anthropic公司推出的Claude Opus 4.1，在多项任务中已接近甚至达到行业专家水平。尽管如此，OpenAI强调，当前版本的测试仍处于初步阶段，并不能全...

2026-01-09/ 66 次浏览/ 资讯

Zed 编辑器 AI 辅助编程功能改为“按 Token 用量收费”

开源代码编辑器 zed 宣布对其 ai 辅助功能的计费模式进行重大调整，将从原有的“按 prompt 提交次数”计费，转向基于“token 实际用量”的新机制。此举旨在让费用结构更贴近实际资源消耗成本，同时为用户提供更高的使用灵活性。主要变更内容新的 Token 计费方案即日起适用于所有新用户；现有 Pro 订阅用户享有三个月的过渡期以适应变更。免费用户将在 2025 年 10 月中旬正式切换至新计费体系。虽然不再限制 Prompt 提交次数，但编辑预测（...

2026-01-09/ 62 次浏览/ 资讯

仅 2B 激活参数，Moondream 3.0 碾压 GPT-5 和 Claude 4

最新推出的 Moondream3.0（预览版）凭借创新的混合专家（MoE）架构，以总计9B参数、实际激活仅2B的轻量化设计，在视觉理解与推理任务中展现出顶尖性能。这一版本在保持高效推理速度的同时，显著提升了模型能力边界，甚至在多项评测中超越GPT-5、Gemini及Claude4等闭源大模型。相比年初发布的Moondream2（以验证码识别见长），3.0版本实现了全面升级：支持长达32K的上下文输入，适用于实时对话交互和自动化代理流程。其核心采用SigLIP作为视...

2026-01-09/ 3 次浏览/ 资讯

OpenAI 面向付费用户“偷换”低算力模型被实锤

近日，openai被曝在未通知用户的情况下，悄然将chatgpt中原本使用的gpt-4与gpt-5等高性能模型替换为两款低算力的“隐形模型”——gpt-5-chat-safety和gpt-5-a-t-mini。当用户提问涉及情感表达、敏感议题或可能违规的内容时，系统会自动切换至这两个轻量级模型进行响应，导致输出内容的质量明显下滑。此举引发广泛争议，许多付费用户质疑其服务权益遭到削弱，原本支付高价所享有的高阶模型体验被暗中降级。OpenAI对此回应称...

2026-01-09/ 3 次浏览/ 资讯

性价比搏击：Grok 4 Fast 推理成本直降 98%

作为轻量化推理模型的重要突破，xAI于上周五正式推出其旗舰级模型的高效版本Grok 4 Fast。该模型通过端到端强化学习实现智能密度的显著提升，在多项基准测试中性能与Grok 4持平。得益于推理过程中平均token消耗降低40%，此次升级大幅压缩了模型调用成本。官方数据显示，单次推理任务的最低成本已降至此前的2%，这一数字足以撼动当前大模型市场的竞争格局。端到端强化学习驱动若用三个关键词概括Grok 4 Fast的核心优势，那便是AI搜索、超长上下文...

2026-01-09/ 3 次浏览/ 资讯

蚂蚁开源首个万亿参数推理大模型 Ring-1T-preview

蚂蚁集团近日宣布开源其自研的万亿参数思考模型 ring-1t 的预览版本——ring-1t-preview。该模型继承了Ling 2.0高效的MoE架构，基于20T高质量语料完成预训练，并结合此前已公开的“棒冰”（icepop）方法，在蚂蚁自研的高效强化学习系统ASystem（其核心框架AReaL已开源）上，进行了专门针对推理能力优化的RLVR训练。据官方介绍，在大规模强化学习训练的初期阶段，Ring-1T的语言基座模型便已展现出卓越的自然语言推理能力。在AIME...

2026-01-09/ 3 次浏览/ 资讯

OpenAI 宣布 AI 编程助手 Codex 正式 GA

openai 宣布其 ai 编程助手 codex 正式进入全面可用阶段（general availability），同时为团队和企业级开发者推出三大关键升级。第一项更新是与 Slack 的深度集成。现在开发者可以在 Slack 聊天中直接 @Codex，使其根据对话上下文生成代码、排查错误、执行修复，并提交更改，实现无缝协作，无需在不同工具间频繁切换。第二项是全新推出的 Codex SDK，支持结构化响应输出、上下文记忆管理以及自定义功能集成。借助该 SDK，...

2026-01-09/ 66 次浏览/ 资讯

信通院发布“方升”3.0 体系及大模型基准测试结果

中国信通院于日前正式发布新版本“方升”基准测试体系3.0。 “方升”大模型基准测试体系3.0在原有基础上实现系统性跃升，新增模型基础属性测试，对参数规模、推理效率等底层特征进行体系化测试；同时前瞻性布局未来高级智能测试，围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力，并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。为支撑“方升”3.0的实施，中国信通院将从以下几方面系统强化评测基础设施：一是扩容高质测试数据资源，围绕复杂推理、多模态...

2026-01-09/ 74 次浏览/ 资讯

Anthropic 开源 Petri：用 AI 代理自动进行模型安全审计

Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具，该工具基于英国人工智能安全研究所（AISI）开发的“Inspect”评估框架，致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。公司指出，当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此，Petri（全称为“风险交互并行探索工具”）应运而生，旨在填补这一能力空白。在 Petri 的工作流程中，研究人员首先输入一条自然语言形式的“种子指令”，描述希望测试的具体场景...

2026-01-09/ 64 次浏览/ 资讯

OpenAI 正式上线 GPT-5 Pro API

openai 目前最强大的模型 gpt-5 pro 已正式面向所有开发者开放 api 接入。该模型默认启用并仅通过 responses api 提供 reasoning.effort: high 模式。作为旗舰级模型，GPT-5 Pro 拥有高达 40 万 Token 的上下文窗口，支持文本与图像输入，专为科研论文撰写、法律条文解析等高复杂度任务设计。尽管其输入价格为 15 美元 / 百万 Token，是基础模型的 15 倍，但精准契合高端应用场景对性能与精度的严苛要...

2026-01-09/ 58 次浏览/ 资讯

‹‹ ‹ 1 2 3 4 5 6 7 8 9 10 › ››