gpt-5 第5页_星空影视网

OpenAI 新研究称 GPT-5 为迄今“政治偏见最少”的 AI 模型

OpenAI 近期向 Axios 分享了其关于 GPT-5 模型在政治倾向性方面的最新研究成果，结果显示该模型在减少偏见方面相较前代产品实现了显著进步。长期以来，社会各界特别是政界对人工智能系统可能存在的偏见问题持续关注，呼吁增强算法透明度，并确保AI输出内容的公正性。今年7月，美国政府出台行政命令，明确要求在公共部门应用中排除所谓“觉醒型”AI系统的使用，这类系统被认为可能携带政治或意识形态色彩，但具体合规标准仍处于探索阶段。根据 OpenAI 发布的研究数...

2026-01-09/ 68 次浏览/ 资讯

开源 AI 客户端 Cherry Studio 已集成 GitHub Copilot CLI

Cherry Studio 是一款支持跨平台运行的 AI 桌面应用程序，兼容 Windows、macOS 和 Linux 系统。最新发布的 Cherry Studio v1.6.3 版本在开发者工具方面进行了重点升级，扩展了对更多大模型的支持，并对笔记功能进行了多项实用改进。核心更新内容 1. GitHub Copilot CLI 集成上线用户现在可通过 Cherry Studio 内置的编码工具直接调用 GitHub Copilot CLI，实现更高效的代...

2026-01-09/ 58 次浏览/ 资讯

蚂蚁发布并开源万亿参数思考模型Ring-1T，综合能力逼近GPT-5

10月14日凌晨，蚂蚁集团正式发布了具备万亿参数的思考型模型ring-1t，并全面开放其模型权重与训练方法的源代码。该模型在9月30日发布的预览版本ring-1t-preview基础上，进一步深化了大规模可验证奖励强化学习（rlvr）的训练过程，充分释放了万亿级基座模型在自然语言推理方面的潜力，同时通过rlhf技术优化模型的通用性能，在多项评测任务中展现出更加均衡且强劲的表现。为持续提升复杂推理能力，尤其是数学领域的表现，百灵团队将Ring-1T接入多智能体协同推理框...

2026-01-09/ 60 次浏览/ 资讯

通义千问 Qwen3-VL 上新：4B & 8B 稠密模型

阿里通义 qwen 团队近日正式推出了 qwen3-vl 系列的新成员 —— 4b 与 8b 参数规模的视觉语言模型。该系列于上月首次发布，是目前 qwen 系列中性能最强的多模态模型。此次更新新增了 4B 和 8B 两种尺寸，每种均提供 Instruct 与 Thinking 两个版本，满足不同应用场景的需求。本次发布的模型达成了三大核心目标：更低的部署门槛：通过减小模型体积，大幅降低了显存（VRAM）占用，使得更多开发者能够在普通硬件设备上高效运行...

2026-01-09/ 3 次浏览/ 资讯

Anthropic 发布 Claude Haiku 4.5，速度更快、价格更便宜

anthropic 推出了全新模型 claude haiku 4.5。官方称，该模型在成本极低的前提下，实现了接近顶级模型的强劲性能，旨在成为实时性要求高、低延迟任务（如对话助手和客户服务）的首选方案。 Claude 系列目前包含三种不同规模的模型：Claude Opus（大杯）、Sonnet（中杯）以及 Haiku（小杯）。此次更新的最大亮点在于，小杯型号 Haiku 4.5 在维持出色性能的同时，显著提升了响应速度，并进一步降低了使用成本。从应用角度看，An...

2026-01-09/ 3 次浏览/ 资讯

OpenAI GPT-5 被指数学成就夸大

据 The Decoder 报道，OpenAI 副总裁 Kevin Weil 曾发布一条推文（后已删除），声称 GPT-5 成功解决了 10 个此前未解的 Erdős 问题，并在另外 11 个问题上取得了实质性进展。Erdős 问题源自著名数学家保罗・厄尔德什提出的一系列著名猜想，长期被视为数学领域的挑战性难题。然而，负责管理 Erdős 问题专题网站的数学家 Thomas Bloom 对此提出质疑，称 Weil 的说法是“严重的歪曲”。他解释说，尽管这些问题在其...

2026-01-09/ 3 次浏览/ 资讯

MoonBit 开发者激励计划开启｜赢取价值 $20 Copilot 月卡权益！

? 从智能体到生态共建：MoonBit Meetup 与开发者激励计划同步启动 ai 正在重塑编程的未来。为了让开发者更深入地感受 ai 辅助编程带来的效率跃迁，并加速 moonbit 生态由「探索阶段」迈向「生产就绪（production-ready）」新纪元，我们正式上线 moonbit 开发者激励计划 ? ?为何推出这项支持？我们将每月从社区中甄选 5 个高质量的生态项目，获奖者将获得价值 $20 的 GitHub Copilot 月度会员权益！随着 Moon...

2026-01-09/ 3 次浏览/ 资讯

上海 AI 实验室发布首个视频转网页评测基准 IWR-Bench

上海人工智能实验室联合浙江大学等单位近日发布了iwr-bench，这是全球首个专注于评估大语言模型将视频内容转化为可交互网页代码能力的基准测试。该评测体系旨在更真实地衡量多模态大语言模型（lvlm）在动态网页重建任务中的表现，填补了ai前端开发领域在动态交互能力评估方面的空白。与传统的图像到代码（Image-to-Code）任务不同，IWR-Bench要求模型通过观看记录完整用户操作流程的视频，并结合网页所需的全部静态资源，复现网页的动态交互行为。其任务范围广泛，涵盖...

2026-01-09/ 3 次浏览/ 资讯

大模型谁最“可靠”？SuperCLUE-CPIF测评出炉，文心X1.1国内第一

10月21日，中文精确指令遵循测评基准superclue-cpif正式上线，文心x1.1以75.51分位列国产大模型榜首，在任务类型与指令数量两大维度的评估中均居国内首位，展现出其在真实生产场景中的突出应用潜力。此次测评共纳入包括GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro在内的10款国内外主流大模型。SuperCLUE-CPIF聚焦于大型语言模型（L...

2026-01-09/ 3 次浏览/ 资讯

Vercel CEO：Kimi K2 在智能体场景比 GPT-5 准确率高 50%

美国初创企业Vercel的CEO吉列尔莫近日发布动态称，在公司内部智能体开展的真实环境基准测试中，中国开源模型Kimi K2展现出惊人性能，相较GPT-5、Claude Sonnet4.5等顶尖闭源模型，运行速度快达5倍，准确率提升超过50%。更关键的是，依托其运行平台，用户可实现零成本的模型切换。根据吉列尔莫公布的测试数据，Kimi K2完成指定任务仅需2分钟，而GPT-5与Sonnet4.5则耗时8至10分钟，效率差距显著。在准确性方面，Kimi K2的表...

2026-01-09/ 2 次浏览/ 资讯

‹‹ ‹ 1 2 3 4 5 6 7 8 9 10 › ››