星空影视网

展开菜单

DeepSeek 新论文提出“流形约束超连接”(mHC)框架,梁文锋参与撰写

DeepSeek 新论文提出“流形约束超连接”(mHC)框架,梁文锋参与撰写
deepseek团队近期发布了一篇题为《mhc: manifold-constrained hyper-connections》(《mhc:流形约束超连接》)的论文,正式推出全新网络架构——mhc(流形约束超连接)。该设计聚焦于缓解大规模模型训练过程中普遍存在的不稳定性难题,有望为未来基础模型架构的升级提供关键思路。 论文作者名单中,DeepSeek创始人兼CEO梁文锋位列联合作者,核心研发工作由解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)与曹焕琪(H...

英伟达 GB200 NVL72 性能超越 AMD MI355X 达 28 倍

英伟达 GB200 NVL72 性能超越 AMD MI355X 达 28 倍
在最新公布的 semianalysis inferencemax 基准评测中,signal65 对 deepseek-r1 0528 混合专家(moe)模型的推理能力进行了深度评估。结果显示,英伟达(nvidia)gb200 nvl72 机架级系统在同等规模下,推理性能显著超越 amd instinct mi355x 集群。 混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型,从而提升计算效率;但当模型规模持续扩大时,节点间通信延迟与带宽压力随之加剧,极易演变...

智谱首席科学家唐杰:很快将推出新一代模型 GLM-5

智谱首席科学家唐杰:很快将推出新一代模型 GLM-5
晚点独家获悉,1 月 8 日智谱上市当天,清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信,宣布很快将推出新一代模型 GLM-5。 唐杰说,今天是 “智谱生命中激动人心的一天”。他没有直接回应大模型公司的商业模式争议或给出智谱 2026 年商业化目标,但强调,真正 “有人用”,能帮到更多的人的理论、技术或产品才是智谱在追逐 AGI 路上的重要成就。 除了 GLM-5 的发布,内部信还介绍了 2026 年智谱聚焦的三个技术方向,包括全新的模型架构设计,...