deepseek 第45页_星空影视网

DeepSeek 新论文提出“流形约束超连接”（mHC）框架，梁文锋参与撰写

deepseek团队近期发布了一篇题为《mhc: manifold-constrained hyper-connections》（《mhc：流形约束超连接》）的论文，正式推出全新网络架构——mhc（流形约束超连接）。该设计聚焦于缓解大规模模型训练过程中普遍存在的不稳定性难题，有望为未来基础模型架构的升级提供关键思路。论文作者名单中，DeepSeek创始人兼CEO梁文锋位列联合作者，核心研发工作由解振达（Zhenda Xie）、韦毅轩（Yixuan Wei）与曹焕琪（H...

2026-01-09/ 67 次浏览/ 资讯

英伟达 GB200 NVL72 性能超越 AMD MI355X 达 28 倍

在最新公布的 semianalysis inferencemax 基准评测中，signal65 对 deepseek-r1 0528 混合专家（moe）模型的推理能力进行了深度评估。结果显示，英伟达（nvidia）gb200 nvl72 机架级系统在同等规模下，推理性能显著超越 amd instinct mi355x 集群。混合专家架构的核心优势在于按需调用最适配任务的“专家”子模型，从而提升计算效率；但当模型规模持续扩大时，节点间通信延迟与带宽压力随之加剧，极易演变...

2026-01-09/ 2 次浏览/ 资讯

智谱首席科学家唐杰：很快将推出新一代模型 GLM-5

晚点独家获悉，1 月 8 日智谱上市当天，清华大学计算机系教授、智谱创立发起人兼首席科学家唐杰发布内部信，宣布很快将推出新一代模型 GLM-5。唐杰说，今天是 “智谱生命中激动人心的一天”。他没有直接回应大模型公司的商业模式争议或给出智谱 2026 年商业化目标，但强调，真正 “有人用”，能帮到更多的人的理论、技术或产品才是智谱在追逐 AGI 路上的重要成就。除了 GLM-5 的发布，内部信还介绍了 2026 年智谱聚焦的三个技术方向，包括全新的模型架构设计，...

2026-01-09/ 92 次浏览/ 资讯

‹‹ ‹ 36 37 38 39 40 41 42 43 44 45 ››