由前 OpenAI 首席技术官 Mira Murati 创立的 Thinking Machines Lab 近日发布了其首篇技术博客:《在 LLM 推理中战胜不确定性》("Defeating Nondeterminism in LLM Inference")。
尽管将大语言模型的温度设置为 0,并使用完全相同的输入、模型和硬件,输出结果仍可能出现差异。这篇博客深入探讨了这一现象背后的原因,并提出了解决方案——如何实现 100% 可重复的大模型推理输出。
文章指...
经过一段时间的持续开发,由单人携手AI共同打造的 deepchat 项目终于初具雏形。
项目地址:https://www.php.cn/link/1a98639f7a5974a45ccd7826ce570a18
官方网站:https://www.php.cn/link/a4db53c680ab731e9aa1eba01398bcac
deepchat 致力于探索大模型在企业级应用场景中的落地实践,涵盖知识库构建、数据问答、ChatBI、Office 助手、智能客...
9月11日,摩尔线程正式推出并开源其大模型分布式训练仿真工具simumax v1.0,在显存占用与性能仿真精度方面实现重大突破,同时新增多项核心功能,显著提升对各类模型的兼容性与使用灵活性。
SimuMax是一款专为大语言模型(LLM)分布式训练负载打造的仿真工具,能够为从单张显卡到上万张GPU集群的场景提供高效模拟支持。
该工具无需实际完成整个训练流程,即可高精度预测训练过程中的显存消耗和性能表现,帮助开发者提前评估训练效率,优化资源配置与计算策略。
依托自研的静...
快手近日正式推出了多模态大语言模型keye-vl-1.5-8b。
https://www.php.cn/link/5831e536b6f7828e911b47c0f2525161
据悉,相较于前代版本,Keye-VL-1.5在整体性能上实现了显著跃升,尤其在基础视觉理解方面表现亮眼,涵盖视觉元素识别、逻辑推理以及时序信息处理等多个维度。该模型在同参数规模中处于领先水平,部分能力甚至超越了如GPT-4o等闭源模型。
Keye-VL-1.5采用了四阶段渐进式训练...
9月10日,2025年中国国际服务贸易交易会(简称“服贸会”)在北京首钢园正式拉开帷幕。国内领先的综合气象服务平台墨迹天气集中展示了其在商业气象服务领域的最新技术突破与多元化应用场景,充分体现了气象科技在推动各行业数字化升级、助力绿色低碳发展中的关键作用。
赋能多元产业,释放气象数据的商业潜能
秉持“先一步掌握气象动态,智慧决策触手可及”的品牌理念,墨迹天气精准对接天气敏感人群及对气候高度依赖行业的实际需求,构建起覆盖C端与B端的双轨业务模式。面向个人用户,平台提供...
9 月 12 日消息,据 BusinessInsider 报道,微软 AI 部门 CEO 穆斯塔法・苏莱曼(Mustafa Suleyman)在一场内部会议上透露,公司正计划“大规模投资”建设专属的 AI 芯片集群,目标是实现人工智能核心技术的“自主可控”。
长期以来,微软在 AI 战略上高度依赖与 OpenAI 的深度合作。然而,随着双方关系出现微妙变化,微软正在加速构建独立的技术路径。苏莱曼指出,尽管将继续通过 Azure 为 OpenAI 提供强大的云基础设施...
蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型(dLLM)——“LLaDA-MoE”。
该模型采用非自回归的掩码扩散机制,突破了传统语言模型依赖自回归生成的固有范式,在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平,有力挑战了“语言生成必须逐字递进”的主流观点。
实验结果表明,LLaDA-MoE在代码编写、数学解题及智能Agent任务中的表现显著优于LLaDA1.0/1.5和Dream-7B等现...
9月12日最新消息,nvidia年初推出的“project digits”项目终于有了新进展。该项目被官方定义为桌面级ai超级计算机,也被称作迷你ai工作站,是nvidia首款自主设计的桌面pc产品。
该设备最初命名为“DGX Spark”,原定于7月正式发布并上市销售,但此后迟迟未有动静。不过,多家OEM合作伙伴已提前透露了基于该平台的相关机型。
如今,NVIDIA官方正式宣布:DGX Spark的预售通道将在一周内全面开启,距离正式发售已经不远!
与此同时,...
amd strix halo处理器可以说是一款划时代的产品,尤其是旗舰型号锐龙 ai max+ 395,拥有史上最强集显,可以轻松媲美桌面级rtx 4060独立显卡。
但是说它划时代,远不只是因为强悍的图形性能,更是因为它“生逢其时”,恰到好处地顺应了本地端侧、边缘侧AI推理与应用的发展趋势,提供了堪称当下最好的解决方案,甚至没有之一。
为什么要发展端侧AI?简单地说有三点:数据安全、成本控制、空间友好。
云侧AI虽然有着更强的算力性能,但并不是所有的服务和...
阿里通义qwen团队近日推出了全新一代基础模型架构qwen3-next,并正式开源了基于此架构的qwen3-next-80b-a3b系列模型。
据悉,该架构在前代Qwen3的MoE结构基础上实现了多项关键升级,主要包括:
引入混合注意力机制
采用高稀疏度的MoE结构
集成多项有助于训练稳定的优化技术
加入提升推理效率的多token预测能力
Qwen3-Next被视为即将发布的Qwen3.5模型的前瞻版本,致力于增强大模型在超长上下文处理和大规模参数...