星空影视网

展开菜单

蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型

蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型
蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型(dLLM)——“LLaDA-MoE”。 该模型采用非自回归的掩码扩散机制,突破了传统语言模型依赖自回归生成的固有范式,在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平,有力挑战了“语言生成必须逐字递进”的主流观点。 实验结果表明,LLaDA-MoE在代码编写、数学解题及智能Agent任务中的表现显著优于LLaDA1.0/1.5和Dream-7B等现...

阿里通义发布下一代基础模型架构 Qwen3-Next

阿里通义发布下一代基础模型架构 Qwen3-Next
阿里通义qwen团队近日推出了全新一代基础模型架构qwen3-next,并正式开源了基于此架构的qwen3-next-80b-a3b系列模型。 据悉,该架构在前代Qwen3的MoE结构基础上实现了多项关键升级,主要包括: 引入混合注意力机制 采用高稀疏度的MoE结构 集成多项有助于训练稳定的优化技术 加入提升推理效率的多token预测能力 Qwen3-Next被视为即将发布的Qwen3.5模型的前瞻版本,致力于增强大模型在超长上下文处理和大规模参数...

挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型

挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
蚂蚁集团与中国人民大学携手推出业界首个原生moe架构的扩散语言模型(dllm)——llada-moe,成功在约20t数据上完成从零开始的大规模训练,充分验证了该架构在工业级应用中的扩展性与稳定性。该模型在性能上超越此前发布的稠密型扩散语言模型llada1.0/1.5和dream-7b,表现媲美同等规模的自回归模型,同时具备数倍推理速度优势。项目将于近期全面开源,助力全球ai社区推动dllm技术进步。 9月11日,在2025 Inclusion·外滩大会上,这一突破性成果...

AMD携手武汉纺织大学计算机与人工智能学院,共启AI+纺织创新篇章

AMD携手武汉纺织大学计算机与人工智能学院,共启AI+纺织创新篇章
今年9月14日上午,amd携手武汉纺织大学人工智能学院共建的ai+纺织联合创新中心正式揭牌。amd全球区域市场营销副总裁raymond dumbeck、大中华区市场营销副总裁纪朝晖,与武汉纺织大学党委常委、副校长姜明华教授,以及计算机与人工智能学院党委书记晏伟、院长胡新荣教授共同出席签约仪式并参与揭牌仪式,标志着双方围绕amd ai技术赋能纺织产业的深度合作全面启动。 在揭牌仪式上,AMD大中华区市场营销副总裁纪朝晖表示:“AMD始终致力于推动人工智能技术在各行...

“人工智能+ ” 硅基流动在行动

“人工智能+ ”  硅基流动在行动
8月26日,国务院印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),明确提出了2027年、2030年和2035年的阶段性发展目标。实现这些目标的关键在于切实推进各项重点任务落地。《意见》中强调要加快推动人工智能与六大关键领域的深度融合,而要在真实场景中释放AI的强大潜力,“强化基础支撑能力”成为不可或缺的底层保障。 作为成立两年的AI基础设施(AI Infra)平台,硅基流动始终坚信应用场景是驱动基础设施发展的核心动力。我们通过技术突破、产品打磨与生...

​Meta AI 发布 MobileLLM-R1:轻量级边缘推理模型

​Meta AI 发布 MobileLLM-R1:轻量级边缘推理模型
近日,Meta AI 推出了名为 MobileLLM-R1 的轻量级边缘推理模型系列,现已在 Hugging Face 平台上线。该系列涵盖从140M到950M参数规模的多种模型,专为高效执行数学、编程及科学推理任务而设计,在低于10亿参数的体量下展现出卓越性能。 其中最大的型号为 MobileLLM-R1-950M,采用了多项架构优化:包含22层 Transformer 结构、24个注意力头以及6组分组 KV 头。其嵌入维度设为1536,隐藏层维度达到6144。...

百度 PaddleOCR 累计下载量突破 900 万,被超 5.9k 开源项目使用

百度 PaddleOCR 累计下载量突破 900 万,被超 5.9k 开源项目使用
近日,百度通过其海外官方账号发布了全新的轻量级文字识别模型 pp-ocrv5。该模型参数量仅为0.07b,在仅千分之一的参数规模下,实现了与拥有700亿参数的大模型相当的ocr识别精度。在多个ocr应用场景的测试中,pp-ocrv5的表现优于gpt-4o、qwen2.5-vl-72b等大型通用视觉模型。目前,飞桨团队发布的相关技术博客已连续七天位居hugging face博客热度榜首位,引发开发者社区的高度关注。 据悉,2025年5月,飞桨团队正式推出PaddleO...

亚马逊云科技推出 Qwen3 与 DeepSeek-V3.1 模型的完全托管服务

亚马逊云科技推出 Qwen3 与 DeepSeek-V3.1 模型的完全托管服务
亚马逊云科技近日宣布,已在Amazon Bedrock平台正式上线Qwen3和DeepSeek-V3.1两款开放权重模型,目前该服务已面向全球用户开放。 此次发布进一步强化了亚马逊云科技作为运行开放权重AI模型首选平台的定位。Amazon Bedrock现已汇聚来自Meta、Mistral AI、OpenAI以及通义实验室、深度求索等多家领先机构的开源模型,为客户提供更加多元化的选择。 通过Amazon Bedrock使用这些模型,企业可享有高等级的安全保障,包括...

超越GPT-4o及Qwen2.5-VL,百度超轻量模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

超越GPT-4o及Qwen2.5-VL,百度超轻量模型PP-OCRv5 Blog持续登顶Hugging Face热度第一
近日,百度通过其海外官方账号发布了最新的轻量级文字识别模型pp-ocrv5。该模型仅含0.07b参数,以千分之一的参数规模实现了与拥有700亿参数的大模型相媲美的ocr精度表现。在多项ocr任务测试中,pp-ocrv5的表现优于gpt-4o、qwen2.5-vl-72b等通用视觉大模型。目前,飞桨团队发布的相关技术博客已连续七天位居hugging face博客热度榜榜首,引发开发者社区广泛关注。 ☞☞☞☞点击夸克AI手把手教你,操作像呼吸一样简单!☜☜☜☜...

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni
阿里云正式推出 qwen3-omni,宣告全球首个原生端到端全模态 ai 模型诞生,该模型现已全面开源。qwen3-omni 能够处理文本、图像、音频和视频等多样化输入形式,并支持实时流式输出,无论是通过文字还是自然语音交互,均可实现快速响应。 在多个应用场景中,Qwen3-Omni 展现出卓越的跨模态能力。其核心技术依托于早期以文本为中心的预训练策略与混合多模态训练方法,从而构建出强大的多模态理解力。尤其在音频与视频任务中表现突出,同时在文本和图像处理方面也维持了...