星空影视网

展开菜单

LLM 系列(六):模型推理篇

LLM 系列(六):模型推理篇
引言 大型语言模型(llm)的训练过程虽然耗资巨大且备受关注,但其真正的价值实现,却发生在 推理(inference) 这一最终环节。推理是将训练好的模型应用于实际,根据 用户输入(prompt)生成响应的过程 。无论是驱动一个实时聊天机器人,还是进行离线文档分析,高效、可靠的推理是所有 llm 应用的基石。然而,这一过程远非简单地调用模型那么直接,它面临着一个核心的 三难困境(trilemma): 本文将深入剖析 LLM 推理的全貌,从其根本的自回归生成机制出发,逐层...

Intel CEO:与黄仁勋有30多年朋友交情 将创造全新产品类别

Intel CEO:与黄仁勋有30多年朋友交情 将创造全新产品类别
生产制造产业日报(10.26) : "AI芯片量产在即,台积电压力增" 公司动态 台积电,压力陡升 OpenAI与AMD和博通签署协议,大量生产AI芯片,未来几年内打造出6千兆瓦的GPU,首批部署将于2026年底启动。博通与OpenAI合作构建10千兆瓦的AI加速器和以太网系统,首批部署将于2026年下半年开始。台积电成为芯片制造的主要供应商,其产能紧张,对整个科技行业造成压力。黄仁勋宣布NVIDIA退出中国市场!九大国产GPU替代 华为领头 NVIDIA退出中国市(搜索结果...

飞腾腾锐D3000台式机中标近4000台!份额100%

飞腾腾锐D3000台式机中标近4000台!份额100%
10月28日,飞腾公司正式宣布,搭载飞腾腾锐d3000处理器的台式机成功中标安平领域某部委项目,订单数量接近4000台。 尤为引人注目的是,飞腾在该项目中实现了100%的中标份额! 今年年初,飞腾累计芯片出货量已突破1000万颗,恰逢公司成立十周年的重要里程碑。 此前,在浙江省某政府机构的框架采购招标中,基于飞腾腾锐D3000的桌面台式机一举中标,数量高达1.3万台。 更早前,在某大型电力央企2024-2026年度计算机集中采购项目中,基于飞腾腾锐D2000处...

高通发布AI200和AI250芯片:重新定义AI机架 明年起商用

高通发布AI200和AI250芯片:重新定义AI机架 明年起商用
10月28日,高通正式发布其面向数据中心的新一代ai推理优化方案:搭载qualcomm ai200与ai250芯片的加速卡及机架式系统。 这两款新产品以行业领先的总体拥有成本(TCO),为数据中心的生成式AI推理任务提供强大的机架级性能和出色的内存配置,满足日益增长的AI计算需求。 其中,Qualcomm AI200专为机架规模AI推理设计,针对大语言模型(LLM)、多模态模型(LMM)以及其他关键AI应用,在性能和成本之间实现高度优化,显著降低部署开销。 每块...

高通技术公司发布AI200和AI250 重新定义AI时代机架级数据中心推理性能

高通技术公司发布AI200和AI250 重新定义AI时代机架级数据中心推理性能
要点: Qualcomm® AI200与AI250解决方案凭借行业领先的总体拥有成本(TCO),为数据中心的生成式AI推理提供机架级性能和卓越内存容量。Qualcomm AI250采用创新的近存计算架构,显著提升有效内存带宽与能效,实现AI工作负载处理能力的飞跃。两款产品均配备全面优化的软件栈,并兼容主流AI框架,助力企业及开发者在跨数据中心环境中安全、高效地部署可扩展的生成式AI应用。这些解决方案是高通技术公司多代数据中心AI推理路线图的重要组成,延续每年迭代的技术发...

英伟达斥资10亿入股诺基亚 打造面向6G的AI-RAN平台

英伟达斥资10亿入股诺基亚 打造面向6G的AI-RAN平台
28日,英伟达与诺基亚正式宣布达成战略合作伙伴关系,双方将携手把基于英伟达平台的商用ai-ran(人工智能无线接入网)解决方案融入诺基亚现有的无线接入网(ran)产品体系,助力通信运营商在英伟达平台上构建原生支持ai的5g-advanced及未来6g网络。 此次合作包含一项重要资本动作:英伟达将以每股6.01美元的价格,向诺基亚投资10亿美元,通过认购新股的方式完成股权投资,进一步巩固双方长期协作基础。 从技术角度看,英伟达同步发布了Aerial RAN Comp...

ROG新款XG Mobile显卡坞首发7999元起:配RTX 5070 Ti / 5090移动版

ROG新款XG Mobile显卡坞首发7999元起:配RTX 5070 Ti / 5090移动版
10月31日,华硕rog正式推出全新一代xg mobile显卡扩展坞,首发搭载rtx 5090与rtx 5070 ti移动版显卡,起售价为7999元。 新款XG Mobile显卡坞整机重量约为952克,相较于2023年发布的前代产品,体积缩减约18.2%,重量减轻约26.8%,更加轻便易携,适合移动使用场景。 设备内置330W高功率电源,并引入创新的主动式整流MOSFET技术,确保在高负载电流下依然稳定运行,提供强劲电力支持。 在散热设计上,新一代XG Mobi...

定价17999元!abee AI Station 395 Max迷你液冷AI工作站今天开售!

定价17999元!abee AI Station 395 Max迷你液冷AI工作站今天开售!
首款搭载液冷技术的strix halo迷你ai工作站震撼登场!今日,abee ai station 395 max迷你液冷ai工作站正式登陆京东平台开启首发销售,售价定为17999元。 随着人工智能浪潮席卷全球,各类AI应用层出不穷,智能体AI与具身AI也逐步走向成熟,端侧AI正成为不可忽视的技术趋势。 在这一背景下,代号为Strix Halo的AMD锐龙AI MAX 300系列处理器应运而生。其中旗舰型号——锐龙AI Max+ 395,采用全新Zen 5 CPU...

一文看懂英伟达的产品体系和命名规则

一文看懂英伟达的产品体系和命名规则
英伟达这几年很火。因为 ai 的带动,它几乎成为全球最受关注的公司。 我们总是会在网上看到和英伟达有关的一些名词,例如: A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、HGX、Quantum、Spectrum、BlueField、CUDA 等等。 这些名词看多了,就有点晕。搞不懂到底是什么,有什么关系。 今天这篇文章,小枣君就给大家详细梳理一下这些名词概念,顺便普及一下相关的知识。 █算力芯片 ——V100 /...

字典大小的迷你主机性能却超越台式机!锐龙AI Max+ 395确实猛

字典大小的迷你主机性能却超越台式机!锐龙AI Max+ 395确实猛
今年初的ces上,amd发布了专门针对ai pc领域的高算力移动平台——amd锐龙ai max+,这一系列处理器基于amd zen5架构设计,最大亮点是集成多达40个rdna3.5架构的图形计算单元,并且提供了高达256gb/s的超高带宽内存接口,同时还集成了50tops算力的xdna2架构npu。 了解AI的朋友都知道,当前AI应用硬件层面的主要瓶颈就在于GPU与内存,无论是Stable Diffusion的文生图、图生图、文生视频等应用,还是围绕各种大模型的智能体类...