国产推理GPU问世!首用LPDDR6,性价比飙10倍

华新社杭州电(记者 林金枚) 1月27日,国产GPU创企曦望(Sunrise)在杭州正式发布其未来三年产品路线图,并推出新一代大模型推理专用GPU芯片——启望S3,同步推出面向超大规模推理场景的寰望SC3超节点方案及推理云平台计划,目标将大模型推理成本降至“百万token一分钱”的新水平。
作为国内首家“All in 推理”的GPU芯片公司,曦望宣布:启望S3将于2026年量产上市;高性能推理芯片S4将于2027年推出;安全可控推理芯片S5则定于2028年面世,延续“量产一代、发布一代、预研一代”的研发节奏。
一、脱胎商汤,All in 推理,8年投入20亿
曦望成立于2020年5月,前身为商汤科技大芯片部门,核心团队超300人,骨干来自英伟达、AMD、昆仑芯及商汤,平均拥有15年以上芯片行业经验。
“我们是一家更懂AI的GPU公司,也是国内第一家All in推理的GPU企业。”曦望董事长徐冰表示,公司使命是让AI推理“便宜、稳定、随处可用”。
联席CEO王勇(前AMD、昆仑芯架构师,20年芯片研发经验)主导了S1、S2两代芯片的一次性流片成功;另一位联席CEO王湛(百度创始团队成员、原集团副总裁)于2025年初加入,负责产品化与商业化,推动组织战斗力升级。
过去一年,曦望完成约30亿元战略融资,股东包括商汤、三一重工、杭州数据集团、范式、正大集团,以及多家国资平台与顶级风投。2025年,其推理GPU交付量已突破1万片,收入大幅增长,并斩获多个头部客户订单。
值得注意的是,曦望早在2018年即启动第一代视觉推理芯片S1研发,2020年实现上万片量产,并完成IP授权——索尼AI摄像头与小米手机均采用其技术。2023年推出的S2芯片,在DeepSeek满血版适配中达到国际巨头80%的推理性能,稳居国内第一梯队。
软件层面,曦望已实现95% CUDA兼容性,支持客户推理业务无缝迁移,并深度适配商汤“小浣熊”系列、长城信创一体机、范式、星凡星启、玄武智能等生态伙伴。
二、启望S3:国内首款LPDDR6 GPGPU,单位token成本降90%
启望S3是一款专为大模型推理深度定制的GPGPU芯片,摒弃传统训推一体GPU中为训练冗余设计的模块,聚焦真实业务场景中的三大核心指标:每token成本、能耗与SLA稳定性。
据王勇介绍,S3相较上一代产品实现10倍以上推理性价比提升,单芯片推理性能提升5倍,并支持FP16/FP8/FP6/FP4多精度灵活切换,精准匹配MoE架构与长上下文模型的推理需求。
其关键技术突破包括:
极致PPA优化:去除训练相关昂贵组件,采用最新GPU IP与高速接口;
先进工艺节点:基于当前合规的国际先进制程;
国内首发LPDDR6显存方案:带宽较LPDDR5提升超100%,显存容量达上一代训推芯片的4倍;
黄金算力访存比:依据大模型特性,精准匹配计算与内存带宽,避免资源浪费。
在DeepSeek V3/R1等主流大模型实测中,S3将单位token推理成本降低约90%,为“百万token一分钱”目标奠定硬件基础。
三、寰望SC3超节点:全液冷、256卡互联,系统成本降一个数量级
围绕S3,曦望同步推出寰望SC3超节点解决方案,专为千亿至万亿参数多模态MoE模型推理设计。
该方案支持单域256卡一级直连,高效支撑PD分离架构与大规模Expert Parallelism(EP),在大EP部署下吞吐率提升20–25倍,显著优化长上下文、高并发推理场景的系统利用率。
交付形态上,SC3采用全液冷设计,PUE表现优异,并支持模块化快速部署。王勇透露,在同等推理能力下,该方案可将系统交付成本从行业常见的亿元级降至千万元级,降幅达一个数量级。
在互联扩展方面,曦望已实现16至256卡超节点构建,并可通过RDMA直连扩展至千卡甚至数千卡集群。
软件栈方面,曦望构建了完整CUDA兼容体系,覆盖驱动、运行时、工具链、算子库与通信库,已适配DeepSeek、通义千问、商汤日日新、腾讯混元3D等百余种大模型,并兼容ModelScope平台90%以上主流模型形态。
四、推理云平台:共建“百万token一分钱”生态
曦望正从芯片厂商向“推理基础设施提供商”转型。除提供标准GPU卡、服务器及集群方案外,公司联合商汤、范式等AI龙头,以及杭钢数字科技、浙江算力科技等本地算力平台,共同打造推理加速专区,推动“百万token一分钱”合作落地。
现场,曦望与三一、协鑫、游族等十余家生态伙伴集中签约,将极致推理能力嵌入制造、能源、C端应用及机器人等垂直场景。
联席CEO王湛介绍,曦望正构建新一代AI原生智算平台,具备四大核心能力:
1. 软硬深度协同:自研GPU内核与通信库,实现物理级全栈优化;结合量化压缩技术,在精度损失极小前提下,性能提升超250%;
2. 资源极致弹性:通过GPU池化、动态扩缩容与智能负载预测,实现算力按需供给;
3. 开箱即用:集成模型市场与开发工具,大幅降低使用门槛;
4. 稳定可靠:提供状态遥测、健康度分析、自动部署与故障快速隔离等智能运维能力。
该平台以MaaS(Model as a Service) 为核心入口,客户无需关注底层硬件与集群运维,即可按需调用大模型推理服务,形成“Token as a Service”商业模式——涵盖公共、定制与混合三种服务形态。
据炜烨智算CEO周韡韡披露,经蓝翼大模型实测,曦望当前每百万token价格约为0.57元人民币,远低于市场主流7–14元区间。
结语:让算力“用得上、用得好、用得起”
中国工程院院士、浙江大学信息学部主任吴汉明指出,推理算力的价值实现,依赖芯片、系统、软件到应用的全链条协同。
徐冰强调,推理能力将决定国家与企业在AI下半场的竞争力。“谁掌握高效、可控、可持续的推理基础设施,谁就掌握AI落地的速度。”
他重申曦望的三大目标:让算力更便宜、部署更简单、生态更开放。“我们坚信,曦望将走出一条中国企业自主发展推理GPU的特色之路,实现从‘跟跑’到‘差异化领跑’的关键跨越。”
在AI从“训练热”转向“推理战”的时代,曦望正试图以极致性价比与全栈能力,成为中国推理算力的“核心底座”。

華文財經新聞社聯合報道。发布者:总编,转载请注明出处:https://huaxinnews.com/6159.html

Like (0)
总编的头像总编管理团队
Previous 5天前
Next 1天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注