国产推理GPU问世！首用LPDDR6，性价比飙10倍

华新社杭州电（记者林金枚） 1月27日，国产GPU创企曦望（Sunrise）在杭州正式发布其未来三年产品路线图，并推出新一代大模型推理专用GPU芯片——启望S3，同步推出面向超大规模推理场景的寰望SC3超节点方案及推理云平台计划，目标将大模型推理成本降至“百万token一分钱”的新水平。
作为国内首家“All in 推理”的GPU芯片公司，曦望宣布：启望S3将于2026年量产上市；高性能推理芯片S4将于2027年推出；安全可控推理芯片S5则定于2028年面世，延续“量产一代、发布一代、预研一代”的研发节奏。
一、脱胎商汤，All in 推理，8年投入20亿
曦望成立于2020年5月，前身为商汤科技大芯片部门，核心团队超300人，骨干来自英伟达、AMD、昆仑芯及商汤，平均拥有15年以上芯片行业经验。
“我们是一家更懂AI的GPU公司，也是国内第一家All in推理的GPU企业。”曦望董事长徐冰表示，公司使命是让AI推理“便宜、稳定、随处可用”。
联席CEO王勇（前AMD、昆仑芯架构师，20年芯片研发经验）主导了S1、S2两代芯片的一次性流片成功；另一位联席CEO王湛（百度创始团队成员、原集团副总裁）于2025年初加入，负责产品化与商业化，推动组织战斗力升级。
过去一年，曦望完成约30亿元战略融资，股东包括商汤、三一重工、杭州数据集团、范式、正大集团，以及多家国资平台与顶级风投。2025年，其推理GPU交付量已突破1万片，收入大幅增长，并斩获多个头部客户订单。
值得注意的是，曦望早在2018年即启动第一代视觉推理芯片S1研发，2020年实现上万片量产，并完成IP授权——索尼AI摄像头与小米手机均采用其技术。2023年推出的S2芯片，在DeepSeek满血版适配中达到国际巨头80%的推理性能，稳居国内第一梯队。
软件层面，曦望已实现95% CUDA兼容性，支持客户推理业务无缝迁移，并深度适配商汤“小浣熊”系列、长城信创一体机、范式、星凡星启、玄武智能等生态伙伴。
二、启望S3：国内首款LPDDR6 GPGPU，单位token成本降90%
启望S3是一款专为大模型推理深度定制的GPGPU芯片，摒弃传统训推一体GPU中为训练冗余设计的模块，聚焦真实业务场景中的三大核心指标：每token成本、能耗与SLA稳定性。
据王勇介绍，S3相较上一代产品实现10倍以上推理性价比提升，单芯片推理性能提升5倍，并支持FP16/FP8/FP6/FP4多精度灵活切换，精准匹配MoE架构与长上下文模型的推理需求。
其关键技术突破包括：
极致PPA优化：去除训练相关昂贵组件，采用最新GPU IP与高速接口；
先进工艺节点：基于当前合规的国际先进制程；
国内首发LPDDR6显存方案：带宽较LPDDR5提升超100%，显存容量达上一代训推芯片的4倍；
黄金算力访存比：依据大模型特性，精准匹配计算与内存带宽，避免资源浪费。
在DeepSeek V3/R1等主流大模型实测中，S3将单位token推理成本降低约90%，为“百万token一分钱”目标奠定硬件基础。
三、寰望SC3超节点：全液冷、256卡互联，系统成本降一个数量级
围绕S3，曦望同步推出寰望SC3超节点解决方案，专为千亿至万亿参数多模态MoE模型推理设计。
该方案支持单域256卡一级直连，高效支撑PD分离架构与大规模Expert Parallelism（EP），在大EP部署下吞吐率提升20–25倍，显著优化长上下文、高并发推理场景的系统利用率。
交付形态上，SC3采用全液冷设计，PUE表现优异，并支持模块化快速部署。王勇透露，在同等推理能力下，该方案可将系统交付成本从行业常见的亿元级降至千万元级，降幅达一个数量级。
在互联扩展方面，曦望已实现16至256卡超节点构建，并可通过RDMA直连扩展至千卡甚至数千卡集群。
软件栈方面，曦望构建了完整CUDA兼容体系，覆盖驱动、运行时、工具链、算子库与通信库，已适配DeepSeek、通义千问、商汤日日新、腾讯混元3D等百余种大模型，并兼容ModelScope平台90%以上主流模型形态。
四、推理云平台：共建“百万token一分钱”生态
曦望正从芯片厂商向“推理基础设施提供商”转型。除提供标准GPU卡、服务器及集群方案外，公司联合商汤、范式等AI龙头，以及杭钢数字科技、浙江算力科技等本地算力平台，共同打造推理加速专区，推动“百万token一分钱”合作落地。
现场，曦望与三一、协鑫、游族等十余家生态伙伴集中签约，将极致推理能力嵌入制造、能源、C端应用及机器人等垂直场景。
联席CEO王湛介绍，曦望正构建新一代AI原生智算平台，具备四大核心能力：
1. 软硬深度协同：自研GPU内核与通信库，实现物理级全栈优化；结合量化压缩技术，在精度损失极小前提下，性能提升超250%；
2. 资源极致弹性：通过GPU池化、动态扩缩容与智能负载预测，实现算力按需供给；
3. 开箱即用：集成模型市场与开发工具，大幅降低使用门槛；
4. 稳定可靠：提供状态遥测、健康度分析、自动部署与故障快速隔离等智能运维能力。
该平台以MaaS（Model as a Service）为核心入口，客户无需关注底层硬件与集群运维，即可按需调用大模型推理服务，形成“Token as a Service”商业模式——涵盖公共、定制与混合三种服务形态。
据炜烨智算CEO周韡韡披露，经蓝翼大模型实测，曦望当前每百万token价格约为0.57元人民币，远低于市场主流7–14元区间。
结语：让算力“用得上、用得好、用得起”
中国工程院院士、浙江大学信息学部主任吴汉明指出，推理算力的价值实现，依赖芯片、系统、软件到应用的全链条协同。
徐冰强调，推理能力将决定国家与企业在AI下半场的竞争力。“谁掌握高效、可控、可持续的推理基础设施，谁就掌握AI落地的速度。”
他重申曦望的三大目标：让算力更便宜、部署更简单、生态更开放。“我们坚信，曦望将走出一条中国企业自主发展推理GPU的特色之路，实现从‘跟跑’到‘差异化领跑’的关键跨越。”
在AI从“训练热”转向“推理战”的时代，曦望正试图以极致性价比与全栈能力，成为中国推理算力的“核心底座”。

華文財經新聞社聯合報道。发布者：总编，转载请注明出处：https://huaxinnews.com/6159.html

国产推理GPU问世！首用LPDDR6，性价比飙10倍

相关推荐

发表回复