郑州,2026年4月14日,这个平时基本上和科技新闻头条压根不沾边的城市,这一天却悄悄干了一件大事,中科曙光在郑州国家超算互联网核心节点,正式上线了6万卡规模的科学智能计算集群,峰值算力10EFLOPS,这可是目前国内最大的同类集群。
消息出来我刷了好几篇报道,发现大家都在堆干巴巴的数字,6万卡、10EFLOPS、99.99%可用性……,但是我不想聊这些数字,我更想唠点实在的,这6万张国产芯片,到底在算啥?
先聊个很多人都有的认知误区,一旦提到AI,大家的第一反应要么是ChatGPT这类聊天机器人,要么是能生图、剪视频、写文案的创意工具,这不奇怪,过去两三年普通人能摸到的AI,基本都是这类消费级产品。
但是AI的用处可远远不止这些,有一类AI从来不会帮你写朋友圈文案,也不会陪你扯皮解闷,它天天蹲在机房里帮科学家解题,这类AI叫AI for Science,简称AI4S,说白了就是用人工智能给科学研究开加速挂。
举一个最直观的例子,传统药物研发在很大程度上靠“瞎试”,科学家盯着某个靶点,把能够想到的化合物挨个试,有用了就留,没用了就扔,反复循环,这个过程慢到离谱,从靶点发现到拿出候选药物,正常得花4年到5年。
但是AI4S进来之后,这个流程直接被压到了只有12个月左右,这绝对不是靠人熬大夜,由于是AI能同时啃海量结构数据,人类喝杯咖啡的功夫,它已经把几千种化合物的可能性全算完了,材料研发也是一样,一种新材料从实验室到能用上,以前要2年到3年,现在有AI4S帮忙,3个月到6个月就能出结果,效率真心是差了好几个量级。
你可能会问,AI4S和大语言模型,到底哪个更重要?这个问题不好直接比,但是我可以给你一个思考的角度,大语言模型解决的是“人类已有知识”的整合和调用问题,它确实很厉害,但是它的本质上是在已有信息里挖答案,而AI4S解决的是“人类还不知道的答案”怎么找的问题,它是蹲在科学的边界线上干活,帮人类找新规律、新结构、新化合物,两者的价值根本不可能是在一个层级上。
英伟达的黄仁勋前段时间公开把AI4S列为AI最重要的三个方向之一,和大语言模型、具身智能放在一块,他说话向来直接,这个排位肯定不是随便排的,远期来看,有人估过AI4S赛道的市场规模是千亿美元级别,这还只是能估算出来的市场价值,更重要的是如果AI4S真的大规模铺开,人类探索自然规律的速度,将会快到我们现在根本想象不到。
说回郑州这个集群,中科曙光是做高性能计算起家的,在国内超算圈算是摸爬滚打多年的老玩家了,但这次他们干的事,确实有点超出预期。
先捋个时间线,2025年12月,曙光刚发布scaleX万卡超集群技术方案;2026年2月,3万卡规模的集群就接入国家超算互联网开始服务;2026年4月14日,6万卡的AI4S集群直接正式投用。
从发布方案到真机落地,满打满算不到半年,这个速度在同类项目里真的罕见,大型计算集群的工程部署,涉及机房、散热、网络布线、芯片调度、软件适配,每个环节都可能卡半年。
半年就能跑通全流程,背后的原因你品,你细品,我之前采访过几个做超算工程的朋友,他们说这类项目最怕的不是堆硬件,是“联调”,把几万张不同批次的芯片接进同一张网络,让它们一块干活不掉链子,里面的坑多到数不清。
曙光这次用的是自研的高速互联网络产品scaleFabric系列,核心就是解决几万张卡高速通信时丢包、延迟的问题,不让算力打折扣,有意思的是这种高速网络之前长期被少数海外厂商垄断,国内玩家入场时间并不长,能够在6万卡规模上跑通,本身就已经交上了一份满分答卷。
这次曙光反复提一个词,全栈自研,从底层芯片,到高速互联网络,再到上面的软件平台,全是自己做的,有人可能觉得这就是企业宣传话术,但是从工程角度来说,全栈自研意味着一件事,出了问题,自己能查,自己能改。
用别人的芯片、别人的网络、别人的软件,跑起来没问题,但一旦出了奇怪的bug,或者想针对某个科研场景做定制优化,你找谁去?人家根本不会给你开放底层代码,全栈自研的代价是研发成本高,但是好处是整个系统可以端到端优化,芯片、互联、存储、调度,每一层都能互相配合,不会因为某层是黑盒卡住上层的性能。
具体来说这个集群有几个设计细节挺值得说,芯片支持8位到64位的全精度计算,不同科研任务对精度需求不一样,材料模拟和气象预测的精度要求就差很多,全精度支持意味着集群能覆盖的场景更广,存储这边他们做了个叫“超级隧道”的设计,加上AI数据加速,就是为了避免“算得快但数据喂不上”的瓶颈,这在超大规模并行计算里是老大难问题,数据吞吐跟不上算力,整个效率直接掉一半。
调度系统每秒能处理超过一万次并发作业请求,这个数字在科研场景里太实用了,大量高校和科研机构同时提交任务的情况太常见了,还有个细节,散热用的是浸没相变液冷加湖水冷却的组合方案,余热回收用来供暖和供生活热水,全年等效节水接近零,每年减少碳排放约4万吨,做这么大的数据中心,能把能耗控制到这个水平,真的不容易。
光有算力,不等于科研人员能用得上,这里有个“最后一公里”的问题,大多数科研人员不是算法工程师,不会写CUDA,不会调分布式训练框架,你给他6万卡的权限,他也不知道怎么上手。
曙光这次同步推出了OneScience平台,我理解它的核心作用,就是让科研人员不用懂代码也能用算力,你跟系统说要模拟某个蛋白质的折叠过程,需要多高精度,时间尺度是多少,系统自动拆任务、配资源、调计算,你完全不用管底层怎么实现。
平台上已经集成了几十个AI4S领域的主流模型,覆盖地球科学、生物信息、流体仿真、材料化学这些方向,这套平台接入的是国家超算互联网体系,目前这张网已经连了超300万CPU核和超20万GPU卡,全国的高校、科研院所和企业都能接进来。
说白了,不是每个机构都需要自己砸钱建6万卡集群,通过这张网,普通高校的科研人员也能调用顶级算力,就像用电一样,用多少花多少。
说了这么多基础设施,聊点实在的成果,这个集群已经算出了啥?
第一个是蛋白质折叠模拟,集群用3万卡规模做蛋白质折叠模拟,比传统算法快了1000多倍,昌平实验室用这套方案,把蛋白质折叠的模拟速度提了3到6个数量级。
数量级这个词有时候被用烂了,但是这里是实打实的,3个数量级意味着以前要算1000天的东西,现在1天就能算完,蛋白质折叠的意义不用多说,它决定了蛋白质的三维结构,而结构决定了药物怎么跟靶点结合,把这个算明白,新药研发的速度直接起飞。
第二个是万亿原子液态水分子模拟,说人话就是用4.5万卡,把水分子里每一个原子的行为都建出来,追踪它们怎么动、怎么互相作用,规模是万亿原子级别,直接打破了当时的世界模拟规模纪录,效率比之前的方法高了3个数量级以上。
为啥要费这么大劲模拟水分子?因为水在材料科学、能源、生命科学里都是绕不开的基础物质,搞清楚水的微观行为,对好多交叉学科都有大用。
第三个是湍流直接模拟,湍流是流体力学里最难的问题之一,有人说它是经典物理学最后没被彻底解决的大问题之一,集群把湍流直接模拟的网格规模扩展到了百万亿级别,这在之前想都不敢想,计算量早就超出了以前工具的能力上限。
中国科学院院士陈润生说过一句话,我觉得精准戳中了AI4S的核心价值,基于AI4S的“人机协同”新模式,科学家可以从“如何算”转向“如何想”,进而提出更好的问题、设计更巧妙的路径、做出更深刻的判断。
这句话背后藏着一个特别重要的认知转变,以前做科研,相当一部分精力都花在“怎么把这个问题算出来”上,选什么数学模型、写什么程序、怎么优化代码、怎么让程序顺利跑完,这些都是工具性的活,但往往耗掉了科研人员大半时间。
AI4S把这些工具性的活接过来之后,科学家的时间就能更多放在“这个问题值不值得研究”“这个路径有没有更深的意义”上面,科学的本质本来就是提出好问题,不是天天跟代码死磕,AI4S根本不会取代科学家,它干的事,是让科学家更像科学家。
最后算一笔长远的账,中国在基础科研的很多方向,以前都是追赶者,追赶的逻辑很简单,投入更多人力、做更多重复试验、积累更多数据,这条路确实有用,但效率上限摆在那。
AI4S给了我们另一种加速的方式,不是堆更多人,而是让每个科研人员的产出能力直接翻倍,郑州这个6万卡集群的意义,根本不是一个单独项目的落地,而是整个基础设施层面的布局。
以后算力网络不断扩容,接入更多高校和科研机构,会有更多科研人员不用再为算力发愁,能做出好多以前想都不敢想的研究,从蛋白质折叠到湍流模拟,从水分子动力学到气候预测,从新药研发到材料创新,这些领域等这个算力底座已经等了好久。
这个底座,现在已经搭起来了,你觉得AI4S会最先在哪个科研方向拿出真正的突破性成果?是药物研发、材料科学、气候模拟,还是别的什么方向?
美联储缩表换了新思路?
重估稀缺性
海水能制氢?中国科学家悄悄干成了一件大事
挪威「超级存钱罐」的4个理财逻辑
内蒙古,留住过路财
中国团队,又给世界出了一道物理难题
告别锂依赖与自燃焦虑,中国科学家改写电池安全底层逻辑
河南许昌的假发,是如何征服两亿非洲人的?