国防科大“天河一号”:国之重器 超算英雄(图)

11.01.2015  09:38


科研人员仔细检查每一个系统节点。

1月9日,北京,人民大会堂 。

国防科大“天河一号”超算获2014年度国家科技进步奖特等奖。一位来自涟源的湖南人、“天河一号”工程总指挥廖湘科,作为2014年国家科技进步奖特等奖代表发言。

这是一个历史性的时刻。从1983年中国科学家研制成功“银河”第一代巨型计算机开始,历经数代中国科学家的艰苦探索,中国超算终于冲上世界之巅,大显王者风范。 “天河一号”,被誉为“国之重器”。

这个光荣的胜利者的故事,要从屈辱的玻璃房故事说起。

引子

在国防科大,很多人都听说过玻璃房子的故事。

对于高性能计算机,欧美国家长期对中国禁运,还设立了专门从事禁运工作的组织。20世纪80年代,中国气象部门想从美国克雷公司进口一台计算机,美国人死活不肯卖。后来好不容易松口了, 但美国政府要对出口中国的高性能计算机进行监视,即在计算机机房安装监视仪器,机器也要封在玻璃机房里,由他们自己人使用监控,不许中国科技人员进去。

2010年,国防科大的超级计算机“天河一号”,勇夺国际TOP500排名第一。总设计师杨学军在接受新华社记者采访时,曾沉重地谈到自己亲眼看到玻璃房子的心情:“这段真实的历史,是中国科研工作者心中永远的痛。在中国土地上,被外国人拒于‘技术大门’之外,就像农民自家没粮,母亲自己没奶喂孩子。

面对西方国家如此严密的技术封锁,以慈云桂教授为代表的第一代中国计算机科技人员坐不住了。这位国防科技大学计算机系、计算机研究所的创始人,率领国防科大计算机科研队伍,在1983年12月研发出中国第一台亿次巨型电子计算机,取名为“银河”。中国从此成为继美、日之后能独立设计和制造巨型机的国家。慈云桂被称为中国巨型计算机之父。

从慈云桂到杨学军,短短数十年的中国超算,可以用杨学军写的一首诗来描绘:梦幻天河弹指间,电闪巡地十亿年。滨海坐拥飞流急,倚天妙算出奇篇。

当年, 得知“天河一号”勇夺国际TOP500排名第一时,杨学军说:“我们做了一件让自己满意的事,做了一件让中国人扬眉吐气的事。”并赋得此诗。

壹 前奏

中国超算总比别人差那么一点点, 刺痛人心

20世纪90年代初,微处理器(CPU)的问世,导致了MPP(大规模并行处理)总体技术的突破。人类计算机开始迈入超级计算机时代。国际战略家们认为,“超级计算机已经成为国际竞争的战略领域。

1993年,德国曼海姆大学汉斯·埃里克教授等开始实施国际TOP500排名。虽然纯属“民间活动”,但它释放出强大魅力,甚至得到政治家们的青睐,日益演变为“科技奥林匹克”。

此时,国防科大银河系列超级计算机关键技术攻坚势如破竹。但每当中国跃上一个新台阶,美国或日本不久便会宣布研制出世界上运算速度最快的超级计算机。用行内的话说:“我们的超级计算机水平总是比别人差那么一点点”。

虽然只是“一点点”,但在愈演愈烈的国际竞争中,却是天壤之别。在一篇即将付梓的报告文学中,作者龚盛辉评价这个“一点点”:

别人高了这么“一点点”,就意味着站在“巅峰”之上,就可以用俯视的目光看世界;你低了这么“一点点”,说明你还在半山腰,对别人只能仰视、只能谦卑!

只要别人高了那么“一点点”, 就可以蛮横地说“这个不能卖给你中国”“那个不能卖给你中国”,就可以对你指手画脚,要求你这么做、不允许你那么做……一句话,别人爱怎么的就怎么的,而你却拿别人没招儿!

这“一点点”,是勒在中国人脖子上的一根“绳套”,让人喘不上气来。

这“一点点”,是悬在中国人头顶上的一把“利剑”,深深刺痛了国人的心。

中国站在同一起跑线上,巅峰对决开始

进入21世纪,世界超级计算机发展遭遇“冰封”时期。科学家们为了提高超算系统的整体性能,只能依赖于加大系统规模:比如计算机体积有几个足球场那么大、需要建一个专用的发电站才能满足它的功耗。2004年日本的“地球模拟器”,虽然一度抢占国际TOP500排名第一,但其机房竟需要四层楼,铜质电缆有上百公里长。

超算技术再跨越,需要新的体系结构理论来支撑。 这也意味着中国和美、日等发达国家处于同一起跑线,中国在超算领域决战决胜、冲击巅峰的时机来临!

经过反复论证,杨学军在世界上最早提出异构融合体系结构技术。2006年,他率领研发团队展开攻关。身兼行政领导、型号总师等数职的杨学军,每周都要抽出两天时间与大家交流讨论学术问题,超过吃饭时间,他就自掏腰包请大家吃饭,在饭桌上继续讨论。平时,杨学军和成员们都带上两块手机电板,一旦有新发现,就打电话交流讨论,常常打到手机烫耳朵。

2007年6月,杨学军带领团队完成的研究论文《64位流处理器体系结构研究》,发表在国际计算机系统结构年会(ISCA)上,并被一家国际权威期刊录取。这是ISCA录取的第一篇来自中国研究机构、由中国学者独立完成的学术论文,也是计算机发展史上第一个由中国人提出的体系结构理论。

中国科学家,为世界超级计算机技术突破“冰封期”提供了崭新的思路。中国与世界计算机强国的“巅峰”对决,已经开始。

贰 出击

冒险”出击: 从每秒10万亿次直接冲刺每秒1000万亿次

2006年开始,杨学军和他的团队,开始了一场极富创意甚至有点冒险的主动出击战。

其时,国家制定了“先研制两台百万次超级计算机、再研制一台千万亿次超级计算机”的“两步走”战略。但以杨学军为总设计师的总师组,经过深入技术调研、反复权衡利弊,决定从每秒10万亿次直接冲刺每秒1000万亿次,走别人没有走过的CPU+GPU技术路线。这一超常决策引起一片哗然。

研制超级计算机一般都以10倍速度逐步递增已成为国际惯例。从每秒10万亿次直接向每秒1000万亿次跨越,是不是迈得大了点?但杨学军认为,两步并作一步走虽然国际上少有,但对银河人来说并不是什么新鲜事。当年慈云桂带领大家研制“远望一号”远洋测量船中心计算机时,不也是从每秒万次直接向每秒100万次冲刺的吗?当今世界,超级计算机每10年性能提升1000倍,在此情况下,若按照所谓“惯例”按部就班,只能永远跟在别人后面。

雄心再豪迈,最终需实践检验。剑走偏锋的怪棋走得并不顺。

CPU(通用微处理器)+GPU(专用微处理器)异构融合体系结构,形象地说,就是把众多CPU、GPU有机地连成一枚“捆绑式火箭”。

中国有一句谚语:“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。”把数千个CPU、数千个GPU组合成一个“大庙”,它们还能卖力“挑水”吗?

2009年3月,他们把CPU、GPU这两类“和尚”组合起来,竟发现总性能还不到600亿次,而一颗CPU就有近500亿次的性能。也就是说GPU虽然用于图像处理速度惊人,但让它与CPU放在一块用于科学计算,就变得非常懒惰,计算效能只有20%左右。

面对测试结果,大家心里凉了半截。杨学军听完情况汇报后,向妻子招招手:“你去把车开来,带我出去转转。”车子驶出高速收费站时,杨学军掏出手机,坚定地说:“别人不敢走的路,并不等于走不通。从技术原理分析,GPU的计算性能,通过软件优化,是可以大幅提高的……

突击队”在长沙郊区闭关半年

关键时刻,经学校党委推荐,时任中央军委主席胡锦涛任命廖湘科为每秒千万亿次超级计算机工程总指挥和常务副总师。 这位湘中汉子也是一名“虎将”。1983年“银河一号”研制成功的消息传来时,正在清华读书的廖湘科,和同学们立刻南下长沙,亲眼目睹那些创造历史的机器是什么样子。毕业后廖湘科毫不犹豫考入国防科大读硕士,用他的话说:“我就是冲 ‘银河’去的!

挫折面前,杨学军、廖湘科不仅没退缩,更作出一个超常决策:把完成研制任务的时间节点,由原计划的2010年底提前一年,即在2009年底前推出中国第一台每秒千万亿次超级计算机。很多人担心:“关键技术尚未突破,还提前一年完成任务,能行吗?


总攻开始了。长沙郊区的一个抗洪指挥部,国防科大超级计算机创新团队来了一次长达半年的“闭关”。

由杨灿群率领的“突击队”,整天猫在那栋三层小楼里,想方设法调动GPU这群“和尚”的积极性,让他们多“挑水”,眼睛只盯着显示屏,从早上7点盯到午夜。

连续数日没有任何战果,杨灿群躺在床上辗转反侧,闭上眼睛满脑子还是那些波涛般滚动的数据。突然,他隐隐觉得眼帘上滚动的一些数据低于设计目标,一骨碌爬起来跑到办公室打开电脑,进入试验数据库,果然发现GPU一部分计算资源没有用起来。兴奋难抑的杨灿群,立刻着手程序优化。

杨灿群带领突击队乘胜扩大战果,连续奋战四个月,先后改进优化8万余次,创造了一个科学奇迹:GPU计算效能跃升至70%以上,达到世界最高水平!

死了“张屠夫”,中国人照样不吃“带毛猪”!

来不及更多的兴奋,一个又一个挑战来了。 超级计算机系统要实现每秒运算千亿次,不仅要求CPU、GPU“算得快”,而且要求有一个快捷通畅的网络系统,让各种信息“跑得快”。但2009年7月的试运行时发现,系统稳定运行时间很难超过半个小时,因为GPU的稳定性不够。“突击队”日思夜想解决了GPU的稳定性,被称为千万亿次超级计算机通信网络“立交桥”的新型交换机方案又出了问题:芯片制造商美国技术工程师坚决反对他们提出的方案,不肯支持。如果坚持走自己的设计路线,一切要从头探索,创新难度大,风险高;如果完全按美国人的方案,成功有把握,但没有创新和优势。

怎么办?

不信邪的银河人选择了前者。他们坚信没有美国人的技术支持,中国人照样把新型交换机搞出来:死了“张屠夫”,中国人照样不吃“带毛猪”!

仅用10个月时间,他们就研制完成新型交换机,实测技术指标大大超过同类系统,而成本是同类同规模产品的80%。

2009年国庆节来临前夕,每秒千万亿次超级计算机一期系统安装完毕。这时,性能更高的新款GPU上市了,这让大家兴奋到狂喜。但离任务节点只有一个月了,而更换GPU必须先拆再装,整个系统有2560多个节点,团队完成更换GPU的工作通常需要半个月左右。二话不说, 团队全体人员男女老少齐上阵,三天三夜,终于完成数以千计的GPU更换工作。任务完成后,大家的双手都贴满创可贴,一双双眼睛熬得通红通红。

叁 决战

大睡两天三夜后,发起新挑战

2009年10月29日,我国第一台每秒千万亿次超级计算机横空出世,中国成为世界上第一个掌握CPU+GPU异构融合体系结构技术、第二个研制出每秒千万亿次超级计算机的国家。时任中共中央总书记、国家主席、中央军委主席胡锦涛闻讯,亲自为她题名“天河”。

2009年 11月18日,国际500强排行榜发布,“天河一号”夺得世界第五、亚洲第一,是中国机器在TOP500排名中的最好成绩。排名前10的机器中,有9台机器是美国研制的,只有“天河一号”是中国产品。代表团队领奖的国防科技大学教授王宝生说:“那感觉就像在奥运会上拿了个大奖牌。要是再像奥运会那样,奏中华人民共和国国歌,就真是美极了。

收到大洋彼岸打来的报喜电话,“天河一号”总师杨学军放下手机,往床上一倒,足足睡了两天三夜。

作为一名长年在超级计算机前沿阵地上征战的老将,他深知在高性能计算这个充满火药味的竞争领域里,稍有懈怠,就会被别人赶超甚至被淘汰。2009年10月,国防科大计算机学院超级计算机创新团队召开“天河一号”二期系统决战动员会,时间定为一年,目标是每秒4700万亿次,并且一定要用上自己研制的CPU,逐步改变微处理器依赖进口的局面。

中国机器,外国芯”,是中国人心头难言的遗憾、隐隐的痛。

很多同行专家深表钦佩,也为之担心:“在一年时间里,机器性能提升近3倍,除非奇迹发生。

奇迹真的发生了。

2010年11月,在世界超级计算大会上,“天河一号”二期系统以计算峰值高出第二名——“美洲虎”两倍多的绝对优势,勇夺国际TOP500排名第一,打破了美国在超级计算机领域长期一家独大的局面,标志着我国自主研制的超级计算机综合技术水平跨入世界领先行列。

打了几场“上甘岭

这样的奇迹,来自超强的胆魄,也来自超出常人的艰辛。参与人员说,真是打了几场“上甘岭”。比如,通信光纤的保卫战。

通信光纤铺设,是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。为确保按期完成施工任务,指挥员把任务细化到天,要求大家“当天任务不完成当天不吃不睡”。

哪知施工第一天刚铺了几根,施工指挥员拿起一看,立刻傻眼了:光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。原来地沟的水泥表层太粗糙,加之时值盛夏,地沟温度高达40多度,把光纤绝缘层烤得似细皮嫩肉,哪经得起水泥地的摧残。这个问题不解决,后果不堪设想,轻者信号中断、通信短路,重则导致系统紊乱。

如何避免光纤绝缘层受损? 大家绞尽脑汁也没想出个法子来。 指挥员抹了一把脸上的汗水,一拍大腿:“有办法了!

只见他把衬衣、裤子一脱,跳进闷热的地沟,俯卧在粗糙的水泥地上。 大家一看,立刻明白了指挥员的意思,不用谁下令,纷纷脱下衣裤跳进地沟,铺设了一条光滑的“人肉地毯”!

一根根光纤顺着官兵光滑的皮肉通畅地向前延伸。 滚烫的水泥地灼烤着官兵的血肉之躯,大家一身汗水、通体污垢。

皮肉被磨破了,伤口不住地往外渗着血水,没有一人撤退……

天津滨海新区一名领导看见这一幕,非常感动,“战争年代,我军将士为民族独立、人民解放,用血肉之躯堵枪眼、炸碉堡。和平时期,人民子弟兵跳进洪流堵溃堤,冒着地震救灾民。今天,我又看见我军科研人员,为保护科研器材,赤身裸背卧地沟,流汗淌血不后退。人民军队的光荣传统,在你们身上没有丢!我们国家有这样的科研队伍,再艰难的工程也能拿下!

几十个人在粗糙闷热的地沟里赤身裸背爬了数十天,一个个被坚硬的水泥地和光纤刮擦得遍体鳞伤。但15000根光纤毫发无损。

天河一号”二期系统试机那天,一打开机器,全部通信线路畅通无阻。国家超算天津中心领导,特意一一察看官兵们背上那些尚未痊愈的伤口,动情地说:“‘天河一号’二期系统首试畅通,有你们的贡献!功劳簿上,有大家的名字!”

尾声

2015年1月7日,长沙,国防科学技术大学天河楼四楼。

上午9点,计算机学院计算机研究所教授、博士生导师卢宇彤就来到了办公室,一身军装穿得笔直。前一天晚上,她加班到晚上十点半才回家。作为天河主任设计师,卢宇彤早就习惯了这种工作模式,她告诉三湘都市报记者,“在研制‘天河一号’、‘天河二号’的时候,加班更多,通宵熬夜也是常有的事,我们称之为‘五加二,白加黑’。

皮肤白皙、身材修长的卢宇彤,是国防科大出了名的美女科学家,天河研发团队中为数不多的女性之一。1983年银河研制成功时,这个年纪还小的长沙妹子就非常向往这个“银河—Ⅰ诞生的地方”,在国防科大从本科一直读到博士。

像廖湘科、卢宇彤当年一样,因为“银河一号”、“天河一号”来到这里的年轻人越来越多。2010年天河一号夺冠时,整个天河研发团队平均年龄只有30来岁,总设计师杨学军也才46岁。

半年后,天河一号被日本的“”超过。此后美国的“红杉”和“泰坦”又先后夺得头名。但自2013年6月开始至2014年11月,“天河二号”连续四次名列榜首,夺得“四连冠”。

天河一号”的管理者和运营者刘光明这样比较天河“一号”与“二号”:“天河一号”运算1小时,相当于13亿人同时用计算器算上340年;“天河二号”运算一小时,则相当于13亿人同时算上1000年。

在超级计算机这个国际竞争激烈的战略领域,巅峰对决没有止境,中国已将王者的风范铭刻史册。

■特约撰稿 龚盛辉 记者 匡萍 图片提供 龚盛辉

科普

天河”超级计算机能做什么?

算天、算地、算人……

2015年1月9日,“天河一号”超级计算机获得2014年度国家科学技术进步奖特等奖。超级计算机到底有着怎样的神奇?它与我们的生活有着怎样的关联?

超级计算机算天、算地、算人,算过去、算现在、算未来……运用超算给大地做CT,可以又快又准地找到石油;运用超算分析人类基因,能够解读生命的奥秘……

国家超算天津中心主任刘光明这样解读超算。超算已走进各行各业、千家万户,人们的衣、食、住、行、乐,无时无刻不在分享着超级计算机算出的“红利”。

算天 :飞机为什么可以飞得更高更快?

航空航天是大国角逐的焦点领域。“天河一号”是我国大型航天、航空飞行器设计空气动力学模拟及新型发动机研制的重大平台。比如运用超算做风洞,设计的飞机可以飞得更快、更高、更省油。

超算还能帮助治理大气雾霾。为弄清雾霾形成区域、形成过程,及与之关联的多种因素,建立相关模型,作出准确预测,中国气象科学研究院、国家气象中心、清华大学、国家超算天津中心等机构携手合作,使用了“天河一号”10%-20%的计算资源,建立和完善数字模拟模型。目前该项研究已获得关键性进展,可望在三五年后对雾霾气候作出精确预报,并为国家制定区域发展规划提供相关评估数据。

算地 :给大地做个CT找石油

石油在哪?一想到这个问题,人们的头脑中就会出现背着沉重设备的地质勘探人员,拿着小铁锤在江河湖畔的岩石间敲打的场面。超算技术早已把这种原始的“找油”方法送进了历史博物馆。人们运用超级计算机对人造地震波的反射数据进行科学计算,建立大范围三维地质模型,可以还原某地区的地质构造,进而确定石油、天然气的具体方位及储量,计算机运行速度越快,勘探速度越快、越精确。

天河石油物探计算中心”,构建了完善的重点面向中国石油、中国石化、中国海洋石油的地震物探数据处理与物探信息管理平台,大力开展石油物探数据处理开发与应用,成功设计出拥有完全自主知识产权的石油三维立体偏移软件,扭转了在该领域受制于人的局面,推动了产业技术进步与协同创新。

算人:生物医药的新革命

天津国际生物医药联合研究院的科学家说, “过去我们研发一种新药,要投资10亿美元,进行10万次化合物筛选,经历10年时间。现在我们用‘天河一号’筛选一个星期,就可以完成过去一年的筛选量,大大缩短了研发周期、降低了研发成本,还能为新药研发提供崭新思路,高性能计算在药物研发领域的应用,是药物行业的一次革命。

中科院上海药物研究所的科学家也在“天河一号”上通过计算模拟与药物实验相结合,确证了一个全新的药物作用位点。在超算天津中心直接进行药物设计,未经任何化学作用就获得了一种对某种疾病疗效显著的药物。在“天河二号”上,他们进行了75万个小分子化合物亲和力评估,完成了600多个各个药物的体内外活性测试评估,为人类治疗恶性肿瘤、乙型肝炎、糖尿病等顽疾提供了新途径。

算过去算未来: 探索我们的星球

人类生活的这个星球,它几万年前、几亿年前是什么样子?又是怎样变成今天这个样子?要解开这一个个地球的谜团,现在必须依靠超级计算机进行数值模拟,全面系统地研究各种物理、化学、生物变化过程。“天河一号”已成为中科院大气物理所、国家海洋局、国家气象局等机构的研发模拟平台。它通过模拟全球气候变化和海洋环境变化,对人类未来生存环境有了一定认识,为确保人类社会可持续发展提供了科学数据。

■特约撰稿 龚盛辉 记者 李婷婷