


4月13日,兰州大学超算团队的队长谢皓泽带领着他的队员走向领奖台。在上海大学宝山校区体育馆刚刚结束的2024ASC世界大学生超级计算机竞赛总决赛中,来自兰州大学信息科学与工程学院与物理科学与技术学院的谢皓泽、唐小可、胡日臻、孙雨与王伯钊组成的超算团队取得了总决赛一等奖的成绩。

“兰州大学建设有整个西北地区算力最强的超算中心,为我们的学生提供了学习和研究的平台。参赛的学生也是专业中的佼佼者。”参赛队伍指导老师张洋说道。

超级计算机是一个热门的前沿科技话题,随着新一轮科学技术为引领的科技革命浪潮席卷而来,人工智能、物联网与量子信息等前沿社会应用都需要超级计算机极强的数据存储能力与极快的数据处理速度。ASC世界大学生超级计算机竞赛正是在这种背景下举行的,旨在通过比赛增强全世界大学生对于计算机与其他交叉学科的学习与应用能力。“我们需要不断磨练专业技能,还需要学习很多专业之外的知识。”队长谢皓泽说道,“这对于我们来说是不小的挑战。”
本次竞赛共有来自全球各地300余支队伍参加,共有包括兰州大学、北京大学、北京航空航天大学、澳门科技大学在内的25支队伍进入决赛。



“老师的作用就是把同学们领进来。”
“我们第一次接触到超级计算机这个领域,是在张洋老师的课上。”谢皓泽说。每一年张洋老师都负责参赛队伍的组建,本次参赛的队员都来自于张洋老师开设的《超级计算前沿技术》课程。张洋老师会在这门课中讲到参加比赛需要运用到的知识,用来激发同学们对于超级计算机领域的兴趣。
作为一门交叉学科色彩十分浓厚的课,很多同学都十分感兴趣。没想到计算机知识还可以运用到生物、天文等一系列领域,这是参加这门课程的同学们的一致心声。“产生兴趣才能在这条路中走下去,”张洋老师说道,“其次同学们还需要有很强的自学能力。”由于超级计算机领域的跨学科特性,同学们需要自学很多非计算机领域的知识。例如本次竞赛的题目之一的火星大气模拟,就需要参赛队伍利用大数据模型模拟火星大气的运动过程。这就需要参赛队员既有极强的计算机专业能力,也具有坚实的数学与物理知识来理解题目中的数字模型。这些知识都是同学们在以往的学习中不曾接触过的。

“ASC竞赛具有时间跨度长的特点,因此所有的队员还需要有充足的时间准备这次比赛。”张洋老师说道。2023年参加ASC竞赛时,所有队员准备了将近半年的时间,今年参加比赛,同学们也牺牲掉了自己的假期在城关校区进行集训。“在集训的三天时间内,我们只睡了十几个小时。”队员孙雨说道。
团队合作能力也是张洋老师看重的一个方面。ASC竞赛的赛制不仅要求团队内部配合无间,还要求各个学校的参赛队伍进行配合共同完成比赛。例如本次竞赛的题目之一的ParaSels地震波模拟,就需要5支参赛队伍利用大数据模型模拟地震波在地壳中的传播过程,兰州大学超算团队将与阿根廷科尔多瓦国立大学、香港中文大学、上海交通大学与青海大学的超算团队一起进行挑战。“能来到这里的都是最优秀的学生,如何包容队友的失误,如何听取别人的意见,对于他们来说都是一个不小的挑战。”张洋老师说道。

“一切都和准备过的不一样。”
2024ASC世界大学生超级计算机竞赛总决赛的赛程共有五天,前两天是各个队伍调试硬件的准备环节,接下来的两天是总结赛的正赛环节,最后一天则是各个参赛队伍的答辩与颁奖环节。兰州大学超算团队的挑战,从第一天的硬件调试环节就开始了。

根据本次竞赛主办方的要求,每支参赛队伍需要自备比赛所需要的高性能计算加速设备。兰州大学超算中心为队员们准备了多张加速卡,但是队员们在决赛现场安装的过程中发现了更为复杂的情况。“主办方提供的服务器硬件框架与平时训练的硬件框架不相同,我们的一部分卡缺少必要的组装零件。”参赛队员胡日臻说道,“我们用了6张卡,但是实际上有个别卡还是出现了不能稳定工作的状况,这会对运算的效率产生影响。”同样的问题还出现在服务器的搭建过程中,兰州大学超算团队搭建服务器的用时比其他团队更久。“我们赛前只进行过一次服务器的拆装练习,”胡日臻说,“在比赛过程中硬件条件与在学校的练习条件不一样,这对我们造成了很多困扰。”

在随后的服务器调试环节中,兰州大学超算团队的用时也比其他团队更久。队长谢皓泽主要负责服务器的调试工作,作为连续两年参加比赛的老将,他去年也在团队中负责同样的工作。如果服务器的调试工作没有完成,那么后续的一切工作都没有办法开展。此次竞赛中主办方提供了全新的环境与条件,更加考验队员们的随机应变能力。“其他队员们都没有调试服务器的经验,没有办法帮助队长进行工作,”参赛队员唐小可说,“这是我们的一个教训,下次参赛时要确保至少有两名队员参与到服务器的调试环节中。”队长谢浩泽通过之前准备过的预案,完美解决了问题。
在总决赛正赛部分的第一天,最大的困难是一道大语言模型推理优化题目。参赛队伍需要基于大模型构建推理引擎,考虑多种优化方案,从而实现高通吐量,直面大语言模型落地的考验。在本道题中要求队员们采用与预赛不同的另一套大语言模型进行计算推理,并要求使用速度更快的量化方法。兰州大学超算队采用传统方法进行计算后,发现计算时间长达十几个小时。“这说明我们的优化方法有问题,”参赛队员孙雨说道,“比赛时间只有十个小时,我们不能把所有的时间浪费在一道题目上。”最终,队员们采取其他优化策略,在规定时间内提交了项目文档。

正赛第二天,队员们面临的困难主要有两个。首先,队员们将对渗流数值模拟软件OpenCAEPoro进行并行计算优化。在本道题目中,运算结果对浮点精度有一定要求,在计算的过程中,队员需要平衡功率与计算精度之间的关系。这对于队员们的计算机程序开发能力与并行资源的利用能力都是不小的考验。“我们做了充分的准备,”作为连续两年参加比赛的老队员,谢皓泽自信地说,“虽然有困难,但是我们一定会完成这道题目。”

其次,组委会将在决赛现场公布神秘应用题,要求队员们在3000w功率限制下正确运行全部算例,并尽可能地缩短应用的运行时间。参赛队员王伯钊主要负责这道题目的运算。“在题目公布之后,我们才得知这道题目需要用CPU计算,”王伯钊说,“在队友的协助下,我们终于完成了这道题目。”
“一切都和准备过的不一样。”参赛队员胡日臻说道,“除了周密的赛前准备,我们更需要随机应变的能力。”

“这是一场接力赛。”
兰州大学超算团队与ASC竞赛的缘分可以追溯到十多年前。超算中心的陈文波主任早年去美国参加超算大会时,就发现大会的现场居然有美国的中学生,他们这么早就可以接触到高性能计算。所以这么多年来陈主任一直关注学校的高性能计算平台建设,尤其在建立超算中心的时候,他就表示,一定要帮助本科生接触超算,利用这个平台为学校培养交叉学科人才提供更好的支撑。“后期学生去参加比赛的经费支持实际上都是由网络安全与信息化办公室提供的”。
2018年,一位香港大学的教师,同时也曾是ASC竞赛的评委向张洋老师发问:你们学校为什么不参加这个比赛?其实张洋也对ASC竞赛早有耳闻,但彼时兰大并不具备足够的硬件设备,时机并不成熟。两年后,参加ASC超算竞赛的时机终于到来。
2021年5月8日,兰州大学的参赛队伍第一次站在ASC世界大学生超级计算机竞赛总决赛的赛场上。2023年5月10日,兰大超算团队取得总决赛一等奖和团队竞赛奖。今年,兰大超算团队又一次站在了领奖台上。


“真正让我受益的是这两年的经历,在比赛中我会遇到平时不常见的问题,在解决问题的过程中我感受到了自己的成长。”第一年以参赛队员的身份,第二年以队长的身份参赛的谢皓泽回顾这两年的经历时说道。“去年我是队员,今年我是队长,这是一场接力赛。”
“超级计算机这个领域目前的知名度较小,但是它却与社会的方方面面息息相关。”张洋老师说,“兰州大学能参加这样的比赛,正是体现了学校对于超算领域的重视。能在这样国际化的比赛中取得好的成绩,更是体现了兰州大学在超算领域的实力。”

兰州大学首个高性能计算平台项目由“十五”“211工程”项目资助建设,于2006年底投入使用。兰州大学超算中心于2019年5月正式成立,主要任务是为兰州大学提供高性能科学计算服务,满足兰州大学多个学科对于大规模科学计算和海量存储的需求。目前兰州大学超算中心拥有1.2PFlops计算能力的高性能计算平台,已经助力我校在气象环境、生命科学、材料学、地理、计算物理与草业等多个科研项目中取得成绩。
学生们的进步与成长也是张洋老师最大的心愿。纸上觉来终觉浅,只有真正面对具体实践中的问题,才能帮助学生们更好地了解计算机科学。“学计算机,不能只知道计算机,要把所学到的知识与社会的实际需求联系起来。”张洋老师说道,“超级计算机就是一个很好的切入点,对于学生们的视野与实践能力都是一个很好的提升。”目前,后续参加ASC世界大学生超级计算机竞赛的队伍正在建设中,在本次参赛过程中,两名大二学生全程以观摩队员的身份参与,他们将是明年兰州大学超算队参赛的主力军。
“看着同学们因为收获成绩而喜悦,因为遇到挫折而失落,坚定了我继续带队参赛的决心。”张洋老师说,“同学们的成长是我最大的收获。”


文字丨张洋 白泉
图片、视频丨白泉
(兰州大学官方公众号)