5月10日,第十届ASC世界大学生超级计算机竞赛总决赛在中国科学技术大学落下帷幕,来自兰州大学信息学院和物理学院的谢皓泽、周功海、张宇泓、吴烨、徐宇奇、刘尚昊6名学生,在超算中心张洋老师带领下获总决赛一等奖和团队竞赛奖。本届比赛参赛队伍近300支,最终有20支国内队伍和4支国外队伍晋级决赛。
本轮决赛,各参赛队需在3000W功耗约束运行优化国际通行基准测试HPL&HPCG、AI语言大模型、机器学习分子动力学应用DeePMD、气候水文模式应用WRF-Hydro、神秘应用海洋数值模式FVCOM等前沿科学与工程应用,以及跨团队、跨地域合作挑战随机量子线路采样模拟赛题。竞赛不仅提高了大学生用高性能计算技术解决问题的能力,还培养了团队的创新意识和合作精神。另外本次赛题还融合了HPC+AI科学研究的新模式,展现了计算科学在推动科学创新方面的无限潜能。
本次竞赛,兰州大学参赛队伍得到了信息学院陈文波老师研究生团队的技术支持,超算中心为参赛队伍训练提供了高性能计算资源。这是我校第二次入围ASC决赛,总成绩在一等奖排名中位于北京航天航空大学、浙江大学、清华大学之后名列第四,较上次成绩有了较大的提升。
【资料图】
01 从组建到赛事推迟:机遇与挑战并存
2021年秋季学期,徐宇奇、谢皓泽、周功海等同学在由张洋老师开设的面向信息科学与工程学院的《超级计算前沿》课程中了解到了 ASC 比赛以及纳新的信息,抱着试一试的想法以及对高性能计算方向的兴趣,他们联系了老师以及队长,最后通过选拔进入了该比赛。
团队于2021年组建完成后便开始着手准备ASC初赛。由于准备时间较为紧张,在团队成员全部完成期末考试之后,大家一致同意牺牲掉考试后十几天的休息时间,在城关进行集中训练和应用的解答。因为初赛给的题目较少,通过几天对应用的初步了解,团队迅速确定好了分工,并对应用进行了初步的测试优化。
之后一个多月的寒假,团队成员通过线上访问校内集群对各自的工作进一步深入,在此期间大家每周都会汇报工作进展,提出自己发现的问题等。在成员们和老师的共同努力下,团队最后成功在初赛截止前将结果提交,可以说,初赛更是对团队的考验,如何迅速确定分工,在此期间建立良好的协作关系是重中之重。
2022年3月份,团队通过了ASC初赛,但是因为一些不可抗力因素,原定于5月份进行的决赛推迟了一年。在这一年中,团队里有队员因为毕业只能遗憾退出,换新成员加入,有时大家也牺牲了很多个人的休息时间,来夜以继日地分析问题、解决问题、优化程序。除此之外,由于团队的大部分成员生活在榆中校区,在疫情封校期间去城关校区实操的机会也少了很多。张洋老师提到,当时由于封控,他只能通过线上的方式对成员们进行指导,没办法对大家进行针对性训练,时间上相对来说还是较为紧张的。
虽然困难重重,但是也是在推迟的这一年的时间里,团队的成员对赛事进行了更加充分的准备。周功海在回忆起前期准备的这段时间时说:“我们几乎将能尝试的优化手段都试过了个遍,还提出一种新颖的‘课程学习’的大模型预训练方法,可以使训练时间大幅度减少,loss收敛速度更快,效果拔群。”
同时,成员们还进行了一些“押题”的工作,例如预测决赛中会出什么样参数量的模型,模型的精度要求,模型的数据集要求等。
对于徐宇奇而言,在备赛的这一年中,他主要是学习了make、cmake等编译脚本以及mpi和并行计算等相关知识。除此之外,他还重温了很久之前入门的Fortran语言,为使用Fortran程序的地球科学等领域的软件编译和运行打下基础。
一次又一次的实验,一次又一次的尝试,有过失败,有过沮丧,“但大家还是坚持了下去,并最终站在了中科大的颁奖典礼上圆满结束了此次比赛。”谢皓泽说。
02 充满坎坷的五天决赛历程
从初筛通过到晋级决赛再到延期一年的决赛,决赛的五天历程,给团队成员们都留下了深刻的印象。
尽管前期已经进行了较为充分的准备,但是正式比赛时,团队成员们还是面临了模拟测试时没有遇到的很多问题,例如不提供U2接口、不提供硬RAID卡和无法通过网络监控PDU的功耗等。不过由于比赛前大家准备了一定的备选方案,因此这些问题并没有非常影响后续的应用。
谢皓泽表示,ASC比赛和其它比赛最大的不同在于,无论成员们赛前对各种题目准备的怎么样,比赛真正给的数据、模型等都可能让大家意想不到。“例如这次人工智能赛题的 Yuan LLM,比赛时给的数据量、模型参数我们之前并没有考虑过,因此需要在现场再进行代码优化、模型调参等工作,时间非常紧张,但我最终还是在队员的努力和交流下成功完成了题目。”
而真正令队长刘尚昊印象深刻的一次挫败是团队应用题,团队成员们十分用心地准备了几天,对程序进行了性能分析与调优,热点函数的优化,但是到最后一天才知道不计入总分,当时大家还面临着与由清北浙等高校组成团队的压力,这让团队成员产生了挫败的感觉。但是后来兰大团队与哈工大、南科大等高校合作,一起解决了困难。
除了赛题、分制变化带来的困难之外,比赛现场的环境也给周功海带来了一定的阻碍。“现场环境十分嘈杂,有服务器运行时类似飞机起飞的轰鸣声,还有爆功率后的警报声,在这种环境下工作十分容易让人产生焦虑的情绪。”当时他面临着“当天早上八点拿到题目,下午六点就必须提交结果”的时间限制,与此同时也有队友主动把机时让给他,孤注一掷押宝他的这道题目.
在这些重重压力之下,他担心自己如果无法完成,就会对不起过去一年多的辛苦准备以及队友和老师的期望,心态几近崩溃。但是,好在在队友和老师的鼓励下,周功海、张宇泓最终完成了这道题目,最终看结果还不错。
03 团队合作:共同实现目标
ASC是一个团队比赛,当提及赛后的收获时,团队成员们提到最多的便是“团队合作”这个词。
对于吴烨而言,通过这次比赛,他学会了与队友之间建立有效的沟通和协作机制。“我们需要相互交流想法、分工合作、共同解决问题。”这锻炼了他的团队合作能力和沟通技巧,使他更加懂得如何与他人合作,实现共同目标。
队长刘尚昊也表示,成员们都非常有团队合作精神,协调工作基本上不用“强制”,大家都很配合。“有同学负责集群搭建和运维调度,其他各负责一两个赛题,团队实行赛题责任制,分工具有明确性,若是有个人的赛题跑不了的就换别人,这其实也体现了我们团队工作的灵活性。”
04 感谢老师无微不至的指导和关注
比赛结束后,团队成员第一时间就将获奖的喜讯告诉了他们的带队老师张洋老师,并向老师汇报了成果。
作为团队的带队老师,张洋老师无论是在初赛准备、2022年疫情的时候,还是在决赛比赛现场都给予了团队无微不至的指导和关注。
张宇泓提到,由于本次比赛主办方没有提供计算硬件,需要自己准备,因此老师为团队的硬件设备问题费了很多心思,老师帮助解决的硬件问题也是这次比赛团队最终成绩比较好的至关因素。
例如在国内十分稀有的80G显存的A100,想要参加比赛至少需要六张,但是当时团队成员们手上只有四张。“老师费了好大劲才在国内找到两张80G显存的A100。除此外老师还在初赛中给了我们非常多的GPU资源供我们使用,还为我们修改初赛文档。在决赛现场也陪伴我们,为我们加油打气。”周功海说。
当时团队成员们都面临着较大的压力,在决赛出发之前,张洋老师就希望大家不要给自己预设一个目标,比如一定要拿到好的名次,“我觉得只要把自己平时训练的最好状态发挥出来,大家能够比上一次成绩有进步,我觉得就已经算成功了”。
在张洋老师看来,比赛是一方面,其实对于团队里多数都是第一次参赛的队员而言,这个学习的过程是另一个更为重要的方面。他更希望队员们能够通过这样一个平台,学习到如何将理论知识运用到现场去解决具体问题。
除了比赛相关事宜,团队成员们说,张洋老师还会带大家去各种讲座、关心大家的学业问题。
“之后我们也向信息科学与工程学院陈文波书记和辅导员孙喜成老师告知了喜讯,这次比赛全程少不了他们的科研团队的帮助和指导,离不开超算中心的大力支持。”谢皓泽说。
在比赛过程中,面对实力强劲的其他高校,团队成员们表示兰大的支持给他们带去了很大的自信。
05 让更多人知道 兰大还有这么一只不凡的队伍
ASC比赛是一个国际性的比赛,参赛选手来自不同国家和地区。
通过这次比赛,刘尚昊认为自己收获了很多,不仅获得了与很多学校的优秀同学一起交流的机会,在兰州大学超算中心和信息学院也学到了许多知识。
吴烨也认为这场比赛“为我提供了与其他优秀选手交流和学习的机会”。在比赛期间,他能够了解其他团队的创新思路和方法,并从他们的经验中获益。这种学习与成长的机会是非常宝贵的,对他个人的发展产生了深远影响。
徐宇奇和谢皓泽认为最大的收获以及学到的东西,还是通过此次比赛进入了高性能计算方向的大门,这次比赛让他们更意识到了这个领域的广阔,有很多的空间可以发展,有很多的问题还没解决,这令他们振奋不已。
谈及成功与收获,周功海想要感谢学校的大力支持、感谢陈书记、张老师及其研究生团队的辛苦付出,同时也感谢队友在赛场上的信任与支持,“让我在有生之年也能赢一次清华。”
对于张宇泓而言,这既是他的第一届ASC大赛,也是最后一届,对于十分珍惜这次机会的他而言,在张洋老师和团队成员的共同努力下,这一路走来,他成长了很多。在比赛过程中,通过与其他高校的交流分享,他也学习到了一些优化思路。“精心准备,以赛会友,相信我们ASC的队伍之后会打的越来越好,取得更好的成绩,让更多人知道原来兰大还有这么一只不凡的队伍!”
提及未来,张洋老师说,在参与过两届比赛之后,团队已经渐渐步入正轨。今年团队的成员也有计划在信息科学与工程学院成立一个超算相关的社团,来吸纳更多感兴趣的同学加入,将来也会通过社团的方式来选拔参加比赛的成员。“我希望不光是信息学院的成员来加入,其实只要是对交叉学科感兴趣的同学,都可以来参加这个活动!”
ASC世界大学生超级计算机竞赛由中国发起组织,并得到亚洲及欧美相关专家和机构支持,迄今已举行十届,吸引全球1万多名大学生参赛,是全球规模最大、参与人数最多的大学生超算赛事,与德国ISC、美国SC并称世界三大超算竞赛。本次竞赛为该赛事举办十周年,十年间通过赛事的前沿引领,持续推动创新和产学研用融合,培养了一大批具备全球视野、勇于探索前沿科技、具有科学精神和创新思维的复合型科技青年人才。
关键词: