從提供算力到提供服務(wù) 超算互聯(lián)網(wǎng)如何才能真正“聯(lián)”起來
超算互聯(lián)網(wǎng)是一種以超級計算機和高速互聯(lián)網(wǎng)為基礎(chǔ)的先進(jìn)計算基礎(chǔ)設(shè)施,它以高速網(wǎng)絡(luò)連接分布各地的超算中心,聚合多個超算中心的軟硬件資源,并通過建設(shè)超算資源共享與交易平臺,支持算力、數(shù)據(jù)、軟件、應(yīng)用等資源的共享與交易,同時向用戶提供多樣化的算力服務(wù)。
楊廣文
國家超級計算無錫中心主任
新基建、東數(shù)西算等工程的實施,對于推動算力、算法、數(shù)據(jù)、應(yīng)用資源等的集約化和服務(wù)化創(chuàng)新提出了更高的要求,對構(gòu)建可提供高端算力服務(wù)的一體化先進(jìn)計算基礎(chǔ)設(shè)施提出了新的挑戰(zhàn)。
“為了解決我國超算中心運行面臨的挑戰(zhàn),提升我國超算的應(yīng)用水平,推動超算中心從提供裸機時向提供多領(lǐng)域應(yīng)用服務(wù)轉(zhuǎn)變,構(gòu)建超算互聯(lián)網(wǎng)勢在必行!6月22日,國家超級計算無錫中心主任楊廣文在接受科技日報記者專訪時說。
楊廣文透露,目前我國超算互聯(lián)網(wǎng)原型項目研究已取得初步成果,將于近期對外正式發(fā)布。今后,這些成果將能進(jìn)一步支持智能計算中心的互聯(lián),并在更高層面上支持未來算力網(wǎng)的構(gòu)建與營運。
布局建設(shè)超算互聯(lián)網(wǎng)意義重大
楊廣文介紹,超算互聯(lián)網(wǎng)是一種以超級計算機和高速互聯(lián)網(wǎng)為基礎(chǔ)的國家級先進(jìn)計算基礎(chǔ)設(shè)施,它以高速網(wǎng)絡(luò)連接分布各地的超算中心,聚合多個超算中心的軟硬件資源,并通過建設(shè)超算資源共享與交易平臺,支持算力、數(shù)據(jù)、軟件、應(yīng)用等資源的共享與交易,同時向用戶提供多樣化的算力服務(wù)。
作為一種先進(jìn)計算基礎(chǔ)設(shè)施,超算互聯(lián)網(wǎng)將超算所提供的強大計算變?yōu)橛嬎惴⻊?wù),并以一種標(biāo)準(zhǔn)化的形式提供給計算服務(wù)的使用者。
“超算互聯(lián)網(wǎng)通過制定資源接入、共享、交易等標(biāo)準(zhǔn),構(gòu)建具備資源共享與交易能力的公益性資源平臺,可將各級超算中心、云計算企業(yè)、科研機構(gòu)等不同來源的算力、數(shù)據(jù)、軟件、應(yīng)用等統(tǒng)一為超算資源并整合到一起,為科研、生產(chǎn)生活等提供高效、專業(yè)的超級計算服務(wù)。”楊廣文說。
在楊廣文看來,和傳統(tǒng)的超算應(yīng)用相比,超算互聯(lián)網(wǎng)的最大特點是將提供超算算力轉(zhuǎn)變?yōu)樘峁┏銘?yīng)用服務(wù),這就帶來了超算互聯(lián)網(wǎng)在應(yīng)用模式上的巨大改變,對超算及其應(yīng)用的發(fā)展具有相當(dāng)大的推動作用。
在清華大學(xué)副教授黃震春看來,作為一種信息基礎(chǔ)設(shè)施,超算互聯(lián)網(wǎng)起到了連接下層資源提供者與上層用戶的作用。因此,從商業(yè)運營角度來看,超算互聯(lián)網(wǎng)的核心服務(wù)平臺應(yīng)當(dāng)是一個公益平臺,在國家相關(guān)部門的支持與指導(dǎo)下應(yīng)用于超級計算服務(wù)市場。
國家超級計算無錫中心研發(fā)工程師葉躍進(jìn)認(rèn)為,在建設(shè)超算互聯(lián)網(wǎng)時,要改變超算中心分散獨立運營導(dǎo)致的算力碎片化和資源利用不均衡的局面,實現(xiàn)超算資源的互聯(lián)互通和資源共享、交易等;同時,要構(gòu)建超級計算管理及應(yīng)用平臺服務(wù)體系,提供跨域的統(tǒng)一服務(wù)策略和評價指標(biāo),提供并行應(yīng)用軟件,以及軟件的共享與交易機制;此外,還要支持建設(shè)面向各領(lǐng)域和重點行業(yè)的應(yīng)用平臺,充分利用國家級超級計算資源,有效支持重點科研與行業(yè)用戶,引導(dǎo)、培育超級計算資源和服務(wù)的商品化和市場化,從根本上提高我國并行算法與并行軟件的研發(fā)水平,使超級計算更好地服務(wù)于科技創(chuàng)新、產(chǎn)業(yè)升級等。
“超算互聯(lián)網(wǎng)的建設(shè)和發(fā)展,將在國家層面給出實現(xiàn)全國大數(shù)據(jù)中心一體化協(xié)同創(chuàng)新的高質(zhì)量解決方案,為開啟算力經(jīng)濟時代的世紀(jì)工程提供堅實的基礎(chǔ)。”楊廣文說。
超算互聯(lián)網(wǎng)仍面臨諸多挑戰(zhàn)
“超算互聯(lián)網(wǎng)的核心目標(biāo)是確保超級計算服務(wù)實現(xiàn)從傳統(tǒng)的提供算力到提供服務(wù)的革命性轉(zhuǎn)變!睏顝V文說,只有實現(xiàn)了資源的高速互聯(lián),各種超算資源才有可能成為一個有機整體,可能支持面向應(yīng)用領(lǐng)域的行業(yè)或者產(chǎn)業(yè)聯(lián)合體的形成,構(gòu)建應(yīng)用平臺和應(yīng)用系統(tǒng),為應(yīng)用領(lǐng)域和相關(guān)產(chǎn)業(yè)提供有效的高性能計算應(yīng)用服務(wù)。
楊廣文介紹,目前超算互聯(lián)網(wǎng)的構(gòu)建和運營無論在技術(shù)上、人才上還是在商業(yè)模式、產(chǎn)業(yè)培育上都面臨著諸多挑戰(zhàn)。
從技術(shù)層面來看,超算互聯(lián)網(wǎng)仍需要通過高速網(wǎng)絡(luò)高效連接來自不同超算中心和資源提供單位的、分布異構(gòu)的超算資源,需要實現(xiàn)算力、存儲、數(shù)據(jù)等各種高性能計算資源的共享和高性能計算任務(wù)的有效調(diào)度。
從人才資源來看,超算互聯(lián)網(wǎng)的構(gòu)建與運營涉及到高性能計算、計算機網(wǎng)絡(luò)、并行軟件、分布式系統(tǒng)等計算機領(lǐng)域的諸多研究方向,尤其離不開以超算中心為主的超算運營管理與技術(shù)開發(fā)人才,需要具備相關(guān)應(yīng)用領(lǐng)域和行業(yè)專業(yè)知識、行業(yè)經(jīng)驗的人才隊伍。
從產(chǎn)業(yè)生態(tài)來看,超算互聯(lián)網(wǎng)構(gòu)建于超級計算和高速網(wǎng)絡(luò)的基礎(chǔ)之上,對相關(guān)產(chǎn)業(yè)生態(tài)的依賴非常明顯,從操作系統(tǒng)、基礎(chǔ)軟件到并行應(yīng)用軟件的開發(fā)與優(yōu)化,這些都會影響到超算互聯(lián)網(wǎng)的構(gòu)建與運營。
“在面向應(yīng)用領(lǐng)域的專業(yè)超算服務(wù)產(chǎn)業(yè)初期和發(fā)展階段,亟須國家在產(chǎn)業(yè)政策等方面給予大力扶持,以推動具有技術(shù)和市場優(yōu)勢的企業(yè)聯(lián)盟或集群快速成長!比~躍進(jìn)說。
建設(shè)過程中要堅持標(biāo)準(zhǔn)先行
“建設(shè)超算互聯(lián)網(wǎng),將有效聚集超算硬件資源和專業(yè)人才,并基于超級計算系統(tǒng)研究并行軟件的開發(fā)、測試、遷移、共享和服務(wù)化技術(shù),支持和鼓勵并行應(yīng)用軟件的開發(fā)!睏顝V文說。
黃震春認(rèn)為,在超算互聯(lián)網(wǎng)的建設(shè)過程中,需要遵循標(biāo)準(zhǔn)化、服務(wù)化、領(lǐng)域化等一系列原則,以保證超算互聯(lián)網(wǎng)的開放性和普適性;尤其要堅持標(biāo)準(zhǔn)先行,這既有利于超算互聯(lián)網(wǎng)的合作和推廣,又能通過成熟的標(biāo)準(zhǔn)保證系統(tǒng)的兼容、穩(wěn)定、可用,更能促進(jìn)相關(guān)標(biāo)準(zhǔn)的開放,保證超算互聯(lián)網(wǎng)的不斷發(fā)展與演進(jìn)。
我國高度重視超算互聯(lián)網(wǎng)工程,并于2020年在重點研發(fā)計劃的“高性能計算”重點專項中,專門部署超算互聯(lián)網(wǎng)原型項目——國家高性能計算環(huán)境領(lǐng)域應(yīng)用平臺及服務(wù)體系研究與構(gòu)建,目前已在多個方面取得了重要進(jìn)展。
值得一提的是,超算互聯(lián)網(wǎng)原型項目還得到了之江實驗室的大力支持,同時也能更好地支持之江實驗室“智能計算數(shù)字反應(yīng)堆”重大項目的實施。
楊廣文介紹,超算互聯(lián)網(wǎng)原型項目可實現(xiàn)多個國家超級計算中心之間每秒千億字節(jié)的高速網(wǎng)絡(luò)互聯(lián)互通,聚合每秒不少于200億億次浮點運算的計算能力和1艾字節(jié)的存儲能力。目前超算互聯(lián)網(wǎng)的高速互聯(lián)采用開放式的架構(gòu)和標(biāo)準(zhǔn)協(xié)議,可支持未來網(wǎng)絡(luò)帶寬升級和接入更多符合條件的國家級及其他各級超算中心、資源供應(yīng)商與用戶單位。
同時,超算互聯(lián)網(wǎng)建設(shè)團隊還針對核心資源網(wǎng)的超級計算系統(tǒng),研發(fā)支撐應(yīng)用領(lǐng)域平臺構(gòu)建的技術(shù),設(shè)計一套基于核心資源網(wǎng)的應(yīng)用平臺搭建支撐工具。
相關(guān)專家認(rèn)為,超算互聯(lián)網(wǎng)原型項目的順利實施,證明了超算互聯(lián)網(wǎng)在技術(shù)上的可行性和對行業(yè)與多領(lǐng)域應(yīng)用的強大支撐能力,將為我國科技創(chuàng)新、產(chǎn)業(yè)升級、社會發(fā)展等提供基于超級算力的專業(yè)服務(wù),有效帶動相關(guān)產(chǎn)業(yè)發(fā)展,支撐國家相關(guān)戰(zhàn)略的順利實施。記者 過國忠 通 訊 員 段 芳
(責(zé)任編輯:支艷蓉)