這是一篇推薦我們速石自研調(diào)度器——Fsched的文章。
看起來(lái)在專(zhuān)門(mén)寫(xiě)調(diào)度器,但又不完全在寫(xiě)。 往下看,你就懂了。
介紹一下主角速石自研調(diào)度器Fsched
fastone Scheduler,簡(jiǎn)稱(chēng)Fsched,是速石科技所有產(chǎn)品的核心調(diào)度組件。Ta是面向HPC集群的操作系統(tǒng),是HPC集群的“大腦”,用于對(duì)HPC集群內(nèi)的計(jì)算資源進(jìn)行管理、監(jiān)控,對(duì)用戶(hù)提交的任務(wù)進(jìn)行統(tǒng)一管理、分發(fā)和遠(yuǎn)程執(zhí)行。
Fsched是速石科技基于開(kāi)源的Slurm版本進(jìn)化而來(lái)的全新產(chǎn)品。
01
我們的Fsched調(diào)度器到底厲害在哪?
先看一組我們?cè)?a target="_blank">半導(dǎo)體領(lǐng)域用戶(hù)的真實(shí)驗(yàn)證數(shù)據(jù):
5個(gè)月時(shí)間內(nèi):
CPU調(diào)度峰值達(dá)到5萬(wàn)核;
提交了超過(guò)8000萬(wàn)Jobs;
構(gòu)建超過(guò)700臺(tái)機(jī)器組成的大規(guī)模集群;
使用量約3000萬(wàn)核時(shí)。
Fsched性能指標(biāo)
吞吐量:
1000 jobs/second
響應(yīng)時(shí)間:
1 ms
集群規(guī)模:
單個(gè)Fsched集群能夠支持的最大節(jié)點(diǎn)數(shù):1000
單個(gè)Fsched集群能夠支持的最大CPU核數(shù):30000
總結(jié)一下,F(xiàn)sched調(diào)度器優(yōu)勢(shì):
1. 完全由速石獨(dú)立開(kāi)發(fā),性能卓越;
2. 我們能提供代碼級(jí)技術(shù)支持;
3. 支持市面上幾乎所有EDA工具;
4. 服務(wù)了100+家不同類(lèi)型的半導(dǎo)體行業(yè)用戶(hù);
5. 兼容LSF/SGE等調(diào)度器,使用體驗(yàn)不變。
關(guān)于調(diào)度器科普和不同流派近二十年的發(fā)展歷程,可以點(diǎn)擊回顧:億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用
02
代碼級(jí)技術(shù)支持有什么不一樣?
代碼級(jí)技術(shù)支持的特別之處主要體現(xiàn)在解決問(wèn)題的路徑上。
一句話,我們能做很多人做不到的事情。
一般問(wèn)題:我們站在產(chǎn)品視角來(lái)解決
特殊問(wèn)題:我們以開(kāi)發(fā)者身份來(lái)解決
比如一些特殊調(diào)度策略的改造與優(yōu)化,我們是開(kāi)發(fā)者,所以能做。包括各種調(diào)度器日志的監(jiān)控分析,優(yōu)化調(diào)度器的提交方式和腳本等等。
DEBUG:深入代碼級(jí)的技術(shù)支持
舉一個(gè)典型例子:當(dāng)研發(fā)提交任務(wù)出現(xiàn)異常狀態(tài),怎么辦?
我們首先需要定位與任務(wù)相關(guān)的日志。日志分為:基礎(chǔ)設(shè)施層日志、中間件層日志、應(yīng)用層日志等。IT和研發(fā)工程師的關(guān)注點(diǎn)不一樣:IT工程師一般看基礎(chǔ)設(shè)施層日志,CAD和研發(fā)工程師看中間件層日志和應(yīng)用層日志。不同角色各看各的,定位問(wèn)題效率低。
我們通過(guò)Fsched調(diào)度器:1. 把調(diào)度任務(wù)的異常日志分類(lèi),找出是哪一層的問(wèn)題;
2. 任務(wù)狀態(tài)跟蹤,通過(guò)異常應(yīng)用找出相應(yīng)進(jìn)程和IO信息,方便判斷;
3. 通過(guò)數(shù)據(jù)分析抓取日志中的關(guān)鍵信息。
找到問(wèn)題,over。
03
Slurm之上,我們還做了什么?
Slurm是厲害的:全球60%的TOP500超算中心和超大規(guī)模集群(包括我國(guó)的天河二號(hào)等)都采用Slurm作為調(diào)度系統(tǒng)。它擁有容錯(cuò)率高、支持異構(gòu)資源、高度可擴(kuò)展等優(yōu)點(diǎn),適用性相當(dāng)強(qiáng)。
那么,基于Slurm之上,我們還做了些什么?
從0到1,幫助用戶(hù)更快,更簡(jiǎn)單地用起來(lái)
1.產(chǎn)品級(jí)IT自動(dòng)化管理,標(biāo)準(zhǔn)化地調(diào)用資源,保證環(huán)境一致性,降低用戶(hù)配置復(fù)雜度和出錯(cuò)率,上手更容易;
2. 從業(yè)務(wù)出發(fā),F(xiàn)sched與底層資源的聯(lián)動(dòng)性強(qiáng),根據(jù)任務(wù)需求自動(dòng)伸縮,更符合云上使用方式。
從1到10,讓用戶(hù)用得穩(wěn)定,用得放心1.對(duì)Slurm開(kāi)源版進(jìn)行修復(fù)與增強(qiáng)。修復(fù)Slurm開(kāi)源版在復(fù)雜環(huán)境下任務(wù)異常崩潰等問(wèn)題,增加了混合云智能調(diào)度能力; 2. 基于Wrapper組件,F(xiàn)sched對(duì)上層EDA應(yīng)用進(jìn)行了兼容與優(yōu)化,保證用戶(hù)使用體驗(yàn)不變;
PS:同樣是Wrapper,水平也是有高下的。要達(dá)到多年戰(zhàn)斗在一線的專(zhuān)業(yè)高級(jí)口譯的經(jīng)驗(yàn)和水平,只能說(shuō):有難度。
3. 根據(jù)最佳實(shí)踐經(jīng)驗(yàn)總結(jié)的流程與規(guī)則,能優(yōu)化EDA Workflow,提高調(diào)度器使用效率;
4.代碼級(jí)支持能力讓用戶(hù)無(wú)后顧之憂(yōu)。
只要有個(gè)調(diào)度器就夠了嗎?
答案自然是否定的。
為什么?
或許,我們可以換個(gè)角度來(lái)回答這個(gè)問(wèn)題。
就像汽車(chē)出現(xiàn)之前,用戶(hù)的期望永遠(yuǎn)是——1匹更快的馬一樣。
在當(dāng)下芯片設(shè)計(jì)研發(fā)領(lǐng)域,我們?nèi)绻颜{(diào)度器類(lèi)比馬,那么汽車(chē)是什么呢?
我們給大家簡(jiǎn)單描繪一下:
一個(gè)站在整個(gè)芯片設(shè)計(jì)研發(fā)體系和架構(gòu)視角來(lái)滿(mǎn)足EDA行業(yè)用戶(hù)性能、功能、體驗(yàn)的產(chǎn)品。
1. Ta是完整的一體化產(chǎn)品,功能緊密耦合,且經(jīng)過(guò)層層實(shí)戰(zhàn)考驗(yàn);
2. Ta解決的是完整生命周期的芯片設(shè)計(jì)業(yè)務(wù)問(wèn)題,調(diào)度器只是其中一個(gè)模塊;
3. Ta具有對(duì)企業(yè)未來(lái)發(fā)展的彈性,能擴(kuò)展至不同規(guī)模和更多業(yè)務(wù)路線,比如AI。
而這,正是我們與其他很多產(chǎn)品最大的區(qū)別之一。
我們的產(chǎn)品在設(shè)計(jì)之初就是面向EDA應(yīng)用,服務(wù)芯片設(shè)計(jì)研發(fā)業(yè)務(wù)場(chǎng)景的。這也決定了我們解決問(wèn)題的出發(fā)點(diǎn)永遠(yuǎn)是:是否滿(mǎn)足研發(fā)業(yè)務(wù)需求,然后從上至下地解決問(wèn)題。
01
一整套上中下層聯(lián)動(dòng)的芯片研發(fā)環(huán)境
我們提供的是一整套上中下層聯(lián)動(dòng)的芯片設(shè)計(jì)研發(fā)環(huán)境:
1. 連接上層EDA應(yīng)用,對(duì)應(yīng)用本身的運(yùn)行提供支持和優(yōu)化;
2. 連接底層資源,給用戶(hù)提供更靈活,更高效使用資源的能力;
3. 結(jié)合EDA應(yīng)用和底層資源的聯(lián)動(dòng)和適配,給出最佳實(shí)踐經(jīng)驗(yàn)。
02
功能面向?qū)嶋H業(yè)務(wù)場(chǎng)景設(shè)計(jì)和提供
我們的功能都是面向?qū)嶋H業(yè)務(wù)場(chǎng)景設(shè)計(jì)和提供的:
1.License調(diào)度優(yōu)化,可幫助企業(yè)用戶(hù)最大化提升License利用率,更好地規(guī)劃License購(gòu)買(mǎi)策略,控制整體使用成本;
2. 我們能多維度監(jiān)控任務(wù)狀態(tài),提供基于EDA任務(wù)層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計(jì)分析功能與服務(wù),讓團(tuán)隊(duì)管理者監(jiān)控各個(gè)重要指標(biāo)變化,從全局角度掌握項(xiàng)目的整體任務(wù)及資源情況,為未來(lái)項(xiàng)目合理規(guī)劃、集群生命周期管理、成本優(yōu)化提供支持;
3.日常數(shù)據(jù)統(tǒng)計(jì)與運(yùn)營(yíng)分析管理,實(shí)現(xiàn)問(wèn)題可追溯,可追蹤,降低成本,提升整體項(xiàng)目管理效率。
03
交互方式不改變EDA用戶(hù)使用習(xí)慣
我們的交互方式不改變EDA用戶(hù)的使用習(xí)慣。原來(lái)怎么用,現(xiàn)在還怎么用。
速石研發(fā)平臺(tái)
VS
LSF Suite
半導(dǎo)體行業(yè)用戶(hù)最熟悉的調(diào)度器是LSF,就不多介紹了。
不過(guò),它背后的LSF Suite大家就不一定熟悉了。
來(lái)來(lái),我們盤(pán)一下,我們速石研發(fā)平臺(tái)跟LSF Suite的區(qū)別是什么?
01
根本區(qū)別:設(shè)計(jì)理念不一樣
我們是站在整個(gè)芯片設(shè)計(jì)研發(fā)體系和架構(gòu)視角來(lái)設(shè)計(jì)的一體化產(chǎn)品,解決的是完整生命周期的芯片設(shè)計(jì)業(yè)務(wù)問(wèn)題,功能緊密耦合,且經(jīng)過(guò)層層實(shí)戰(zhàn)考驗(yàn)。
而Fsched調(diào)度器只是其中一個(gè)模塊,不單獨(dú)售賣(mài),在我們的全線企業(yè)級(jí)產(chǎn)品均屬內(nèi)置,且與產(chǎn)品其他功能深度綁定。
這正是我們上一節(jié)提到的面向EDA業(yè)務(wù)的產(chǎn)品定位決定的。 而LSF Suite里的核心調(diào)度器LSF與其他組件是不關(guān)聯(lián)的,屬于可選項(xiàng)。這也導(dǎo)致了用戶(hù)大多只接觸過(guò)LSF,而對(duì)它的其他組件沒(méi)有什么概念。
而且,因?yàn)楦鞣N功能組件之間獨(dú)立存在的,用戶(hù)使用的時(shí)候需要根據(jù)自己業(yè)務(wù)需要進(jìn)行二次開(kāi)發(fā)組裝,從零開(kāi)始進(jìn)行功能模塊需求評(píng)估、采購(gòu)、對(duì)接、開(kāi)發(fā)和測(cè)試驗(yàn)證兼容性,才能搭建出一個(gè)完整的研發(fā)環(huán)境,時(shí)間周期也會(huì)比較長(zhǎng)。 另外還有期間的運(yùn)維、后續(xù)的更新升級(jí)和功能擴(kuò)展等事項(xiàng)。
02
性?xún)r(jià)比:速石研發(fā)平臺(tái)TCO更低
下圖是我們研發(fā)平臺(tái)與LSF Suite的橫向?qū)Ρ葓D,可以清楚地看到,兩者的收費(fèi)模式差別很大。
我們Fsched調(diào)度器是包含在平臺(tái)費(fèi)用里的,相關(guān)組件也都是隨產(chǎn)品一起內(nèi)置的,不單獨(dú)收費(fèi)。
而LSF Suite除了核心調(diào)度器按使用核數(shù)收費(fèi)以外,所有功能組件都需要額外收費(fèi)。
從總擁有成本來(lái)看,對(duì)用戶(hù)來(lái)說(shuō),速石研發(fā)平臺(tái)付出的成本更低,獲得的東西更多。還有很多隱性成本沒(méi)有列在表格里,比如對(duì)接調(diào)試時(shí)間成本,人工成本,售后支持成本等等。
總結(jié)一下,我們跟LSF Suite的五大主要區(qū)別:
1.核心調(diào)度器Fsched完全國(guó)產(chǎn)自研,有代碼級(jí)支持能力; 2. 我們的產(chǎn)品設(shè)計(jì)初衷就是提供面向EDA業(yè)務(wù)的一整套研發(fā)環(huán)境,可擴(kuò)展性強(qiáng);3.各功能模塊緊密耦合,不單獨(dú)收費(fèi),整體性?xún)r(jià)比高;4.我們的CAD能力與經(jīng)驗(yàn),能有效提高上中下層整體聯(lián)動(dòng)效率; 5. 我們兼容LSF/SGE等調(diào)度器,使用體驗(yàn)不變。
如果你想嘗試AI——
目前,AI在芯片設(shè)計(jì)領(lǐng)域的應(yīng)用主要有兩條路線:
路線一:AI+EDA工具
Synopsys、Cadence與Siemens等公司紛紛在其最新工具中使用了AI技術(shù),覆蓋先進(jìn)數(shù)字與模擬芯片的設(shè)計(jì)、驗(yàn)證、測(cè)試和制造環(huán)節(jié),讓開(kāi)發(fā)者在芯片開(kāi)發(fā)的每一個(gè)階段都可以采用借助AI的自主學(xué)習(xí)能力,提供芯片設(shè)計(jì)生產(chǎn)力。
當(dāng)然,越來(lái)越多EDA工具也支持借助GPU進(jìn)行運(yùn)算加速。
路線二:AI算法模型訓(xùn)練
Google研究人員使用10,000個(gè)芯片布局圖來(lái)訓(xùn)練他們的深度學(xué)習(xí)模型——PRIME,人工智能生成的芯片的設(shè)計(jì)時(shí)間不到六個(gè)小時(shí)。
而NVIDIA設(shè)計(jì)了另一種用于芯片設(shè)計(jì)的深度學(xué)習(xí)方法——PrefixRL模型,NVIDIA使用其RL工具設(shè)計(jì)的電路比人類(lèi)使用當(dāng)今EDA工具設(shè)計(jì)的電路小25%,但性能相似。
路線一需要支持全流程EDA工具的一整套研發(fā)環(huán)境,以及構(gòu)建異構(gòu)資源(CPU+GPU、本地+云上)的調(diào)度及管理平臺(tái)的能力。
路線二需要的支持企業(yè)從ML/LLM模型構(gòu)建、大規(guī)模訓(xùn)練到最終部署需求的MLOps模塊。
我們都有。
另外,我們剛剛發(fā)布的一款行業(yè)知識(shí)庫(kù)聊天應(yīng)用Megrez,面向企業(yè)客戶(hù)提供大語(yǔ)言模型的私有化部署能力,允許用戶(hù)自定義行業(yè)知識(shí)庫(kù),實(shí)現(xiàn)領(lǐng)域知識(shí)的問(wèn)答。
Megrez基于芯片設(shè)計(jì)領(lǐng)域提供的支持
-
操作系統(tǒng)
+關(guān)注
關(guān)注
37文章
6794瀏覽量
123276 -
HPC
+關(guān)注
關(guān)注
0文章
314瀏覽量
23746 -
調(diào)度器
+關(guān)注
關(guān)注
0文章
98瀏覽量
5245
原文標(biāo)題:國(guó)產(chǎn)純自研、100+行業(yè)實(shí)踐,探秘速石核心調(diào)度器Fsched
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論