歐洲中期天氣預報中心(ECMWF)是一個政府組織,成立于1975年。ECMWF總部位于英國雷?。〝?shù)據(jù)中心不久將遷往意大利博洛尼亞),業(yè)務遍及歐洲34個國家和地區(qū)。它運營著歐洲最大的超級計算機群之一,也是世界上最大的數(shù)值天氣預報數(shù)據(jù)檔案館。就其IT基礎設施而言,ECMWF的HPC(高性能計算)設施是全球最大的氣象站點之一。利用哥白尼氣候變化服務(C3S)、哥白尼大氣監(jiān)測服務(CAMS)和WEkEO(數(shù)據(jù)和信息訪問服務(DIAS)平臺)的云基礎設施和歐洲氣象云,ECMWF的團隊維護著一個250 PB大小、每天增長250TB的氣候數(shù)據(jù)存檔。
歐洲氣象云:
三年前,ECMWF和歐洲氣象衛(wèi)星利用組織(EUMETSAT)合作建立了歐洲氣象云,旨在使基于云的基礎設施更容易處理天氣和氣候大數(shù)據(jù)。為了使計算資源(云)更接近其大數(shù)據(jù)(氣象檔案和衛(wèi)星數(shù)據(jù)),ECMWF的試點基礎設施是使用開源軟件Ceph和使用TripleO的OpenStack。
下圖顯示了歐洲氣象云整體基礎設施的當前狀態(tài),包括兩個OpenStack集群:一個使用OpenStack Rocky構建,另一個使用OpenStack Ussuri構建。當前配置的總硬件包括大約3000個vCPU、兩個21 TB RAM的集群、1PB的存儲空間和2×5個NVIDIA Tesla V100 GPU。
與Ceph集成:
下圖顯示了歐洲氣象云的云基礎設施。如你所見,Ceph是與OpenStack分開構建和維護的,這為歐洲氣象云團隊在同一Ceph存儲上構建不同集群提供了很大的靈活性。它的兩個OpenStack集群使用相同的Ceph基礎設施和相同的rbd池。除了一些常見的硬盤故障之外,Ceph的表現(xiàn)也非常出色,歐洲氣象云的團隊正在計劃逐步遷移到CentOS8,并在對開發(fā)環(huán)境進行大量測試之后,在一個實時集群上升級到Octopus和cephadm。
Rocky版本的OpenStack:
歐洲氣象云中的首個OpenStack集群建于2019年9月,基于帶TripleO安裝程序的Rocky。與此同時,歐洲氣象云的工程師們還創(chuàng)建了另一個開發(fā)環(huán)境,其中OpenStack和Ceph集群的配置類似于測試實驗。
經(jīng)驗和問題:
他們的部署大約有2600個vCPU,內(nèi)存為11TB,沒有任何重大問題。通過簡單地配置Ceph,外部Ceph集群集成以最小的工作量工作——只對ceph-config.yaml配置稍加修改。這兩個外部網(wǎng)絡(一個面向公眾,另一個用于快速訪問其300PB數(shù)據(jù)存檔)非常簡單。
他們的大多數(shù)虛擬機都連接到兩個沒有浮動IP的外部網(wǎng)絡,這是一個具有挑戰(zhàn)性的虛擬機路由問題,沒有在交換機上動態(tài)路由。為了解決這個問題,他們使用了dhcp鉤子,并在向用戶提供映鏡像之前配置了VM路由。
他們在使用NIC bond接口配置以及在開始時配置交換機時遇到了一些問題。因此,工程師們決定不使用鏈路聚合控制協(xié)議(LACP)配置,現(xiàn)在他們?yōu)镺penStack部署了一個網(wǎng)卡(NIC)。他們還遇到了負載均衡即服務(LBaas)的一些問題,這是由于Octavia在每個部署上覆蓋證書。
一旦找到了解決這些挑戰(zhàn)的解決方案,工程師們就更新了實時系統(tǒng),并將整個集群從一個NIC遷移到多個NIC部署中,這對用戶來說是透明的,沒有停機時間。第一個集群被重新部署,網(wǎng)絡被重新配置為分布式虛擬路由(DVR)配置,以獲得更好的網(wǎng)絡性能。
Stein到Ussuri的升級工作:
2020年3月,歐洲氣象云的工程師為OpenStack和Ceph集群增加了更多的硬件,他們決定升級到OpenStack的最新版本。
經(jīng)驗和問題:
首先,為了更好地管理和作為備份和恢復的安全網(wǎng),他們將其Rocky云端轉(zhuǎn)換為虛擬機。從2020年3月到5月,他們調(diào)查并測試了升級到Stein的過程(首先是云下升級,然后是云端過度升級到測試環(huán)境)。由于Ussuri是基于CentOS8的,他們直接從Rocky跳到了Ussuri,并決定直接在OpenStack Ussuri上部署新系統(tǒng)。
OpenStack Ussuri集群:
第二個基于Ussuri的OpenStack集群首次構建于2020年5月,也就是5月13日Ussuri發(fā)布后的17天。這個集群是一個普通的配置,這意味著盡管網(wǎng)絡配置了OVN和25個節(jié)點的提供商網(wǎng)絡,但它們沒有與Ceph存儲進行任何集成。
經(jīng)驗和問題:
基于Ansible而不是Mistral的新構建方法有一些問題,比如從堆棧切換到heat admin,這不是用戶用來部署的。此外,他們還試圖快速理解和掌握主機系統(tǒng)和服務容器的CentOS8基本操作系統(tǒng)。歐洲氣象云的工程師們也繼續(xù)使用OVS而不是OVN,因為分配浮動IP地址的含義。在OpenStack社區(qū)的幫助下,問題得到了解決,并于2020年6月中旬重新構建了集群。
Nvidia GPU的配置很簡單。然而,由于在安裝和配置GPU驅(qū)動程序到節(jié)點時,OVS還沒有在Ussuri集群中實現(xiàn)IPv6,因此OVS試圖在引導期間綁定到IPv6地址,這導致引導時間大大增加。一個解決方法是顯式地將PIv6配置刪除到它們的GPU節(jié)點。所有具有GPU的節(jié)點也被解析為普通計算節(jié)點,并用Ansible playbook配置了nova.conf。
下一步:
在歐洲氣象云的基礎設施方面,工程師們正計劃將該基礎設施與其他內(nèi)部系統(tǒng)集成,以便更好地監(jiān)控和記錄。他們還計劃逐步淘汰Rocky集群,并將所有節(jié)點轉(zhuǎn)移到Ussuri。他們將繼續(xù)運行、維護和升級云的基礎設施,用上OpenStack和Ceph的最新版本。