pve ceph一些坑 (五)

發(fā)布時(shí)間:2025-05-17
系統(tǒng)運(yùn)維
三臺(tái)服務(wù)器的時(shí)鐘很重要所以要配置時(shí)鐘一致
ceph health detail
health_warn application not enabled on 1 pool(s)
pool_app_not_enabled application not enabled on 1 pool(s)
application not enabled on pool \\\’kube\\\’
use \\\’ceph osd pool application enable <pool-name> <app-name>\\\’, where <app-name> is \\\’cephfs\\\’, \\\’rbd\\\’, \\\’rgw\\\’, or freeform for custom applications.
ceph osd pool application enable kube rbd
enabled application \\\’rbd\\\’ on pool \\\’kube\\\’
ceph health
health_ok
所有節(jié)點(diǎn)必須在同一子網(wǎng),以便各個(gè)節(jié)點(diǎn)使用 corosync 多播通信(詳情可查看corosync cluster engine)。corosync 使用 udp 5404 和 5405 端口進(jìn)行集群通信
注意:有些交換機(jī)默認(rèn)設(shè)置關(guān)閉了 ip 多播,需要先手工啟用多播通信
添加位于不同網(wǎng)段的節(jié)點(diǎn)
如果要添加一個(gè)節(jié)點(diǎn),而該集群網(wǎng)絡(luò)和該節(jié)點(diǎn)在不同網(wǎng)段,你需要使用 ringx_addr 參數(shù)來(lái)指定節(jié)點(diǎn)在集群網(wǎng)絡(luò)內(nèi)使用的地址。
pvecm add ip-address-cluster -ring0_addr ip-address-ring0
如果你要使用冗余環(huán)協(xié)議,你還需要設(shè)置 ring1_addr 參數(shù)以傳遞第二個(gè)集群網(wǎng)絡(luò)地址。
刪除節(jié)點(diǎn)
警告:刪除節(jié)點(diǎn)前請(qǐng)仔細(xì)閱讀刪除操作步驟,不然很可能會(huì)發(fā)生你預(yù)料不到的情況。
首先將待刪除節(jié)點(diǎn)上所有虛擬機(jī)都遷移到其他節(jié)點(diǎn)。確保待刪除節(jié)點(diǎn)上沒(méi)有任何你需要保留的數(shù)據(jù)和備份,或者相關(guān)數(shù)據(jù)已經(jīng)被妥善備份。
通過(guò) ssh 登錄待刪除節(jié)點(diǎn)。執(zhí)行 pvecm nodes 命令再次確認(rèn)節(jié)點(diǎn) id。
重要:這個(gè)時(shí)候,你必須將待刪除節(jié)點(diǎn)關(guān)閉并斷電,確保該節(jié)點(diǎn)不再啟動(dòng)(在當(dāng)前集群網(wǎng)絡(luò)內(nèi))。
root@pve-1:~# pvecm nodes
membership information
nodeid votes name 1 1 192.168.77.160 (local) 2 1 192.168.77.170 3 1 192.168.77.180root@pve-1:~#
1
2
3
4
5
6
7
8
9
root@pve-1:~# pvecm nodes
membership information
nodeid votes name 1 1 192.168.77.160 (local) 2 1 192.168.77.170 3 1 192.168.77.180root@pve-1:~#
通過(guò) ssh 登錄集群中其他任何一個(gè)節(jié)點(diǎn),執(zhí)行節(jié)點(diǎn)刪除命令(這里將刪除節(jié)點(diǎn) hp4):
hp1# pvecm delnode hp4
如果命令執(zhí)行成功,將直接返回,而且不會(huì)有任何輸出。可以運(yùn)行 pvecm nodes 或者pvecm status 檢查刪除節(jié)點(diǎn)后的集群狀態(tài)。
重要:如前所述,必須在執(zhí)行刪除命令前先關(guān)閉待刪除節(jié)點(diǎn),并且確保被刪除點(diǎn)不再啟動(dòng)(在原集群網(wǎng)絡(luò)中)。這是非常非常重要的!
如果你在原集群網(wǎng)絡(luò)中重新啟動(dòng)被刪除的節(jié)點(diǎn),你的集群會(huì)因此而崩潰,并且很難恢復(fù)到一個(gè)干凈的狀態(tài)。
如果出于某種原因,你需要將被刪除節(jié)點(diǎn)重新加入原集群,需要按如下步驟操作:
格式化被刪除節(jié)點(diǎn),并重新安裝 proxmox ve。
如前一節(jié)所述步驟,將該節(jié)點(diǎn)重新加入集群。
隔離節(jié)點(diǎn)
重要:我們不推薦使用隔離節(jié)點(diǎn)操作,按此方法操作時(shí)請(qǐng)務(wù)必小心。如果你對(duì)操作結(jié)果存有疑慮,建議使用刪除節(jié)點(diǎn)的方法。
你可以將一個(gè)節(jié)點(diǎn)從集群中隔離出去,而無(wú)需格式化并重裝該節(jié)點(diǎn)。但將節(jié)點(diǎn)從集群中隔離出去后,被隔離的節(jié)點(diǎn)仍然能夠訪問(wèn)原 proxmox ve 集群配置給它的共享存儲(chǔ)。
你必須在將節(jié)點(diǎn)隔離出去之前解決這個(gè)問(wèn)題。由于不能確保避免發(fā)生虛擬機(jī) id 沖突,
所以 proxmox ve 集群之間不能共享同一個(gè)存儲(chǔ)設(shè)備。建議為待隔離節(jié)點(diǎn)專門創(chuàng)建一個(gè)獨(dú)享的新存儲(chǔ)服務(wù)。例如,可以為待隔離節(jié)點(diǎn)分配一個(gè)新的 nfs 服務(wù)或者 ceph 存儲(chǔ)池。必須確保該存儲(chǔ)服務(wù)是獨(dú)享的。在分配存儲(chǔ)之后,可以將該節(jié)點(diǎn)的虛擬機(jī)遷移到新存儲(chǔ)服務(wù),接下來(lái)就可以開(kāi)始進(jìn)行隔離節(jié)點(diǎn)的操作。
警告:必須確保所有的資源都被已經(jīng)徹底被隔離。否則將可能發(fā)生沖突或其他問(wèn)題。
首先在待隔離節(jié)點(diǎn)上停止 pve-cluster 服務(wù):
systemctl stop pve-cluster
systemctl stop corosync
然后將待隔離節(jié)點(diǎn)的集群文件系統(tǒng)設(shè)置為本地模式:
pmxcfs –l
接下來(lái)刪除 corosync 配置文件:
rm /etc/pve/corosync.conf
rm /etc/corosync/*
最后重新啟動(dòng)集群文件系統(tǒng)服務(wù):
killall pmxcfs
systemctl start pve-cluster
到此,該節(jié)點(diǎn)已經(jīng)從集群中被隔離出去了。你可以在原集群中任意節(jié)點(diǎn)上執(zhí)行刪除命令:
pvecm delnode oldnode
如果因前面的隔離操作,原集群中剩余節(jié)點(diǎn)已經(jīng)不滿足多數(shù)票,節(jié)點(diǎn)刪除命令就會(huì)失敗。你可以將期望的多數(shù)票數(shù)量設(shè)置為 1,如下:
pvecm expected 1
然后重復(fù)節(jié)點(diǎn)刪除命令即可。
接下來(lái)你可以重新登錄被隔離出去的節(jié)點(diǎn),刪除原集群遺留下的各個(gè)配置文件。刪除
完成后,該節(jié)點(diǎn)即可重新加入任意其他集群。
rm /var/lib/corosync/*
被隔離節(jié)點(diǎn)的集群文件系統(tǒng)中仍然殘留有和原集群其他節(jié)點(diǎn)有關(guān)的配置文件,這些也是需要?jiǎng)h除的。你可以遞歸刪除/etc/pve/nodes/nodename 目錄清除這些文件。但在執(zhí)行刪除操作前請(qǐng)?jiān)偃龣z查,確保刪除操作無(wú)誤。
警告:原集群中其他節(jié)點(diǎn)的 ssh 公鑰仍會(huì)保留在 authorized_key 文件中。這意味著被隔離節(jié)點(diǎn)和原集群節(jié)點(diǎn)之間仍然可以用 ssh 公鑰互相訪問(wèn)。為避免出現(xiàn)意外情況,可以刪除/etc/pve/priv/authorized_keys 文件中的對(duì)應(yīng)公鑰。
多數(shù)票
proxmox ve 采用了基于多數(shù)票(quorum)的機(jī)制確保集群節(jié)點(diǎn)狀態(tài)一致。多數(shù)票是指在一個(gè)分布式系統(tǒng)內(nèi)一個(gè)分布式交易獲準(zhǔn)執(zhí)行所必須得到的最低票數(shù)?!獁ikipedia 多數(shù)票(分布式計(jì)算)
在網(wǎng)絡(luò)可能分裂為多個(gè)區(qū)域的情況下,修改集群狀態(tài)需要得到大多數(shù)節(jié)點(diǎn)在線。如果集群內(nèi)節(jié)點(diǎn)數(shù)量不足以構(gòu)成多數(shù)票,集群將自動(dòng)轉(zhuǎn)為只讀狀態(tài)。
注意:默認(rèn)情況下,proxmox ve 集群內(nèi)每個(gè)節(jié)點(diǎn)都有一票的投票權(quán)。
集群網(wǎng)絡(luò)
集群網(wǎng)絡(luò)是 proxmox ve 集群的核心。集群網(wǎng)絡(luò)必須確保可靠地將集群通信數(shù)據(jù)包按順序送達(dá)所有節(jié)點(diǎn)。proxmox ve 使用 corosync 來(lái)實(shí)現(xiàn)集群網(wǎng)絡(luò)通信,確保集群網(wǎng)絡(luò)通信的高性能,低延時(shí),高可用。我們的分布式集群文件系統(tǒng)(pmxcfs)就基于此構(gòu)建。
集群網(wǎng)絡(luò)配置要求
proxmox ve 集群網(wǎng)絡(luò)只有在網(wǎng)絡(luò)延時(shí)低于 2ms 時(shí)(局域網(wǎng)內(nèi))才可以正常工作。盡管 corosync 支持節(jié)點(diǎn)間使用單播方式通信,但我們強(qiáng)烈建議使用多播方式進(jìn)行集群通信。集群網(wǎng)絡(luò)內(nèi)不應(yīng)有其他大流量通信。理想情況下,corosync 最好能擁有專用網(wǎng)絡(luò)。
注意,一定不要在同一個(gè)網(wǎng)絡(luò)同時(shí)運(yùn)行 proxmox ve 集群和存儲(chǔ)服務(wù)。
最佳實(shí)踐是在創(chuàng)建集群前先檢測(cè)網(wǎng)絡(luò)質(zhì)量,確保網(wǎng)絡(luò)能滿足集群通信要求。
確認(rèn)所有的節(jié)點(diǎn)都在同一網(wǎng)段。并且要確保網(wǎng)絡(luò)中只連接了用于集群通信(corosync)的網(wǎng)卡。
確保節(jié)點(diǎn)彼此之間的網(wǎng)絡(luò)都連接正常??梢允褂?ping 命令測(cè)試。
確保多播網(wǎng)絡(luò)通信工作正常并能達(dá)到很高的數(shù)據(jù)包傳輸速度??梢允褂?omping 命令測(cè)試。正常情況下,丟包率應(yīng)小于 1%%u3002
omping -c 10000 -i 0.001 -f -q node1-ip node2-ip …
確保多播通信能在要求的時(shí)間段內(nèi)可靠工作。這主要是為了避免物理交換機(jī)啟用igmp 但未配置多播查詢器(multicast querier)。該項(xiàng)測(cè)試至少需要持續(xù)
上一個(gè):閥門試壓應(yīng)遵守的16個(gè)原則和注意事項(xiàng)
下一個(gè):建筑行業(yè)的農(nóng)民工

tiktok掛小黃車步驟是什么?
速賣通補(bǔ)郵費(fèi)怎么設(shè)置?
Flipkart平臺(tái)新賣家數(shù)量相比去年增長(zhǎng)220%
加州起訴亞馬遜哄抬物價(jià)
Tiktok小店有哪些國(guó)家?
獨(dú)立站官網(wǎng)如何優(yōu)化產(chǎn)品列表頁(yè)?
蘋果4s電信卡怎么燒號(hào),蘋果4s電信版如何燒號(hào) 還可以從新燒號(hào)嘛
美國(guó)對(duì)涉華自動(dòng)播種墻和自動(dòng)存取系統(tǒng)、相關(guān)車輛和控制軟件及其組件發(fā)布337部分終裁
機(jī)床介紹數(shù)控車方機(jī)的變速狀態(tài)
心系市場(chǎng),灌裝機(jī)擇優(yōu)發(fā)展
十八禁 网站在线观看免费视频_2020av天堂网_一 级 黄 色 片免费网站_绝顶高潮合集Videos