關於主機代管，有人比我慘嗎 - PCDVD數位科技討論區

		PCDVD數位科技討論區 > 其他群組 > 七嘴八舌異言堂
關於主機代管，有人比我慘嗎

第4頁共5頁

主題工具

shinnlu

Advance Member

加入日期: Jan 2003

文章: 335

引用:

作者sp004697

不過人算不如天算
某天公司天線遭雷擊,六台裡面有四台被打掛...
這該怎麼算?

這是天災，我覺得我的是人禍

引用:

作者Select_from

機器都會壞，密集排程備份+異地同步備援才是唯一的解

已經有備份了，只是不爽他說 OS Reload 說的很容易，他按一個 OS Reload，我就要忙了很久，也不提供搬遷的辦法，所有的責任都和他沒關係，他都照著 SOP 去做了

引用:

作者alan0888

常識就是有 Ctritical Data 就會有 Online Backup (Raid Disk)，有 Online Backup 就必須要 Offline Backup (Tape)。有錢肯砸的，還可作 DR 異地備援。另外 SSD 拿來放資料也是會死很慘，那天 IC 寫掛了連救都救不回。備份就跟保險一樣，有備無患，出事就用得到。

我們的資料有做異地備援，但是不包含整個系統，所以要從零開始還是蠻麻煩的

引用:

作者vxr

這4~5年來..
算是近代RAID f/w會操作一種OAR(RAID Roaming)的行為...
他會因為RAID controller的替換而從VD的metadata進行import的操作...
比方說LSI的RAID f/w(IMR)會預先切入512MB(per PD)左右的tail作為metadata...
假設我替換RoC(如果是IR mode則為有限的64MB)...
通常並不會因為掛了而導致VD全部救不回...
因為OAR將會復原這些操作..
(如果這種基本的競爭條件都做不到, 那些RD全部都要去填海...

...)

vxr 兄，我一直在等你哦~
我知道你對這方面有很深入的研究
請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。

2013-10-11, 11:38 AM #31

左非

*停權中*

加入日期: Feb 2003

您的住址: 台北不是我的家

文章: 730

當初沒請代管公司，做原地備份資料嗎？

前一陣子公司，也是代管的server出問題。
服務常當，請代管檢查，說硬碟有問題要更換。
更換完又檢查出陣列卡太舊跟新硬碟相容有問題。
林老師咧，搞到後面跟本是換硬碟、換raid care、raid重做。
好在當時，公司有跟代管付費每天原地備份的服務，

所以整個還原回去花的時間還可以接受，至少也不用重新設定= =
我這就最多每月、每週異地備份一些比較重要的資料就好。

此文章於 2013-10-11 12:47 PM 被左非編輯.

2013-10-11, 12:44 PM #32

vxr

Registered User

加入日期: May 2002

您的住址: 地球的上面..

文章: 5,854

引用:

作者shinnlu

這是天災，我覺得我的是人禍

已經有備份了，只是不爽他說 OS Reload 說的很容易，他按一個 OS Reload，我就要忙了很久，也不提供搬遷的辦法，所有的責任都和他沒關係，他都照著 SOP 去做了

我們的資料有做異地備援，但是不包含整個系統，所以要從零開始還是蠻麻煩的

vxr 兄，我一直在等你哦~
我知道你對這方面有很深入的研究
請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。

"他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。"
其實行為上太過草率...
當然這有可能是很多MIS的標準操作...
那個換個方向思考..
他們在進行替換之前都在幹甚麼??...
定期的維護計畫呢???

對方有沒有進行定期的操作..?
1. CC
2. Disk Scrubbing(Media Scans or Patrol Read..)
敢做有無能力看h/w log??? 解析sense code??
從你的截圖來看應當是adaptec體系...
我對這體系的產品幾乎不熟...

..
向來我是西瓜餵大邊....

...
我摸過幾款, 但是我從來沒仔細玩這家的東西..
要知道記憶command是很累的事..

...

請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
最好的方式請他提供h/w log(不是event log喔...那東西我覺得沒啥好看的..)...
雖然我認為他們可能拿不出來或著不願意提供(HBA都被換掉了..)...

可能有一種情況可以解釋...
bad block先前就存在了...
只是RAID f/w操作的過程中剛好被掃到...

"他一開始更新韌體的時候先把硬碟拔掉，更新完發現卡有問題，換一塊卡之後發現一顆硬碟失效，rebuild 之後就有 bad strips 了。"
我不太清楚更新硬體幹嘛要把HDD全拔了??..
對adaptec的core IP這麼沒自信???

..

一種可能的情況...
建好的VD,關機後將PD進行抽換這是注意的行為...
slot number與原先不符就等於metadata與先前的完全不一致..
在LSI體系我看過2~3個案例都是這樣...
拔掉HDD插回去, VD掛掉...
因為metadata完全不一致, 順序都不同了...
怎麼可能一致??!..
OAR(Online Array Roaming)和ODR(Online Drive Roaming)盡量切勿衝突...
這有可能干涉metadata...

匹配性的操作盡量如下注意:
1. 盡可能不要破壞HDD的順序性, 因為這會牽涉到metadata的一致以及stripping的順序
2. 透過HSP操作rebuild完, metadata就100%保證不一致. 這時MIS就不能直接擺著跑下去(請不要偷懶.., 掛了幾乎沒有MIS有能力去算stripe的順序性...)..
應當盡可能找時間取得新的HDD替換原來故障的HDD, 這表示可能一段時間. RAID f/w會立即操作copyback..(SSD的copyback在LSI稱為SSD Guard..),
以匹配原始的metadata. 這種HSP操作稱為revertable HSP..
3. OAR(Online Array Roaming)是可以允許的, 這幾乎是商品的必要條件. 但是要注意一點. 替換HBA後, HDD的順序請與原先的一致
ex:
before===>after
s1 -> s1
s2 -> s2
4. ODR(Online Drive Roaming)是一種可以允許原先的HBA使HDD順序"亂"換重新在維護metadata...
但是切勿盡量與替換的HBA衝突, 因為這是OAR與ODR的衝突...
有可能觸發metadata非一致性..
近代RAID系統除了"某幾家"之外, 皆有提供NVSRAM的設計, 我印象adaptec和LSI應該都是32KB左右. 這個東西有幾種作用.
a. write-journaling以建立checkpoint. 這功能有時會發揮關鍵性的作用.
b. 存放metadata和config, 這裡的metadata用以維護VD上的metadata. 因此原先的HBA隨意替換順序, 應該都不受影響. 當然更換HBA情況就不同了...
c. block change tracking, LSI沒做這功能. adaptec我不太清楚..
d. h/w logging, it's very important!!....really......

..靠這個曾經拯救我好幾次..

關於bad srtipe部分, RAID f/w會盡可能操作scan和remapping(correcting)...
時常可能會進入deep scan的情況, 如果HDD對於ERC的容忍度幾乎為0...
沒多久就是kick-out...

bad stripe發生後, 有沒有可能後續修復..?
這是有可能的..
1. 直接CC和Media Scan, 看有沒有機會修復VD, 之後再進行替換...
2. 將bad block的HDD進行替換, 再做一次rebuild賭看看...

rebuild過後的bad stripe有時意謂某些情況(可能性的! 要看廠商有沒有做..)
有一種特殊的行為稱為刺穿, 當一個bad block在rebuild過程中發生時, 依然有辦法繼續進行下去.
對於parity RAID mode會是這樣做..
d?=p1 XOR d1 XOR d2 XOR d3 XOR ..dx XOR dy(bad->soft)..XOR dn
dy是一個bad block, 但是RAID f/w為了維持穩定性...
錯誤的dy依然會繼續操作下去..., 結果取出的d?就是錯的data block...
這種操作為了穩定性是不得已的(至少VD盡可能避免掛掉)...,
LSI在logging上會明顯標示這種行為性的發生...

以上純屬嘴砲.....

此文章於 2013-10-11 01:48 PM 被 vxr 編輯.

2013-10-11, 01:41 PM #33

shinnlu

Advance Member

加入日期: Jan 2003

文章: 335

引用:

作者左非

沒有哦，當初我找到的是dedicated server，un-managed.
其他東西都自己來，好像沒有提供每天原地備份的服務，這台server 是4年前租用的，當時好像提供這個服務的不多。
這幾天尋找新的代管商都有看到這個服務，還蠻便宜的，USD ＄25元，保留7天。

2013-10-11, 01:46 PM #34

signally

*停權中*

加入日期: Jan 2002

您的住址: 鳳形山下

文章: 159

引用:

作者Select_from

機器都會壞，密集排程備份+異地同步備援才是唯一的解

+系統負責人自己做備份～才是最保險的
最近剛遇到公司Raid掛掉3顆HDD，資料是有每天備可以還原到當天上午。
但系統環境最近的Image是2011年的！！
只有鼻子摸一摸花了一個晚上重新安裝、設定。
也幸好整個系統都是我一手拉拔起來的，要是中間有交接那就好玩了！

此文章於 2013-10-11 01:52 PM 被 signally 編輯.

2013-10-11, 01:50 PM #35

chaotommy

Elite Member

加入日期: Mar 2003

您的住址: Vancouver, Canada

文章: 15,006

引用:

作者vxr

..
向來我是西瓜餵大邊....

...
我摸過幾款, 但是我從來沒仔細玩這家的東西..
要知道記憶command是很累的事..

...

請問這個 bad strips 發生的原因是什麼？
是硬體故障還是操作不當？
最好的方式請他提供h/w log(不是event log喔...那東西我覺得沒啥好看的..)...
雖然我認為他們...

寫的很詳細
雖然我今生今世不會碰到
有空再慢慢啃

2013-10-11, 01:58 PM #36

shinnlu

Advance Member

加入日期: Jan 2003

文章: 335

引用:

作者vxr

..
向來我是西瓜餵大邊....

...
我摸過幾款, 但是我從來沒仔細玩這家的東西..
要知道記憶command是很累的事..

這......
我本來想跟他們吵一下，不過顯然這個領域不是我可以短時間讀得懂的
而且他們在操作的時候，我只能透過他的 support system 看到他回報的文字，那些文字都如實的打上來（1樓），對於這樣的情況我只有無奈和失望，畢竟對方是大公司，少了一個客戶他們也不會在乎，伺服器維修部門也只要依照 SOP 就安全下莊了

定期的操作我是不知道，h/w log 應該是要不到吧
感謝 vxr 兄的說明，不過太過專業了，而且對方是美國公司，我的英文程度排不上用場
我跟他們講到最後，他們一致地說：發生這樣的事情真很抱歉，但是你還是得要做 OS Reload，不然資料/陣列都不安全。
我是不知道您說的 OAR 和 ODR 會不會很複雜，但是顯然他們不想揹負這個風險，而要我自己想辦法。

對了，這家公司叫做 SoftLayer，本來不想幫他們打廣告的，如果有租用實體主機的人，在升級硬體這方面要小心一下。

2013-10-11, 02:15 PM #37

左非停權中加入日期: Feb 2003 您的住址: 台北不是我的家文章: 730	系統商原地備份，還是滿重要的。除了系統掛了要重裝方便及資料掛點還原時比異地備份快的多。不然幾十G、幾百G資料倒回去的時間，客戶或同事可能會狂要資料。恩！好在不是同一間代管公司。此文章於 2013-10-11 06:32 PM 被左非編輯.
2013-10-11, 06:30 PM #38

shinnlu

Advance Member

加入日期: Jan 2003

文章: 335

引用:

作者左非

系統商原地備份，還是滿重要的。
除了系統掛了要重裝方便及資料掛點還原時比異地備份快的多。

不然幾十G、幾百G資料倒回去的時間，客戶或同事可能會狂要資料。

恩！好在不是同一間代管公司。

真的很重要，我租用的時候他沒有提供這個服務，那時候好像沒有代管公司有提供這個服務
我今天去查了一下，SoftLayer 還是沒有提供原地備份的服務。
我當初還挑了一個和備份主機在同一個地方的 data center，上傳幾百G還是要很久，而且聽站上的網友說國外的 data plan 有頻寬限制？！！不知道會不會被網路公司關切。

可以提供給我您的代管公司嗎？
使用上感覺如何，速度如何？

2013-10-11, 10:12 PM #39

shinnlu

Advance Member

加入日期: Jan 2003

文章: 335

該死的客服人員，我今天問他們：別家公司都有提供 migration 或是原地備份的服務，你們沒辦法做嗎？
他才說他們有一個 EVault 的服務，可以自動備份系統/目錄/檔案，當然裸機還原也是可以的，害我這幾天忙著找新的代管找的要死。

目前先用這個功能把 bad strips 的問題解決，然後再慢慢地把Softlayer 解決。

如果各位有好的代管公司，也請提供給我。

2013-10-12, 11:49 PM #40

第4頁共5頁

« 上一主題 | 下一主題 »

POPIN

主題工具
顯示可列印版本傳送本頁給好友

發表文章規則
您不可以發起新主題您不可以回應主題您不可以上傳附加檔案您不可以編輯您的文章 vB 代碼打開表情圖示打開 [IMG]代碼打開 HTML代碼關閉

所有的時間均為GMT +8。現在的時間是02:23 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2026。