![]() |
||
Advance Member
![]() ![]() 加入日期: Jan 2003
文章: 334
|
引用:
這是天災,我覺得我的是人禍 引用:
已經有備份了,只是不爽他說 OS Reload 說的很容易,他按一個 OS Reload,我就要忙了很久,也不提供搬遷的辦法,所有的責任都和他沒關係,他都照著 SOP 去做了 引用:
我們的資料有做異地備援,但是不包含整個系統,所以要從零開始還是蠻麻煩的 引用:
vxr 兄,我一直在等你哦~ 我知道你對這方面有很深入的研究 請問這個 bad strips 發生的原因是什麼? 是硬體故障還是操作不當? 他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。 |
|||||||||||
![]() |
![]() |
*停權中*
加入日期: Feb 2003 您的住址: 台北不是我的家
文章: 730
|
當初沒請代管公司,做原地備份資料嗎?
前一陣子公司,也是代管的server出問題。 服務常當,請代管檢查,說硬碟有問題要更換。 更換完又檢查出陣列卡太舊跟新硬碟相容有問題。 林老師咧,搞到後面跟本是換硬碟、換raid care、raid重做。 好在當時,公司有跟代管付費每天原地備份的服務, 所以整個還原回去花的時間還可以接受,至少也不用重新設定= = 我這就最多每月、每週異地備份一些比較重要的資料就好。 此文章於 2013-10-11 12:47 PM 被 左非 編輯. |
||
![]() |
![]() |
Elite Member
加入日期: May 2002 您的住址: 地球的上面..
文章: 5,854
|
![]() 引用:
"他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。" 其實行為上太過草率... 當然這有可能是很多MIS的標準操作... 那個換個方向思考.. 他們在進行替換之前都在幹甚麼??... 定期的維護計畫呢??? 對方有沒有進行定期的操作..? 1. CC 2. Disk Scrubbing(Media Scans or Patrol Read..) 敢做有無能力看h/w log??? 解析sense code?? 從你的截圖來看應當是adaptec體系... 我對這體系的產品幾乎不熟... ![]() 向來我是西瓜餵大邊.... ![]() 我摸過幾款, 但是我從來沒仔細玩這家的東西.. 要知道記憶command是很累的事.. ![]() 請問這個 bad strips 發生的原因是什麼? 是硬體故障還是操作不當? 最好的方式請他提供h/w log(不是event log喔...那東西我覺得沒啥好看的..)... 雖然我認為他們可能拿不出來或著不願意提供(HBA都被換掉了..)... 可能有一種情況可以解釋... bad block先前就存在了... 只是RAID f/w操作的過程中剛好被掃到... "他一開始更新韌體的時候先把硬碟拔掉,更新完發現卡有問題,換一塊卡之後發現一顆硬碟失效,rebuild 之後就有 bad strips 了。" 我不太清楚更新硬體幹嘛要把HDD全拔了??.. 對adaptec的core IP這麼沒自信??? ![]() 一種可能的情況... 建好的VD,關機後將PD進行抽換這是注意的行為... slot number與原先不符就等於metadata與先前的完全不一致.. 在LSI體系我看過2~3個案例都是這樣... 拔掉HDD插回去, VD掛掉... 因為metadata完全不一致, 順序都不同了... 怎麼可能一致??!.. OAR(Online Array Roaming)和ODR(Online Drive Roaming)盡量切勿衝突... 這有可能干涉metadata... 匹配性的操作盡量如下注意: 1. 盡可能不要破壞HDD的順序性, 因為這會牽涉到metadata的一致以及stripping的順序 2. 透過HSP操作rebuild完, metadata就100%保證不一致. 這時MIS就不能直接擺著跑下去(請不要偷懶.., 掛了幾乎沒有MIS有能力去算stripe的順序性...).. 應當盡可能找時間取得新的HDD替換原來故障的HDD, 這表示可能一段時間. RAID f/w會立即操作copyback..(SSD的copyback在LSI稱為SSD Guard..), 以匹配原始的metadata. 這種HSP操作稱為revertable HSP.. 3. OAR(Online Array Roaming)是可以允許的, 這幾乎是商品的必要條件. 但是要注意一點. 替換HBA後, HDD的順序請與原先的一致 ex: before===>after s1 -> s1 s2 -> s2 4. ODR(Online Drive Roaming)是一種可以允許原先的HBA使HDD順序"亂"換重新在維護metadata... 但是切勿盡量與替換的HBA衝突, 因為這是OAR與ODR的衝突... 有可能觸發metadata非一致性.. 近代RAID系統除了"某幾家"之外, 皆有提供NVSRAM的設計, 我印象adaptec和LSI應該都是32KB左右. 這個東西有幾種作用. a. write-journaling以建立checkpoint. 這功能有時會發揮關鍵性的作用. b. 存放metadata和config, 這裡的metadata用以維護VD上的metadata. 因此原先的HBA隨意替換順序, 應該都不受影響. 當然更換HBA情況就不同了... c. block change tracking, LSI沒做這功能. adaptec我不太清楚.. d. h/w logging, it's very important!!....really...... ![]() 關於bad srtipe部分, RAID f/w會盡可能操作scan和remapping(correcting)... 時常可能會進入deep scan的情況, 如果HDD對於ERC的容忍度幾乎為0... 沒多久就是kick-out... bad stripe發生後, 有沒有可能後續修復..? 這是有可能的.. 1. 直接CC和Media Scan, 看有沒有機會修復VD, 之後再進行替換... 2. 將bad block的HDD進行替換, 再做一次rebuild賭看看... rebuild過後的bad stripe有時意謂某些情況(可能性的! 要看廠商有沒有做..) 有一種特殊的行為稱為 刺穿, 當一個bad block在rebuild過程中發生時, 依然有辦法繼續進行下去. 對於parity RAID mode會是這樣做.. d?=p1 XOR d1 XOR d2 XOR d3 XOR ..dx XOR dy(bad->soft)..XOR dn dy是一個bad block, 但是RAID f/w為了維持穩定性... 錯誤的dy依然會繼續操作下去..., 結果取出的d?就是錯的data block... 這種操作為了穩定性是不得已的(至少VD盡可能避免掛掉)..., LSI在logging上會明顯標示這種行為性的發生... 以上純屬嘴砲..... ![]() 此文章於 2013-10-11 01:48 PM 被 vxr 編輯. |
|
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jan 2003
文章: 334
|
引用:
沒有哦,當初我找到的是dedicated server,un-managed. 其他東西都自己來,好像沒有提供每天原地備份的服務,這台server 是4年前租用的,當時好像提供這個服務的不多。 這幾天尋找新的代管商都有看到這個服務,還蠻便宜的,USD $25元,保留7天。 |
|
![]() |
![]() |
*停權中*
加入日期: Jan 2002 您的住址: 鳳形山下
文章: 159
|
引用:
+系統負責人自己做備份∼才是最保險的 最近剛遇到公司Raid掛掉3顆HDD,資料是有每天備可以還原到當天上午。 但系統環境最近的Image是2011年的!! 只有鼻子摸一摸花了一個晚上重新安裝、設定。 也幸好整個系統都是我一手拉拔起來的,要是中間有交接那就好玩了! 此文章於 2013-10-11 01:52 PM 被 signally 編輯. |
|
![]() |
![]() |
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Mar 2003 您的住址: Vancouver, Canada
文章: 15,006
|
引用:
寫的很詳細 雖然我今生今世不會碰到 有空再慢慢啃 |
|
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jan 2003
文章: 334
|
引用:
這...... 我本來想跟他們吵一下,不過顯然這個領域不是我可以短時間讀得懂的 而且他們在操作的時候,我只能透過他的 support system 看到他回報的文字,那些文字都如實的打上來(1樓),對於這樣的情況我只有無奈和失望,畢竟對方是大公司,少了一個客戶他們也不會在乎,伺服器維修部門也只要依照 SOP 就安全下莊了 定期的操作我是不知道,h/w log 應該是要不到吧 感謝 vxr 兄的說明,不過太過專業了,而且對方是美國公司,我的英文程度排不上用場 我跟他們講到最後,他們一致地說:發生這樣的事情真很抱歉,但是你還是得要做 OS Reload,不然資料/陣列都不安全。 我是不知道您說的 OAR 和 ODR 會不會很複雜,但是顯然他們不想揹負這個風險,而要我自己想辦法。 對了,這家公司叫做 SoftLayer,本來不想幫他們打廣 告的,如果有租用實體主機的人,在升級硬體這方面要小心一下。 |
|
![]() |
![]() |
*停權中*
加入日期: Feb 2003 您的住址: 台北不是我的家
文章: 730
|
系統商原地備份,還是滿重要的。
除了系統掛了要重裝方便及資料掛點還原時比異地備份快的多。 不然幾十G、幾百G資料倒回去的時間,客戶或同事可能會狂要資料。 恩!好在不是同一間代管公司。 此文章於 2013-10-11 06:32 PM 被 左非 編輯. |
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jan 2003
文章: 334
|
引用:
真的很重要,我租用的時候他沒有提供這個服務,那時候好像沒有代管公司有提供這個服務 我今天去查了一下,SoftLayer 還是沒有提供原地備份的服務。 我當初還挑了一個和備份主機在同一個地方的 data center,上傳幾百G還是要很久,而且聽站上的網友說國外的 data plan 有頻寬限制?!!不知道會不會被網路公司關切。 可以提供給我您的代管公司嗎? 使用上感覺如何,速度如何? |
|
![]() |
![]() |
Advance Member
![]() ![]() 加入日期: Jan 2003
文章: 334
|
該死的客服人員,我今天問他們:別家公司都有提供 migration 或是原地備份的服務,你們沒辦法做嗎?
他才說他們有一個 EVault 的服務,可以自動備份 系統/目錄/檔案,當然裸機還原也是可以的,害我這幾天忙著找新的代管找的要死。 目前先用這個功能把 bad strips 的問題解決,然後再慢慢地把Softlayer 解決。 如果各位有好的代管公司,也請提供給我。 |
![]() |
![]() |