Advance Member
|
GitLab工程師熬夜工作誤刪300GB資料,備份機制全失效、只剩「透明度」值得嘉許
引用:
https://www.bnext.com.tw/article/42...ontent=20170203
廣受軟體工程師歡迎的開源程式碼管理工具GitLab,於UTC時間1月31日發生員工誤刪主要資料庫的大型事故、且所有備份機制都失效。所幸,目前資料庫已回復完成,但仍有6小時左右、超過700名用戶的資料遺失。
據《The Register》報導,事情發生在UTC時間1月31日,一名位於荷蘭、徹夜加班且疲憊不堪的系統管理員,在維護資料庫時,誤刪了正式環境資料,而當他回過神來、取消「rm -rf」刪除指令時,原有300GB的資料被刪到只剩4.5GB。
不過最令人意外的是,GitLab的5個備份機制都出問題,包含每24小時執行一次的LVM快照和常規備份、S3、Azure中的磁碟快照(只能用於NFS伺服器、而非資料庫伺服器)和同步備份。幸運的是,他們在臨時伺服器發現一份事件發生前6小時前的備份,好讓他們得以回復資料。
整起事件唯一值得稱讚的或許只有GitLab的透明度,他們在官方Twitter、Google Doc、官網上即時更新事件說明,甚至在YouTube直播工程師搶修過程,還開放網友提問。其中,有網友問到肇事工程師是否會因此被裁員,GitLab回答它們僅是一次工作失誤,不會因此裁掉他們。
此外,他們也不隱瞞事故發生原因,將原因推託給硬體故障、或是外部入侵等,直接公布就是人為操作失誤。
|
5種備份全失效的機率有多低?
|