雲和恩墨副總經理,Oracle ACE總監,ACOUG 聯合創始人張樂奕
今天有客戶的資料庫意外被刪除了整個目錄中的數據文件,作業系統級別的刪除,然而幸運的是這個資料庫沒有崩潰,仍然處於 open 狀態的時候,客戶就發現了問題,求助到我們,最終完整地恢復了所有數據文件。
在 Linux 下大致重新演示一下恢復的過程,恢復的步驟與資料庫版本沒有太大關係,與作業系統的不同會有所不同。
1. 在資料庫 open 的時候,直接刪除 users 表空間中的數據文件。
2. 嘗試在 users 表空間中創建表,開始報錯。
在告警日誌中,同樣也可以看到類似信息。
3. 檢查 dbwr 的進程 PID
4. dbwr 會打開所有數據文件的句柄。在 proc 目錄中可以查到,目錄名是進程 PID,fd 表示文件描述符。
注意其中「/app/oracle/oradata/ORCL/datafile/o1_mf_users_555wrj4o_.dbf (deleted)」字樣,表示該文件已經被刪除,如果是 Solaris 作業系統,ls 命令不會有如此清晰的顯示,為了在 Solaris 系統中確認哪個句柄對應哪個文件,則需要使用 lsof 程序。
5. 直接 cp 該句柄文件名回原位置。
6. 進行數據文件 recover
完成數據文件恢復。
恢復的原理是,在 Linux 作業系統中,如果文件從作業系統級別被rm掉,之前打開該文件的進程仍然持有相應的文件句柄,所指向的文件仍然可以讀寫,並且該文件的文件描述符可以從 /proc 目錄中獲得。但是要注意的是,此時如果關閉資料庫,則此句柄會消失,那麼除了掃描磁碟進行文件恢復之外就沒有其它方法了,因此在資料庫出現問題的時候,如果不確認情況的複雜程度,千萬不要隨便關閉資料庫。重啟資料庫往往是沒有意義的,甚至是致命的。
當然,客戶的作業系統是Solaris,並且客戶刪除的文件還包括 current online redo log,因此還有其它更複雜的操作,不在這裡描述