개요.
2010년 2월 부터 현재(2018년 12월1일) 까지 아무 문제없이 잘 사용하고 있었던 서버가 부팅시 재시작을 반복하면서 정상적인 부팅이 안되는 오류.
서버 모델명 : HP DL320 G6
오류증상 상세.
부팅 화면1.
아래 그림. 해당 서버 부팅시 아래와 같은 화면이 보인다. 오류의 핵심은 "Logical drive(s) disabled due to possible data loss" 즉 , 데이터 손실 가능성이 있어 논리 디스크를 디스에이블 시켰단다(누가 ? HP Smart Array 라는 넘이.. ). 해당 논리 디스크가 부팅용인 C:\ 인 것임.
화면상에서 2개의 선택을 하라는데 F1 을 누르면 논리 디스크 비활성화 된 상태에서 진행하든지,데이터 손실을 감수하고 F2 를 눌러서 논리 디스크를 다시 활성화 시켜서 진행하든지 ... 뭐 이 따위 선택만 제시하는거지? F2 누르면 디스크만 다시 살리고 데이터 다 날린다는 의미냐? 서버 제조업체가 이 따위 문구를 제시한다는게 황당할뿐이다.
부팅화면2.
위 화면 상태에서 어떤 서버 관리자가 F2를 누르겠냐? 이 단계에서 F1 누르면 아래 화면처럼 부팅은 시도 한다. 그런데 문제는 비활성화 된 디스크가 부팅용이니 정상 부팅이 될리가 없다.
부팅화면 3.
앞의 화면처럼 약 1분정도 부팅시도하다가 아래 화면이 나온다. 시스템 디스크가 없어서 4초이내 재시작 하겠다는 메시지다.
그리고는 4초 뒤에 재시작하고 다시 앞의 화면으로 시작해서 이 짓을 무한반복한다.
해결 과정.
단계1. HDD 불량점검 및 저장된 데이터 백업.
오류 발생한 논리 디스크에 해당하는 HDD 가 물리적 손상인지 점검하고 물리적 손상이 아닌 경우 데이터 부터 백업하고 이후 조치 진행한다.
방법.
본 서버의 설정인 경우 2개의 HDD 를 RAID1(미러링 모드) 로 설정하여 사용중이었고, 2개의 HDD 모두 분리하여 다른 PC에 연결하여 HDD가 정상적으로 인식되는지 여부 확인한다. 아래 사진은 문제 발생한 HDD 2개(본체의 왼쪽 2개) 중 1개 분리한 모습이다. 2개 모두 분리한다.
2개의 HDD 를 다른 PC에 연결하여 정상적으로 인식되는지? 파일과 폴더에 접근가능한지 확인.
본 예 에서는 착탈 편리한 외장형 HDD 도커 ( http://igotit.tistory.com/1942 ) 를 이용했다. (아래 사진)
다행히 HDD 는 정상적으로 인식되었고, 모든 파일들에 접근가능하였다. 해당 데이터들을 모두 다른 저장공간에 복사 해둔다.
팁. 윈도우 탐색기에서 복사하려고 하면 관리자 권한 어쩌구 하는 창 뜨면서 복사 실패하는 경우 허다하다 이 문제를 간단히 해결하기 이해서는 이 글 참조 할 것.
단계2. 서버다시 부팅하여 F2 눌러 논리 디스크 인에이블.
- 2개의 HDD 모두 물리적 고장이 아님을 확인했고, 데이터들 모두 복사해뒀으니 일단 안심.
- HDD 를 다시 서버에 연결하고, 부팅시켜서 아래 화면 나오면 F2 눌러서 논리 디스크 다시 활성화 시켜서 부팅 진행시킨다.
이후 논리디스크는 인에이블되어 부팅은 정상 진행된다.-아래그림.
- 이전 상태가 윈도우 실행중 비정상 종료되어 부팅팅옵션을 물어본다. 표준모드로 windows 시작 선택한다.
이후 체크 디스크 하겠다고 한다.
체크 디스크 2분이내 종료되고 윈도우 화면 진입했다. 아래그림.
현재 위와 같은 윈도우 진입 성공한것은 최소한 문제 발생한 HDD 의 2개의 파티션 C; D: 중 OS 설치된 C: 는 심각한 문제가 없음을 의미.
단계3. HDD 의 정상접근및 데이터 점검 및 재부팅하여 자동실행되는 CHKDSK 진행.
한편 윈도우 탐색기에서 D: 드라이브에 접근하려고 하면 손상되어 접근안된다는 메시지 보여주고 접근불가.
디스크 관리자에서 D 를 보면 파일 포맷이 기존 NTFS 가 정상인데.. RAW 로 되어있다.
이 단계에서 포기하고 D: 를 포맷하면 안된다.
일단 재부팅 시킨다.
재부팅하면 부팅과정중에 아래 같은 화면이 나옴.
문제 발생한 HDD 의 모든 파일들 security id 재설정 작업중이란다. CHKDISK 의 일부 기능 같다.
위 처리 완료 될때까지 기다림. 소요시간 : 약 2시간.
단계4. HDD 접근가능하고 데이터 살아있음 확인.
위 처리 이후 정상적으로 윈도우 진입했고, 이번엔 D 에 접근가능하고 내부에 있는 모든 파일들이 정상적으로 유지되어있음을 확인.
단계5. 다시 재부팅하여 자동 실행되는 CHKDSK 진행.
여기서, 안심하긴 이르다. 다시 재부팅 하여 다른 문제가 발생하는지 확인해본다.
부팅중에 자동으로 또 CHKDSK 로 진입하여 아래 화면에서 상당시간 유지된다. 이때 하드 디스크 LED를 보면 액세스 중인걸 알 수 있다. 또 완료될때까지 기다리다.
위 과정에서 뭔가 지우는 처리가 이뤄지면서 30분 정도 이후 윈도우 정상 진입함.
HDD 접근가능하고 데이터 살아있음 확인.
단계6. 또 재부팅.
이번엔 부팅과정중에 자동 진행되는 CHKDSK 실행되지 않고 바로 윈도우 운영체제 정상 실행되었으며 HDD 접근가능하고 모든 데이터 살아있음 확인함.
단계7. 주요 기능들 확인.
1. IIS WebServer : IIS 관리자 실행하여 보면 원래의 설정 유지되고 있음 확인.
2. MS SQL Server 2008 : MS SQL Server Management 실행해보면 DB 들 이전 상태 유지 확인.
3. DNS : DNS 관리자 실행하면 이전 설정 유지되고 있음.
4. 웹서버 접속 시험 : 타PC에서 웹접속 시도해보면 정상적으로 안보여주고 에러 500.19 페이지보여줌.
- 조치 상세 : http://igotit.tistory.com/1951 <- 이 조치 하고 나면 정상적으로 웹 접속가능하다.
5. 웹에서 연동중이었던 MS SQL 데이터 베이스 모두 정상적으로 데이터 보여주는것 확인완.
상기 단계7까지의 처리 과정으로 복구 완료됨. 휴...
결론.
1. 상기 조치로 복구는 완료되었으나 서버의 부팅 디스크 부분이 불안정해지면 이후 장기 지속 활용하기 어려운 상태.
2. 위 조치된 상태에서, 이후 사용은 가능하나 안전한 서버로 교체 전까지는 모든 데이터들의 백업을 빈번하게 수행한다.
3. 기타 : HP ProLiant 서버의 HDD RAID 컨트롤러에서 문제 발생한게 이번이 2번째 이다. 이것이 HP 서버의 하드웨어적 부실함은 아니길 기대한다.
4. 후속 안전 서버 마련 대안 : 직접 하드웨어 구축하지 않고 클라우드 서비스 도입 적극 검토해본다.
클라우드 예 : 알리바바 클라우드의 Elastic Computer Service 서비스 상세보기 : http://igotit.tistory.com/1790
///1941
'일반' 카테고리의 다른 글
윈도우 무비 메이커 ( Movie Maker ) 다운로드 설치 (0) | 2018.12.20 |
---|---|
IIS (Internet Information Service). 해결책. HTTP 오류 500.19 에러 0x80070005 (0) | 2018.12.06 |
FrameDesigner(프레임 디자이너). 알루미늄 프로파일 설계 툴 S/W. 무료 (0) | 2018.11.24 |
XDV. WiFi 액션캠 연동 앱. (0) | 2018.11.15 |
블루투스 동글(XU-400N) 에 완전무선이어폰(MB-W1500) 연결 (0) | 2018.09.18 |
댓글