Dự đoán độ tin cậy của ổ cứng bằng S.M.A.R.T

Trong năm 1992 , IBM bắt đầu tung ra thị trường những ổ đĩa cứng 3.5 inch mà có thể dự đoán lỗi của chúng .

Những ổ đĩa này được trang bị PFA ( Predictive Failure Analysis - Phân tích dự đoán lỗi ) , công nghệ này được IBM phát triển đo một cách định kì những thuộc tính của những ổ đĩa được chọn như : độ cao của đầu từ tới mặt đĩa ... và gửi những tin tức cảnh báo khi đạt tới mức giới hạn ngưỡng nào đó bị vượt qua . Kỹ thuật của PFA đã được chấp nhận và đó là những kỹ thuật ban đầu cho SMART ( Self-Monitoring, Analysis and Reporting Technology) - Công nghệ tự theo dõi , Phân tích và Thông báo . SMART đã trở thành chuẩn công nghiệp để dự đoán độ tin cậy cho những ổ cứng IDE và SCSI .

 Có hai loại lỗi trên ổ cứng : Không thể đoán trước được và Có thể đoán trước được . Những lỗi không thể dự đoán được xảy ra rất nhanh và không có hành động báo trước được . Những lỗi này có thể do nguyên nhân mạch điện hỏng , hỏng điều khiển hoặc do những vấn đề mối hàn liên quan tới nhiệt độ và không thể dự đoán hoặc phòng tránh được . Trong thực tế , 60% lỗi của ổ đĩa là thuộc về cơ khí , thường là do sự thoái hoá dần của hiệu suất làm việc của ổ đĩa . Những vùng quan trọng bao gồm :

 

  • Lắp ráp giữa những đầu từ : Đầu từ bị nứt , bị gãy , bị bẩn , bị cộng hưởng từ , kết nối với bảng mạch kém , hư hỏng .
  • Motor : Motor bị lỗi , bị mòn , chạy quá mức cho phép , không quay , hư hỏng .
  • Bảng mạch điện tử : Chip hoặc mạch điện bị lỗi , điểm kết nối tới ổ bị hư hỏng .
  • Đĩa từ : Trầy xước , khiếm khuyết , lỗi ECC , hư hỏng .

 

Có những cuộc khảo sát tỉ mỉ nhiều năm và cho phép những nhà thiết kế có khả năng tạo ra những sản phẩm có độ tin cậy cao hơn và còn có khả năng dự đoán những thiết bị bị lỗi .Qua nghiên cứu và theo dõi những nhiệm vụ chính , những ngưỡng làm việc liên quan tới những lỗi sắp có thể xảy ra và dựa vào những kiểu như vậy mà SMART có thể đưa ra những cảnh báo tới người dùng về những nguy cơ trên chính ổ cứng đang làm việc .

 Cấu trúc ổ cứng khác nhau trong cùng một nhà sản xuất cũng khác nhau , do đó những ổ đĩa có sử dụng SMART dùng kỹ thuật khác nhau để theo dõi dữ liệu có sẵn .

Ví dụ : ổ SMART có thể theo dõi chiều cao của đầu từ trên mặt đĩa từ trong quá trình làm việc . Nếu đầu từ bắt đầu bay quá cao hoặc quá thấp , đó chính là nguyên nhân làm cho ổ cứng có thể bị lỗi . Những ổ khác có thể theo dõi những điều kiện khác hoặc thêm vào một số tham số khác như mạch điện ECC ( Mã sửa chữa lỗi - Error Correction Code ) trên ổ cứng hoặc tỉ lệ lỗi mềm . Khi nghi ngờ lỗi sắp xảy ra , ổ đĩa sẽ gửi tín hiệu báo động qua hệ điều hành tới ứng dụng để hiển thịi thông báo trên màn hình .

 Đầu từ đâm vào mặt đĩa là một trong những kiểu lỗi ổ cứng thảm khốc nhất - khi mà chiều cao mà đầu từ bay trên bề mặt của đĩa sẽ giảm một cách đều đặn theo năm tháng bởi vì đó là nguyên nhân để tăng mật độ dữ liệu được ghi trên đĩa trên một diện tích với mục đích tăng dung lượng của ổ cứng ( Ổ cứng có dung lượng càng lớn thì chiều cao giữa đầu từ bay trên bề mặt đĩa ngày càng giảm ) là nguy cơ cho việc đầu từ đâm vào bề mặt của đĩa ngày càng tăng . Thật là may mắn khi điều khó không xảy ra , khi mà chiều cao này thường là một trong những tham số nguy hại nhất cho độ tin cậy của ổ cứng mà ngày càng giảm một cách đều đặn , thì kỹ thuật dùng để dự đoán đầu từ đâm vào bề mặt của đĩa lại ngày càng tiến bộ và công cùng phức tạp .

 Không chỉ có việc đầu từ bay quá thấp như trên là nguy cơ đâm vào bề mặt đĩa , mà còn liên quan tới việc đầu từ làm nhiệm vụ ghi lại cao hơn chỉ số cho phép , thậm trí chỉ trong một chù kì ngắn , vì lúc đó từ trường không đủ để ghi một cách tin cậy lên bề mặt của đĩa . Điều này được cho là “ Ghi bay cao “ .

 Va đập bên ngoài , rung động trong quá trình vận chuyển , những lỗi của đĩa từ hoặc do bẩn có thể gây nguyên nhân trên . Nguyên nhân lỗi mềm trong những hiện tượng trên có thể khôi phục được , những những lỗi cứng thì không thể .

 Chiều cao của đầu từ bay trên mặt đĩa được điều khiển bởi hệ thống treo ( Suspension ) gắn trên thanh trượt ( Slider ) gồm có Đầu từ ghi và Phần đệm khí của thanh trượt . Hệ thống khí động lực này điều khiển sự thay đổi độ cao bằng cách thay đổi thanh trượt theo những vị trí trên bề mặt của đĩa từ . Sự di chuyển ngang của đầu từ giữa những vòng bên trong và bên ngoài của đĩa là nguyên nhân thay đổi tốc độ và dễ làm thay đổi độ cao. Công nghệ hiện nay ưu tiên việc thiết kế Phần đệm khí để sự thay đổi tốc độ mà tạo ra sự thay đổi “hai thành một “ nhưng độ cao của nó không bị thay đổi . Tuy nhiên thiết kế Phần đệm khí hiện nay , sự thay đổi này có thể giảm độ cao xuống rất nhiều lần - khoảng cách giữa đầu Đọc/Ghi tới bề mặt của đĩa từ thong thường bằng vài phần triệu của inch cỡ 1.2 micro-inch . Sẽ có một vài điều kiện như : độ cao , nhiệt độ và độ bẩn - mà có thể làm ảnh hưởng giữa Đệm khí và bề mặt đĩa và đó là nguy cơ tiềm ẩn của việc thay đổi độ cao .

 

 

\"\"

 Việc theo dõi nhiệt độ đã được giới thiệu trong những tính năng của SMART gần đây , được thiết kế để cảnh báo nguy cơ phá hỏng ổ cứng khi nhiệt độ tăng lên quá cao trong quá trình hoạt động . Trong ổ cứng cả mạch điện và thành phần cơ khí như : Motor , lõi điện từ ... có thể ảnh hưởng tới sự tăng nhiệt độ quá mức .

 Nhiều SMART bổ sung bằng cách sử dụng những bộ cảm biến nhiệt để nhận biết điều kiện môi trường mà ảnh hưởng tới độ tin cậy của ổ đĩa bao gồm : nhiệt độ bao quanh , tốc độ luồng khí làm mát , điện áp và sự rung động ... và được đưa ra cho người dùng để cảnh báo khi nhiệt độ vượt quá khả năng cho phép - thông thường trong khoảng từ 60-65°C .

 Ngoài ra còn nhận biết một số những điều kiện lỗi khác , những triệu chứng thông thường và những nguyên nhân khác nhau mà có thể theo dõi và dự đoán trước được : Quá nhiều Sector bị lỗi , chạy quá đảo , lỗi mềm quá nhiều , Motor và những phần đệm bị lỗi , không kết nối ổ đĩa , vị trí Motor bị sai , Đầu từ lỗi ....

\"\"

 

Màn hình thông báo trên do S.M.A.R.T đưa ra nhắc nhở người dùng nên sao lưu dữ liệu và thay thế ổ cứng Quantum Fireball lct10 khác do phát hiện ra có khả năng bị hỏng .

Tất nhiên người dùng có thể chưa thay ngay và vẫn có thể tiếp tục làm việc nhưng có khả năng sắp bị hỏng .

 Nói tóm lại , công nghệ SMART được phát triển qua ba giai đoạn . Ban đầu SMART là đặc biệt và cung cấp dự báo lỗi bằng cách theo dõi theo chu kì khi ổ đĩa hoạt động . Phiên bản tiếp theo nâng cấp dự báo lỗi bằng cách thêm việc đọc tự động và quét để theo dõi những hoạt động phụ khác . Công nghệ SMART cuối cùng không chỉ theo dõi ổ cứng lúc đang hoạt động mà còn cố gắng ngăn chặn những lỗi tiềm tàng xảy ra để nhận biết và sửa chữa những Sector lỗi . Như vậy với phiên bản đầu tiên của SMART chỉ theo dõi ổ cứng lúc đang hoạt động và dữ liệu có thể được khôi phục thông qua hệ điều hành thì phiên bản cuối cùng của SMART kiểm tra tất cả dữ liệu và tất cả Sector của ổ đĩa để khẳng định tình trạng hoạt động của ổ đĩa trong cả quá trình cả khi nó bị lỗi .

  

 \"\"