RAID (redundant array of independent/inexpensive disks) – избыточный массив независимых жестких дисков. Обеспечивает отказоустойчивость, в случае повреждения одного из дисков.
Сферой применения RAID – массивов являются, как правило, системы хранения данных и сервера. В последнее время, благодаря развитию информационных технологий, доступность применения RAID – массивов получили и обычные пользователи. Однако используя столь сложную систему необходимо понимать принципы ее функционирования, основным из которых является надежность этой системы.
Целью данной статьи является не описание внутренней структуры и принципа работы RAID – массивов, а попытка построить простую вероятностную модель надежности некоторых выбранных уровней. Для этого нам понадобятся некоторые знания из курса теории вероятности и основы математического анализа.
Отмечая, что применение RAID находит, как правило, в серверных системах. Мы будем исследовать надежность не самой серверной системы, так как, это достаточно сложный механизм и требует построения сложной математической модели, а возьмем набор жестких дисков работающих вместе и оценим надежность самого RAID - массива.
Существуют разные уровни RAID, приведем наиболее распространенные:
RAID 0 - выход из строя одного жесткого диска разрушает всю систему;
RAID 1 - выход из строя всех жестких дисков разрушает всю систему;
RAID 5 - выход из строя двух жестких дисков разрушает всю систему;
RAID 6 - выход из строя трех жестких дисков разрушает всю систему.
Установим ряд условностей, при которых рассчитывается вероятность выхода из строя RAID-массива. Жесткие диски (далее HDD) мы считаем, обладают одинаковой вероятностью выхода из строя. Пусть вероятность выхода из строя HDD, в течение заданного интервала времени (например: в течение года), равна . Тогда его вероятность противоположного состояния оставаться в работоспособном состоянии равна . RAID 0
Для первого примера возьмем простейший RAID, а именно RAID 0 (Striping) построенный на двух HDD. Найдем вероятность того, что RAID 0 выйдет из своего работоспособного состояния, а иными словами, распространенными в среде системных администраторов, развалится. Обозначим интересующее нас событие буквой . Дополнительно обозначим независимые события:
- выход из строя первого HDD;
- выход из строя второго HDD;
- первый HDD в работоспособном состоянии;
- второй HDD в работоспособном состоянии.
Соответственно вероятности этих событий равны:
(1) (2)
Вероятностное пространство работы RAID 0 в течение времени, для которого верны вероятности работы его жестких дисков, состоит из 4-х несовместимых событий:
- RAID 0 в исправном состоянии;
- RAID 0 не работает, по причине выхода из строя первого HDD;
- RAID 0 не работает, по причине выхода из строя второго HDD;
- RAID 0 не работает, по причине выхода из строя обоих HDD.
Следовательно,
(3)
Интересующее нас событие , выход из строя RAID 0, наступает в следующих случаях: , , .
Искомая вероятность равна
В силу (3) следует, что
Из теоремы умножения и (2) находим, что
Пример: Пусть вероятность выхода из строя HDD в течение года равняется 3%. Найдем вероятность разрушения RAID 0. Ответ: Вероятность разрушения RAID 0 равняется 5,91%.
RAID 1
Следующим распространенным RAID массивом в вероятностных исследованиях возьмем RAID 1(Mirroring), построенный на двух HDD. Воспользуемся ранее введенными обозначениями событий и построим вероятностное пространство работы RAID 1:
- RAID 1 в исправном состоянии;
- RAID 1 в рабочем состоянии, но вышел из строя первый HDD;
- RAID 1 в рабочем состоянии, но вышел из строя второй HDD;
- RAID 1 не работает, по причине выхода из строя обоих HDD.
Интересующее нас событие , выход из строя RAID 1, наступает в случае .
Следовательно:
Пример: Пусть вероятность выхода из строя HDD в течение года равняется 3%. Найдем вероятность разрушения RAID 1. Ответ: Вероятность разрушения RAID 1 равняется 0,09%.
RAID 5
Рассмотрим первоначально RAID 5 созданный на 3-х HDD. После этого выведем общую формулу для RAID 5 созданного на HDD.
Вероятностное пространство работы RAID 5 на 3-х жестких дисках:
- RAID 5 в исправном состоянии;
- RAID 5 в рабочем состоянии, но вышел из строя первый HDD;
- RAID 5 в рабочем состоянии, но вышел из строя второй HDD;
- RAID 5 в рабочем состоянии, но вышел из строя третий HDD;
- RAID 5 не работает, по причине выхода из строя двух HDD;
- RAID 5 не работает, по причине выхода из строя двух HDD;
- RAID 5 не работает, по причине выхода из строя двух HDD;
- RAID 5 не работает, по причине выхода из строя трех HDD;
Как видно интересующее нас событие , разрушение RAID 5, наступает при выходе из строя любых двух HDD + при выходе из строя трех HDD. Два диска из трех можно выбрать способами, а три из трех можно выбрать способами. Дополнительно учитывая, что
Искомая вероятность равна
Рассмотрим общий случай RAID 5 созданного на HDD. Используя вышеприведенный пример видно, что массив не работоспособен, если из строя выйдут любые два HDD, три HDD, четыре HDD … HDD.
Вероятность события равна:
(4)
Из основ математического анализа нам известно, что
, где (5)
Учитывая (4) и (5) получаем,
(6)
Пример: Пусть вероятность выхода из строя HDD в течение года равняется 3%. Найдем вероятность разрушения RAID 5 на трех HDD. Ответ: Вероятность разрушения RAID 5 равняется 0,26%.
RAID 6
Для RAID 6 справедливы те же, рассуждения что и для RAID 5. Отличие составляет только то, что RAID 6 считается разрушенным при выходе трех HDD.
Следовательно, искомая вероятность равна:
(7)
Из (5) и (7) получаем:
Пример: Пусть вероятность выхода из строя HDD в течение года равняется 3%. Найдем вероятность, разрушения RAID 6 на четырех HDD. Ответ: Вероятность разрушения RAID 6 равняется 0,01%.
ИТОГИ: На основании построенных вероятностных моделей начального уровня, пользователь, работающий с RAID масивом, может для себя приблизительно оценить надежность используемой системы. Приблизительно, потому что реально работающая компьютерная система состоит из большего количества компонент, вероятность выхода из строя которых не учитывалась. Следует дополнительно отметить, что в математическую модель не входит самая сложная для анализа и самая весомая для оценки компонента, а именно человеческий фактор. Исходя из вышеизложенного материала, мы получаем для оценки нижнюю планку вероятности потери данных в исследуемой системе.