Четыре девятки. Все о надежности ваших сайтов в датацентрах
Каждый руководитель интернет-проекта или другого бизнеса, работающего в сети Интернет, желает чтобы доступ к его ресурсам и серверам был всегда, непрерывно, 24 часа в сутки, 7 дней в неделю, 365 дней в году. В числе прочего он возлагает реализацию этого желания на дата-центр, в котором расположены его серверы. Однако реальность и законы природы выдвигают неизбежную аксиому: Дата-центров надежных абсолютно, на 100% - не бывает.
Так или иначе абонентам дата-центров приходится прогнозировать и учитывать отказы, рассчитывать возможные потери и источники их компенсации, определять необходимость вложения дополнительных средств для увеличения надежности и заниматься тому подобными вещами, вызванными неидеальностью всего нашего мира и дата-центров в частности.
Причины отказов
В рамках этой статьи мы рассмотрим вопросы надежности дата-центров в смысле количественной оценки аварийных прерываний сервиса. Существует еще также и качественная оценка, например стабильность скорости каналов связи, точность поддержания климатических условий в серверных комнатах, но эти вопросы заслуживают отдельной большой статьи.
Существует два типа аварий, которые вызывают львиную долю отказов сервиса:
-
отказ сетей передачи данных - прерывание связности с Интернет;
-
прерывание электропитания.
Прерывания связности с Интернет случаются чаще, но такие прерывания обычно коротки, типичное время — 5...20 минут. Но самое главное, после восстановления работы сети все начинает работать как прежде, потому такие аварии не наносят сильного стресса руководителям и системным администраторам.
Прерывания электропитания — события более редкие, но куда более болезненные. Их типичное время составляет 20...120 минут. Отказ электропитания, независимо от его времени, приводит к необходимости повторной загрузки серверов, что удлиняет время простоя с точки зрения абонента. Кроме того, при аварийном выключении серверов часто страдают файловые системы, базы данных, настройки серверов. Все это еще больше удлиняет время простоя и вызывает головную боль системных администраторов, которым зачастую приходится вручную возвращать проект к нормальному функционированию.
Уровни надежности
Степень надежности — понятие относительное, но какая-то формальная шкала все же нужна. Для объективной оценки надежности часто обращаются к стандарту EIA/TIA-492, который хоть и ощутимо устарел, но является наиболее популярным документом в данном вопросе. Он определяет следующие уровни надежности:
Класс дата-центра |
Время доступности сервиса |
Суммарное время отказов за год |
Tier IV |
99,995% |
26 минут |
Tier III |
99,982% |
94 минуты |
Tier II |
99,749% |
22 часа |
Tier I |
99,671% |
29 часов |
Коммерческие дата-центры, которые предлагают свои услуги за разумные деньги, попадают в большой интервал между II и III уровнем. На основе практической статистики можно сказать, что дата-центры c временем доступности, приближающимся к III уровню — очень надежны, к II уровню — недостаточно надежны.
В случае, если требуется надежность на уровне четырех девяток, то никакие коммерческие дата-центры ее предоставить не смогут, ни отечественные, ни зарубежные, ни дорогие, ни именитые. В этом случае разумным выходом будет создать распределенную или дублированную систему, сервера которой должны располагаться в разных и не связанных друг с другом дата-центрах.
К сожалению, большинство украинских дата-центров не публикует данные по своей надежности, хотя они и могут быть легко собраны независимыми внешними системами мониторинга.
Гарантии надежности
Кроме репутации дата-центра и честного слова менеджера по продажам существуют также и формальные гарантии надежности. За рубежом давно распространена практика предоставления так называемого SLA (Service Level Agreement, Соглашение об уровне услуг).
На Украине такие предложения, к сожалению, появились очень недавно, и практикуются считанными единицами дата-центров.
Общий смысл SLA заключается в том, что дата-центр заявляет определенные граничные значения надежности и описывает размер материальной компенсации абоненту в случае выхода за заявленные параметры.
SLA как понятие может иметь различные документальные формы, например:
а) отдельный договор или приложение к договору. Это наилучший вариант, так как все условия прописаны наиболее явным образом и документ имеет подписи обоих сторон;
б) принципы SLA могут содержаться в тексте типового договора. Такой вариант также неплох, но требует внимательного изучения текста длинного договора;
в) принципы SLA могут содержаться в тексте Регламента или Правилах предоставления услуг, которые должны присутствовать у любого серьезного провайдера;
Кроме того, независимо от формы, в принципах SLA можно встретить множество условий, например, компенсация может начисляться не автоматически, а только по факту обращения абонента. Также практически всегда ограничена максимальная величина компенсации.
В любом случае, гарантии можно считать существующими если количественно описаны две вещи: уровень надежности и размер материальной компенсации за его несоблюдение.
Атрибуты надежности
Надежность дата-центров в большей частью определяется не видимыми атрибутами, а инженерной культурой и профессионализмом сотрудников, причем они могут влиять как положительную, так и в отрицательную стороны.
Однако в определенной степени о надежности можно судить и по видимым извне атрибутам. Такими атрибутами могут являться:
-
открыто публикуемая цифра времени доступности (uptime);
-
наличие типового SLA;
-
наличие резервного генератора, нескольких вводов электропитания, параллельное включение нескольких источников питания и т.п.;
-
несколько внешних каналов как на физическом так и на логических уровнях, двойные соединения в опорной сети, несколько центральных маршрутизаторов и коммутаторов;
-
готовность дата-центра все это продемонстрировать.
Последний пункт в этом списке не случаен. Как гласит народная инженерная мудрость: «Лучше один раз потрогать, чем сто раз увидеть, и, соответственно, в десять тысяч раз лучше, чем услышать». Для дата-центров эта мудрость имеет особое значение.
Автор: Алексей Акулов, руководитель Дата-центра ВОЛЯ
В сети Интернет данный материал опубликован впервые.
Комментарии
площадка на Киквидзе, 1/2 - около 99,97%
площадка на Семьи Сосниных, 13Б - около 99,98%