Четыре девятки. Все о надежности ваших сайтов в датацентрах

Каждый руководитель интернет-проекта или другого бизнеса, работающего в сети Интернет, желает чтобы доступ к его ресурсам и серверам был всегда, непрерывно, 24 часа в сутки, 7 дней в неделю, 365 дней в году. В числе прочего он возлагает реализацию этого желания на дата-центр, в котором расположены его серверы. Однако реальность и законы природы выдвигают неизбежную аксиому: Дата-центров надежных абсолютно, на 100% - не бывает.  

 

Так или иначе абонентам дата-центров приходится прогнозировать и учитывать отказы, рассчитывать возможные потери и источники их компенсации, определять необходимость вложения дополнительных средств для увеличения надежности и заниматься тому подобными вещами, вызванными неидеальностью всего нашего мира и дата-центров в частности.

 

 

 

 

Причины отказов

В рамках этой статьи мы рассмотрим вопросы надежности дата-центров в смысле количественной оценки аварийных прерываний сервиса. Существует еще также и качественная оценка, например стабильность скорости каналов связи, точность поддержания климатических условий в серверных комнатах, но эти вопросы заслуживают отдельной большой статьи.

Существует два типа аварий, которые вызывают львиную долю отказов сервиса:

  • отказ сетей передачи данных - прерывание связности с Интернет;

  • прерывание электропитания.

     

Прерывания связности с Интернет случаются чаще, но такие прерывания обычно коротки, типичное время — 5...20 минут. Но самое главное, после восстановления работы сети все начинает работать как прежде, потому такие аварии не наносят сильного стресса руководителям и системным администраторам.

Прерывания электропитания — события более редкие, но куда более болезненные. Их типичное время составляет 20...120 минут. Отказ электропитания, независимо от его времени, приводит к необходимости повторной загрузки серверов, что удлиняет время простоя с точки зрения абонента. Кроме того, при аварийном выключении серверов часто страдают файловые системы, базы данных, настройки серверов. Все это еще больше удлиняет время простоя и вызывает головную боль системных администраторов, которым зачастую приходится вручную возвращать проект к нормальному функционированию.

 

Уровни надежности

Степень надежности — понятие относительное, но какая-то формальная шкала все же нужна. Для объективной оценки надежности часто обращаются к стандарту EIA/TIA-492, который хоть и ощутимо устарел, но является наиболее популярным документом в данном вопросе. Он определяет следующие уровни надежности:

 

Класс дата-центра

Время доступности сервиса

Суммарное время отказов за год

Tier IV

99,995%

26 минут

Tier III

99,982%

94 минуты

Tier II

99,749%

22 часа

Tier I

99,671%

29 часов

 

Коммерческие дата-центры, которые предлагают свои услуги за разумные деньги, попадают в большой интервал между II и III уровнем. На основе практической статистики можно сказать, что дата-центры c временем доступности, приближающимся к III уровню — очень надежны, к II уровню — недостаточно надежны.

В случае, если требуется надежность на уровне четырех девяток, то никакие коммерческие дата-центры ее предоставить не смогут, ни отечественные, ни зарубежные, ни дорогие, ни именитые. В этом случае разумным выходом будет создать распределенную или дублированную систему, сервера которой должны располагаться в разных и не связанных друг с другом дата-центрах.

К сожалению, большинство украинских дата-центров не публикует данные по своей надежности, хотя они и могут быть легко собраны независимыми внешними системами мониторинга.

 

Гарантии надежности

Кроме репутации дата-центра и честного слова менеджера по продажам существуют также и формальные гарантии надежности. За рубежом давно распространена практика предоставления так называемого SLA (Service Level Agreement, Соглашение об уровне услуг).

На Украине такие предложения, к сожалению, появились очень недавно, и практикуются считанными единицами дата-центров.

Общий смысл SLA заключается в том, что дата-центр заявляет определенные граничные значения надежности и описывает размер материальной компенсации абоненту в случае выхода за заявленные параметры.

SLA как понятие может иметь различные документальные формы, например:

а) отдельный договор или приложение к договору. Это наилучший вариант, так как все условия прописаны наиболее явным образом и документ имеет подписи обоих сторон;

б) принципы SLA могут содержаться в тексте типового договора. Такой вариант также неплох, но требует внимательного изучения текста длинного договора;

в) принципы SLA могут содержаться в тексте Регламента или Правилах предоставления услуг, которые должны присутствовать у любого серьезного провайдера;

Кроме того, независимо от формы, в принципах SLA можно встретить множество условий, например, компенсация может начисляться не автоматически, а только по факту обращения абонента. Также практически всегда ограничена максимальная величина компенсации.

В любом случае, гарантии можно считать существующими если количественно описаны две вещи: уровень надежности и размер материальной компенсации за его несоблюдение.

 

Атрибуты надежности

Надежность дата-центров в большей частью определяется не видимыми атрибутами, а инженерной культурой и профессионализмом сотрудников, причем они могут влиять как положительную, так и в отрицательную стороны.

Однако в определенной степени о надежности можно судить и по видимым извне атрибутам. Такими атрибутами могут являться:

  • открыто публикуемая цифра времени доступности (uptime);

  • наличие типового SLA;

  • наличие резервного генератора, нескольких вводов электропитания, параллельное включение нескольких источников питания и т.п.;

  • несколько внешних каналов как на физическом так и на логических уровнях, двойные соединения в опорной сети, несколько центральных маршрутизаторов и коммутаторов;

  • готовность дата-центра все это продемонстрировать.

 

Последний пункт в этом списке не случаен. Как гласит народная инженерная мудрость: «Лучше один раз потрогать, чем сто раз увидеть, и, соответственно, в десять тысяч раз лучше, чем услышать». Для дата-центров эта мудрость имеет особое значение.

 

 

Автор: Алексей Акулов, руководитель Дата-центра ВОЛЯ

В сети Интернет данный материал опубликован впервые.

SocButtons v1.5

Комментарии  

 
+1 #2 Алексей Акулов 04.01.2010 19:18
За все время существования:
площадка на Киквидзе, 1/2 - около 99,97%
площадка на Семьи Сосниных, 13Б - около 99,98%
Цитировать
 
 
-1 #1 slon 24.12.2009 13:18
Интересно, а какой uptime в датацентре воли, если не секрет?
Цитировать
 

Добавить комментарий

Обращайтесь к посетителям сайта так, как вы хотите чтобы они обращались к вам

Защитный код
Обновить

Допрос

Сколько вы готовы платить за качественный интернет для личного пользования 100 Мбит/c на загрузку и отдачу?

Вы здесь: Главная Пресса Четыре девятки. Все о надежности ваших сайтов в датацентрах