Для ЦОД, особенно коммерческих, важно соответствие международным стандартам. В данном случае мы будем говорить только о тех стандартах или частях стандартов, которые относятся к службе эксплуатации ЦОД, не затрагивая аспекты строительства инфраструктуры, безопасности и т. д. Даже если вы не проходите официальную сертификацию, существуют еще и внутренние аудиты от клиентов ЦОД или внутренних служб, которые должны удостоверять, что эксплуатация выстроена правильно. Таким образом, целесообразно оценивать свою деятельность именно по существующим стандартам.
Для этого мы рассмотрим основные зарубежные и отечественные стандарты и нормативные документы, регламентирующие операционную деятельность ЦОД.
Стандарт американской консалтинговой компании Uptime Institute знаменит тем, что именно в нем излагается разработанная компанией и ставшая широко известной по всему миру классификация ЦОД по четырем уровням надежности (Tier), многократно повторенная позже в других стандартах.
Поскольку мы по ходу изложения будем упоминать эти уровни, напомним читателю об их сути и принципиальных отличиях.
• Tier I предполагает наличие базового набора элементов, позволяющего ЦОД выполнять свои функции;
• Tier II подразумевает наличие резервирования активных компонентов инфраструктуры (ДГУ, ИБП, чилеры, внутренние блоки системы кондиционирования и пр.);
• Tier III определяется такой топологией, которая позволяет проводить плановое обслуживание систем и любых их компонентов без прерывания работы ЦОД;
• Tier IV обеспечивает работоспособность ЦОД при любом единичном отказе в любой точке инфраструктуры.
С точки зрения эксплуатации ЦОД, Tier I и Tier II предполагают вынужденные остановки ЦОД на обслуживание, в то время как Tier III и Tier IV позволяют выполнять все необходимые работы по обслуживанию ЦОД без прерывания сервисов. Это обстоятельство, наряду со сравнительной простотой реализации ЦОД уровня Tier III по сравнению с Tier IV, обуславливает широкое распространение ЦОД уровня Tier III как в России, так и за рубежом.
Однако данный стандарт, излагая классификацию и принципы реализации ЦОД всех четырех уровней, никак не затрагивает подходы к эксплуатации и техническому обслуживанию ЦОД. Они описаны в другом стандарте Uptime Institute, о котором мы говорим далее.
На наш взгляд, это наиболее полный по содержанию документ, в общих принципах описывающий все аспекты эксплуатации ЦОД. Стандарт состоит из трех разделов: 1) Management and Operations («Управление и эксплуатация»); 2) Building Characteristics («Характеристики здания»); 3) Site Location («Место расположения здания»).
Первый раздел затрагивает следующие категории:
• подбор персонала и организация работ;
• обслуживание;
• обучение;
• планирование, координация и управление;
• условия эксплуатации.
Выполнение только первого раздела дает аттестацию Management and Operations (M&O), проводимую Uptime Institute. Второй и третий разделы требуются для прохождения полноценной сертификации Operational Sustainability («Эксплуатационная устойчивость») как завершающей части еще двух сертификаций: Design Documentation («Проектная документация») и Constructed Facility («Построенный объект»).
Второй раздел стандарта – Building Characteristics – также содержит требования к приемо-сдаточным испытаниям оборудования, что является неочевидным с точки зрения регламентирования этого требования. Наличие раздела Site Location также вызывает вопросы, так как на этапе оценки эксплуатационной устойчивости уже поздно оценивать само здание, хотя и можно учесть существующие риски природного, техногенного и антропогенного характера.
В данном стандарте не рассматриваются вопросы безопасности труда, пожарной защиты и физической безопасности.
Причина отсутствия регламента пожарных систем и безопасности труда у Uptime Institute достаточно логична – слишком много внутренних регуляторных документов внутри каждой страны для создания единого стандарта. По физической безопасности, вероятно, и так есть значительное количество других, профильных регламентирующих стандартов.
Можно утверждать, что при выполнении требований первой части стандарта (Management & Operations) в полном объеме бóльшая часть документов, описанных в этой книге, будет у вас готова в той или иной степени автоматически.
Следует также отметить, что стандарт описан достаточно общими понятиями, и это затрудняет его внедрение без специальной подготовки и консультаций, получения примеров и наработок из внешних источников.
Это группа стандартов от СENELEC[7] – Европейского комитета электротехнической стандартизации. EN в наименовании стандарта обозначает Europäische Normung (нем. «европейские нормы»). Тексты стандартов EN50600 рассматривают различные аспекты построения и эксплуатации ЦОД; непосредственно к эксплуатации в EN50600 относится часть 3–1, называемая Management and Operational Information.
Помимо вопросов, связанных с организацией эксплуатации и общих с предыдущим стандартом, в EN50600–3–1 немалое внимание уделено вопросам построения инфраструктуры, а значительная часть стандарта посвящена оценкам энергоэффективности (в соответствии с «зеленой» европейской повесткой) и содержит много информации по расчетам различных видов энергоэффективности, из которых нам традиционно знаком только PUE (Power Usage Effectiveness). В этом же стандарте мы можем увидеть расчеты не только PUE или WUE (Water Usage Effectiveness[8]), но и экзотические для нас REF (Renewable Energy Factor[9]) или CUE (Carbon Usage Effectiveness[10]).
В отличие от Uptime Institute, этот стандарт достаточно подробно рассматривает системы физической безопасности и организацию противопожарных систем.
В целом документ можно иметь под рукой как дополнительный чек-лист для самопроверки при подготовке эксплуатации ЦОД, так как здесь отражено то, что должно быть сделано, но не даются ответы на вопрос «как?».
Это стандарт, выпущенный в США профессиональной ассоциацией BICSI (The Building Industry Consulting Service International Inc., Международная консалтинговая служба в строительной отрасли) и аккредитованный Американским национальным институтом по стандартизации (ANSI).
Строго говоря, этот документ является не стандартом как таковым, а, как следует из его названия, best practices, то есть сборником методических указаний на основе практического опыта участников ассоциации BICSI. Этот американский отраслевой стандарт периодически упоминается в различных статьях. В основном он посвящен построению инфраструктуры ЦОД, хотя в нем есть и раздел, посвященный эксплуатации ЦОД. Ничего дополнительного по сравнению с вышеперечисленным этот стандарт не дает.
Чтобы полноценно осветить область управления и обслуживания ЦОД, BICSI выпустила стандарт 009. Этот документ уже непосредственно относится к эксплуатации ЦОД и рекомендуется к изучению теми, кто в этот процесс вовлечен. Внимание уделено не только повседневной жизни ЦОД – безопасности труда, хранению материалов, техническому обслуживанию, ведению документации, – но и другим, не менее важным аспектам жизнедеятельности ЦОД: организации физической безопасности, сервис-менеджменту, процессам для руководства ЦОД и пр. Отметим, что стандарт содержит достаточно конкретные указания и его можно использовать при организации процессов обслуживания ЦОД.
Тем не менее полным и всеобъемлющим этот стандарт также назвать нельзя. Например, из всего набора документации ЦОД в нем подробно описываются только процессы, связанные с аварийными процедурами, другая необходимая документация не указана. Очень подробно описаны процессы управления изменениями, хотя это область общеприменимого сервис-менеджмента, которую рассматривают и другие стандарты. Виртуализация и кибербезопасность, упоминаемые в стандарте, также излишни для подобного документа.
Стандарт, выпущенный отраслевой консалтинговой организацией EPI (Enterprise Products Integration). Представляет краткое описание процессов, которые должны быть организованы в ЦОД. Описание достаточно условное и по большей части ориентировано на процессы верхнего уровня – для менеджмента, без конкретных деталей. Стандарт можно использовать как общее описание процессов, которое хорошо сочетается с обучающими курсами (CDFOM – Certified Data Center Facilities Operations Manager, CDCS – Certified Data Center Specialist и др.) от этой же организации, содержащими много конкретных деталей и мелочей по каждому из пунктов.
Разработка Международной организации по стандартизации (The International Organization for Standardization, ISO[11]), посвященная вопросам строительства инфраструктуры ЦОД. Состоит из семи частей, каждая из которых относится к отдельному направлению построения ЦОД: общая концепция, строительство здания, распределение питания, климатика, телекоммуникации, безопасность и информация для менеджмента и управления. Интересующие нас процессы, связанные с организацией эксплуатации, находятся в последнем разделе. По содержанию практически полностью дублирует EN50600–3–1, описанный ранее[12].
Стандарты ISO выпускаются Международной организацией по стандартизации (The International Organization for Standardization, ISO) и имеют применение по всему миру. В частности, стандарт ISO 9001 был локализован и выпущен Росстандартом как российский государственный стандарт (ГОСТ Р).
Стандарт ISO 9001 «Система менеджмента качества» особенно распространен в производственном секторе и для индустрии ЦОД не является профильным. Тем не менее достаточно многие требования стандарта применимы и здесь.
В данном стандарте мы находим много общего с требованиями TS: OS от Uptime Institute, например:
• Раздел «Цели в области качества и планирование их достижения» можно отнести к контролю функционирования ЦОД в рамках KPI и других параметров жизнедеятельности, к постановке целей менеджменту по достижению и контролю задач.
• Раздел «Обеспечение» регламентирует наличие персонала, необходимой инфраструктуры, ресурсов для мониторинга параметров качества. Тут мы вспоминаем отчетности, BMS, датчики систем и т. д. Также регламентируется наличие базы знаний, доступной всем на объекте и регулярно обновляемой.
• В разделе «Компетентность» указаны требования к квалификации – точно так же, как и в требованиях TS: OS.
• Отдельный раздел посвящен ведению и обновлению документации и управлению ею. Это важный момент, ему уделяется одинаково много внимания как в зарубежных стандартах, так и в отечественных регламентах.
• Важный момент в 9001 – контроль выполнения качества работ поставщиками. Это одна из основных задач команды эксплуатации ЦОД.
• Естественно, требуются постоянное улучшение практик, выявление несоответствий и корректирующие действия.
• Как и в других стандартах ISO, требуется наличие регулярных внутренних аудитов, что действительно полезно для поддержания уровня компетентности сотрудников.
Можно сказать, что выполнение требований ISO 9001 хорошо дополнит стандарт TS: OS, так как здесь есть детальные указания по документации, работе с поставщиками и несоответствиями. Немаловажен и значительный объем совпадений с требованиями российской нормативной документации, необходимой для функционирования ЦОД.
Стандарт ISO 27001 «Информационная безопасность», на первый взгляд, к эксплуатации ЦОД применим мало. Традиционно этот стандарт, рассматривающий ИТ-безопасность и физическую безопасность, понимают как сборник требований, направленных на безопасность носителей информации и самой информации. На самом деле действие стандарта распространяется гораздо шире, в том числе и относительно эксплуатации.
Для понимания, почему информационная безопасность (ИБ) относится и к жизнедеятельности ЦОД, вспомним о том, что и понятие информационной безопасности, и оценка рисков исходят из трех составляющих CIA:
С – Confidentiality. Конфиденциальность, секретность. То, что обычно и связывают с информационной безопасностью.
I–Integrity. Целостность. Тут мы можем рассматривать как традиционное для ИБ резервное копирование, которое нужно проверить на корректность восстановления, так и целостность оборудования (физическая сохранность, отсутствие повреждений, работоспособность) ЦОД, которая должна обеспечиваться различными способами.
A – Availability. Доступность, или готовность. ГОСТ 27.102–2021 «Готовность (объекта): способность объекта выполнять требуемые функции в заданных условиях, в заданный момент или период времени при условии, что все необходимые внешние ресурсы обеспечены».
Для ЦОД это ключевое понятие, и именно оно позволяет утверждать, что этот стандарт имеет отношение к эксплуатации ЦОД, – вся его суть направлена на обеспечение максимальной доступности.
Помимо разделов, перечисленных в ISO 9001 и общих для всех стандартов по управлению осведомленностью, коммуникациями, документацией, анализом менеджмента и непрерывному улучшению, в ISO 27001 можно выделить следующие разделы:
• оценку рисков информационной безопасности. Для нас особо важны аспекты I и А;
• управление активами. Наличие и актуализация как складов, так и установленного оборудования имеет важное значение для ЦОД;
• оборудование. Размещение и защита оборудования, обслуживание оборудования, его утилизация. Один из подпунктов, «Служба обеспечения», гласит, что «оборудование должно быть защищено от перебоев в электроснабжении». Как мы видим, это уже напрямую описывает работу таких объектов, как ЦОД;
• отношения с поставщиками. Для ЦОД особенно важны безопасные отношения с поставщиками услуг, электроэнергии, топлива, подрядчиками по выполнению ТО. Безопасность тут может быть различная, от заключаемых SLA до наличия складов ЗИП на объектах;
• непрерывность информационной безопасности. Здесь мы опять вспоминаем про ключевой для ЦОД параметр Availability и всю деятельность службы эксплуатации, направленную на непрерывность работы ЦОД. В рамках этого стандарта традиционно подразумевается DRP (Disaster Recovery Plan[13]), но, если идти дальше, это будут также и тренировки, и документы по устранению аварийных ситуаций, и различные схемы резервирования оборудования.
«Управление непрерывностью бизнеса» – по названию наиболее подходящий под деятельность ЦОД стандарт ISO. После выполнения требований предыдущих двух стандартов имеет совсем немного добавлений, тем не менее важных для обеспечения непрерывности работы ЦОД.
Что добавилось сейчас, помимо вышеперечисленных общих частей?
• В Политике непрерывности бизнеса задекларировано, почему и каким образом мы будем защищаться от перерывов в работе (с точки зрения ЦОД основные риски – энергетика, охлаждение и т. д.).
• Оценка рисков организации уже требовалась для ISO 27001; здесь к ней добавляется Business Impact Analysis[14]. Что это дает с точки зрения эксплуатации? Например, у нас заканчивается мощность ДГУ, но они дорогие и нарастить их число в короткий срок невозможно. Вы вынуждены использовать резервный ДГУ в качестве основного. К чему может привести потеря резерва? Во время прерывания подачи электроэнергии на объекте и выхода из строя одного из ДГУ не будет достаточной мощности, чтобы поддержать ЦОД. Тут можно сопоставить стоимость дополнительной ДГУ и ту сумму штрафов, что мы заплатим за нарушение SLA, и понять, что приведет к большим затратам. Далее мы принимаем соответствующее решение: возможно, экономически целесообразнее будет иногда падать, то есть допускать отключение нагрузки.
• Также в стандарте описано, как реализовывать стратегию непрерывности работы. Все это будет являться составными элементами в ходе технического обслуживания, аварийных тренировок и деятельности по эксплуатации ЦОД в целом. Стандарт оперирует понятиями Business Continuity Plans[15], но это могут быть как DRP, так и противоаварийные мероприятия, сценарии и тренировки по пожаротушению, альтернативные контракты с поставщиками критических ресурсов и т. д.
• Добавлен раздел «Восстановление», касающийся действий после наступления каких-либо критических ситуаций.
• Раздел учений и тренировок. Ранее он не был выделен, но в этом стандарте он играет немаловажную роль. Значимость тренировок подчеркивается везде, особенно в TS: OS от Uptime Institute.
В целом, если вы планируете сертифицироваться по всем процессам в соответствии со стандартами ISO, мы бы предлагали делать это именно в приведенной последовательности, так как с каждым разом объем наработок, накопленных с прошлыми стандартами, будет все больше.
Важный нормативный документ, содержащий множество ранее перечисленных аспектов организации эксплуатации оборудования, аналогичных по своим требованиям международным стандартам.
Этот документ помогает организовывать процессы безопасной работы с персоналом ЦОД и подрядчиками в соответствии с требованиями российского законодательства. Он также имеет множество совпадений с требованиями международных стандартов.
В процессе нашей работы мы проходили множество внутренних и внешних аудитов, как международных сертификаций, так и проверок локальными инспекторами Ростехнадзора, и в результате отметили много общего в требованиях различных документов. Хотя они сформулированы несколько по-разному, но суть того, что хотят увидеть аудиторы, – одна. Мы пришли к выводу, что было бы очень удобно создать одну универсальную экосистему документации, позволяющую проходить любые применимые аудиты, от Ростехнадзора до Uptime Institute. Как это возможно? Мы приведем пример далее, разбирая, насколько схожи требования Uptime Institute и ПТЭЭП\ПОТЭЭ.
Как мы уже упомянули выше, требования действующих в России норм и правил часто полностью совпадают с требованиями сторонних стандартов. В большинстве случаев их можно объединить и выполнить одновременно.
На некоторые критические системы ЦОД нормы не распространяются (так называемые неподназдорные системы). Несмотря на это, в ЦОД огромный объем действительно критических факторов для обеспечения непрерывности оборудования. Поэтому далее по тексту книги мы будем постоянно переносить требования норм к электрооборудованию на все критическое оборудование, например на системы охлаждения.
Давайте осмыслим, адаптируем и применим такие требования ко всем критическим системам ЦОД.
Например, по ПТЭЭП (пункт 1.4.5.2) для допуска нового дежурного электрика к работе ему необходимо пройти:
• вводный/первичный инструктаж;
• стажировку в дневные часы под контролем опытного сотрудника[16];
• дублирование функций дежурного в смену под контролем опытного дежурного;
• проверку знаний (аттестацию) и получение допуска к самостоятельной работе;
• оформление всего вышеперечисленного приказами.
Давайте ответим на вопрос: с точки зрения надежности ЦОД чем дежурный электрик отличается от дежурного сотрудника, отвечающего за системы охлаждения (дежурный механик), или дежурного сотрудника, отвечающего за СКС (дежурный по ИТ/телеком-системам), или даже охранника, отвечающего за доступ в машинный зал ЦОД посетителей? Ответ: ничем. Ошибка любого из них может быть фатальной с точки зрения SLA.
Следовательно, к этим сотрудникам применимы аналогичные процессы предоставления допуска к самостоятельной работе. При этом в отношении электрика мы выполняем требования и норм, и стандартов, в отношении остальных – только требования стандартов.
Такой подход мы применяем к любым системам ЦОД. Читаем нормы и заменяем в них «электрооборудование» на «критическое оборудование». В итоге, во-первых, решается важная задача: пропадает необходимость ведения двойной документации – одной для Uptime Institute, второй для Ростехнадзора и пр.; во-вторых, применяется единый подход для всех остальных подразделений службы эксплуатации.
Давайте сравним, насколько похожи требования современного международного стандарта TS: OS от Uptime Institute и отечественных, вроде бы несовременных, существующих со времен СССР правил ПТЭЭП и ПОТЭЭ (Таблица 1). Для нас было удивительно при пошаговом сравнении увидеть столько совпадений.
Таблица 1
Сравнение требований современного международного стандарта TS: OS от Uptime Institute и отечественных правил ПТЭЭП и ПОТЭЭ
Мы видим множество совпадений, хотя и описанных по-разному, но имеющих одну суть. Кроме того, в обоих документах большое внимание уделено подготовке и допуску нового персонала к работе, что подчеркивает важность этого процесса. В отличие от стандарта TS: OS, в пунктах ПТЭЭП (1.4.11 и 1.4.14) указаны конкретные сроки подготовки, например четкие цифры длительности стажировок персонала. Процесс дублирования и стажировки в итоге занимает в сумме от 4 до 26 смен (стажировка 2–14 смен, дублирование 2–12 смен). При сменном режиме работы сутки через трое обучение нового сотрудника может занимать до 3 месяцев, хотя мы и не советуем так делать ввиду длительности процесса. В спорных ситуациях, например при аудитах и сертификации, рекомендуем использовать эти данные.
Также ПТЭЭП уделяет особое внимание разделу документации, повторяя эти требования почти в каждом разделе.
Основные отличия TS: OS от ПТЭЭП состоят в рассмотрении клининга и финансовых процессов, что обуславливается ориентацией первого из документов на ЦОД.
В целом, как видно из таблицы, ПТЭЭП практически совпадает в требованиях с TS: OS, что говорит о единстве требований в мировой практике. Мы рекомендуем рассматривать требования норм и проверку Ростехнадзора как одну из разновидностей сертификации и аудита, критически важную для ЦОД, но не противоречащую мировым практикам. Как мы писали выше, локальные нормы и правила должны стать базой для создания документации по лучшим практикам.
Еще раз отметим, что создание рекомендуемого нами объема документации позволит вам исполнить требования как отечественных норм и правил, так и многих международных стандартов.
В процессе создания и ведения документации самое главное – понимать, что инженеры ЦОД должны не только владеть знаниями о технологиях и оборудовании, используемых в ЦОД, но и знать принципы организации процессов и базовой документации ЦОД. Они должны иметь информацию, где находится документация, как ее применять, постоянно обновляя и совершенствуя свои знания. Это достигается регулярным обучением, тренировками и проверками знаний (аттестацией). Только в этих случаях риски отключений в ЦОД, вызванных человеческим фактором, будут сведены к минимуму.
Когда будет организована система документации на критические системы, ничто не мешает пойти дальше и построить аналогичные алгоритмы для других, уже некритических действий и систем, в итоге получив законченный комплекс эксплуатационной деятельности ЦОД.