Прежде всего мы должны установить и определить, что такое служба эксплуатации ЦОД.
Служба эксплуатации – это ключевое структурное подразделение ЦОД, команда которого, эксплуатируя инженерное оборудование и системы согласно действующим нормам, правилам и стандартам, обеспечивает предоставление услуг заранее определенного уровня.
Многие считают, что служба эксплуатации отвечает в ЦОД за все. Это, конечно же, не так. Служба эксплуатации отвечает за работу критически важных инженерных систем, список которых приведен в соответствующей главе. Важно понимать, что служба эксплуатации не отвечает за сети передачи данных (за исключением прокладки и коммутации кабелей) и серверное оборудование с программным обеспечением (за исключением подачи электричества и охлаждения).
Служба эксплуатации ЦОД вообще может не представлять, какие именно данные обрабатываются на серверах, размещенных в ЦОД (особенно актуально для коммерческих ЦОД), но должна понимать совместно с клиентом, что необходимо обеспечить, чтобы эти сервера работали.
В действующем Своде правил (СП) «Здания и сооружения. Правила эксплуатации. Основные положения» можно найти достаточно верное определение службы эксплуатации:
Служба эксплуатации зданий (сооружений) обеспечивает самостоятельно или с привлечением специализированных организаций выполнение комплекса работ по эксплуатационному контролю и обслуживанию зданий (сооружений):
• участие при вводе в эксплуатацию здания (сооружения) с правом визирования документов;
• взаимодействие с организациями, выполняющими монтажные и пусконаладочные работы…;
• поддержание эксплуатационных показателей строительных конструкций зданий (сооружений)…;
• эксплуатационный контроль и обслуживание систем инженерно-технического обеспечения…;
• круглосуточное диспетчерское обслуживание систем инженерно-технического обеспечения и коммуникаций…;
• эксплуатация производственного оборудования…;
• при необходимости создание собственной службы по обеспечению работ по устранению аварийных ситуаций и своевременный вызов аварийных служб в случае невозможности ликвидировать аварийную ситуацию собственными силами;
• исполнение нормативных актов, нормативных документов и технической документации по эксплуатации собственными силами или с привлечением сторонних организаций;
• ведение технической эксплуатационной документации, в том числе внесение изменений, возникших при эксплуатации объекта…;
• взаимодействие с подрядными организациями и контроль их работы;
• работы по уборке и благоустройству территории…[22]
Несмотря на то, что здесь описывается служба эксплуатации зданий, по своей сути ее задачи не отличаются от службы эксплуатации ЦОД. Забегая вперед, можно сказать, что тут указаны почти все аспекты деятельности ЦОД, которые будут раскрыты далее.
В свою очередь, европейский стандарт EN50600–3–1 эту же задачу выражает более емко одной фразой:
The aim… is to keep the data center at the status of normal operations[23].
Давайте попробуем сформулировать основные задачи, характерные для ЦОД:
• Предоставление потребителям услуг определенного уровня согласно SLA/OLA.
• Организация постоянно совершенствующихся процессов эксплуатации согласно действующим нормам, правилам и международным стандартам.
• Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов.
Наверняка вы можете назвать и другие задачи; ниже мы приводим аргументы, почему мы в качестве задач выбрали именно эти.
Предоставление услуг клиентам согласно SLA
Данная задача является «вершиной пирамиды» работы службы эксплуатации. Клиенты должны получать услуги с параметрами, прописанными в договоре.
Для расстановки приоритетов внутри службы эксплуатации на случай устранения нескольких одновременных инцидентов можно разделять критичность различных параметров SLA. Например, краткосрочное отключение электропитания стойки, очевидно, намного критичнее долгосрочного незначительного превышения уровня влажности, хотя с формальной точки зрения ЦОД должен предоставить именно те уровни сервиса, которые прописаны в договоре, независимо от их критичности для оборудования клиента. Именно за нарушение SLA с клиентами руководители и сотрудники службы эксплуатации ЦОД должны лишаться премий или увольняться в первую очередь, и, напротив, их нужно поощрять за отсутствие таких нарушений. Подробнее об этом написано в главах «Мотивация и KPI» и «Потребители услуг ЦОД и важность SLA».
Организация процессов эксплуатации
По действующим нормам и правилам
Это классическая задача для службы эксплуатации любого предприятия. Мы работаем в правовом поле, требующем от нас соблюдения правил электробезопасности, пожарной безопасности, охраны труда и т. п. Сотрудники должны быть обучены и аттестованы исходя из требований к эксплуатируемому оборудованию, документация должна вестись надлежащим образом. Если этого не происходит, есть риск получения законных претензий со стороны контролирующих органов, от штрафов до приостановки деятельности. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны надзорных органов.
Так как задача организации процессов службы эксплуатации согласно нормам и правилам – типовая для любого предприятия, то она должна быть на 100 % качественно выполнена службой эксплуатации, а требования норм и правил рассматриваются как необходимый минимум для безопасного и качественного построения всех остальных процессов эксплуатации.
По требованиям международных стандартов и best practice[24]
Опыт показывает, что соблюдение норм и правил – только фундамент для организации процессов. Дальше необходимо выбрать ту модель построения процессов службы эксплуатации, которая обеспечит требуемую надежность. Данная модель определяет экосистему документации и процессов, их взаимосвязь между собой. При этом важно избежать двойной документации, совместив документацию «для норм» с документацией для best practice. Служба эксплуатации всегда должна быть готова пройти любой аудит со стороны независимых аудиторов.
На данный момент общепринятой эффективной best practice моделью является Method of Procedure (MOP). Если изучить его историю, то становится понятно, что данный метод не придуман специально для ЦОД, а пришел из других, более старых объектов критической инфраструктуры, в частности, с морского флота. Далее мы очень подробно рассмотрим все аспекты этого метода.
Раскрытие всего потенциала инженерных систем и рациональное расходование ресурсов
Пункт 1.2.2 ПТЭЭП[25] обязывает: «Потребитель обязан обеспечить учет, рациональное расходование электрической энергии и проведение мероприятий по энергосбережению».
Пункт 1.5.1 ПТЭЭП гласит: «Система управления электрохозяйством Потребителя электрической энергии… должна обеспечивать: …эффективную работу электрохозяйства путем совершенствования энергетического производства и осуществления мероприятий по энергосбережению».
В распоряжении службы эксплуатации ЦОД находятся высокотехнологичные инженерные системы с заложенной в них избыточностью (резервированием). Грамотно выстроив процессы эксплуатации необходимо использовать этот, заложенный в системы, потенциал, для недопущения влияния аварий единичного оборудования на итоговый уровень SLA перед клиентами.
Любое оборудование имеет оптимальные параметры работы, при которых соблюдается баланс между эффективностью и износом. Если откинуть пафос слов о природе и глобальном потеплении, нужно просто помнить, что в руках службы эксплуатации ЦОД находится условный нагревательный прибор, мощность которого измеряется в мегаваттах. Незначительными настройками оборудования и режимов его работы, даже без влияния на надежность, можно легко варьировать мощность этого нагревательного прибора в разумных пределах. А если помнить, что таких нагревательных приборов в мире все больше и больше, то становится очевидным, что режимы работы оборудования должны быть выбраны таким образом, чтобы обеспечивать требуемую надежность, но при этом не расходовать лишнюю энергию.
Перед началом непосредственного использования объект нужно построить, протестировать и сдать в эксплуатацию. Чтобы переход от построения ЦОД к эксплуатации был максимально гладким и организованным, а уровень сервиса – высоким с первых дней работы ЦОД, требуется участие службы эксплуатации на всех этапах создания ЦОД, начиная с написания технического задания. Надо учитывать, что служба эксплуатации не обладает таким опытом, как проектные организации, сдающие по несколько ЦОД в год, но тем не менее она определяет важные нюансы, которые улучшат или облегчат функционирование ЦОД в дальнейшем.
Поэтому крайне важно начинать формировать службу эксплуатации еще до начала работ по проектированию ЦОД, чтобы иметь свою внутреннюю команду для контроля выполнения задач проектировщиками. Эта команда будет максимально заинтересована в получении результата – ведь именно ей в дальнейшем придется эксплуатировать данный ЦОД.
Какие задачи будут выполняться на начальном этапе:
* Значение аббревиатур SCP, SOP, MOP, EOP будет объяснено далее по тексту.
После того как ЦОД построен, он проходит пусконаладочные работы и приемо-сдаточные испытания, которые являются начальной точкой эксплуатации и предваряют дальнейшее повседневное управление ЦОД. Собственно пусконаладочные работы, испытания и сдача ЦОД в эксплуатацию (commissioning) состоят из нескольких достаточно широко известных этапов, которые, в частности, предлагает Uptime Institute:
1. Заводское тестирование производителем критически важного инженерного оборудования (Factory Acceptance Test, FAT, или Factory Witness Test, FWT).
Может быть проведено как в присутствии представителя команды эксплуатации, так и без него, с приложением результатов заводского тестирования к комплекту документов.
2. Получение, установка и предварительное функциональное тестирование критически важного инженерного оборудования (Installation Acceptance Test, IAT).
Получение, первичная установка оборудования, оценка комплектности и соответствия спецификации, проверка правильности монтажных работ в соответствии с проектом.
3. Функциональное тестирование, автономное тестирование критически важного инженерного оборудования и начальная конфигурация предварительного пуска системы (Component Test, CT).
Настройка и тестирование оборудования.
4. Запуск системы, ОЕМ-тестирование и индивидуальное тестирование систем (Site Acceptance Test, SAT).
Испытания конкретного оборудования по соответствующей программе, с нагрузкой и без.
5. Интегрированные эксплуатационные испытания (Integrated Site Acceptance Test, ISAT).
Комплексные испытания всех систем ЦОД одновременно на расчетную нагрузку.
Важно понимать, что все эти стадии приемки оборудования в эксплуатацию происходят не только во время начала работы ЦОД, но и при всех последующих расширениях различных систем.
В процессе создания ЦОД каждый должен выполнять свою роль. Часто между проектировщиками и службой эксплуатации возникают споры из-за технических решений. И на самом деле споры – это хорошо. Если люди готовы слушать аргументы, то в спорах рождается лучшее решение.
Ниже опишем некоторые часто встречающиеся примеры из нашей практики, неочевидные для проектировщиков и жизненно важные для эксплуатации и потребителей услуг ЦОД.
Требования к внешнему электроснабжению
Зачастую заказчики и проектировщики пытаются повысить надежность проектируемого ЦОД путем ужесточения требований к внешнему электроснабжению. В результате напрасно расходуется время на поиски площадки с возможностью выделения двух независимых городских вводов электричества для обеспечения первой или второй категории надежности энергоснабжения[26], при этом подключение по более высокой категории оплачивается по повышенным ставкам (технологическое присоединение по второй категории надежности будет значительно дороже по сравнению с третьей). Кроме того, срок технологического присоединения увеличится, так как для присоединения по более высокой категории потребуется больше времени на проектирование, согласование проекта в Ростехнадзоре и получение разрешительных документов. При этом подходящие площадки, имеющие только один ввод внешнего электроснабжения, отвергаются априори.
Однако если открыть стандарт Tier Standard: Topology (TS: T) компании Uptime Institute, то мы увидим в пункте 2.5, что «энергогенерирующие системы площадки (например, двигатель-генераторы, топливные элементы) рассматриваются в качестве основного источника электроснабжения ЦОД. Местная электрическая сеть является экономичной альтернативой…».
Далее, если мы обратимся к статье «Система классификации Tier: мифы и заблуждения»[27], то узнаем, что, «согласно стандарту Tier Standard: Topology, единственным надежным источником электропитания для ЦОД является генераторная установка. Это связано с тем, что электроснабжение подвержено незапланированному отключению даже в местах с надежными электросетями. Число внешних фидеров, подстанций и электросетей, к которым подключен ЦОД, не определяет его уровень Tier и никак не влияет на него. Как следствие, подключение к электросети общего назначения даже не требуется для сертификации».
К этому выводу можно было прийти и самостоятельно, просто внимательно прочитав определение категорий электроснабжения в Правилах устройства электроустановок (ПУЭ).
ПУЭ, п. 1.2.19. Электроприемники первой категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания, и перерыв их электроснабжения при нарушении электроснабжения от одного из источников питания может быть допущен лишь на время автоматического восстановления питания.
ПУЭ, п. 1.2.20. Электроприемники второй категории в нормальных режимах должны обеспечиваться электроэнергией от двух независимых взаимно резервирующих источников питания. Для электроприемников второй категории при нарушении электроснабжения от одного из источников питания допустимы перерывы электроснабжения на время, необходимое для включения резервного питания действиями дежурного персонала или выездной оперативной бригады.
В приведенных пунктах ПУЭ мы видим две важные вещи:
А) В обоих случаях источники должны быть взаимно резервирующими, а это те источники, на которых, согласно ПУЭ, п. 1.2.10, «сохраняется напряжение в послеаварийном режиме в регламентированных пределах при исчезновении его на другом или других источниках питания», то есть резерв источников должен быть 2N. Не следует путать это резервирование с двумя линиями от одной подстанции (резерв линий 2N). Наличие резерва 2N по линиям от одного источника, например от ДГУ, вполне логично, так как позволяет обслуживать одну линию без выведения всего комплекса ДГУ из работы. Наличие двух линий от городской подстанции тоже имеет смысл, так как позволит вам не переходить на ДГУ при обслуживании одной из этих линий. Но две линии от одного источника – это все равно третья категория надежности.
Б) Время пропадания электричества равно времени ручного переключения для второй категории и времени автоматического переключения – для первой. При этом в обоих случаях пропадание допустимо и время этого переключения не нормировано, хотя, скорее всего, предполагается, что время ручного переключения исчисляется в минутах (а может, и в часах), а автоматического – в секундах, если другое явно не указано в договоре на электроснабжение. Теперь представьте себе, что электроснабжающая организация согласится добавить себе в договор дополнительные временны́е обременения и, естественно, штрафы за их неисполнение, а они равны штрафам, которые клиенты выставят ЦОД. Считаете ли вы такое развитие событий вероятным?
Подведем итог:
При любой категории внешнего электроснабжения надо понимать, что его безотказная работа находится не в вашей зоне ответственности. Другое дело – всецело принадлежащий вам источник электроснабжения (чаще всего это ДГУ). За его состояние и работоспособность несет ответственность служба эксплуатации, то есть вы сами.
Согласно Uptime Institute Tier Standard: Topology (TS: T), п. 2.5, «перебои в электрической сети (внешней) считаются не аварийной ситуацией, а ожидаемым рабочим условием, к которому площадка полностью подготовлена». Подготовить площадку к такому событию возможно путем проведения плановых работ по переключению на локальные источники генерации электричества и обратно с целью убедиться в надежной работе такого переключения. Однако, по нашему опыту, во многих ЦОД опасаются производить настоящее отключение внешнего электроснабжения для тестирования ДГУ, а следовательно, и тестирования всей энергосистемы в комплексе, считая, что такое переключение может пройти со сбоями и повлиять на сервисы, предоставляемые клиентам. Тем не менее без регулярного проведения таких полноценных запусков ДГУ быть уверенным в безотказной работе ЦОД не представляется возможным.
В результате мы видим, что, с точки зрения стандарта Tier Standard: Topology, категория электроснабжения ЦОД никак не влияет на уровень надежности ЦОД, а служба эксплуатации ЦОД может рассчитывать только на источники электричества, находящиеся в собственном управлении ЦОД (чаще всего это ДГУ), и должна быть всегда готова к вероятному отключению внешних источников электроснабжения, которые рассматриваются как вспомогательные. Однако это утверждение не отменяет положительного влияния на надежность, которое дает наличие двух взаиморезервирующих вводов электроснабжения площадки от одного источника энергии или подстанции. Эту схему нельзя называть второй категорией электроснабжения, так как источник один, но она позволяет сохранять электроснабжение площадки при аварии или обслуживании снабжающих площадку линий, ячеек, трансформаторов.
При наличии одной кабельной линии вся нагрузка будет запитана только через нее. Получается единая точка отказа: это либо трансформатор, либо кабельная линия, либо вводной автомат. При отказе одного из этих элементов потребуется долгосрочный и дорогостоящий ремонт, а вы все это время будете вынуждены работать от собственных источников – ДГУ. В итоге использование двух независимых кабельных линий – это хорошо, но дорого. Однако стоит понимать, что при выборе второй или первой категории надежности стоимость подключения возрастает минимум в два раза относительно присоединения по третьей категории надежности. Ведь для энергоснабжения по первой или второй категории необходимы два источника питания, а присоединение к каждому из них стоит примерно одинаково.
Мощности ЦОД на стадии запуска
К сожалению, не всем очевидно, что ЦОД не запускается на полную мощность сразу же. Поэтому к выбору оборудования следует подходить очень осознанно. Следует выбирать оборудование с таким расчетом, при котором КПД будет наиболее эффективным при поэтапном увеличении мощности ЦОД. Это достигается за счет постепенного наращивания единиц оборудования. Согласно рекомендациям производителей, для обеспечения стабильной работы, например ДГУ, нагрузка на нее не должна быть ниже 30 % номинальной мощности. Режим работы на пониженной нагрузке является неблагоприятным и грозит выходом из строя двигателя, так как при нагрузке ниже 30 % происходит неполное сгорание топлива в камере, что в итоге приводит к выходу из строя форсунок двигателя и неполадкам в поршневой группе.
Для проведения ПНР рекомендуем использовать специальные нагрузочные модули, имитирующие полную проектную ИТ-нагрузку ЦОД. Тем самым нагружается вся технологическая цепочка ЦОД: ДГУ – ГРЩ – ИБП – система распределения электропитания – система охлаждения потребителей ЦОД.
Рис. 1. Применение нагрузочных модулей
Нагрузочные модули лучше брать в аренду, а не покупать для постоянного использования. После запуска ЦОД у вас будет свой нагрузочный модуль – это работающий ЦОД, а проверка систем резервного электроснабжения будет осуществляться путем планового отключения основного источника электроснабжения, что опять же позволит протестировать всю технологическую цепочку систем ЦОД. Не следует бояться такого способа тестирования ЦОД, ведь именно он продемонстрирует работоспособность всего оборудования при возникновении реального отключения питания, которого может не происходить годами.
«Грязная зона» разгрузки
В ЦОД доставляется множество грузов, водители автомобилей и грузчики попадают на территорию ЦОД, посещают туалет и просто прогуливаются около автомобиля. Для упрощения процессов контроля и снижения рисков от присутствия посторонних лиц имеет смысл выделить «грязную зону» в виде разгрузочного тамбура, в котором будет гостевой туалет, кулер, место для отдыха и т. п. В этом случае не потребуется проводить процедуры оформления доступа для водителей и грузчиков.
Достаточная зона разгрузки
Проектировщики не всегда предусматривают достаточно большие однообъемные площади для складирования оборудования, стоек и т. п. Представим себе: в ЦОД приехало оборудование для двух холодных коридоров[28], например 50 стоек, к ним 8 кондиционеров и 2 ИБП для расширения. Вы заняли все пространство склада (если оно вообще способно это вместить), а к вам приехали клиенты с еще одной фурой оборудования и не имеют возможности разгрузиться.
«Грязная зона» входной группы
Аналогично с парадной стороны ЦОД есть входная зона, куда приходят потенциальные клиенты, простые посетители и курьеры. Многие посетители проводят здесь совещания и деловые встречи. Нет смысла устанавливать для этой входной зоны регистрацию посетителей или какой-то особый пропускной режим, но далее из этой зоны через полноростовой турникет в ЦОД должны попадать только авторизованные посетители. Удобно организовать во входной зоне несколько переговорных, кафетерий, туалеты, стойку охраны.
Пороги в противопожарных дверях
Часто проектировщик не думает об удобстве персонала, который потом будет эксплуатировать ЦОД, и выбирает самые дешевые двери с порогами, мешающими свободно перемещать тележки с ИТ-оборудованием. На самом деле существуют модели дверей без порогов, что очень сильно упрощает жизнь дежурных и клиентов в будущем.
Размеры коридоров (холодного или горячего) в серверных комнатах и количество дверей
Многие связывают этот вопрос с пожарными рисками, расчет которых часто допускает установку одной двери в довольно длинном ряду стоек. Это неверно. По нашему опыту, в коридоре обязательно должно быть две двери и максимум 12 стоек в ряду. Почему не более 12 в ряд? Чтобы не получился слишком большой путь от пятой-шестой стоек для работы с задней стороны стойки. Почему два выхода? В противном случае посетители и персонал будут вынуждены проделывать очень долгий путь от фасада самой дальней стойки к ее задней части. А в случае проведения работ в холодном коридоре в первой стойке выдвинутый и разобранный сервер сразу же блокирует весь остальной доступ.
Резервирование подъемных механизмов
У вас когда-нибудь ломался лифт? Вы оценивали преимущества наличия второго? Так и в ЦОД часто используются различные подъемные площадки для доставки оборудования на уровень фальшпола. Если одна сломалась или находится на техническом обслуживании, то дежурным не придется поднимать оборудование вручную.
Использование АВР[29]
Как мы знаем, все системы в ЦОД имеют резервирование, причем не только по количеству оборудования, но и по питанию. И был у нас один пример, который наглядно показал, что проектная группа далека от реальной эксплуатации. К нам попал на рассмотрение проект ЦОД. В нем, в частности, на системе охлаждения были установлены кондиционеры, имеющие по два ввода на каждый. Что интересно, переключение между вводами производилось только в ручном режиме.
Получается, что при отключении одного из вводов переключение на другой ввод должен осуществлять дежурный персонал. Учитывая, что в одном машинном зале было установлено более 30 кондиционеров, а таких модулей несколько штук, временные затраты на включение затянулись бы на часы с неизбежным несоблюдением всех SLA с клиентами. Также при таком количестве устройств серьезную роль играет человеческий фактор – можно забыть сделать какие-либо переключения.
После нашего вмешательства в проект этот недочет был устранен и между вводами на каждом кондиционере установили АВР.
Что касается клиентского оборудования, имеющего один блок питания, мы настоятельно рекомендуем такое оборудование не применять. Или в крайнем случае для снижения рисков также использовать стоечный АВР, при этом учитывая, что сам АВР является единой точкой отказа.
Режим работы ДГУ
В процессе эксплуатации ЦОД периодически приходится сталкиваться с отключением внешнего источника электроснабжения. Отключения внешней сети бывают долгими и кратковременными, однократными или следующими одно за другим. В последнем случае мы можем столкнуться с частыми запусками ДГУ, которые приведут к преждевременному разряду батарей ИБП. Чтобы избежать этого, рекомендуем на этапе проектирования предусмотреть задержку запуска ДГУ минимум в 5 секунд после пропадания электроснабжения на внешнем вводе. Это позволяет избежать многократных запусков ДГУ за короткий промежуток времени в случае быстрого восстановления нормальных параметров электроснабжения внешней электрической сети. При восстановлении основного электроснабжения и появлении напряжения на вводных шинах рекомендуем сделать задержку и на обратное переключение на внешний ввод – такую же, как и при отключении. Это поможет автоматике не реагировать на ситуации, когда внешняя сеть появилась и сразу пропала или ее параметры неудовлетворительны.
Из нашего опыта при запуске ДГУ целесообразнее подавать сигнал на запуск сразу всех машин одновременно (если их несколько). Одновременный запуск всех ДГУ повышает надежность системы резервного электроснабжения: при незапуске, аварии, сбое в работе одной из ДГУ система в целом останется в работе, не нужно будет тратить время на повторный перезапуск и тем самым не будет повторного перехода на аккумуляторные батареи, а после получения сигнала на отключение ДГУ они должны остаться в работе на холостом ходу в течение минимум двух минут для охлаждения систем двигателя и обеспечения ускоренного возврата ЦОД на резервное питание в случае повторного отказа основного питания. Тем самым вы убьете двух зайцев: охладите турбины двигателя и, в случае повторного отключения, сбережете емкость батарей.
Иногда возникает ситуация, когда питание на вводе то появляется, то пропадает с периодами, бóльшими, чем выставленные задержки на включение АВР, а также имеют место частые колебания частоты входного напряжения, то есть городская сеть работает нестабильно. Это может негативно сказаться на времени автономной работы от АКБ. В таком случае надо предусмотреть в АВР функцию «изменение приоритетного ввода». Данная функция будет полезна и при необходимости тестирования ДГУ на корректное энергоснабжение нагрузок ЦОД, когда вместо ручных переключений персонал ЦОД нажатием одной кнопки может запустить ДГУ и перевести ЦОД на питание от нее в автоматическом режиме.
Тип ИБП
Сегодня в отрасли дата-центров идет тихая революция. Она касается сферы источников бесперебойного питания (ИБП). От классических моноблочных аппаратов центры обработки данных (ЦОД) переходят к модульным решениям, однако многие проектировщики по привычке продолжают использовать моноблочные решения, достоинства которых уже неочевидны.
В моноблочных источниках бесперебойного питания выходная мощность обеспечивается одним силовым блоком. В модульных ИБП основные компоненты выполнены в виде отдельных модулей, которые размещаются в унифицированных шкафах и работают сообща. Каждый из этих модулей оснащается управляющим процессором, зарядным устройством, инвертором, выпрямителем и представляет собой полноценную силовую часть ИБП.
Модульная архитектура в ИБП предполагает сборку устройства в стойке из нескольких функциональных элементов определенной мощности. Так достигается возможность масштабировать производительность решения с определенным шагом, быстро наращивая или снижая общую мощность. В случае моноблочного ИБП такая маневренность невозможна: вы покупаете и запускаете строго определенный объем ресурса источника бесперебойного питания.
Несколько преимуществ:
1. Модульные ИБП позволяют получать экономически эффективную модель потребления с оплатой новых мощностей по мере роста, минимизируют эксплуатационные расходы и повышают отказоустойчивость. Модульная архитектура позволяет добиться лучшей унификации узлов и компонентов ИБП. Это, в свою очередь, существенно снижает себестоимость изделия, увеличивает КПД системы и уменьшает время восстановления работы после аварийного отказа любого компонента, так как требуется иметь в запасе меньшее количество запасных частей и узлов. При этом запасные модули уже могут находиться на территории пользователя для сокращения времени транспортировки на объект.
2. Больше свободного пространства. Модульные ИБП существенно компактнее моноблочных. Так, например, система на 500 кВт занимает объем одной телекоммуникационной стойки, а моноблок потребует 2–2,5 стойки.
3. Масштабируемость. Несмотря на компактные размеры, модульные шкафы поддерживают установку дополнительных силовых модулей, что обеспечивает ЦОД большую гибкость в наращивании мощности в соответствии с требованиями бизнеса и без дополнительной площади.
Архитектура модульных ИБП позволяет дата-центрам увеличивать мощность постепенно, более точно подбирая объем в соответствии с нагрузкой. В результате мощность системы может быть увеличена во много раз по сравнению с первоначально установленной. Существующие решения этого профиля сегодня позволяют обеспечивать расширение сети ИБП посредством запуска в параллельную работу до нескольких единиц оборудования.
4. Высокая доступность ресурса. Непрерывное электропитание обеспечивает доступность IT-систем и имеет решающее значение для работы дата-центра. В моноблочном ИБП для технического обслуживания или масштабирования может потребоваться временное отключение от сети, то есть запланированный простой. В модульных системах работает функция горячей замены (hot swap): модули добавляются или заменяются за несколько минут без остановки ИБП в целом. Данные действия по горячей замене модулей вполне осуществимы силами персонала пользователя при минимальном уровне знаний.
С моноблочными источниками бесперебойного питания ситуация значительно сложнее. Их ремонт выполнить настолько быстро не получится. На это может уйти от нескольких часов до нескольких дней. Кроме того, замена узлов и компонентов в моноблоке является сложным процессом, и производить ее могут только обученные специалисты сервисной службы, имеющие достаточный опыт производства подобных работ. Таким образом, любой отказ конденсатора или платы питания приводит к полному выходу ИБП из строя на продолжительное время.
5. Низкое энергопотребление. Моноблочная система требует значительно бóльших энергозатрат, потому что она обладает большей избыточностью. Для сравнения, КПД модульной системы на начальном этапе существенно выше, чем у моноблока, поскольку возможно обеспечить более высокий уровень загрузки модульного ИБП. Это достигается посредством установки минимально необходимого числа силовых модулей на начальном этапе эксплуатации и наращивания дополнительных модулей по мере необходимости сообразно росту нагрузки. Например, для модульного ИБП на начальном этапе при нагрузке в 100 кВт потребуется три модуля по 50 кВт (с учетом обеспечения резервирования N + 1), а не установка моноблока на 500 кВт одномоментно. Для первого примера коэффициент использования составляет 0,67, а для моноблочного решения – 0,2. Далее с ростом нагрузки количество модулей увеличивается с шагом в 50 кВт. Также можно отметить, что модульная система тише и за счет более высокого КПД выделяет меньше тепла по сравнению с моноблоком.
6. Высокая надежность. Исходя из требований нагрузки, можно предусмотреть минимальное число компонентов, потеря которых не вызовет простоя системы, и обеспечить их избыточность за счет установки резервных модулей. При этом избыточность обеспечивается как для силовых узлов, так и для модулей управления или коммуникации, а также батарейных элементов.
Рис. 2. Замена модуля ИБП силами дежурного электрика ЦОД
Приведем наглядный пример из нашего опыта. На ИБП в результате отказа элемента вышел из строя один из модулей, и система мониторинга зафиксировала аварию. Однако на работоспособности всей системы это никак не сказалось, ведь мы потеряли только часть избыточного резерва, который в нормальном режиме не был задействован нагрузкой. В данном случае нам всего лишь потребовалось самостоятельно заменить вышедший из строя модуль и продолжить работу. При этом мы не только не потеряли часть системы бесперебойного электроснабжения одного из лучей, но и устранили неисправность своими силами в короткое время, не прибегая к помощи сервисной службы вендора, обеспечивающего скорость реакции в 4 часа.
7. Стоимость обеспечения резервирования для моноблочных систем несравнимо меньше. Так, чтобы обеспечить избыточность N + 1 модульной системы, вам необходим лишь один дополнительный модуль в 50 кВт, имеющий сравнительно невысокую стоимость. В случае использования моноблочных ИБП для обеспечения того же уровня резервирования вам потребуется дополнительный моноблок, по мощности эквивалентный основному, что существенно дороже.
По сравнению с моноблочными системами модульные ИБП отличаются более легкой масштабируемостью, минимальным временем восстановления после аварии. Такие системы оптимальны для наращивания мощности ЦОД до любых пределов с минимальными затратами.
Выбор аккумуляторных батарей
Зачастую приходится сталкиваться с проектировщиками, которые указывают в проекте минимальное время автономной работы от аккумуляторов ИБП 5 минут. Как показывает практика, этого времени недостаточно в силу ряда причин:
1. Как правило, минимальное время рассчитывается для новых ИБП, что подразумевает использование новых аккумуляторов. Однако со временем емкость батарей падает, количество батарей в линейке уменьшается, что приводит время автономии в нашем примере почти к нулевому значению.
2. Может случиться, что ДГУ в момент запуска в силу ряда причин дадут сбой и для их перезапуска потребуется больше времени, чем ожидалось. В этом случае емкости батарейного массива просто не хватит до выхода ДГУ на рабочий режим.
В связи с этим мы рекомендуем не пренебрегать временем автономной работы и в ТЗ указывать его на уровне 10–15 минут в конце жизненного цикла батарей.
Так, согласно стандарту ANSI/TIA-942-B в редакции 2017 г., рекомендуемое минимальное время автономной работы в конце жизненного цикла батарей составляет 10 минут для любого уровня надежности ЦОД.
Фрагмент ANSI/TIA-942-B в редакции 2017 г. Время автономии в конце жизненного цикла
В некоторых встречающихся в интернете неофициальных переводах стандарта на русский язык не говорится о времени автономии в конце жизненного цикла (см. фрагмент таблицы ниже), что, на наш взгляд, очень серьезное упущение, в корне меняющее подход к проектированию. В этой связи предлагаем вам опираться на оригинальный англоязычный текст стандарта.
Пример неофициального перевода стандарта
Отказ от использования локальных устройств бесперебойного электропитания в пользу централизованных ИБП
Пожарные и охранные системы традиционно имеют свои блоки питания с небольшими батареями, а для рабочих мест операторов зачастую используются локальные ИБП. Таких элементов может быть очень много, и они распределены по всей территории ЦОД, доставляя службе эксплуатации массу хлопот как при проведении ТО батарей, так и при устранении аварий. Чтобы избежать этих сложностей, достаточно подключить блоки питания к системе бесперебойного электроснабжения ЦОД, тем самым избавившись от сотен точек обслуживания и потенциальных отказов. Стоит заметить, что в данном случае возникает риск отключения подключенных систем при пропадании питания от ИБП; для минимизации этого риска можно подключать щиты пожарной сигнализации и охранных систем к двум независимым линиям ИБП.
Удобство обслуживания и эксплуатации оборудования
От качественного выбора оборудования зависят простота и удобство монтажных работ и дальнейшая эксплуатация этого оборудования. К данному вопросу надо подходить очень осторожно.
Например, в некоторых моделях модульных ИБП известных брендов внутренняя компоновка элементов выполнена таким образом, что во время эксплуатации при переключениях оборудования приходится нагибаться практически до самого пола, чтобы отключить или включить вводной автомат.
Аналогично и с силовыми модулями. Вот еще пример: при компоновке силовых модулей в верхней части ИБП замена верхних модулей становится невозможной силами дежурной смены. Ведь модуль надо будет поднять на уровень выше 2 м при массе до 50 кг. Во-первых, это неудобно, а во-вторых, один работник просто не сможет этого сделать. К тому же центр тяжести такого оборудования будет расположен высоко, что скажется на устойчивости оборудования.
А если в одиночку силовой модуль не заменить, значит, такие модульные ИБП теряют часть своих преимуществ.
Помимо качественного выбора оборудования, хотелось бы сказать о его однотипности. К такому оборудованию можно отнести, например, ИБП, аккумуляторы, кондиционеры и т. д. Использование однотипного оборудования способно во многом облегчить жизнь службе эксплуатации: это и взаимозаменяемость узлов и компонентов, и сокращение расходов на проведение ТО, уменьшение склада ЗИП, упрощение повседневных манипуляций, уменьшение количества необходимых инструкций и сопутствующей документации. Однако у применения однотипного оборудования существует и обратная сторона, которая потенциально может повышать риски для ЦОД. Прежде всего это проблемы, возникающие при прекращении производства и поддержки вендором того или иного оборудования. В такой ситуации придется заменить весь парк используемого однотипного оборудования; серьезной проблемой может стать необходимость получения запчастей и расходных материалов. Кроме того, период пандемии 2020–2021 гг. и в особенности внешнеполитические события 2022 г., повлекшие разрушение цепочек поставок оборудования, продемонстрировали рациональные стороны использования разнородного оборудования для тех или иных задач. Довольно любопытной в этом контексте является рекомендация стандарта ANSI/BICSI-002–2019 по использованию в ЦОД (по крайней мере высокого уровня готовности) именно разнородного оборудования различных производителей. Несмотря на усложнение процессов обслуживания и эксплуатации, это позволяет застраховаться от рисков, вызываемых применением однородного оборудования.
Какую из этих стратегий выбрать – решать вам. Мы в свое время остановились на использовании однотипного оборудования, но с полным осознанием возможных рисков такой стратегии.
При проектировании, построении и дальнейшей эксплуатации ЦОД очень важную роль играет резервирование оборудования. Резервирование является ключевым фактором в обеспечении надежности систем и дает возможность непрерывной эксплуатации ЦОД при проведении необходимых работ по техническому обслуживанию оборудования. Поскольку мы будем часто обращаться к этому понятию по мере изложения, давайте рассмотрим подробнее, что такое резервирование и каковы те схемы резервирования, которые применяются при построении инженерных систем.
ГОСТ Р 27.102–2021 «Надежность в технике. Надежность объекта. Термины и определения» формулирует термин «резервирование» как «способ обеспечения надежности объекта за счет использования дополнительных средств и/или возможностей сверх минимально необходимых для выполнения требуемых функций». Как следует из определения, резервирование предполагает избыточность компонентов системы, позволяющую использовать эти избыточные компоненты при отказе какого-либо базового компонента без прерывания работы системы в целом. Таким образом, базовая модель резервирования может описываться формулой N + R, где N[30] обозначает число элементов, необходимых для нормальной работы, а R[31] – число дополнительных избыточных компонентов. Такое резервирование часто называют резервированием на уровне компонентов. Простейшей и наиболее распространенной схемой резервирования[32] является N + 1, однако встречаются варианты N + 2 или с большим числом элементов R.
Несмотря на очевидную простоту и эффективность резервирования по схеме N + R, ее не всегда бывает достаточно для обеспечения необходимого уровня надежности. Существуют системы, где, несмотря на избыточность отдельных компонентов, сохраняются единые точки отказа, являющиеся уязвимым местом системы в целом. В качестве примера можно привести систему бесперебойного электропитания из нескольких ИБП с общим байпасом. Для устранения рисков выхода таких систем из строя применяют резервирование более высокого уровня – не на уровне компонентов, а на уровне систем. На практике это означает установку двух (или более) идентичных взаиморезервирующих систем, а само резервирование в таком случае обозначают формулой ХN, где N – система из N компонентов, а Х – число таких систем. Наиболее частой схемой резервирования такого рода является 2N, где устанавливаются две идентичные системы. Такая схема резервирования является сравнительно дорогой (фактически необходимо приобрести удвоенное количество оборудования), однако именно она позволяет обеспечить для ИТ-нагрузки два независимых ввода питания и/или контура охлаждения, что необходимо для безостановочной работы ИТ-оборудования и, следовательно, непрерывной работы сервисов, предоставляемых ЦОД.
Зачастую используется комбинация двух оговоренных выше схем резервирования – и на уровне систем, и на уровне компонентов. В этом случае формула приобретает вид X(N + R). Сравнительно популярной схемой такого рода является 2(N + 1), широко применявшаяся в первом десятилетии XXI в.; сегодня ее можно встретить все реже, что обусловлено высокой стоимостью ее реализации.
Выше мы отметили, что резервирование XN (обычно 2N) позволяет обеспечить для нагрузки независимые линии электропитания. Данное преимущество имеет обратную сторону в виде удвоенной стоимости системы электропитания. Для сохранения возможности обеспечения двух независимых линий электропитания нагрузки и при этом снижения вложений в систему электропитания в последние годы все чаще используются дробные схемы резервирования, которые можно выразить в формате (X/Y)N. В этом случае X означает число установленных элементов в системе, а Y – число групп нагрузок, подключенных к каждому из элементов. Иными словами, суть построения таких систем заключается в сегментировании нагрузки и применении элементов меньшей мощности, нежели в случае резервирования 2N. Поясним это на примере систем ИБП на схемах ниже.
Отношение мощности ИБП к мощности нагрузки можно понимать как коэффициент загрузки оборудования. Чем меньше это соотношение, тем эффективнее загрузка. То есть при резервировании 2N загрузка оборудования составляет 50 %, при резервировании (3/2)N – 66,7 %, а при резервировании (4/3)N – 75 %.
Как можно заметить, во всех приведенных случаях каждая группа нагрузок получает электропитание от двух независимых линий, однако при этом уровень затрат на систему электропитания снижается за счет установки менее мощных (и, следовательно, более дешевых) устройств и понижения общего уровня установленной мощности системы электропитания.
При построении систем с дробным уровнем резервирования усложняется система кабельной разводки, увеличивается объем необходимых материалов и работ. Также схемы, отражающие работу подобных систем, менее наглядны для персонала и трудны для понимания, что увеличивает риск человеческой ошибки. Однако стоимость систем при низких уровнях дробного резервирования все равно сравнительно невелика. Предел рациональности при построении систем с дробным резервированием достигается на уровне (6/5)N; более сложные уровни резервирования перестают быть привлекательными как в силу значительного усложнения систем, так и в силу потери экономических преимуществ.
Рис. 3. Резервирование 2N
Рис. 4. Резервирование (3/2)N
Рис. 5. Резервирование (4/3) N