Как руководителю определить текущий уровень процессов службы эксплуатации своего предприятия? Каким образом можно оценить состояние службы эксплуатации ЦОД для потенциального размещения своего оборудования? Во втором случае мы говорим исключительно об оценке эксплуатационной деятельности, не затрагивая вопросы резервирования и прочего, а также вопросов физической безопасности службы поддержки клиентов, так как это отдельные большие темы.
Для этого требуется посетить ЦОД, просмотреть эксплуатационную документацию, совершить обход как серверных помещений, так и помещений с инженерным оборудованием, провести беседы с руководителями эксплуатации и дежурным персоналом.
• Есть ли проактивные меры по уменьшению загрязнений (бахильная машина, липкие ковры)?
• Не просрочены ли огнетушители или газ в системе газового тушения? Даты поверки и заправки указаны на огнетушителях и баллонах с газом?
• Чисто ли на территории? Нет ли посторонних предметов в серверных, не относящихся к деятельности ЦОД (например, шкафы, мебель, упаковочные материалы и т. п.)?
• Есть ли посторонние предметы в стойках (например, коробки и пакеты)?
• Присутствуют ли заглушки в холодных коридорах, закрыты ли излишние отверстия и щели в полу?
Рис. 6. Применение бахильной машины
Рис. 7. Применение липких ковров
• Есть ли заглушки на выключенных кондиционерах, препятствующие обратному перетоку холодного воздуха?
• Поддерживается ли подпор подаваемого вентиляцией воздуха внутри серверных помещений? Каким образом это контролируется?
• Каково состояние подфальшпольного пространства? Нет ли мусора под фальшполом?
Рис. 8. Мусор под фальшполом
• Есть ли документ, описывающий процедуру уборки? Указано ли там, где и каким способом следует ее проводить?
• Есть ли маркировка оборудования в едином формате? Хорошо ли она видна?
• Есть ли в щитовом оборудовании, кондиционерах, задвижках и т. д. маркировка положений по умолчанию? Запишите положение выключателей любого щита. Запишите положение любой задвижки. Это пригодится дальше.
• Аккуратно ли хранятся материалы на складе? Как происходит учет материалов и мест их хранения? Сфотографируйте одну из полок стеллажа на складе. Это пригодится дальше.
• Есть ли оборудование, в данный момент выведенное из работы? Запишите его маркировку (если имеется), зафиксируйте, какое именно это оборудование и где оно находится. Сверьтесь с дежурным инженером, может ли он подтвердить все это документально.
• Есть ли информация о версионности документов, доступных вам для обозрения? Помните, что схемы не должны быть старше двух лет, а документация – старше трех лет от текущей даты.
О чем спросить главного инженера / руководителя ЦОД (желательно без предварительной подготовки со стороны службы эксплуатации):
• За организацию эксплуатации каких систем он отвечает? Записано ли это в его должностной инструкции?
• Актуальный список обслуживания оборудования, не выполненного в срок за последний год. Где его можно посмотреть?
• Актуальный список дежурных инженеров, не прошедших плановые тренировки в текущем месяце. Где его можно посмотреть?
• История всех отказов и обслуживания кондиционера ХХ (подставьте номер, который вы запомнили из предыдущего обхода) за последний год.
• Сколько подобных аварий было на другом аналогичном оборудовании? Есть ли учет ошибок и их анализ?
• При каком уровне нагрузки ЦОД надо начинать закупку дополнительных новых ИБП? Задокументировано ли это, есть ли планирование, можно ли все подтвердить документально?
• Какие риски существуют на данный момент для вашего ЦОД? Где это задокументировано?
• Что такое парные нагрузки? Как вы контролируете парные нагрузки? Какие именно парные нагрузки контролируете?
• Спросите о выведенном из работы оборудовании, которое вы отметили в прошлой части во время обхода. Есть ли соответствующие записи в отчете дежурных за смену?
• В каком виде и где хранится текущая документация по эксплуатации, внутренние политики и процедуры?
Затем посетите дежурную смену без руководителя и спросите по очереди дежурных инженеров (лучше в режиме один на один):
• За оперативное управление какими системами отвечает дежурный? Почему и где это записано?
• Кому дежурный отправляет отчеты при передаче смены? Почему и где это записано?
• Использует ли дежурный на обходе чек-лист? Почему и где это записано?
• Как дежурный контролирует работу подрядчиков? Почему и где это записано? (Во всех этих ответах информация должна совпадать с рассказом главного инженера.)
• В каком штатном положении должны быть выключатели из щита, который вы отметили? Почему и где это записано?
• В каком штатном положении должна быть задвижка, которую вы отметили? Почему и где это записано?
• Что хранится на полки Х стеллаже Y склада? Сравните данные из файла учета склада с фотографией, сделанной ранее.
• В какой момент надо заказывать материалы на склад? Почему и где это записано?
• Что дежурный будет делать в случае пожара, повышения температуры, отключения внешнего электроснабжения (любая аварийная ситуация на ваш выбор) и почему именно так? Может ли он рассказать, когда он в последний раз тренировался действовать в такой ситуации?
• Когда следующая тренировка у дежурного и на какую тему?
• Где хранится отчет о последнем ТО оборудования, за которое отвечает дежурный?
• Опять спросите о выведенном из работы оборудовании. Есть ли эти данные? Совпадают ли с информацией главного инженера?
В беседах с персоналом, от руководителей до инженеров (в последнем случае это особенно важно), мы всегда оцениваем три вещи, на которые ориентируются практически все аудиторы. Для оценки используется принцип PDCA: Plan – Do – Check – Act, где:
• PLAN – установлены ли цели, запланированы ли ресурсы, процессы?
• DO – выполняется ли запланированное?
• CHECK — отслеживается и измеряется ли этот процесс? Есть ли понимание, что должно быть на выходе? Как это проверяется и каким способом?
• ACT – есть ли действия по улучшению процесса по выявленным замечаниям?
Применительно к процессу эксплуатации ЦОД приведем простой пример.
Для оценки регулярного технического обслуживания мы проверяем календарь технического обслуживания (выполняем PLAN ), далее смотрим, выполняются ли в сроки задачи ТО, есть ли отложенное обслуживание (выполняем DO ). Каковы результаты выполненного ТО? Есть ли подтверждающие документы? Ведется ли контроль качества выполнения работ? Указано ли это в явном виде (выполняем CHECK )? И далее – смотрим, были ли замечания во время ТО (выполняем ACT ).
Uptime Institute предлагает более сокращенную версию, соответствующую тем же принципам:
• Проактивность. Есть ли совершенствование процессов, процедур?
• Практическое использование. Применяются ли в реальности описываемые в документах процессы, процедуры?
• Информированность. Все ли сотрудники знают о документах, необходимых им для выполнения служебных обязанностей? Знают ли места хранения?
Мы указали примерный и выборочный список вопросов, которые могут быть заданы при оценке ЦОД и ответы на которые будут понятны даже неспециалисту в области эксплуатации ЦОД.
Если вы хотите провести глубокую оценку состояния эксплуатации ЦОД, то можно использовать следующие документы:
• Facility Operations Maturity Model[33] с методологией оценки уровня зрелости процессов – опросник, который в полной мере охватывает деятельность ЦОД. Можно использовать как чек-лист.
• BICSI 009-2019 Datacenter Operations and Maintenance Best Practices (пункт 5.4.3. Datacenter Operations and Maintenance Assessment), менее подробный рекомендательный план для оценки состояния эксплуатации.
• На ресурсе Uptime Institute Inside Track также можно найти материалы для оценки, например Data Center Walkthrough Checklist для быстрой и углубленной оценки соответственно. В кратком виде материалы представлены в общедоступной брошюре Executive Handbook: Risk Management for IT Infrastructure[34].
Если сотрудники уверенно и без подготовки дают ответы на подобные вопросы, то, скорее всего, уровень процессов службы эксплуатации довольно высокий, и эта книга будет лишь инструментом для возможного их улучшения.
В противном случае следует обратить пристальное внимание на организацию работы службы эксплуатации и в дополнение к этой книге для оценки реального состояния привлечь компании, специализирующиеся на организации процессов эксплуатации и обучении персонала. Такое решение поможет вам сэкономить несколько лет непрерывной самостоятельной работы по освоению стандартов и практике их внедрения. В очередной раз напомним, что не стоит недооценивать важность хорошо построенной и организованной службы эксплуатации, ведь в противном случае даже ЦОД уровня Tier IV, в инфраструктуру которого вложены миллиарды рублей, не будет защищен от падений и простоев.