Персонал службы эксплуатации

Качество организации процессов управления персоналом напрямую влияет на надежность ЦОД. Как многократно упоминалось, основной фактор, влияющий на надежность ЦОД, – человеческая ошибка.

В большинстве случаев все эти ошибки – результат недоработок управляющего звена ЦОД (недостаточность персонала, непроработанные сценарии аварий, недостаточность документации, недостаточность знаний персонала, отсутствие тренировок и контроля знаний и т. д.).

За отправную точку при формировании службы эксплуатации принимаются требования действующего законодательства, которые дополняются требованиями различных стандартов и систем сертификаций, уже упомянутых выше. При этом следует помнить о необходимости применять процессы к сотрудникам ЦОД, отвечающим за все критические системы ЦОД, а не только за электроустановки, как того требуют нормы российского законодательства.

Приведем ключевые задачи руководителей и сотрудников службы эксплуатации ЦОД.


Руководитель должен:

• оценить объем предполагаемой сферы деятельности, наметить необходимый объем документации;

• написать обязательные и полные инструкции, процедуры и т. п.;

• ознакомить сотрудников с документацией;

• провести тренировки по этим инструкциям;

• обучить новых сотрудников, не допустить к работе неготовых сотрудников;

• периодически проверять качество подготовки сотрудников;

• создать условия для работы сотрудников, снабдить их инструментом, одеждой, комфортными местами отдыха и приема пищи во время смены;

• обеспечить комфортный график работы без превышения допустимого уровня переработок, чтобы сотрудники выполняли свои задачи качественно;

• установить четкие критерии оценки успешной работы каждого сотрудника и регулярно отслеживать их выполнение.


Сотрудник в созданных ему условиях должен:

• четко знать свои должностные обязанности и полностью выполнять их;

• знать перечень систем, за которые он отвечает, и принципы работы оборудования этих систем;

• знать относящиеся к его сфере деятельности инструкции, процедуры и другие документы;

• неукоснительно следовать инструкциям и процедурам в повседневной деятельности;

• принимать меры по устранению аварийных ситуаций согласно введенным инструкциям и процедурам;

• поддерживать свои знания по документации и оборудованию в актуальном состоянии;

• уделять внимание самостоятельному образованию, повышению уровня знаний и расширению профессионального кругозора.

Необходимая численность персонала ЦОД

Как вы знаете, ЦОД бывают разные: отличающиеся по своим размерам, задачам, требуемым SLA и пр.; следовательно, не существует универсальной формулы для определения численности и состава сотрудников, в каждом случае требуется индивидуальный подход. Тем не менее при формировании команды следует руководствоваться описываемыми ниже принципами.

Достаточность персонала в первую очередь определяется действующими нормами (он не может быть меньше определенной численности), а во-вторых, требованиями различных стандартов, которым предполагается соответствовать. Важно понимать, что у большого количества дежурного персонала и руководителей, занимающихся эксплуатацией, в должностной инструкции (ДИ) может не быть явного указания на системы, за которые они отвечают. В итоге с формальной точки зрения аудитора и проверяющих органов (например, Ростехнадзора) за эти системы никто не отвечает. То есть необходимо распределить и записать все критические системы в ДИ ответственным сотрудникам и их заместителям.

Далее, нужно руководствоваться следующим принципом: для каждой критической системы должны быть определены ответственный за нее руководитель и оперативный персонал.

Один руководитель может отвечать за несколько систем, но у каждого ответственного сотрудника должен быть его дублер, способный выполнить те же обязанности.

Например: главный энергетик, отвечающий за ДГУ, уходит в отпуск, и его замещает другой сотрудник. Это может быть как компетентный руководитель другого направления того же уровня, так и, например, старший электрик, работающий в дневном графике. Такое замещение должно быть записано в ДИ заместителя и отражено в соответствующей схеме заместителей по всем направлениям службы эксплуатации ЦОД.

Чтобы это замещение было максимально эффективным, вам потребуется универсальная система документации (которая будет описана ниже), позволяющая максимально упростить процесс замещения сотрудника, не оставляя без внимания вопросы предварительной подготовки, аттестации знаний и пр.

При определении оптимальной численности персонала необходимо учесть следующие важные моменты:

• Соблюдение численности персонала, требуемой нормами, – это необходимый минимум.

• Достаточность персонала для обеспечения операционной устойчивости – желательный оптимум.

• Нельзя допустить раздувания штата сотрудников и наличия работников, не имеющих постоянных задач большую часть рабочего времени.

• Нужно исключить превышение допустимого уровня переработок. Трудовой кодекс РФ ограничивает допустимый уровень переработки 120 часами в год, а Uptime Institute допускает объем переработок, не превышающий 10 % основного рабочего времени.

Аутсорсинг эксплуатации

Аутсорсинг сейчас очень популярен, и некоторые руководители хотят применить его во всех возможных плоскостях. Следует сразу пояснить, о каком именно аутсорсинге идет речь у нас. Задачу выбора модели технического обслуживания оборудования (Concept of Maintenance) часто путают с моделью эксплуатации (Сoncept of Operations). В первом случае речь идет о функции сервис-инженера, а во втором – о функции дежурного инженера, и это две принципиально разные задачи. Действующая служба эксплуатации ЦОД находится на стыке между ними. Вопрос о выборе концепции технического обслуживания подробно рассмотрен в соответствующей главе.

Uptime Institute уделяет очень большое внимание вопросу выбора между своим персоналом и внешним, наемным исполнителем при построении службы эксплуатации ЦОД; в обучающих материалах этому посвящена целая глава. По факту для территории РФ такой подход не слишком актуален, так как подобных сервисов аутсорсинга очень немного. Все примеры использования внешнего персонала в качестве службы эксплуатации ЦОД – это исключительно аутстаффинг, когда по разным причинам в штате организации – владельца ЦОД нет места для инженерных служб.

Рассмотрим этот вопрос более детально на примере аутсорсинга служб эксплуатации, охраны, уборки ЦОД.

Вспомним основные плюсы аутсорсинга:

• быстрое предоставление персонала требуемой квалификации;

• опыт работы (что актуально при выборе модели эксплуатации с самого начала работы ЦОД);

• легкая замена сотрудника по любой причине, ведь он не у вас в штате, и все проблемы с его увольнением ложатся на компанию, предоставляющую услуги аутсорсинга;

• отсутствие необходимости получать лицензию (например, лицензию частного охранника).


Эти плюсы отлично оправдываются в классических аутсорс-задачах – охране и клининге, а также в службах эксплуатации бизнес-центров, где нет высоких требований к надежности и квалификации персонала (в результате чего, впрочем, на таких объектах существует видимая даже сторонним взглядом неразбериха).

С эксплуатацией критического объекта ЦОД вопрос сложнее:

• Квалификация сотрудника должна быть не на уровне «электрик для замены ламп», а на уровне «электрик для эксплуатации ИБП и ДГУ». Согласитесь, это разные уровни сложности.

• Необходима не только высокая квалификация сотрудника, но и прохождение всех процедур обучения на технологически сложном объекте. В итоге сотрудник не может приступить к работе немедленно, и плюс аутсорсинга относительно опыта работы тут неприменим. Требуется длительное вводное обучение нового, пусть даже и опытного сотрудника. Он должен понять логику документации, узнать проект, запомнить принципы работы ЦОД и его топологию.

• Как было сказано выше, квалификация дежурного персонала и его подготовка на конкретном объекте является ключевым фактором надежности ЦОД. Стоит ли отдавать эту роль в чужие руки? Даже возложив ответственность за отключение клиентов на аутсоринг-компанию, как вы исключите репутационные риски?

• После того как вы нашли сотрудника с требуемой квалификацией и потратили время (примерно месяц) на обучение этого сотрудника, радоваться опции его легкой замены – не лучшая идея. Если сотрудник вам не подходит, он должен быть отсеян на стадии обучения и испытательного срока. Даже если подготовка будет происходить на стороне подрядчика – в любом случае это длительный процесс.

• Лицензирования функций службы эксплуатации не предусмотрено, за исключением допусков Ростехнадзора к работе в электроустановках и лифтах, так что это преимущество аутсорсинга также незначимо.


В результате, на наш взгляд, именно в случае со службой эксплуатации ЦОД плюсы аутсорсинга не работают, а минусы, наоборот, сильно проявляются. Косвенным подтверждением этого является очень малое число примеров на рынке.

Теоретически, конечно, такие службы могут быть применены для однотипных проектов ЦОД – модульных решений или стандартных ЦОД гиперскейлеров с одинаковыми наборами оборудования, – но в любом случае это требует значительной подготовки.

Что можно порекомендовать, если хочется воспользоваться внешними услугами при построении службы эксплуатации? Найти консультантов с большим опытом в эксплуатации и получить внешние услуги, по которым вы составите эффективную оргструктуру. Вам покажут, какая документация должна быть на объекте и в каком объеме, как подойти к обучению персонала; тогда вам не придется тратить годы на постижение всего этого на собственном опыте. Это особенно актуально, если вы планируете сертифицировать вашу службу эксплуатации.

Состав службы эксплуатации ЦОД

В этом разделе мы рассмотрим состав службы эксплуатации ЦОД, который можно условно разделить на три типа: технические руководители, дежурные инженеры и технические эксперты. Изучим подробнее каждую из этих категорий.


Технические руководители ЦОД

Классические роли руководителей ЦОД

Технический директор / руководитель ЦОД, менеджер дата-центра – отвечает за все процессы по организации эксплуатации и поддержанию высокого уровня качества предоставления услуг клиентам ЦОД на данной площадке. Также он может отвечать за службы охраны и поддержки клиентов. Этими службами удобно управлять из одной точки, так как они тесно взаимосвязаны на объекте и постоянно взаимодействуют по различным процедурным вопросам.

Роль руководителя ЦОД важна и в том случае, когда ваша организация состоит из нескольких ЦОД и для центрального управления эффективнее иметь одного ответственного сотрудника в каждом ЦОД, который держит на контроле все вопросы, связанные с аспектами эксплуатации ЦОД, а также ставит задачи по всем направлениям.


Главный инженер, главный энергетик – отвечают за эксплуатацию систем, являются «технологами» ЦОД, то есть понимают, как взаимосвязаны системы ЦОД между собой, как они влияют друг на друга и т. п.

Опять же намного эффективнее иметь выделенного сотрудника на каждый ЦОД. На него и его заместителей возложена ответственность за электрохозяйство, тепловые установки, пожарную безопасность. Справится ли с этим объемом один сотрудник или их необходимо иметь больше – зависит от размеров вашего ЦОД. Руководители чаще всего имеют ненормированный рабочий день, и предполагается, что они способны сами организовать свой график так, чтобы не подвергаться чрезмерной нагрузке и иметь ресурсы для замещения себя по ряду функций. Если руководители не могут организовать правильную загрузку и штатную структуру на своем уровне, то вряд ли они смогут организовать ее и на уровнях ниже. Кроме того, важно организовать взаимодействие руководителей так, чтобы они могли относительно эффективно заменять друг друга на случай болезней или отпусков. Это потребуется для сохранения непрерывности бизнеса. У вас не должно быть единичных, уникальных исполнителей или носителей информации.

Загрузка...