Что включить в SLA при обслуживании инженерной инфраструктуры ЦОДа

Что такое SLA?

Соглашение об уровне обслуживания (Service Level Agreement, SLA) – формальный договор между заказчиком услуги и ее исполнителем, в котором описаны услуга, права и обязанности сторон, а также согласованный уровень качества предоставления услуги. В договоре могут содержаться перечень параметров качества, методы и средства их контроля, время реакции исполнителя на запрос заказчика, а также штрафные санкции за нарушение соглашения.

SLA обычно включает в себя следующие разделы:

  • определение предоставляемого сервиса, стороны, вовлеченные в соглашение, сроки его действия;
  • дни и часы, когда сервис будет предоставляться;
  • количество обслуживаемого оборудования и его местоположение;
  • процедура размещения и прохождения запросов;
  • контактные данные исполнителя;
  • спецификации уровней качества сервиса;
  • платежи, связанные с сервисом;
  • ответственность заказчика и исполнителя;
  • процедура разрешения разногласий, связанных с предоставлением сервиса.

При передаче обслуживания инженерной инфраструктуры ЦОДа на аутсорсинг SLA играет ключевую роль во взаимодействии заказчика и исполнителя. Наиболее важными разделами SLA будут следующие.

Состав оборудования/системы

В SLA должны быть полностью перечислены обслуживаемые системы (для каждого вида оборудования указываются код, наименование, производитель, количество). Если же какие-то устройства явно не поименованы в спецификациях к сервисному контракту, то исполнитель нередко отказывается от своих обязательств в отношении такого оборудования как не входящего, по его мнению, в состав обслуживаемой инженерной системы. Поэтому не поленитесь указать весь список компонентов системы жизнеобеспечения ЦОДа.

Описание предоставляемых услуг

В этом разделе подробно описываются все услуги, входящие в контракт. Не забудьте указать полный список регламентных работ, рекомендованных производителем для каждой инженерной подсистемы, которая передается на обслуживание исполнителю; услуги по восстановлению работоспособности после аварии; замену вышедшего из строя ЗИП; работы по предупреждению неисправностей; консультации по вопросам эксплуатации («горячая линия») и т. д.

Целесообразно для каждой услуги составить некий регламент, т.е. порядок действий при ее исполнении (см. например, табл. 1).

Таблица1. Регламент восстановления работоспособности оборудования после аварии

Контактная информация

Упускать из виду этот простой, но очень важный раздел SLA ни в коем случае нельзя. Представьте, что у вас возникает инцидент критичного уровня (скажем, остановилась вся система кондиционирования, а резерва нет!), а в диспетчерской службе исполнителя не берут трубку или не приходит подтверждение того, что ваша заявка зарегистрирована и принята к исполнению. Что делать? Продолжать и дальше безуспешные попытки связаться с диспетчером и смотреть, как бизнес теряет деньги, или заблаговременно внести в SLA таблицу с контактной информацией для эскалирующих действий?

В этой таблице должен содержаться целый набор адресов и телефонов исполнителя – от диспетчерской службы до директора департамента сервиса и аутсорсинга (на тот случай, если дозвониться по предыдущим десяти телефонам в таблице не удалось).

Метрики

Прежде всего нужно определить, что такое качество услуги и как оно будет измеряться. Качество простых сервисов можно измерять как долю времени, когда сервис работает: 99,9% – хорошо, меньше – плохо. Для более сложных сервисов предпочтительнее пользоваться другими критериями – временем реакции на запрос, временем прибытия исполнителя на объект и временем устранения инцидента или выполнения запроса. Сроки для каждого сервиса обычно устанавливаются свои, иногда они различаются для разных типов запросов в рамках одного сервиса и для разных приоритетов.

Приоритеты

Приоритет – это основанная на степени влияния и срочности последовательность устранения инцидентов.

Приоритет = Срочность × Степень влияния.

Степень влияния – мера критичности инцидента для бизнеса.

Срочность – скорость, с которой необходимо устранить инцидент, имеющий определенную степень влияния.

Например, для контракта по сервисному обслуживанию инженерной инфраструктуры ЦОДа можно выделить следующие уровни критичности инцидентов:

1. Малозначительный. Сбой в работе инженерной подсистемы, не приводящий к деградации параметров работы ЦОДа.

2. Значительный. Сбой в работе инженерной подсистемы, приводящий к деградации параметров работы инфраструктуры ЦОДа.

3. Критичный. Сбой в работе инженерной подсистемы, приводящий к полной остановке одной или нескольких инженерных систем.

Для каждой инженерной системы в SLA следует указать максимально допустимое время прибытия специалиста для начала работ по устранению инцидента (см., например, табл. 2).

Таблица 2. Время прибытия специалиста после регистрации запроса

Ограничение ответственности

Не следует забывать и о том, что ответственность исполнителя в отношении оборудования, находящегося у него на обслуживании, может быть ограничена из-за действий третьих лиц либо из-за нарушения правил эксплуатации. Поэтому не позволяйте производить ремонт и настройку оборудования неуполномоченным лицам. А при нарушении правил эксплуатации ремонт придется оплачивать заказчику.

Существует и эксплуатационная ответственность, которая в некоторых случаях должна быть ограничена. Например, при обслуживании электроустановки ЦОДа в арендуемом заказчиком здании нужно четко понимать, какова зона ответственности исполнителя при проведении работ в выделенной электрической сети и кабельных каналах, что из этого по проекту относится к сетям заказчика, а что – к сетям арендодателя.

Платежи по контракту

Это самый важный раздел. Если в SLA прописывается метрика для измерения доступности поддерживаемых сервисов, то можно вывести формулу для расчета стоимости неоказанных услуг и вычесть эту сумму из платежей по контракту.

Статья впервые опубликована на сайте «ИКС-Медиа»

Расскажите коллегам:
Эта публикация была размещена на предыдущей версии сайта и перенесена на нынешнюю версию. После переноса некоторые элементы публикации могут отражаться некорректно. Если вы заметили погрешности верстки, сообщите, пожалуйста, по адресу correct@e-xecutive.ru
Комментарии
Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
HR-новости
Россияне стали меньше тревожиться из-за работы

Год назад уровень тревожности россиян по поводу различных возможных проблем на работе был выше.

Уровень счастья напрямую влияет на продуктивность большинства россиян

При этом почти каждый четвертый респондент считает, что их руководитель ничего не делает для счастья сотрудников.

70% россиян отмечают сильное влияние работы на уровень стресса

Наибольший стресс создают строгие дедлайны, внезапные и большие объемы задач, а также собственные ошибки при выполнении задач.