Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
В XXI веке информационные технологии играют огромную роль в бизнесе. Они стали мощным двигателем экономики, но в то же время и источником рисков. Для обеспечения непрерывности бизнес-процессов крайне важна бесперебойная работа ИТ-сервисов. Отказ этих сервисов может привести к простоям и финансовым потерям, а в худшем случае - катастрофическим последствиям. Наш материал расскажет о средствах, которые обеспечивают информационную безопасность и непрерывность бизнеса.
BCM, BCP и DRP – ключевые элементы системы кризис-менеджмента, которая сегодня необходима для гарантии бесперебойности бизнес-процессов в организации. В мире, где информационные технологии играют все более важную роль, безопасность данных и их доступность – критически важные факторы не только для кредитно-финансовых и телекоммуникационных компаний, но и для высокотехнологичных предприятий, работающих в непрерывном производственном цикле, а также для государственного сектора и ритейла.
Существуют специальные регламенты для определенных отраслей, которые требуют обеспечения непрерывности бизнеса для лицензирования деятельности. Риск сбоя в работе ИТ-систем перевешивает средние потери, например, в банковской сфере с даже кратковременным перерывом в работе ИТ-сервисов. Но в случае аварий в энергосистемах, киберпреступлений или других катастроф потерями могут стать жизни людей.
Природные бедствия, экономический ущерб, киберпреступления – в связи с многообразием рисков актуальность обеспечения информационной безопасности не вызывает сомнений. Опрос компании DEAC продемонстрировал, что угроза непрерывности бизнеса вызывает наибольшее беспокойство в финансовой и информационной сферах. Почти половина респондентов считает, что бизнес-риски только увеличатся в будущем.
BCM (Business Continuity Management) или управление непрерывностью бизнеса, BCP (Business Continuity Planning) или планирование непрерывности бизнеса, и DRP (Disaster Recovery Planning) или план восстановления после сбоев – это ключевые элементы кризис-менеджмента, обеспечивающие безопасность бизнеса в целом. Они основаны на методологии ИБ, охватывая все аспекты деловой активности. Регламенты и международные стандарты, такие как ISO/IEC 27001 и ISO 22301:2012, соответствие которым следует учитывать, выбирая дата-центр для хранения информации или задумываясь о внедрении на предприятии.
Источник: https://www.retail-loyalty.org/articles/sostavnye-elementy-krizis-menedzhmenta-bcm-bcp-drp/
Управление непрерывностью бизнеса (BCM) предполагает ряд целей и задач, зависящих от размера и направленности деятельности компании. Важнейшим аспектом является управление конкретным типом или классом инцидентов, которые могут возникнуть в процессе работы.
Управление инцидентами (IM) охватывает ряд происшествий, связанных с человеческим фактором, сбоем оборудования и другими подобными инцидентами. На этом уровне ущерб для бизнеса сравнительно невелик, но важно обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Управление непрерывностью бизнеса и аварийным восстановлением (BCDR) нацелено на предотвращение инцидентов, которые могут привести к остановке работы всей организации или ее ключевых бизнес-процессов. Хоть вероятность таких событий невелика, ущерб может быть внушительным и даже привести к банкротству. Согласно исследованию Veeam Software за 2019 год, глобальные потери от простоев приложений свыше 20 млн долларов ежегодно, в то время как по России эта цифра немного ниже и составляет 19,8 млн долларов.
Управление чрезвычайными ситуациями (C&EM) ставит своей задачей предупреждение катастрофических инцидентов, которые происходят очень редко, но могут иметь катастрофические последствия для бизнеса, включая экологические и гуманитарные катаклизмы, а также инфраструктурные разрушения в пределах целого региона. Большое значение имеет обеспечение непрерывности деятельности предприятий ТЭК (разведка, добыча, переработка углеводородов, производство электроэнергии), где высокий уровень обеспечения непрерывности деятельности играет важную роль.
BCM выявляет ключевое понятие «инцидент», любое незапланированное происшествие, которое может привести к остановке критических процессов и функций, полной потере контроля над оборудованием. Примером недооценки влияния инцидентов на непрерывность бизнеса была атака вируса-вымогателя WannaCry в 2017 году, которая затронула компьютеры по всему миру. WannaCry привел к полной блокировке работы больниц, аэропортов, заводов, банков и правительственных учреждений, что привело к экономическим потерям в размере около 4 млрд долларов.
Реализация программ BCM могла бы значительно сократить размеры потерь, а возможно, и вовсе предотвратить катастрофические последствия. Управление непрерывностью бизнеса способствует сохранности средств вложенных владельцами и акционерами. Если возникает сбой на главной площадке дата-центра, работа может быть продолжена на резервной площадке.
По данным The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty), компании, успешно восстановившие деятельность после крупномасштабной аварии благодаря программам BCM, получают кумулятивный доход сверх нормы (разница между ожидаемой и реальной стоимостью акций) в среднем на 10% через год после аварии. В то же время, компании, которые не используют BCM, получают те же 10% и даже 15%, но со знаком минус.
Внедрение BCM: какие этапы необходимо пройти
Планирование и стратегия - так начинается управление непрерывностью бизнеса (BCM). В этом процессе часто используются инструменты риск-менеджмента (RM). Чтобы реализовать BCM в организации, необходимо пройти целый ряд этапов. Они включают в себя овладение техническими и программными средствами, регламентацию действий, распределение ответственности и обучение персонала. Взять на себя эти задачи компании может быть проблематично. В таком случае стоит обратиться за помощью к ИТ-экспертам. Они не только разработают план мероприятий и найдут наилучшие решения для компании, но и помогут перевести проект в реальность.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Для аналитиков имеет большое значение получение достоверной информации о финансах бизнеса и текущей ситуации в ИТ-комплексе, а также о планах его расширения.
Также необходимо провести детальный анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками. Оценка возможного ущерба позволит получить полную картину бизнеса, отразив уровень критичности всех бизнес-процессов и нарушений их функционирования в соответствии с потерями.
Аудит, проводимый аналитиками перед началом сотрудничества, поможет решить все вышеперечисленные задачи. В процессе такой всесторонней оценки будут выявлены слабые места в системе информационной безопасности клиента, которые затем можно будет укрепить.
Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает определенные допущения о вероятности возможных инцидентов в ближайшее время, что позволяет определить наиболее подходящую стратегию.
Согласно экспертам, наличие ясного плана действий в экстренных ситуациях является фундаментальным для успешной защиты бизнеса и его операционной деятельности. В этом контексте, компании необходимо определиться с так называемыми тайм-аутами и производительной мощностью для отдельных бизнес-процессов в случае ЧС в сотрудничестве с аналитиками.
Первоначально, необходимо установить допустимое время восстановления (RTO), то есть интревал вынужденного простоя, который может быть технически сведен к секундам, однако не всегда оправдывает экономические затраты. Кроме того, также нужно определить целевую точку восстановления (RPO) - временной диапазон перед наступлением ЧС, за который все данные могут быть утрачены. В настоящее время, данный интервал может быть практически равен нулю, благодаря частоте и доступности технологий резервного копирования информации.
Наконец, последним этапом является определение уровня непрерывности бизнеса (LBC) - допустимого уровня производительности в случае ЧС в процентах от режима штатной работы. Этот параметр позволяет оценить, насколько быстро и эффективно компания может восстановить свою работоспособность после возникновения нежелательной ситуации.
Таким образом, правильно определенные тайм-ауты и производительная мощность являются важными компонентами бизнес-защиты и могут значительно уменьшить риски потенциального ущерба компании в экстренных ситуациях.
Планирование – это процесс, который должен быть постоянным и динамическим, а не отдельной процедурой, и важно поддерживать его в актуальном и "синхронизированном" состоянии. Для этого необходимо регулярно проверять планы и дополнять их свежими данными по мере необходимости.
Определение стратегии непрерывности бизнеса является ключевым этапом планирования. Эта стратегия должна включать меры по обеспечению безопасности сотрудников, обеспечению рабочих помещений, технических средств и необходимых материалов, доступ к критической информации, а также обеспечивать беспрепятственные коммуникации с партнерами, клиентами, поставщиками и другими заинтересованными сторонами. Каждое направление должно иметь отдельную подстратегию, которая поможет "навигировать" к скорейшему восстановлению в соответствии с параметрами, определенными на этапах анализа рисков. Обеспечение непрерывности ссылается на три стадии: реагирование на ЧС, продолжение выполнения критически важных процессов для бизнеса в условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений зависит от стратегии BCM (Business Continuity Management). Необходимо разработать политики, которые определят приоритетные цели и задачи поддержания непрерывности бизнеса, процедуры реагирования и области распространения системы BCM, а также установить кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения BCM (проекта).
Создание технической и организационной системы BCM очень важно для непрерывности бизнеса. В настоящее время все большую популярность приобретают "облачные" услуги. Одним из решений для защиты информации при помощи облака является DRaaS (Disaster-Recovery-as-a-Service). Суть этого решения заключается в том, чтобы предоставить услугу аварийного восстановления данных в облачных средах корпоративного уровня. Это позволяет снизить расходы на обеспечение безопасности и одновременно поддерживать ее на уровне принятых в индустрии стандартов. Существуют разные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или ее наиболее критичных элементов.
Согласно первому варианту резервные копии ИТ-инфраструктуры создаются по расписанию, который задается в соответствии с требуемым временем восстановления (RTO) и точкой восстановления (RPO), а затем помещаются в хранилище. Восстановление занимает до нескольких часов. Такая схема подходит для малого бизнеса, где непрерывность не является критичной, но важна экономия и надежность сохранения данных. Однако, такое резервное копирование не обеспечивает комплексную защиту.
Второй вариант заключается в том, чтобы копировать все инфраструктуру, а изменения проводить в непрерывном режиме, чтобы они переносились в облако. Информацию можно извлечь и восстановить за несколько минут.
Третий вариант заключается в том, чтобы запустить резервную облачную инфраструктуру, которая будет полностью идентичной основной. Обновления в обоих инфраструктурах происходят синхронно, что позволяет восстанавливать работу за несколько секунд. Такое решение актуально для крупных финансовых и ИТ-компаний, государственных организаций и любых других компаний, где нельзя терять ни минуты на простой.
Построение отказоустойчивых ЦОДов является важным аспектом для различных бизнесов. В случае необходимости, можно провести оптимизацию существующих центров обработки данных или построить новые, более энергоэффективные и отказоустойчивые. Реализация данной задачи включает в себя комплекс мероприятий, таких как: строительство специализированных зданий, организация инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизация, сервисное сопровождение подсистем ЦОДов или создание мобильного ЦОДа. Также, есть более простой путь - доверить организацию ИТ-инфраструктуры надежному провайдеру.
При росте бизнеса и усложнении ИТ-систем компании, вычислительные центры могут стать фактором угрозы непрерывности деловой активности. Поэтому необходимо разработать план восстановления системы после инцидента (DRP), который является составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). DRP помогает быстро восстановить работоспособность критичных ИТ-систем и обычных операций, в то время как BCP обеспечивает восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы BCM необходимо формировать программу сопровождения и эксплуатации, определять периодичность проверок и разрабатывать меры реагирования обслуживающего персонала на возникновение инцидентов. Также важным аспектом является интеграция процессов в корпоративную культуру, которая включает разработку мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является важным фактором для успешного планирования восстановления после происшествия.
Как известно, внедрение системы ВСМ на предприятии может значительно повлиять на его дальнейшую работу. Однако, какие именно параметры могут свидетельствовать об эффективности такого внедрения?
В первую очередь, важно отметить готовность организации к дальнейшей работе в случае возникновения аварий в ИТ-системах. Если в систему была внедрена ВСМ, это достаточно показательный момент, ведь организация приняла меры для сохранения своих данных и возможности продолжения работы в случае сбоев.
Кроме того, стоит оценить вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и потенциальные убытки, которые могут быть связаны с такой ситуацией.
Также важным показателем является соответствие требованиям регулирующих органов и прохождение аудита.
Однако, само по себе создание и внедрение системы ВСМ может стать непростой задачей для предприятия, требующей значительных финансовых, кадровых и временных ресурсов. Не каждая компания готова на это пойти и поэтому речь идет об эффективности внедрения системы с учетом возможностей организации.
Фото: freepik.com