Мы постепенно входим в эпоху интеллектуального программного обеспечения, управляющего IT-окружением, а не анализирующего исторические данные и оповещающего оператора при превышении установленных пороговых значений показателей. У инструментов автоматизации появляется «разум» — интеллект, схожий с человеческим, при помощи которого компании могут решать сложные задачи обеспечения качественных IT-услуг без обязательного участия IT-специалистов. В статье рассказывается об использовании рыночных механизмов для работы компонентов IT-инфраструктуры, а также о нахождении оптимального состояния IT-инфраструктуры.

На первый взгляд, управление IT-инфраструктурой предприятия заключается в управлении информацией и технологиями, которые обеспечивают прием, обработку и передачу данной информации. Но справедливо ли считать IT-инфраструктуру только лишь совокупностью технических систем? Правильно ли говорить: «Мы управляем связкой из серверов на платформе Intel с операционной системой Windows, используем СУБД Microsoft SQL, все остальное ПО тоже от Microsoft, рабочие станции HP, телекоммуникационное оборудование Cisco»?

В этом случае деятельность искусственно разделяется в соответствии с существующей функциональной структурой, обслуживание IT-инфраструктуры передается от одного функционального подразделения к другому как эстафетная палочка. Управление такой функциональной иерархической системой является сложившейся деловой практикой, но при этом данный подход нельзя назвать комплексным. Очевидно, что при таком подходе весьма сложно проконтролировать работу каждого функционального подразделения и организовывать их эффективное взаимодействие между собой.

Вокруг ITSM

Главная цель IT — обеспечить бизнесу эффективные инструменты для достижения корпоративных целей и реализации стратегии. Затраты бизнеса на IT-инфраструктуру должны быть оптимизированы и сбалансированы с учетом текущих потребностей бизнеса и его перспективного развития в будущем, при этом они должны быть максимально понятными и прозрачными. IT-инфраструктура не может оставаться статичной длительное время. Удерживание конкурентного преимущества предприятия возможно только при оперативном изменении IT-инфраструктуры вслед за изменениями в методах ведения бизнес-деятельности. Поэтому IT-инфраструктуру необходимо рассматривать как совокупность информационно-технологических систем, поддерживающих бизнес, то есть как совокупность информационных бизнес-систем.

Парадигма IT-инфраструктуры

Раньше инфраструктура расширялась под конкретный проект внедрения приложения, сегодня подход к проектированию платформ становится более универсальным и выполняется в единой архитектуре. Популярность этого подхода привела к сложной архитектуре, мы получили высокую структурированность программных и аппаратных компонентов, плюс высокую степень их взаимозависимости. Все это привело к усложнению долгосрочного планирования развития IT-инфраструктуры.

В конечном итоге в IT-мире появилась информационно-технологическая концепция, подразумевающая обеспечение повсеместного и удобного сетевого доступа по требованию к общему пулу конфигурируемых ресурсов (например, серверам, хранилищам данных, сетям, приложениям и сервисам как вместе, так и по отдельности). Эти ресурсы могут быть оперативно предоставлены или освобождены с минимальными эксплуатационными затратами или обращениями к поставщику услуг. Возникла и прижилась концепция облачных вычислений.

Показатели IT-инфраструктуры

Для контроля способности IT-инфраструктуры выполнить поставленные задачи без сбоев и потерь организации внедряют системы сбора и анализа информации о производительности компонентов IT-инфраструктуры. Они накапливают огромное количество исторических данных для ретроспективного анализа, как это рекомендует ITIL в процессах управления событиями и проблемами. Разработчики программного обеспечения собирают информацию о производительности при помощи специальных инструментов по нагрузочному тестированию систем на этапах выпуска релиза в предпродуктивную среду или в период опытной эксплуатации. Некоторые формируют синтетические транзакции для фонового контроля состояния взаимоувязанных компонентов IT-инфраструктуры.

Тем не менее сегодня большинство организаций не собирают систематизированные данные о производительности. И у них тем более нет комплексного подхода для решения проблем управления производительностью на всех этапах жизненного цикла IT-систем, включая текущую эксплуатацию. Более того, не многие разработчики ПО способны четко ответить на вопрос: «А сколько ресурсов действительно необходимо и достаточно для обеспечения работоспособности программного продукта?».

Прежде всего, играет роль фактор времени. Среднее время жизни виртуальной машины в современном ЦОД составляет год-полтора, а в случае применения контейнерной виртуализации вообще — часы или дни, что делает огромные объемы накопленных системами мониторинга данных бесполезными. Да и IT-среда меняется настолько быстро, что эти объемы не обеспечивают точной предсказательной информации и не позволяют принять точное решение.

Второй фактор — повышение требований к IT-инфраструктуре. Простого контроля состояния отдельных систем и загрузки их компонентов через динамические пороги становится мало. Неграмотно настроенная система мониторинга может эффективно отслеживать только доступность элементов IT-инфраструктуры по ping, что вообще не дает понимания о реальном качестве функционирования IT-услуги. Все элементы цифровой связи могут быть доступны, но качество связи будет неудовлетворительным, когда начнутся миллисекундные задержки в обслуживании сигналов процессором, начнется джиттер, который приведет к переспросам ресурса процессов, что в свою очередь повлечет за собой потерю пакетов, звук начнет булькать, изображение на экране разложится на пиксели. К IT предъявляются более высокие требования: пул ресурсов должен быть доступным, масштабируемым, эластичным и обеспечивать возможность самостоятельного управления со стороны потребителя, необходимо учитывать планы проектных внедрений и успевать за развитием бизнеса.

Рис. 1. Требования бизнеса и предложение ресурсов

Третий фактор — ориентация на бизнес-результат. Соответствие показателей корпоративным целям возникает при оказании положительного эффекта на производительность действий, объектов или задач, связанных с достижением бизнесом желаемого результата. При этом устранение или ослабление ограничений на производительность тоже рассматриваются в качестве положительного эффекта. По этой причине следует рассматривать процесс управления IT как процесс качественного удовлетворения требований бизнеса, а не с точки зрения промышленного сегмента, географии или технологической платформы.

Показатели работы приложений

Таким образом, о качественном управлении IT-инфраструктурой необходимо судить с точки зрения удовлетворения требований потребителя IT-услуг (бизнеса, пользователя). В обеспечении эффективности работы бизнес-процессов IT играют важную, но далеко не основную роль. Конечной точкой ответственности со стороны IT в этом вопросе могут являться программные приложения, именно для программных приложений IT-команды должны обеспечить достаточную производительность, в то же время обеспечивая оптимальную утилизацию приложениями всех ресурсов, находящихся под ними. Состояние, когда для всех приложений гарантируется производительность, а все компоненты IT-инфраструктуры работают бесперебойно с максимально возможной нагрузкой, может быть определено как желаемое состояние. То есть, желаемое состояние — это N-мерный набор всех возможных характеристик IT-ресурсов (CPU, RAM, HDD, скорость обработки транзакций, объем транзакций), при которых обеспечивается непрерывная работа приложений и обеспечивается минимальное время их отклика.

Непрерывность функционирования IT-систем обеспечивается путем формирования кластеров и резервных площадок, в том числе путем аренды площадок у внешних поставщиков облачных услуг (когда построен механизм «cloud on demand», когда появляются среды частного, гибридного и публичного облака). IT-архитектура выбирается и строится с учетом имеющихся бюджетов, когда деньги не тратятся на кластеризацию и миграцию приложений с низкими требованиями по отклику на ресурсы дорогого провайдера.

Использование рыночных механизмов для оптимизации работы IT-инфраструктуры

Если мы говорим про тесную связь бизнес-целей и требований с IT-целями и задачами, почему бы при решении задач по гарантированию достаточной производительности не применять законы и модели управления рынком? Что если все компоненты IT-инфраструктуры рассматривать как поставщиков и потребителей услуг, покупающих и продающих свою мощность?

Предположим, что виртуализованный центр обработки данных является рынком, а его компоненты — вычислительные мощности, хранилища, приложения, сетевые устройства — это элементы цепочки поставок, покупатели и поставщики товаров; товаром в этом случае будут их ресурсы (рис. 2).

Рис. 2. Виртуальный ЦОД как цепочка поставки.

Аналогии с рынком действительно есть. Связь и взаимозависимости между конфигурационными единицами ЦОД нам известны и понятны. В рыночном представлении каждая КЕ в сервисно-ресурсной модели рассматривается в качестве и поставщика, и потребителя ресурсов. Например, покупатель приобретает программное приложение у продавца — виртуальной машины — в виде процессорного времени, объемов оперативной памяти и жесткого диска, пропускной полосы сетевого адаптера. А сама виртуальная машина, уже как покупатель, приобретает эти ресурсы у продавца — физического сервера. И так далее по цепочке формирования стоимости, вплоть до товара в виде ресурсов вентиляции, электропитания и площади ЦОД.

В любой момент времени в ЦОД есть конечное количество процессорной мощности, объема памяти, дискового пространства, IOPS и других ресурсов, необходимых виртуальным машинам и приложениям. Так же как и конечное количество физического пространства, ресурсов электроэнергии и охлаждения, требуемых для физических серверов, поддерживающих виртуальные машины и приложения. Стоимость этих ресурсов формируется с учетом степени нагрузки на КЕ — чем выше ее утилизация, тем она дороже.

Каждый продавец и покупатель имеют свой бюджет, который формируется, в том числе с учетом требований ко времени отклика или критичности приложения для бизнеса. В реальном времени цены на данные ресурсы колеблются, так как потребности меняются вслед за изменениями коэффициента загрузки, что понуждает покупателей (виртуальные машины и рабочие нагрузки) постоянно искать лучшую цену, а продавцов (сервера) поднимать стоимость, когда возникает дефицит ресурсов.

Однако весь этот псевдорынок необходимо поддерживать в динамическом балансе, когда нет ни излишка продавцов, ни излишка покупателей. Это может делать «искусственный разум», применяя экономическую модель распределения ресурсов в компьютерных системах, разработанную Йхиамом Йемини (Yechiam Yemini). Оптимизация ресурсов является задачей линейного программирования и она решаема. Экономическая модель распределения ресурсов в компьютерных системах показала, что локально оптимальное решение проблемы комбинаторной оптимизации может быть найдено. Оптимизация достигается, когда ресурсы предоставляются по наиболее низкой цене.

Такой метод управления в корне отличается от традиционного подхода к управлению при помощи установленных порогов, предсказательной аналитики, подавления предупреждений и выявления корневой причины сбоя. Фокус смещается от анализа накопленных исторических данных к динамическому балансу в режиме реального времени. Мы уходим от практики применения целой плеяды инструментов автоматизации и попыток снизить время устранения уже возникшего сбоя к гарантиям достаточной производительности и максимального времени отклика.

Для поддержки окружения в динамическом балансе каждому участнику этого псевдорынка необходимо иметь бюджет, который он будет тратить, оплачивая потребляемые ресурсы и пополнять, продавая свои ресурсы остальным участникам за установленную стоимость. Виртуальный бюджет используется на всех уровнях IT-окружения, давая возможность сравнения стоимости транзакций приложений со стоимостью дискового пространства или стоимостью физического пространства в центре обработки данных. Цена, которую выставляет продавец покупателям за свои ресурсы, изменяется вслед за предложением: по мере роста спроса растет и цена. На изменение цены происходит реакция покупателей и продавцов. Покупатели совершенно свободно ищут других продавцов с наилучшим предложением, а продавцы могут размножать сами себя для обеспечения возросших потребностей, что в итоге приводит к оптимальному использованию ресурсов IT-инфраструктуры.

Оптимальное состояние IT-инфраструктуры

Желаемое состояние IT-среды достигается при одновременной производительности и эффективности. Как мы знаем из ITIL, при оптимальных показателях производительности и эффективности достигается качество IT-услуг. Производительность можно измерить как функцию задержки, когда нулевая задержка обеспечивает идеальное качество обслуживания (QoS) для конкретной услуги. Эффективное использование ресурсов является функцией загрузки, где 100-процентная загрузка ресурса является идеальным условием для наиболее эффективного использования ресурсов.

Рис. 3. График зависимости задержки в обслуживании от загрузки ресурса.

Если переложить показатели задержки и загрузки на график, то результатом будет кривая, отражающая зависимость между ними (рис. 3). На ней видно, что по мере увеличения загрузки задержка увеличивается незначительно (эта область показана желтым). На кривой есть точка, в которой даже небольшое увеличение загрузки приводит к недопустимому увеличению задержки в обслуживании. С другой стороны, на кривой есть точка, в которой небольшое снижение загрузки не приводит к значительному увеличению параметров QoS. Желаемое состояние находится между двумя такими точками (эта область показана зеленым).

Традиционно IT-специалисты устанавливают порог для получения уведомления об аварии при пересечении верхней линии. Очевидно, что в таком случае на проблему не последует реакции, пока задержка не достигнет неприемлемого уровня QoS. Во избежание такой поздней реакции можно установить порог для срабатывания предупреждения перед тем, как будет пересечена верхняя линия. Значение порога будет находиться где-то в синем квадрате на графике слева. В таком случае требуемый уровень QoS будет обеспечиваться, но высокой ценой (на графике — $) и излишними ресурсами. Значит возрастают операционные затраты, и эффективность использования ресурсов никогда не будет достигнута.

Выходом из такой ситуации является отказ от контроля превышения пороговых значений в пользу анализа рабочих режимов и непрерывного выполнения действий по содержанию всего IT-окружения в желаемом состоянии. Если так действовать, все IT-окружение будет поддерживать рабочие режимы, которые гарантируют и производительность приложений, и наименьшие возможные затраты ввиду наиболее эффективной загрузки ресурсов (зеленый квадрат на графике справа).

Однако в динамически изменяющемся виртуализированном IT-окружении человек не в состоянии уследить за всеми изменениями и уподобляется фокуснику с тарелочками на шестах, которому постоянно необходимо придавать каждому из шестов свой момент вращения, чтобы тарелочки не упали и не разбились. До сегодняшнего дня программное обеспечение помогало работать лучше и быстрее людям. С прогрессом в области производительности, обработки данных и когнитивных технологий интеллектуальное ПО помогает принимать более точные решения уже не людям, а машинам.

Гибридная инфраструктура, облачные услуги и мобильность радикально изменили IT-ландшафт. IT-руководители оказались в центре огромной экосистемы, в которой правильно выстроенный и реализованный процесс поддержки принятия решений при управлении динамически изменяющимся IT-окружением позволяет установить коэффициент готовности бизнес-процессов, следовательно, увеличить общую живучесть организации.

*** Описанный и уже реализованный подход приближает эпоху интеллектуального программного обеспечения, управляющего IT-окружением, а не анализирующего исторические данные и оповещающего оператора при превышении пороговых значений показателей. У инструментов автоматизации появляется «разум» — интеллект, схожий с человеческим, при помощи которого компании могут решать сложные задачи обеспечения качественных IT-услуг без обязательного участия IT-специалистов.

Проблемы терминологии

Еще одна трудность связана с использованием собственных терминологий и понятий. Бизнес использует такие слова как клиенты, выручка и репутация, а представители IT-подразделений говорят о производительности, времени отклика и объемах транзакций, специалисты по эксплуатации инфраструктуры фокусируются на утилизации, доступности, заказе и поставках платформенного программно-аппаратного обеспечения и, наконец, специалисты по инженерному обеспечению общаются в терминологии энергопотребления, занимаемой площади и охлаждения.

Автор: Антон Боганов

Мнение эксперта в статье

Антон Боганов

Руководитель практики управления ИТ- услугами IBS

Гарантия производительности или жизнь без границ