Сокращение времени простоя хранилища данных

    0
    0


    Спонсируемая функция Когда хранилища данных были впервые разработаны, люди использовали их для поддержки принятия решений – решений, которые принимались в залах заседаний каждый месяц или квартал. Сегодня они производятся каждые несколько миллисекунд, что существенно стирает грань между хранилищами данных и операционными системами.

    Фактически, эти два понятия все чаще становятся одним и тем же, а это означает, что наша терпимость к простоям хранилищ данных снижается. Так как же мы можем минимизировать это?

    В этом месяце Amazon Redshift запустила решение высокой доступности, которое охватывает несколько зон доступности AWS (AZ) в одном регионе AWS и может помочь в этом. Разработанный для кластеров компании RA3 Redshift, он обещает значительно снизить риск простоя для критически важных рабочих нагрузок на Redshift. Мы поговорили с Сауравом Дасом, старшим менеджером по продуктам Amazon Redshift, чтобы узнать, как это работает.

    При каждой рабочей нагрузке существует риск простоя. Что меняется, так это толерантность клиента к этому риску, основанная на таких факторах, как их размер, вариант использования и другие вопросы, такие как нормативные обязательства. Многие из этих рабочих нагрузок критически важны для бизнеса, говорит Дас; отключение электроэнергии продолжительностью до часа может вызвать у них раздражение, но не приведет к сбою бизнес-операций. По его словам, менее устойчивые к риску рабочие нагрузки являются критически важными, поясняя, что для сохранения работоспособности операции должны восстанавливаться за десятки секунд, а не за десятки минут.

    Раньше эти критически важные рабочие нагрузки были в основном транзакционными. В эту категорию может попасть система диспетчеризации скорой помощи, которая принимает звонки и направляет доступные транспортные средства к месту экстренной помощи. Аналитические рабочие нагрузки обычно были менее критичными по времени. Финансовая компания может захотеть подсчитать цифры для отчета бизнес-аналитики за ночь до того, как прозвенит утренний звонок, но это вряд ли имеет решающее значение.

    Ситуация меняется, говорит Дас. «Сейчас мы наблюдаем взрывной рост объема данных: клиенты используют все больше и больше данных и хотят, чтобы эти системы были доступны 24 часа в сутки, 7 дней в неделю», — говорит он. Это приложение для отправки скорой помощи теперь может полагаться на анализ исторических данных и данных о дорожном движении в реальном времени, а также уровня бензина в реальном времени в отдельных транспортных средствах. Он может использовать их для определения наилучшего транспортного средства для оказания экстренной помощи и наилучшего маршрута, чтобы можно было своевременно оказать неотложную медицинскую помощь. Он может даже принять во внимание исторические данные об инцидентах, чтобы спрогнозировать вероятный объем и место возникновения чрезвычайных ситуаций позднее вечером того же дня. Это делает аналитические системы незаменимыми.

    Amazon Redshift — это облачная служба хранилища данных для аналитических рабочих нагрузок, которая стала общедоступной десять лет назад и ежедневно обслуживает миллионы аналитических запросов. Все чаще эти запросы поступают от клиентов, которые скорее пострадают, чем просто причинят неудобства, если произойдет сбой.

    Amazon Redshift хранит свои данные в управляемом хранилище Redshift (RMS) на базе Amazon S3, которое обеспечивает высокую надежность и нулевую потерю данных. Redshift также предоставляет множество возможностей восстановления при любых сбоях в зоне доступности, включая автоматическое резервное копирование для восстановления хранилища данных и автоматическое исправление различных сбоев инфраструктуры, которые происходят незаметно, без взаимодействия с клиентом.

    Если вся зона доступности выходит из строя, клиенты могут включить перемещение кластера Redshift, чтобы переместить свой кластер в другую зону доступности без каких-либо изменений приложения. В идеале это занимает всего несколько минут, но это наиболее эффективный метод с учетом ограничений мощности, которые могут продлить время восстановления.

    Новое предложение высокой доступности

    Именно здесь в игру вступает новое предложение Amazon по обеспечению высокой доступности — развертывание в нескольких зонах доступности. Запущенный в этом месяце, он обеспечивает критически важные возможности аварийного переключения в кластерах Redshift.

    «Клиенты с критически важными рабочими нагрузками чувствительны к сбоям в работе инфраструктуры в пределах зоны доступности. Хотя такие случаи редки, они случаются, и эти клиенты нуждаются в защите», — объясняет Дас. «Это решение защитит их и быстро восстановит их после сбоя инфраструктуры в пределах Аризоны».

    Amazon разработала сервис высокой доступности, который обеспечивает кластер Redshift RA3 одновременно в двух зонах доступности. По словам компании, это позволяет системе автоматически выполнять аварийное переключение без каких-либо ограничений мощности, поскольку мощность уже выделена в другой зоне доступности.

    Предварительные испытания показали, что развертывание Redshift Multi-AZ сокращает время восстановления до менее 60 секунд в маловероятном случае отказа зоны доступности, объясняет Дас. Amazon Redshift в настоящее время обеспечивает доступность «три девятки» (99,9%), что означает не более 43 минут простоя в месяц, добавляет он. Однако при развертывании в нескольких зонах доступности Amazon Redshift предлагает на порядок большую доступность на уровне четырех девяток (99,99%) — это максимум четыре с половиной минуты простоя в месяц. Все это происходит без вмешательства пользователя.

    Как Amazon удалось добиться такой работы в облаке? По словам Даса, самой сложной частью установки было обнаружение «сердцебиения». Эта система обнаружения проверяет инфраструктуру, собирая данные, которые говорят, все ли работает правильно. При обнаружении проблемы Redshift Multi-AZ автоматически запускает аварийное переключение для восстановления доступности. В рамках создания нескольких зон доступности основной алгоритм обнаружения Amazon Redshift был усовершенствован, а также подвергнут обширному нагрузочному и масштабируемому тестированию, чтобы обеспечить более быстрое время восстановления для критически важных клиентских развертываний.

    Больше емкости, выше пропускная способность

    Еще одним преимуществом развертывания в нескольких зонах доступности является дополнительная пропускная способность, которую вы получаете при удвоении вычислительных ресурсов, — объясняет Дас. «Часто в системах высокой доступности имеется основная среда и резервная, которая обычно находится в режиме ожидания и ничего не делает», — говорит он. Эта вторичная система предназначена только для обеспечения более высокой доступности и активируется только в случае аварии.

    Преимуществом этой активно-пассивной архитектуры является быстрое переключение при сбое, поскольку «горячая» машина уже находится в режиме ожидания. Обратной стороной является то, что клиент платит за дополнительную мощность, которая почти все время не используется.

    Redshift Multi-AZ обеспечивает более высокую доступность и управляет вычислительными ресурсами в обеих зонах доступности как единое хранилище данных, расположенное за одной конечной точкой. Запросы маршрутизируются по кругу для вычисления ресурсов в обеих зонах доступности, поэтому каждый вычислительный ресурс выполняет половину работы.

    «Все это оборудование привыкает», — утверждает Дас. «Итак, вы получаете не только высокую доступность, но и более высокую пропускную способность».

    По словам Даса, клиенты, выбирающие новую опцию, должны в первую очередь делать это из-за преимуществ высокой доступности, но более высокая пропускная способность является приятным дополнительным бонусом. Компании будут платить более высокие затраты на вычисления, связанные с использованием двух кластеров в разных зонах доступности, но им не придется платить за дополнительное хранилище, поскольку оно является общим. Это связано с тем, что кластеры RA3 хранят свои данные в управляемом хранилище Redshift (RMS), что позволяет клиентам независимо масштабировать и оплачивать вычисления и хранилище.

    RMS — это протокол сквозной записи. Это означает, что после записи он фиксируется в хранилище S3, и данные автоматически реплицируются во все зоны доступности AWS в регионе AWS. Это работает на региональном уровне, хотя данные не будут доступны в случае межрегионального сбоя. На этом этапе вам понадобится использовать Redshift Cross-Region Copy для репликации снимков вашего кластера в другой регион AWS. Но для компаний, работающих в одном регионе, это все равно большая победа.

    Преимущество этой отдельной модели затрат на вычисления и хранение становится все более очевидным по мере увеличения размера наборов данных (и при RMS они могут масштабироваться до петабайт). Плата за хранилище только один раз делает это решение более экономичным, поскольку хранилище данных становится больше, утверждает Amazon.

    Варианты использования и приложения

    Этот вариант с высокой доступностью и высокой пропускной способностью отлично подходит для рабочих нагрузок с высоким уровнем параллелизма и большим количеством операций чтения, объясняет Дас. «Одним из примеров являются рабочие нагрузки типа информационной панели, когда имеется множество специальных запросов, которые резко увеличиваются в течение определенного периода времени и должны выполняться очень быстро», — объясняет он. «В этом случае дополнительная пропускная способность имеет значение, поскольку все запросы выполняются одновременно».

    В качестве еще одного вероятного кандидата он называет обнаружение мошенничества в финансовых приложениях. «Их решение должно работать постоянно», — объясняет он. «Это просто не происходит, потому что они пытаются обнаружить мошенничество и постоянно собирают данные». Другие приложения могут включать управление автопарком, где критически важные поставки (или выезды служб экстренной помощи) должны осуществляться как можно быстрее и эффективнее.

    Клиенты могут включить новую функцию высокой доступности через консоль или через API AWS тремя способами. Первый просто предполагает выбор опции Multi-AZ при создании нового кластера RA3. Во втором случае вы преобразуете существующий кластер RA3 из одной зоны доступности в несколько зон доступности, выбрав опцию «Несколько зон доступности». Наконец, вы можете восстановить существующий снимок из RA3 или Serverless, как вы обычно делаете в экземпляре Redshift, но вы можете сделать это как кластер с несколькими зонами доступности, преобразуя его на лету.

    Эта новая возможность обещает предоставить клиентам лучшее из обоих миров: высокую доступность и высокую пропускную способность, с соответствующим увеличением затрат на вычисления, а не на хранилище. AWS уже работает с клиентами, которые опробовали этот сервис на практике и получили впечатляющие результаты. Поскольку хранилища данных становятся все более важными для критически важных операций, компания прилагает все усилия, чтобы держать клиентов впереди игры.

    При поддержке AWS.

    Предыдущая статьяЭлон Маск предупреждает мир об “античеловеческом” искусственном интеллекте
    Следующая статьяМинистерство обороны Великобритании бросает вызов погоде и тренирует возможности морского искусственного интеллекта
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.