Знакомство на raid кг

Знакомство с хранилищем Ceph в картинках / Хабр

знакомство на raid кг

Описание RAID и создание томов RAID в сетевом хранилище. При первом знакомстве с системами NAS, существует несколько устойчивых А так же познакомимся с понятием - RAID массив. Есть кластер 4 ноды. В каждой 2 SSD (один:os,mon второй: jornal) 3 hdd (WD RAID edition SATA) процы E Фактор репликации 3.

Кластер может иметь один или много пулов данных разного назначения и с разными настройками. Пулы делятся на плейсмент-группы. В плейсмент-группах хранятся объекты, к которым обращаются клиенты.

знакомство на raid кг

На этом логический уровень заканчивается, и начинается физический, потому как за каждой плейсмент-группой закреплен один главный диск и несколько дисков-реплик сколько именно зависит от фактора репликации пула.

Другими словами, на логическом уровне объект хранится в конкретной плейсмент-группе, а на физическом — на дисках, которые за ней закреплены. При этом диски физически могут находиться на разных узлах или даже в разных датацентрах. Фактор репликации RF Фактор репликации — это уровень избыточности данных. Количество копий данных, которое будет храниться на разных дисках. За этот параметр отвечает переменная size. Фактор репликации может быть разным для каждого пула, и его можно менять на лету.

Вообще, в Ceph практически все параметры можно менять на лету, мгновенно получая реакцию кластера.

знакомство на raid кг

Пул Пул — это логический абстрактный контейнер для организации хранения данных пользователя. Любые данные хранятся в пуле в виде объектов. Несколько пулов могут быть размазаны по одним и тем же дискам а может и по разным, как настроить с помощью разных наборов плейсмент-групп. Каждый пул имеет ряд настраиваемых параметров: Каждому пулу можно настроить свою политику репликации по городам, датацентрам, стойкам или даже дискам.

И тогда Ceph будет гарантировать, что каждый кусочек данных имеет по одной копии в трех датацентрах. И в этом случае, кластер будет хранить только две копии.

При этом, если у нас две стойки с хранилищем виртуальных образов в одном датацентре, и две стойки в другом, система не будет обращать внимание на датацентры, и обе копии данных могут улететь в один датацентр, однако гарантированно в разные стойки, как мы и хотели. Плейсмент-группа PG Плейсмент-группы — это такое связующее звено между физическим уровнем хранения диски и логической организацией данных пулы. Каждый объект на логическом уровне хранится в конкретной плейсмент-группе.

На физическом же уровне, он лежит в нужном количестве копий на разных физических дисках, которые в эту плейсмент-группу включены на самом деле не диски, а OSD, но обычно один OSD это и есть один диск, и для простоты я буду называть это диском, хотя напомню, за ним может быть и RAID-массив или iSCSI-устройство.

Но при этом каждый диск находится во множестве плейсмент-групп, и для каких то групп он будет первичным, для других — репликой. Если OSD входит, например, в состав трех плейсмент-групп, то при падении такого OSD, плейсмент-группы исключат его из работы, и на его место каждая плейсмент-группа выберет рабочий OSD и размажет по нему данные. С помощью данного механизма и достигается достаточно равномерное распределение данных и нагрузки. Это весьма простое и одновременно гибкое решение.

Мониторы Монитор — это демон, выполняющий роль координатора, с которого начинается кластер. Как только у нас появляется хотя бы один рабочий монитор, у нас появляется Ceph-кластер.

Монитор хранит информацию о здоровье и состоянии кластера, обмениваясь различными картами с другими мониторами. При разворачивании нового хранилища, первым делом создается монитор или. Кластер может прожить на одном мониторе, но рекомендуется делать 3 или 5 мониторов, во избежание падения всей системы по причине падения единственного монитора.

Главное, чтобы количество оных было нечетным, дабы избежать ситуаций раздвоения сознания split-brain. Мониторы работают в кворуме, поэтому если упадет больше половины мониторов, кластер заблокируется для предотвращения рассогласованности данных.

И обычно за каждый OSD отвечает отдельный OSD-демон, который может запускаться на любой машине, на которой установлен этот диск. Это второе, что нужно добавлять в кластер, при разворачивании.

Один монитор и один OSD — минимальный набор для того, чтобы поднять кластер и начать им пользоваться. Если на сервере крутится 12 дисков под хранилище, то на нем будет запущено столько же OSD-демонов. Клиенты работают непосредственно с самими OSD, минуя узкие места, и достигая, тем самым, распределения нагрузки. Клиент всегда записывает объект на первичный OSD для какой-то плейсмент группы, а уже дальше данный OSD синхронизирует данные с остальными вторичными OSD из этой же плейсмент-группы.

RAID - Что это такое и зачем?

При разных вариантах настройки этих параметров, мы будем наблюдать и разное поведение. Когда останется всего лишь 1 живой OSD, кластер заморозит операции данной плейсмент-группы, пока не оживет хотя бы еще один OSD. А из-за высокого уровня размазанности данных, большинство падений хотя бы одного OSD будет заканчиваться заморозкой всего или почти всего кластера. Ceph дозволяет выставить этот параметр в единицу, но даже если администратор делает это с определенной целью на короткое время, он риск берет на.

Диск OSD состоит из двух частей: Соответственно, данные сначала пишутся в журнал, затем уже в раздел данных. С одной стороны это дает дополнительную надежность и некоторую оптимизацию, а с другой стороны — дополнительную операцию, которая сказывается на производительности. Вопрос производительности журналов рассмотрим ниже. Этот алгоритм позволяет однозначно определить местоположение объекта на основе хеша имени объекта и определенной карты, которая формируется исходя из физической и логической структур кластера датацентры, залы, ряды, стойки, узлы, диски.

Карта не включает в себя информацию о местонахождении данных. Путь к данным каждый клиент определяет сам, с помощью CRUSH-алгоритма и актуальной карты, которую он предварительно спрашивает у монитора. При добавлении диска или падении сервера, карта обновляется. Благодаря детерминированности, два разных клиента найдут один и тот же однозначный путь до одного объекта самостоятельно, избавляя систему от необходимости держать все эти пути на каких-то серверах, синхронизируя их между собой, давая огромную избыточную нагрузку на хранилище в целом.

Клиент хочет записать некий объект object1 в пул Pool1. Для этого он смотрит в карту плейсмент-групп, которую ему ранее любезно предоставил монитор, и видит, что Pool1 разделен на 10 плейсмент-групп. Далее с помощью CRUSH-алгоритма, который на вход принимает имя объекта и общее количество плейсмент-групп в пуле Pool1, вычисляется ID плейсмент-группы. Следуя карте, клиент понимает, что за этой плейсмент-группой закреплено три OSD допустим, их номера: Важно понимать, что это упрощенное объяснение работы алгоритма.

  • Архитектура В. С. Lab4. Моделирование архитектуры RAID-массивов
  • Администрирование систем Linux. Знакомство с технологией RAID
  • RAID - Что это такое и зачем?

Однако, можно эту плоскость легко превратить в дерево, распределив серверы по стойкам, стойки по рядам, ряды по залам, залы по датацентрам, а датацентры по разным городам и планетам, указав какой уровень считать зоной отказа. Оперируя такой новой картой, Ceph будет грамотнее распределять данные, учитывая индивидуальные особенности организации, предотвращая печальные последствия пожара в датацентре или падения метеорита на целый город.

Знакомьтесь: Ceph

Данный тип рекомендуется использовать там, где в первую очередь важна скорость работы, а не надежность хранения. Необходимо минимум 2 диска.

знакомство на raid кг

RAID 1 — является одним из наиболее надежных, за счет того, что все данные зеркалируются дублируются. При выходе из строя одного диска все данные останутся доступными на втором.

Скорость работы в этом случае никак не меняется. Рекомендуется там, где на первом месте стоит сохранность данных. В этом варианте нам доступно все дисковое пространство, минус 1 диск.

При выходе из строя одного диска все данные сохраняются и остаются доступными, однако требуется как можно скорее заменить вышедший из строя диск. Как правило, подходит под большинство офисных задач. Необходимо минимум 3 диска. Позволяет не потерять данные при выходе из строя до 2-х дисков.

Полезный объем при этом также уменьшается на 2 диска. Необходимо минимум 4 диска. JBOD — просто объединение дисков в массив, без какой-либо отказоустойчивости. Мало используется, как правило нужен только в тех случаях, когда необходимо создать массив из одного диска.

Необходим минимум 1 диск.

знакомство на raid кг

Как видим, RAID массив является важной частью современного хранилища. Каждый из уровней RAID имеет свои плюсы и минусы и используется в зависимости от приоритетов в задаче.

При этом, на одном NAS может быть создано несколько RAID массивов с различными уровнями, что еще больше расширяет его возможности, делая устройство мультизадачным.