Двенадцатая Всероссийская открытая конференция "Современные проблемы дистанционного зондирования Земли из космоса"
XII.B.137
Отказоустойчивая масштабируемая платформа для обработки и хранения спутниковых данных
Коноплев В.В., Жижин М.Н., Назиров Р.Р.
ИКИ РАН
В докладе представлена архитектура и реализация программно-аппаратного комплекса (ПАК) для хранения и обработки больших объемов научных данных, в частности данных дистанционного зондирования земли (ДЗЗ). Рассматриваемый комплекс состоит из масштабируемого разделяемого хранилища, организованного на базе параллельной файловой системы, и вычислительного кластера, который доступен конечным пользователям в рамках облачной парадигмы IAAS («инфраструктура как сервис»).
Предлагаемая архитектура относится к классу «shared disk», при которой все вычислительные узлы получают унифицированный однородный доступ ко всему пространству хранения данных. Такой подход существенно повышает уровень доступности системы, поскольку делает возможным быструю миграцию сервисов между вычислительными узлами в случае сбоя или плановых сервисных работ. Кроме того, значительно облегчаются задачи балансировки нагрузки в вычислительной системе.
До недавнего времени полноценная реализация высокопроизводительной, масштабируемой и отказоустойчивой архитектуры «shared disk» требовала использования специализированных систем хранения данных. Однако, наблюдаемое в последнее время развитие технологий распределенных и параллельных файловых систем, а также аппаратных компонент, позволило отказаться от коммерческих специализированных решений и получить аналогичную систему с хорошими экономическими показателями. При этом остается доступным ряд преимуществ, характерных для специализированных систем хранения данных корпоративного класса, куда входят высокая производительность, масштабируемость и отказоустойчивость с полным аппаратным дублированием.
В настоящее время представленный комплекс работает в режиме опытной эксплуатации по загрузке и архивированию данных ДЗЗ с мультиспектральной камеры VIIRS нового метеорологического спутника Suomi NPP. Результаты непрерывных наблюдений земной поверхности передаются со спутника в виде поминутных сегментов с суточным сетевым трафиком ~2 Тбайт. При этом суточный набор данных среднего разрешения, загружаемый из архива NPP, составляет ~600 Гбайт или ~400Гбайт после переупаковки, что дает годовой прирост порядка 150 Тбайт в нашем архиве. Для анализа долгосрочных климатических или антропогенных изменений требуется обработка всего архива, которая включает геопривязку снимков, выделение мультиспектрального сигнала и последующую склейку (мозаику) снимков на общей картографической основе. Предлагаемая архитектура ПАК позволяет решать такие задачи методом Map-Reduce без «перекачки» данных из архива на параллельный вычислитель. В частности, становится реальным анализ трендов в энергетике по объему сжигания попутного газа при добыче и переработке углеводорода или в макроэкономике по изменениям яркости ночных огней поселений по всей территории России.
Работа выполнена при частичной поддержке Президиума РАН (программа П-14).
Технологии и методы использования спутниковых данных в системах мониторинга
120