Войти на сайт
МЕЖДУНАРОДНЫЕ ЕЖЕГОДНЫЕ КОНФЕРЕНЦИИ
"СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО
ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
(Физические основы, методы и технологии мониторинга окружающей среды, природных и антропогенных объектов)
Архив конференций
Дополнительная информация
Подписка/отписка
на рассылку новостей
Ваш e-mail:

Четырнадцатая Всероссийская открытая конференция "Современные проблемы дистанционного зондирования Земли из космоса"

XIV.B.362

Технологии параллельной обработки данных в задачах анализа больших объемов спутниковых снимков

Кихтенко В. А. (1), Чубаров Д. Л. (1)
(1) Институт вычислительных технологий СО РАН, Новосибирск, Россия
В настоящее время сложилась ситуация, когда постоянное возрастание потоков данных дистанционного зондирования (ДДЗ) привело к накоплению сверхбольших объемов информации, а расширение областей их использования и развитие методов и алгоритмов обработки порождает ряд задач в области информационных технологий. Так, при выполнении исследований, требующих агрегации больших объемов ДДЗ, производить обработку данных только на одной рабочей станции уже не представляется возможным. В некоторых случаях одна только загрузка всех необходимых снимков из архива уже требует больших временных затрат. Таким образом, возникает необходимость в использовании распределенных систем анализа данных.

Существует множество таких систем, в качестве примера можно назвать Hadoop, Spark, SciDB, Presto и им подобные. Однако применение этих систем для обработки спутниковых данных связано с рядом трудностей. Во-первых, это необходимость создания модели данных дистанционного зондирования, которая, с одной стороны, обеспечивала бы удобство разработки алгоритмов анализа, а с другой, позволяла бы управляемое автоматическое распараллеливание процесса обработки. Во-вторых, аналитику данных требуется интерактивная среда разработки алгоритмов, обеспечивающая визуализацию результатов расчетов и быстрый отклик на изменения алгоритма обработки или его параметров. При этом важно учитывать пространственную природу данных и предоставить инструменты типичные для ГИС.

По мнению авторов, эффективная реализация такой системы возможна только в результате дополнения существующих архивов спутниковых данных сервисом высокопроизводительной распределенной обработки, способным выполнять пользовательские алгоритмы максимально близко к данным, для чего потребуются значительные аппаратные ресурсы.

В то же время, архивы спутниковых данных зачастую уже поддерживают различные приложения по преобразованию и предоставлению данных, и перед ними стоит задача оптимального использования имеющихся вычислительных мощностей. Эта задача может решаться как применением технологий виртуализации и контейнеризации - каждое приложение “упаковывается” в свой индивидуальный контейнер или виртуальную машину, так и развертыванием этих приложений поверх распределенной высокопроизводительной системы извлечения и обработки данных. В последнем случае эта система становится вычислительным ядром архива.

В докладе описывается опыт создания и эксплуатации системы доступа и аналитической обработки спутниковых снимков hVault, основанной на отображении спутниковых снимков в реляционную модель данных и выполнению запросов к ним на языке SQL, которую мы рассматриваем как прототип высокопроизводительной системы извлечения и обработки данных. Обсуждаются вопросы разделения ресурсов между hVault и другими приложениями и создания приложений на основе hVault. Приводятся оценки производительности и возможности для дальнейшего развития системы.

Работа выполнена при поддержке гранта РФФИ 16-37-00118 мол_а и программы фундаментальных исследований Президиума РАН по стратегическим направлениям развития науки №43П.

Ключевые слова: высокопроизводительная обработка, большие данные, дистанционное зондирование Земли, геопространственные данные, обработка спутниковых данных

Презентация доклада

Технологии и методы использования спутниковых данных в системах мониторинга

88