Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Развитие технологий контроля за функционированием распределенных систем сбора, обработки и распространения спутниковых данных.

В 2010 году было продолжено развитие технологий контроля за функционированием распределенных автоматизированных систем сбора, обработки и распространения спутниковых данных. Современные системы сбора, обработки и распространения спутниковых данных зачастую являются сложными распределенными программно-аппаратными комплексами, в работе которых участвуют многие десятки компьютеров, функционирующих в автоматизированном режиме, и специальное оборудование для приема спутниковых данных. К сожалению, в работе таких сложных систем неизбежно происходят сбои, вызванные как программными ошибками и неполадками в работе оборудования, так и различными причинами, связанными с человеческим фактором. Для того чтобы устранить сбои в работе системы с минимальными потерями или даже без всякого ущерба для них, прежде всего необходимо раннее обнаружение сбоев, а также ситуаций, которые могут к ним привести. При этом, чем точнее и детальнее диагностирована ошибка, тем быстрее она может быть локализована и исправлена. Естественно, что информация о детектированных сбоях должна быть оперативно передана операторам, ответственным за поддержку системы. Кроме этого, для эффективного контроля и оперативного устранения возникших неполадок в работе системы необходимы специальные инструменты, позволяющие получить как детальную информацию о работе отдельных компонент системы, так и различные обобщенные показатели ее работы.  Последней важной задачей является фиксация сбоев и отслеживание работ по своевременному их устранению, что, безусловно, повышает качество работы операторов системы.
Вышеперечисленные задачи, на наш взгляд, практически невозможно решить без использования специального программного обеспечения, работающего в максимально автоматизированном режиме. Для решения подобных задач в ИКИ РАН разрабатывается специальные подходы, технология и базовое программное обеспечение. Для создания такой технологии на основе опыта эксплуатации достаточно крупных информационных систем были выделены основные задачи, связанные с обнаружением сбоев в работе блоков и подсистемы сбора, обработки и распространения данных, к которым, в первую очередь, относятся:

  • Контроль за успешным и своевременным выполнением программ, участвующих в приеме, обработке и архивации спутниковых данных
  • Контроль за наличием актуальных информационных продуктов в соответствующих базах данных
  • Контроль за состоянием компьютеров, участвующих в работе системы
  • Специфические для конкретной информационной системы инструменты для контроля работы отдельных ее компонент
  • Непосредственное обнаружение ошибок в работе системы при использовании интерфейсов доступа к данным

После того как ошибка была обнаружена одним из вышеперечисленных способов необходимо как можно быстрее оповестить о ней персонал, занимающийся поддержкой работы системы. Для получения детальной информации о работе отдельных компонент системы, а также различных интегральных показателей ее функционирования целесообразно реализовать специализированные WEB интерфейсы, позволяющие оператору работать удаленно без дополнительного программного обеспечения. Необходимость в интегральных показателях связана с очень большим количеством различных программных компонент, участвующих в работе системы. Необходимо  реализовать такие интегральные показатели, как наличие ошибок на отдельных компьютерах системы, функционирование системы репликации баз данных и др. Естественно, что в разрабатываемых интерфейсах должна быть возможность перехода от интегральных показателей к детальной информации о состоянии всех соответствующих им программных компонент.
Для того чтобы отслеживать состояние детектированного сбоя необходима специальная система ведения сбоев, обладающая как программным так и пользовательским интерфейсами. При этом программный интерфейс необходим для автоматизированного занесения в систему информации о детектированных сбоях и для автоматического закрытия сбоя при его устранении, если это целесообразно для данного типа сбоя. Пользовательский интерфейс системы ведения сбоев также целесообразно реализовывать на базе WEB технологий.
В рамках технологии построения автоматизированных систем сбора, обработки и распространения спутниковых данных, разработанной в ИКИ, задачи управления потоками данных, диспетчеризации обработки, архивации данных и обеспечения доступа к ним решаются на базе использования UNIX серверов, а задачи, связанные непосредственно с обработкой спутниковых данных – на базе станций под управлением операционной системы Windows. Программное обеспечение UNIX серверов реализовано в виде наборов различных специализированных программ, отвечающих за сбор, диспетчеризацию обработки и архивацию разных типов спутниковых данных и обеспечение к ним доступа. На Windows станции обработки, устанавливается одинаковое базовое ПО, позволяющее автоматически выполнять любые из реализованных заданий по обработке спутниковых данных, на основе макросов, загружаемых с UNIX серверов. Естественно, что при такой архитектуре основные задачи контроля за работой системы, возложены на управляющие UNIX сервера, на которых устанавливается основная часть программного обеспечения для контроля за функционированием информационных систем. Для решения задач контроля в ИКИ РАН созданы и развиваются следующие базовые программные компоненты: 

  • Программный пакет PMS является ядром системы контроля и предназначен, в первую очередь, для контроля за успешным и своевременным выполнением программ на UNIX серверах. Пакет устанавливается на каждый из серверов, участвующих в работе системы. При этом контролируемые процессы запускаются в автоматическом режиме при помощи специальной программы, которая сохраняет в БД протоколы их выполнения и стандартизированные возвратные коды. Доступ к информации о выполнении программ реализован при помощи WEB интерфейса, позволяющего, в частности, задать критерии детектирования ошибок для каждого процесса. 
  • Система контроля наличия информационных продуктов в базах данных. Система предназначена для контроля за наличием актуальных информационных продуктов в базах данных и позволяет следить за сроком «давности» экземпляров данных для каждого из определенных в ней типов продуктов. Доступ к информации осуществляется при помощи WEB интерфейса. В случае обнаружения ошибки система автоматически заносит информацию в систему сбоев и автоматически закрывает сбоя при исправлении ситуации.
  • Панель контроля за функционированием системы создается для  того, чтобы свести различные параметры контроля за работой распределенной системы сбора, обработки и распространения спутниковых данных в рамках одного интерфейса, для каждой информационной системы разрабатывается специальный обобщающий WEB интерфейс. На рисунке 16.1.2. в качестве примера представлена панель контроля за функционированием системы ИСДМ Рослесхоз, в рамках которой предоставляется обобщающая контрольная информация о работе компонент системы. Каждому обобщенному показателю соответствует индикатор, который в случае ошибки показывается красным цветом, в случае успешной проверки – зеленым цветом. За каждым индикатором закреплена ссылка, ведущая в один из специализированных интерфейсов контроля. Индикаторы работы серверов, станций обработки и состояния репликации базы данных получаются с серверов посредством системы PMS, информация о наличии данных при помощи соответствующей специализированной системы, а информация о задержках в цепочках обработки предоставляется на базе специализированного интерфейса, разработанного для конкретной информационной системы. Для станций обработки также приводятся ссылки на специализированные интерфейсы контроля за их работой.
  • Система ведения сбоев предназначена для регистрации сбоев, оповещения о них специалистов и контроля за ходом их устранения. Система снабжена специальным WEB интерфейсом, позволяющим использовать ее удаленно. Это особенно актуально, так как регистрировать сбои могут не только операторы, но и уполномоченные пользователи системы сбора, обработки и распространения спутниковых данных. В ряде случае, как например, в случае проблем с дисковыми массивами или отсутствием актуальных продуктов в базах данных, сбои регистрируются автоматически при помощи специального программного интерфейса системы ведения сбоев. По факту регистрации сбоя указанным в нем специалистам автоматически направляется соответствующее электронное письмо. После успешного устранения неполадок специалист помечает сбой как исправленный и заносит информацию о принятых им мерах.

 

Рис.16.1.2. Панель контроля за функционированием системы ИСДМ Рослесхоз

Разработанные подходы к организации контроля за функционированием распределенных систем сбора, обработки и распространения спутниковых данных в настоящее время уже используются в процессе эксплуатации различных действующих систем. В частности, они успешно применяются в рамках системы дистанционного мониторинга лесных пожаров Рослесхоза (ИСДМ Рослесхоз) и системы дистанционного мониторинга земель агропромышленного комплекса (СДМЗ АПК). Реальное использование созданной технологии и базового программного обеспечения показали достаточно высокую устойчивость и эффективности работы. На наш взгляд они могут представлять интерес и для других разработчиков такого информационных систем подобного класса.