Разработка нейросетевой системы прогнозирования авиа происшествий

Разработка нейросетевой системы прогнозирования авиа происшествий и управления рисками безопасности полетов на основе ретроспективных данных, включающих множество параметров и текстовых описаний событий.

Цель:

  • Разработка способа применения глубоких нейронных сетей для эффективного решения задач построения многомерных динамических событийных моделей и прогнозирования вероятности наступления событий, характеризующихся вектором параметров и текстовыми описаниями на разреженных выборках.
  • Разработка специального программного обеспечения (СПО) для многомерного моделирования, факторного анализа и прогнозирования возникновения событий, оказывающих влияние на экономические показатели, с использованием больших объемов данных исторических наблюдений (Big Data), в том числе неструктурированной текстовой информации.

Ключевые слова на русском языке:

глубокие нейронные сети; рекуррентные нейронные сети; LSTM-сети; многомерное прогнозирование; факторный анализ; проклятье размерности; Big Data; экономические прогнозы; прогнозирование событий

Ключевые слова на английском языке:

deep neural networks; recurrent neural networks; LSTM-networks, multi-dimensional forecast, factor analysis, curse of dimensionality, Big Data; economic forecast; event forecast

Описание проблемы, обоснование актуальности исследований:

Отсутствие в настоящий момент у заказчиков Индустриального Партнера (крупные Авиационные компании) современной системы прогнозирования рисковых событий и факторного анализа для управления рисками по историческим наблюдениями событий с численными и текстовыми описаниями, приводит к экономическим потерям в производственной деятельности, а также препятствует развитию методов снижения рисков потенциальных катастрофических событий, имеющих высокий социальный резонанс.

Существующие решения (программное обеспечение используемое заказчиками Индустриального Партнера) для прогнозирования (в том числе компоненты прогнозирования одной из самых распространенных ERP-систем SAP )  ориентированы на одномерные временные ряды – например на отсчеты продаж, в то время как авиационные события характеризуются множеством параметров (тип ВС, время суток, этап полета, время года, продолжительность полета, метеоданные, и т.п.), кроме того, существующие подходы не могут обрабатывать текстовую информацию, хотя по авиапроисшествиям ведется журнал текстовых характеристик событий, содержащих полезную смысловую информацию, позволяющую потенциально ее обобщать и искать схожесть в событиях на семантическом уровне, увеличивая за счет этого достоверность прогноза.

В настоящий момент широко развита теория аппроксимации и экстраполяции функций, в том числе нейросетевые подходы, когда стоит задача прогноза поведения некоторой целевой функции, зависящей от многомерного вектора характеристик, и, в частности времени. Однако в настоящий момент слабо развиты подходы прогноза вероятности возникновения событий для событий, характеризующихся множеством параметров и текстовыми описаниями.

В задаче прогнозирования возникновения событий историческими наблюдениями являются лишь сами факты реализации события с множеством параметров, описывающих эти события (в том числе и текстовые описания). Как правило, исторических записей по событиям много, но каждое событие с высокой вероятностью характеризуется уникальным сочетанием наборов параметров (в том числе может сопровождаться уникальным текстовым описанием), поэтому невозможно напрямую считать частоты возникновения этих событий, так как, строго говоря, каждое событие происходит только 1 раз («нельзя войти в одну реку дважды»). При решении этой задачи отбросом или «загрублением» данных, например, методом гистограмм неизбежно возникает потеря информации. Кроме того, в случае, если событие характеризуется большим числом признаков, необходимо строить многомерные гистограммы, которые очень сложно наполнить данными (возникает проблема «проклятья размерности»). Тем не менее, между событиями есть схожесть, и человек (эксперт – работник отдела рисков), например, интуитивно понимает «что происходит часто, а что редко». Это происходит за счет обобщения информацию построения естественным интеллектом многомерной динамической событийной модели. Понимая ситуацию на качественном уровне, эксперту трудно дать количественный прогноз, который можно было бы использовать в экономическом анализе. В данном проекте предлагается использовать нейробиологическую модель для создания количественной системы прогнозирования вероятности рисковых событий на основе современных методов искусственных нейронных сетей.

Говоря математическим языком — для описываемой задачи машинного обучения отсутствует существенная компонента – нет данных о целевой величинечастоте возникновения событий, имеются лишь отдельные примеры реализации событий. Данную проблему можно сформулировать, как проблему моделирования динамической многомерной функции плотности распределения по разреженным данным, которая плохо решается стандартными статистическими способами. При большом числе измерений классический подход (алгоритм EM, Expectation Minimization) встречается с проблемой проклятья размерностей и не способностью к улавливанию, например, периодических трендов на больших промежутках времени. В этой связи планируется исследовать нейросетевые подходы, в том числе LSTM реккурентные архитектуры – зарекомендовавшие себя в современных исследованиях по прогнозированию событий, в том числе на основе текстовой информации (см. публикации по теме исследований).

Публикации по теме исследований, в том числе зарубежные

  1. Pichotta K., Mooney R. J. Learning Statistical Scripts with LSTM Recurrent Neural Networks //AAAI. – 2016. – С. 2800-2806. https://pdfs.semanticscholar.org/1ceb/038d8b4838120e0dc0a11c949d032cebf5dd.pdf
  2. Ahooyi T. M. et al. Estimation of complete discrete multivariate probability distributions from scarce data with application to risk assessment and fault detection //Industrial & Engineering Chemistry Research. – 2014. – Т. 53. – №. – С. 7538-7547. http://pubs.acs.org/doi/abs/10.1021/ie404232v?journalCode=iecred
  3. Tax N. et al. Predictive business process monitoring with LSTM neural networks //arXiv preprint arXiv:1612.02130. – 2016.https://arxiv.org/pdf/1612.02130.pdf
  4. Shiga M., Tangkaratt V., Sugiyama M. Direct conditional probability density estimation with sparse feature selection //Machine Learning. – 2015. – Т. 100. – №. 2-3. – С. 161-182. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.686.5765&rep=rep1&type=pdf
  5. Granroth-Wilding M., Clark S. What Happens Next? Event Prediction Using a Compositional Neural Network Model //AAAI. – 2016. – С. 2727-2733

Задачи и возможные пути их решения:

Можно сформулировать следующие задачи по решению математических проблем, в данном проекте с помощью современных нейросетевых методов:

  • разработка глубинных нейросетевых алгоритмов моделирования динамической многомерной функции плотности распределения, представляющей собой модель интенсивности динамического Пуассоновского распределения числа событий, по имеющемуся набору исторических наблюдений примеров реализаций данного динамического распределения;
  • разработка и исследование регуляризационных компонент функции ошибки, обеспечивающие сходимость алгоритма обучения к максимально правдоподобному решению в отсутствии данных о значении целевого выхода нейронной сети в обучающей последовательности;
  • исследование возможностей и разработка методики применения LSTM (Long Short Time Memory) архитектур для обучения долговременным рекуррентным трендам в событиях;
  • формирование векторных описаний признаков событий по текстовым описания максимально компактной размерностью;
  • разработка метода вычисления достоверности прогноза (доверительные интервалы к рассчитанной вероятности возникновения события);
  • разработка наглядных способов визуализации построенной многомерной прогностической и ретроспективной модели и факторного анализа, позволяющего пользователю системы получать ответ на вопрос, какие факторы влияют или будут влиять на возникновение тех или иных событий;
  • разработка способа формализации и решения многомерных оптимизационных экономических задач и задач по управлению рисками с применением построенных нейросетевых моделей.

Ожидаемые результаты:

К основным результатам работ можно перечислить следующее:

  • Промежуточный и заключительный отчеты о ПНИЭР
  • Отчеты о патентных исследованиях, оформленный в соответствии с ГОСТ 15.011-96
  • Нейросетевой алгоритмов моделирования динамической многомерной функции плотности распределения, представляющей собой модель интенсивности динамического Пуассоновского распределения числа событий, по имеющемуся набору исторических наблюдений примеров реализаций данного динамического распределения, включающий регуляризационные компоненты функции ошибки, обеспечивающие сходимость алгоритма обучения к максимально правдоподобному решению в отсутствии данных о значении целевого выхода нейронной сети в обучающей последовательности
  • Методика применения LSTM архитектур для обучения долговременным рекуррентным трендам в событиях
  • Алгоритм формирования векторных описаний признаков событий по текстовым описания максимально компактной размерностью
  • Метод вычисления достоверности прогноза (доверительные интервалы к рассчитанной вероятности возникновения события)
  • наглядные способы визуализации построенной многомерной прогностической и ретроспективной модели и факторного анализа, позволяющего пользователю системы получать ответ на вопрос, какие факторы влияют или будут влиять на возникновение тех или иных событий
  • Способ формализации и решения многомерных оптимизационных экономических задач и задач по управлению рисками с применением построенных нейросетевых моделей
  • Экспериментальный образец программного обеспечения
  • Деперсонифицированные наборы данных (Datasets) для формирования обучающей и тестовой выборки алгоритмов машинного обучения системы прогнозирования событий
  • Проект технического задания на проведение ОКР по теме «Разработка универсальной нейросетевой системы для многомерного моделирования, факторного анализа и прогнозирования возникновения событий, оказывающих влияние на экономические показатели, с использованием больших объемов данных исторических наблюдений (Big Data), в том числе неструктурированной текстовой информации»

К дополнительным результатам можно перечислить:

  • Повышение безопасности полетов авиационной техники в долгосрочной перспективе и снижение вероятности рисковых событий, повышение экономической эффективности авиапроизводственных и авиаэксплутационных компаний.
  • Положительное влияние на экономическую эффективность коммерческих и государственных организаций, за счет оснащения новыми средствами прогнозирования, факторного анализа и оптимизацией вероятностей возникновения событий, основанных на обобщении исторических наблюдений за событиями, характеризуемых множеством параметров и текстовыми описаниями.
  • Положительное влияние на репутацию России в области разработки инновационных нейросетевых подходов к решению современных задач анализа больших неструктурированных объемов данных за счет публикации результатов исследований в реферируемых международных изданиях (Scopus, Web of Science).
  • Воспитание молодых отечественных специалистов в области анализа данных и практического применения современных нейросетевых технологий.

Области применения, способы использования ожидаемых результатов

  • Прогнозирование вероятности авиапроисшествий различных типов и категорий опасности (отказы техники, человеческий фактор) характеризующихся набором численных параметров и текстовых описаний, а также связями с проведенными мероприятиями по повышению уровня безопасности полетов;
  • Производство – прогнозирование и факторный анализ важных производственных событий (отказов, сбоев, успешных завершений проектов, и т.п.), анализ эффективности мероприятий, направленных на предотвращение рисковых событий;
  • Экономика – прогнозирование событий с количественными и текстовыми характеристиками, влияющими на экономические показатели государства и крупных предприятий (заключение сделок, политические события, отчеты по сегментам рынка, отдельным предприятиям);
  • Социогуманитарная область – прогнозирование событий имеющих социальный, общественный резонанс, появление публикаций, мнений по заданным темам, предсказание частот нежелательных (криминальных) событий, характеризующихся регионом и текстовой характеристикой.
  • Экология – прогнозирование вероятности возникновений техногенных и природных явлений, анализ трендов и факторов, влияющих на вероятность возникновения событий.

Возможные потребители ожидаемых результатов

  • Российские и иностранные авиакомпании (ОАО «Аэрофлот», S7, и т.п.);
  • Производители авиационной техники (КБ «Сухого», и т.п.);
  • Страховые компании;
  • Прочие крупные производственные компании;
  • Информационно-аналитические компании, осуществляющие деятельность по мониторингу и прогнозированию социально значимых событий;
  • Экологические компании;
  • МВД (прогнозирование и факторный анализ событий связанных с правонарушениями).

Возможные пути и необходимые действия по доведению до потребителя ожидаемых результатов

Основной путь доведения до потребителей ожидаемых результатов заключается в лицензировании результатов индустриальному партнеру проекта. Индустриальный партнер проекта — российская компания ООО «ШЭЙР-С» (http://www.aviasoft.ru/ ), осуществляющая разработку программного обеспечения и внедрения комплекса решений, обеспечивающих управление рисками для ведущих авиапроизводителей и эксплуатантов авиационной техники ( КБ «Сухой», ОАО «Аэрофлот», и др.).

Индустриальный партнер проекта, компания «ШЭЙР-С» планирует осуществлять доведение по потребителя информации о разработке посредством активных продаж и участия в отраслевых мероприятиях.

Также компания планирует принимать активное участие в индустриальных мероприятиях, на которых будет доносить до потенциальных клиентов особенности разрабатываемого продукта.

Индустриальный партнер получит эксклюзивную лицензию на РИД данного ПНИЭР. По результатам пилотных проектов с использованием созданных РИД на реальных данных клиентов Индустриального партнера будет осуществлена интеграция созданного ЭО СПО в продукты Индустриального партнера. По факту продаж Индустриальным партнером решений, в которое будут встроены РИД данного ПНИ ООО «ПАВЛИН Техно» будет получать лицензионный платеж, обозначенный в Предварительном договоре между Участником конкурса и Индустриальным партнером о софинансировании и дальнейшем использовании результатов ПНИЭР (приложено к данной заявке).

Кроме того, по условиям соглашения с Индустриальным партнером ООО «ПАВЛИН Техно» сможет использовать результаты РИД для дальнейших исследований и самостоятельной коммерциализации.

Доведение до других возможных потребителей ожидаемых результатов ПНИЭР также будет осуществляться следующими способами:

  • Прямые продажи – поиск клиентов и предложение использования результатов ПНИ. Клиенты будут искаться в сети интернет, среди посетителей тематических выставок и конференций и т.д.
  • Выполнение пилотных проектов с потенциальными потребителями результатов ПНИ.

Пилотный проект — это пробный, экспериментальный проект, реализуемый для изучения положительных и отрицательных сторон какого-то замысла в целях дальнейшего принятия решения о целесообразности широкого внедрения этого замысла в практику.

Пилотные проекты ориентированы на демонстрирование возможностей РИД потенциальным потребителям. Следствием успешного выполнения пилотного проекта является полноценный выгодный контракт на поставку ПО Исполнителя. Пилотный проект помогает потенциальным Заказчикам принимать решение о покупке продукта, так как в процессе выполнения пилотного проекта демонстрируются возможности ПО применительно непосредственно к задачам конкретного Заказчика.

Сведения об исполнителях проекта:

Индустриальный партнер – Общество с ограниченной ответственностью «Шейр-С» http://www.aviasoft.ru/ , компания, осуществляющая разработку, внедрение и сопровождение специализированных информационных систем для малых, средних и больших авиакомпаний, аэропортов и связанной с ними инфраструктуры. Компания «Ш Эйр-С», участник рынка разработчиков программного обеспечения для информационно-аналитических систем в авиационной отрасли с более, чем 10 летним стажем и специализируется на следующих услугах:

Аналитика

  • Разработка рекомендаций по оптимизации процессов и решений, определение количественных и качественных показателей работы авиакомпании с точки зрения авиационной безопасности, построение эффективной системы учетной и отчетной документации.
  • Аудит процессов оценки угроз и управления рисками в сфере безопасности авиационной деятельности, в том числе авиационной безопасности и безопасности полетов ВС авиакомпаний (Aviation Security& FlightSafety).
  • Автоматизация биллинга услуг за наземное обслуживание воздушных судов.
  • Аудит и анализ управления бизнес-процессами и документооборотом.

Интеграционные решения

  • Интеграция с ведущими системами бронирования (Sabre, Amadeus).
  • Разработка интеграционных протоколов с системами SAP и Oracle BI.
  • Смс шлюзы для модулей оповещения пассажиров и персонала.
  • Отчетность
  • Построение облачной инфраструктуры как на базе собственных дата-центров заказчика, так и с использованием удаленной инфраструктуры Oracle.
  • Консолидация аппаратных ресурсов, создание IaaS/DBasS/SaaS (платформа по «нажатию кнопки»). Возможность использования облаков типа Oracle cloud, Amazon AWS и MS Azure.
  • Создание и настройка единого центра мониторинга и управления базами данных на основе Enterprise Manager Cloud Control
  • Миграции на версию Oracle 12c с минимальным временем простоя.
  • Миграция из ПО Oracle Forms, поддержка которого прекращена корпорацией Oracle. Уникальная технология от «Ш Эйр-С» предполагает простую и быструю конвертацию форм и отчетов формата Oracle Forms and Reports 6-10 в современный формат web-приложения, при этом количество затрачиваемых ресурсов и средств для конвертации значительно снизятся.
  • Система централизованного управления и генерации отчетной документации от Aviasoft, которая позволяет создавать и редактировать отчеты формата SAP Crystal Reports (и не только), сохраняя при этом текущие условия лицензирования (не требуется дополнительных лицензий).

Продукты Компании «Ш-Эйр-С»

  • Информационная система управления страховыми рисками (ИСУР). Информационная система «ИСУР» обеспечивает:
    • ведение, загрузку и хранение данных по авиационным событиям и связанными с ними убытками;
    • ведение, загрузку и хранение данных по страховому покрытию воздушного судна;
    • расчет годового снижения согласованной страховой суммы воздушных судов и дополнительных страховых премий;
    • контроль и хранение документов;
    • формирование отчетов по авиационным событиям за масштабируемый период времени;
    • ведение справочников, связанных с авиационными событиями.
  • Автоматизированная система управления авиационной безопасностью (ИС АСУ АБ)
    • контроль проездных и перевозочных документов;
    • предотвращение нарушений авиационной безопасности;
    • контроль рейсов и выход на смены;
    • доступ к единой базе нарушителей;
    • оценку рисков и угроз по сети маршрутов.
    • За период внедрения ИС АСУ АБ подключено около 150 представительств по всему миру, система насчитывает более 400 пользователей.
  • Информационная система Оптимизации оборота воздушных судов (ИС ОО ВС)
    • оптимизация расписания на основании данных сезонного расписания рейсов авиакомпании и модификаций сезонного расписания;
    • согласование модификаций;
    • формирование отчетной документации.
  • Информационная Система Автоматизации Службы Сборов. Решение, обеспечивающее управление финансовой информацией по обслуживанию воздушных судов
    • ведение базы данных по тарифам на услуги и сборы в соответствии с действующими прейскурантами и соглашениями;
    • поддержку мультивалютности и ведение справочников курсов валют;
    • формирование актов по обслуживанию воздушных судов с включением всех требуемых сборов, тарифов, цен и налогов;
    • расчет соответствующих сборов в соответствии с действующими на дату выполнения рейса ставками, ценами и тарифами в рублях и валюте;
    • формирование реестра расчетов на аэропортовое и наземное обслуживание за отчетный период;
    • формирование сводных счетов по авиакомпаниям за период;
    • формирование ведомостей с распределением по авиакомпаниям (или типам воздушных судов) и услугам в рублях и валюте за период;
    • формирование ведомостей расхода материалов по авиакомпаниям (или типам воздушных судов) за период;
    • поддержку расписания для плановых рейсов;
    • разделение прав доступа пользователей к ресурсам Системы на уровне отдельных операций информационного объекта;
    • интеграцию с SAP BI

 

Научный руководитель проекта Куравский Лев Семенович — доктор технических наук, профессор, декан факультета информационных технологий Московского городского психолого-педагогического университета, заведующий кафедрой прикладной информатики и мультимедийных технологий факультета информационных технологий МГППУ, лауреат премии Правительства Российской Федерации в области образования (2011).