Новости

Анализ данных

Компания «ПАВЛИН Техно» выполняет ряд проектов для отечественных и зарубежных заказчиков в области интеллектуального анализа накопленных исторических данных по работе предприятия с целью построения прогнозирующих и скоринг-моделей.

Цель

Использовать доступные данные исторических наблюдений для автоматического формирования компьютерной модели методами «машинного обучения», которая поможет предсказывать некоторые производственные величины или вероятности возникновения событий, например, вероятность дефолта клиента, характеризованного набором признаков. Прогноз, как правило, позволяет получить Заказчику определенный экономический эффект: повысить качество продукции, снизить издержки, привлечь больше покупателей, и т.п.

Входные данные

Заказчик предоставляет данные исторических наблюдений. Зачастую эти данные не очень структурированы и представляют собой набор разрозненных таблиц, имеющих некоторые логические связи. Данные как правило бывают у заказчика в различных форматах: это могут быть электронные таблицы, текстовые файлы, записи в базе данных. Заказчик описывает структуру и смысл значений в полях. Опционально предоставляются интуитивные догадки , о том, какие данные могут оказывать влияние на прогнозируемую величину. Подобные гипотезы и предположения, в зависимости от степени уверенности либо закладываются изначально в систему прогнозирования в виде признаков, вычисленных из исходных данных (derived attributes), если клиент в них уверен, либо наоборот гипотезы о зависимостях подтверждаются или опровергаются позднее моделью, построенной на фактических данных.

Что на выходе

В результате образуется одна или несколько компьютерных программ \ компонент, способных осуществлять прогноз заданных величин на основании ряда предыдущих значений или иных параметров. Модель проверяется на адекватность на контрольной выборке, не входящей в процесс «обучения». При этом применяется одна или несколько метрик адекватной поставленной задаче (Gini, KS, Precision / Recall и F-measure, RMS, и т.п.).

Примеры проектов

  • Прогнозирование вероятности возникновения рискового события в зависимости от сезона и параметров события
  • Прогнозирование спроса и предложения
  • Прогнозирование дефолта клиента в банковской или лизинговой сфере, уточнение вероятности дефолта на основе анализа поведения клиента
  • Прогноз будущей стоимости объекта кредита \ лизинга
  • Прогноз наиболее вероятного момента времени дефолта клиента, если он случится
  • Прогноз времени хранения объекта на складе до момента продажи
  • Прогноз числа посетителей \ звонков в call-центр
  • Прогноз индекса роста растительности NDVI на основе метеоданных и мультиспектральных спутниковых изображений
  • Прогноз средней удовлетворенности клиентов ИТ-службы в зависимости от параметров, характеризующих проект
  • Прогноз удовлетворенности клиента ИТ-службы в зависимости от параметров, характеризующих клиента
  • Прогноз быстротечных наводнений (flash-floods) на основе наблюдений за уровнями и расходами воды в реках

Детали

Ключевые слова для специалистов: искусственные нейронные сети, feedforward, recurrent, LSTM, выбор информативных признаков, adaboost, GPU, binning, WoE, IV, PSI, CSI, transition matrix, vintage analysis, correlation