В системах потоковой обработки данных




Скачать 29.57 Kb.
Дата13.06.2016
Размер29.57 Kb.
Е.В. КРИКОВ

Научный руководитель – С.В. СИНИЦЫН, к.т.н., доцент



Московский инженерно-физический институт (государственный университет)
ПРИМЕНЕНИЕ НЕЙРОСЕТЕВЫХ СТРУКТУР

В СИСТЕМАХ ПОТОКОВОЙ ОБРАБОТКИ ДАННЫХ
Рассмотрены принципы работы систем потоковой обработки информации, возможность использования нейросетевых структур для решения задач потоковой обработки.
Требования к информационным системам повышаются день ото дня. Одним из основных среди них является необходимость интеграции отдельных задач, до этого решавшихся независимо в различных системах, в единый интеллектуальный модуль. Как правило, это приводит к значительному возрастанию интенсивности информационных потоков.

Информационные потоки, передаваемые между двумя системами, могут содержать, как структурированные разнородные данные, так и потоки однородных данных более характерные для научно-исследовательских и измерительных систем. Так, в системах информационной безопасности, задача сводится к выявлению «опасных» данных, объем которых не превышает нескольких процентов от общего объема передачи. В потоках данных физических экспериментов требуется выявления редких событий, проявляющихся не чаще одного на 10­6. Выявление подобных особенностей данных и является основной задачей систем потоковой обработки.

С точки зрения реализации можно выделить следующие базовые архитектуры подобных систем [1]:


  • системы управления базами данных (СУБД) – данные накапливаются в СУБД, а задачи анализа решаются сервером приложений;

  • процессор правил (ПП) – данные потока обрабатываются специальным модулем «на лету» без учета общего контекста;

  • процессор потоковой обработки данных (ППОД) – является комбинаций двух предыдущих архитектур.

Архитектура ППОД позволяет использовать любые методы обработки потоковых данных, среди которых наиболе­­­е интересным являются методы, основанные на нейровычислениях. Выявление «неординарных» данных в потоке, при этом основано на использовании способности нейронных сетей к обучению – возможности использования предыстории.

Рассмотрим вариант одноканальной системы передачи данных. Задача сводится к выявлению событий изменения свойств передаваемых данных. Данные в рассматриваемом канале можно определить как последовательность наборов Ai, содержащих группы единичных данных ani . Для которых определена функция однородности F(Ai), вычисляющая степень неоднородности данных в наборе. Правила группировки единичных данных в наборы не определены. Задачу выявления изменения свойств передаваемых данных можно определить как Y(a1i, … ,ani, F(Ai)), принимающую значение ak i, при F(Aki) = min F(Aji), где Aji , содержит все единичные данные ai из набора Ai за исключением aj i.

Алгоритм порождения нейронных сетей для анализа данных в этом случае может быть построен на комбинации нейросетевых структур, порождаемой в зависимости от размера набора данных, где на первом уровне нейросети одного типа вычисляют значения F(Aji), на следующем уровне нейросети другого типа определяют ak i.

При обработке нового блока данных система определяет зависимость данного блока с результатами, накопленными в процессе обработки предыдущих блоков. Часть данных блока может быть помечена как фоновый шум, но она будет учтена в процессе доопределения параметров рассматриваемого объекта – потока данных. У данного метода есть свои преимущества и недостатки. К преимуществам можно отнести высокую скорость обработки данных, тип и структура которых была определена ранее, но в этом случае уменьшается скорость обработки потока функцией определения новых параметров.



Для повышения скорости или точности результатов обработки можно распараллелить входной поток на несколько потоковых процессоров[2]. Если на вход группы процессоров поступает один набор данных, то в этом случае полученные результаты ­могут быть подвергнуты дополнительной обработке, для определения различий основанных на стохастическом процессе порождения нейронных сетей для анализа входного потока.
Список литературы


  1. Abadi D. J., Carney D., Cherniack M., Convey C., Lee S., Stonebraker M., Tatbul N., Zdonik S. Aurora: A New Model and Architecture for Data Stream Management. // VLDB Journal. August 2003. p.12

  2. Модулярные параллельные вычислительные структуры нейропроцессорных систем / Н. И. Червяков, П. А. Сахнюк, А. В. Шапошников, С. А. Ряднов. Физматлит, 2003. 48 с.


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница