Нейрокомпьютинг и его применения в экономике и бизнесе

   фильтр сетевой помехоподавляющий фп-15м. | вышивка бисером картины купить оптом. |        

Нелинейная значимость входов. Box-counting алгоритмы


Алгортимы box-counting, как следует из самого их названия, основаны на подсчете чисел заполнения примерами

Нелинейная значимость входов. Box-counting алгоритмы
ячеек (boxes), на которые специально для этого разбивается пространство переменных
Нелинейная значимость входов. Box-counting алгоритмы
. Эти числа заполнения используются для оценки плотности вероятности распределения примеров по ячейкам. Набор вероятностей
Нелинейная значимость входов. Box-counting алгоритмы
дает возможность рассчитать любую статистическую характеристику набора данных обучающей выборки.

Для определения значимости входов нам потребуется оценить предсказуемость выходов, обеспечиваемую данным набором входных переменных. Чем выше эта предсказуемость - тем лучше соответствующий набор входов. Таким образом, метод box-counting предоставляет в наше распоряжение технологию отбора наиболее значимых признаков для нейросетевого моделирования, технологию оптимизации входного пространства признаков.

Согласно общим положениям теории информации, мерой предсказуемости случайной величины

Нелинейная значимость входов. Box-counting алгоритмы
является ее энтропия,
Нелинейная значимость входов. Box-counting алгоритмы
, определяемая как среднее значение ее логарифма. В методике box-counting энтропия приближенно оценивается по набору чисел заполнения ячеек, на которые разбивается интервал ее возможных значений:
Нелинейная значимость входов. Box-counting алгоритмы
. Качественно, энтропия есть логарифм эффективного числа заполненных ячеек
Нелинейная значимость входов. Box-counting алгоритмы
(см. рисунок 7.13). Чем больше энтропия переменной, тем менее предсказуемо ее значение. Когда все значения примеров сосредоточены в одной ячейке - их энтропия равна нулю, т.к. положение данных определено (с данной степенью точности). Равномерному заполнению ячеек соответствует максимальная энтропия - наибольший разброс возможных значений переменной.

Нелинейная значимость входов. Box-counting алгоритмы

Рис. 7.13.  Смысл энтропии - эффективное число заполненных данными ячеек

Предсказуемость случайного вектора

Нелинейная значимость входов. Box-counting алгоритмы
, обеспечиваемое знанием другой случайной величины
Нелинейная значимость входов. Box-counting алгоритмы
, дается кросс-энтропией:
Нелинейная значимость входов. Box-counting алгоритмы

Качественно, кросс-энтропия равна логарифму отношения типичного разброса значений переменной

Нелинейная значимость входов. Box-counting алгоритмы
к типичному разбросу этой переменной, но при известном значении переменной
Нелинейная значимость входов. Box-counting алгоритмы
(см. рисунок 7.14):
Нелинейная значимость входов. Box-counting алгоритмы

Нелинейная значимость входов. Box-counting алгоритмы

Рис. 7.14.  Иллюстрация к понятию кросс-энтропии:
Нелинейная значимость входов. Box-counting алгоритмы
- полное число ячеек в объединенном пространстве
Нелинейная значимость входов. Box-counting алгоритмы
,
Нелинейная значимость входов. Box-counting алгоритмы
- число проекций ячеек на пространство
Нелинейная значимость входов. Box-counting алгоритмы
,
Нелинейная значимость входов. Box-counting алгоритмы
Нелинейная значимость входов. Box-counting алгоритмы
- характерный разброс по оси
Нелинейная значимость входов. Box-counting алгоритмы
при фиксированном
Нелинейная значимость входов. Box-counting алгоритмы
,
Нелинейная значимость входов. Box-counting алгоритмы
- характерный разброс всех данных по jcb
Нелинейная значимость входов. Box-counting алгоритмы



Чем больше кросс-энтропия, тем больше определенности вносит знание значения
Нелинейная значимость входов. Box-counting алгоритмы
в предсказание значения переменной
Нелинейная значимость входов. Box-counting алгоритмы
.

Описанный выше энтропийный анализ не использует никаких предположений о характере зависимости между входными и выходными переменными. Таким образом, данная методика дает наиболее общий рецепт определения значимости входов, позволяя также оценивать степень предсказуемости выходов.

В принципе, качество предсказаний и, соответственно, значимость входной информации определяется, в конечном итоге, в результате обучения нейросети, которая, к тому же, дает решение в явном виде. Однако, как мы знаем, обучение нейросети - довольно сложная вычислительная задача (требующая
Нелинейная значимость входов. Box-counting алгоритмы
операций). Между тем, существуют эффективные алгоритмы быстрого подсчета кросс-энтропии (с вычислительной сложностью
Нелинейная значимость входов. Box-counting алгоритмы
), намного более экономные, чем обучение нейросетей. Значение методики box-counting состоит в том, что не находя самого решения, она позволяет быстро предсказать качество этого прогноза. Поэтому эта методика может быть положена в основу предварительного отбора входной информации на этапе предобработки данных.




Чем больше кросс-энтропия, тем больше определенности вносит знание значения
Нелинейная значимость входов. Box-counting алгоритмы
в предсказание значения переменной
Нелинейная значимость входов. Box-counting алгоритмы
.

Описанный выше энтропийный анализ не использует никаких предположений о характере зависимости между входными и выходными переменными. Таким образом, данная методика дает наиболее общий рецепт определения значимости входов, позволяя также оценивать степень предсказуемости выходов.

В принципе, качество предсказаний и, соответственно, значимость входной информации определяется, в конечном итоге, в результате обучения нейросети, которая, к тому же, дает решение в явном виде. Однако, как мы знаем, обучение нейросети - довольно сложная вычислительная задача (требующая
Нелинейная значимость входов. Box-counting алгоритмы
операций). Между тем, существуют эффективные алгоритмы быстрого подсчета кросс-энтропии (с вычислительной сложностью
Нелинейная значимость входов. Box-counting алгоритмы
), намного более экономные, чем обучение нейросетей. Значение методики box-counting состоит в том, что не находя самого решения, она позволяет быстро предсказать качество этого прогноза. Поэтому эта методика может быть положена в основу предварительного отбора входной информации на этапе предобработки данных.


Содержание раздела