Нейрокомпьютинг и его применения в экономике и бизнесе


Линейное сжатие информации - метод главных компонент


Более общий подход - использовать не две отдельные компоненты, а две линейные комбинации всех 30 исходных параметров, наилучшим образом представляющие имеющиеся данные (см. рисунок 10.3).

Линейная аппроксимация многомерных (здесь - трехмерных) данных

Рис. 10.3.  Линейная аппроксимация многомерных (здесь - трехмерных) данных

Каждый банк представлен точкой в 30-мерном пространстве и задача состоит в проведении двумерной плоскости в этом пространстве, обеспечивающей минимальное среднеквадратичное отклонение имеющихся точек от этой плоскости:

E_L=\frac{\sum_{\alpha}(r^\alpha-r^\alpha_0)^2}{\sum_\alpha(r^\alpha-\mbox{\=r}^\alpha)^2}=min

Как мы знаем подобное линейное приближение дается методом главных компонент. Если действительное расположение точек не сильно отклоняется от плоскости, этот метод может дать неплохое начальное приближение. Однако, оказывается, что в даном случае это не так. Среднеквадратичное отклонение для случая двух главных компонент оказалось равным почти половине от общей дисперсии:

E_L=0.47
.

Таким образом, даже оптимальный вариант линейного сжатия не дает возможности визуализировать финансовое положение банков. Оно может, тем не менее, оказаться полезным, в частности, для анализа значимости балансовых статей. Так, увеличение числа главных компонент постепенно дает все лучшее и лучшее приближение имеющегося массива данных (см. Ошибка! Источник ссылки не найден.).

Точность воспроизве-дения данных как функция числа главных компонент

Рис. 10.4.  Точность воспроизве-дения данных как функция числа главных компонент

Например, 10 главных компонент обеспечивают вполне приемлемую общую точность 94% (т.е.

E_L=0.06
). При общем числе входов равном 30, это означает 3-кратное сжатие информации. Такое сжатие оказывается возможным из-за существенных корреляций между отдельными статьями в балансовой отчетности. При этом те статьи, которые дают наибольший вклад в главные компоненты, восстанавливаются по ним с наибольшей точностью.

Степень восстановления исходных данных по ограниченному числу главных компонент свидетельствует о том, насколько согласованны данные в этих статьях между собой во всем массиве имеющейся информации, т.е. насколько содержащаяся в них информация значима для выявления индивидуальных отличий. Ошибка! Источник ссылки не найден. показывает, что около 20 статей восстанавливаются по 10 главным компонентам с относительно высокой точностью. Это как раз те статьи, кторые дают основной вклад в главные компоненты. Остальные статьи гораздо менее значимы для сравнительного финансового анализа, в частности, в силу незначительности совокупной доли активов в этих статьях балансов.

Значимость статей балансов и отчетов о прибылях/убытках, определенная по степени их восстановления по 10 главных компонентам

Рис. 10.5.  Значимость статей балансов и отчетов о прибылях/убытках, определенная по степени их восстановления по 10 главных компонентам




Начало  Назад  Вперед



Книжный магазин