Нейрокомпьютинг и его применения в экономике и бизнесе

          

Восстановление пропущенных компонент данных


Главные компоненты оказываются удобным инструментом и для восстановления пропусков во входных данных. Действительно, метод главных компонент дает наилучшее линейное приближение входных данных меньшим числом компонент:

Восстановление пропущенных компонент данных
(Здесь мы, как и прежде, для учета постоянного члена включаем фиктивную нулевую компоненту входов, всегда равную единице - см. рисунок 7.5, где справа показана нейросетевая интерпретация метода главных компонент. Таким образом, - это матрица размерности
Восстановление пропущенных компонент данных
). Восстановленные по главным компонентам данные из обучающей выборки
Восстановление пропущенных компонент данных
имеют наименьшее среднеквадратичное отклонение от своих прототипов
Восстановление пропущенных компонент данных
. Иными словами, при отсутствии у входного вектора
Восстановление пропущенных компонент данных
компонент, наиболее вероятное положение этого вектора - на гиперплоскости первых
Восстановление пропущенных компонент данных
главных компонент. Таким образом, для восстановленного вектора имеем:
Восстановление пропущенных компонент данных
, причем для известных компонент
Восстановление пропущенных компонент данных
.

Пусть, например, у вектора

Восстановление пропущенных компонент данных
неизвестна всего одна,
Восстановление пропущенных компонент данных
-я координата. Ее значение находится из оставшихся по формуле:

Восстановление пропущенных компонент данных

где в числителе учитываются лишь известные компоненты входного вектора

Восстановление пропущенных компонент данных
.

В общем случае восстановить неизвестные компоненты (с индексами из множества

Восстановление пропущенных компонент данных
) можно с помощью следующей итеративной процедуры (см. рисунок 7.6):

Восстановление пропущенных компонент данных

Восстановление пропущенных компонент данных

Восстановление пропущенных компонент данных

Рис. 7.6.  Восстановление пропущенных значения с помощью главных компонент. Пунктир - возможные значения исходного вектора с неизвестными координатами. Наиболее вероятное его значение - на пересечении с первыми главными компонентами



Содержание раздела