Отличие между входными и выходными переменными

В заключении данного раздела отметим одно существенное отличие способов кодирования входных и выходных переменных, вытекающее из определения градиента ошибки:

$Отличие между входными и выходными переменными$

. А именно, входы участвуют в обучении непосредственно, тогда как выходы - лишь опосредованно - через ошибку верхнего слоя. Поэтому при кодировании категорий в качестве выходных нейронов можно использовать как логистическую функцию активации

$Отличие между входными и выходными переменными$

, определенную на отрезке

$Отличие между входными и выходными переменными$

, так и ее антисимметричный аналог для отрезка

$Отличие между входными и выходными переменными$

, например:

$Отличие между входными и выходными переменными$

. При этом кодировка выходных переменных из обучающей выборки будет либо

$Отличие между входными и выходными переменными$

, либо

$Отличие между входными и выходными переменными$

. Выбор того или иного варианта никак не скажется на обучении.

В случае со входными переменными дело обстоит по-другому: обучение весов нижнего слоя сети определяется непосредственно значениями входов: на них умножаются невязки, зависящие от выходов. Между тем, если с точки зрения операции умножения значения

$Отличие между входными и выходными переменными$

равноправны, между 0 и 1 имеется существенная асимметрия: нулевые значения не дают никакого вклада в градиент ошибки. Таким образом, выбор схемы кодирования входов влияет на процесс обучения. В силу логической равноправности обоих значений входов, более предпочтительной выглядит симметричная кодировка:

$Отличие между входными и выходными переменными$

, сохраняющая это равноправие в процессе обучения.

Содержание раздела