Интеллектуальные информационные системы

         

Области применения технологий интеллектуального анализа данных


Системы, основанные на технологиях интеллектуального анализа данных, используются в компаниях различного профиля. Однако существует целый ряд областей, для которых накоплен богатый и очень успешный опыт применения подобных систем.

Торговля. Анализ потребительской корзины, исследование временных шаблонов, создание прогнозирующих моделей, оптимизация складских запасов.

Банковское дело. Сегментация клиентов, выявление мошенничества с кредитными картами, прогнозирование изменения клиентуры, анализ финансовых рисков.

Страховой бизнес. Сегментация клиентов, выявление фактов мошенничества, анализ страховых рисков, разработка новых продуктов, расчет страховых премий.

Телекоммуникации. Анализ лояльности клиентов, сегментирование клиентской базы и услуг, анализ внешних факторов на отказы оборудования, выявление случаев несанкционированного доступа к сети.

Производственные предприятия. Оптимизация закупок, диагностика брака на ранних стадиях, диагностика оборудования, маркетинг.

Нефтегазовая отрасль. Диагностика оборудования и нефте-газопроводов, прогнозирование цен, разведка месторождений, анализ влияния внешних и внутренних факторов на объемы продаж.



Обобщение интегральной модели путем учета значений выходных параметров объекта управления


Выходные параметры

– это свойства объекта управления, зависят от входных параметров (в том числе параметров, характеризующих среду) и связанны с его целевым состоянием сложным и неоднозначным способом:

Задача идентификации состояния АОУ по его выходным параметрам решается подсистемой идентификации управляющей подсистемы, работающей на принципах системы распознавания образов. При этом классами распознавания являются выходные состояния АОУ, а признаками – его выходные параметры.

Подсистема выработки управляющих воздействий, также основанная на алгоритмах распознавания образов, обеспечивает выбор управления

, переводящего объект управления в целевое состояние
.

При этом последовательно решаются следующие две обратные задачи распознавания:

во–первых, по заданному целевому состоянию

 определяются наиболее характерные для данного состояния выходные параметры объекта управления:

во–вторых, по определенному на предыдущем шаге набору выходных параметров

определяются входные параметры
, с наибольшей эффективностью переводящие объект управления в данное целевое состояние с этими выходными параметрами:

1. Таким образом, определенная ограниченность подхода Шеннона, рассмотренная в данной главе, преодолевается в семантической информационной математической модели СК-анализа, основанной на СТИ. В рамках СТИ установлено, что одной из наиболее перспективных конкретизаций апостериорного подхода, является подход, предложенный в 1960 году А.А.Харкевичем [196]. Для моделирования процессов принятия решений в рефлексивных АСУ активными объектами предложено применить многокритериальный подхода с аддитивным интегральным критерием, в котором в качестве частных критериев используется системная мера семантической целесообразности информации. При этом количество информации оценивается косвенно: по изменению степени целесообразности поведения системы, получившей эту информацию. В результате получения информации поведение системы улучшается (растет выигрыш), а в результате получения дезинформации – ухудшается (растет проигрыш).



Известны и более развитые семантические меры информации [148], основанные на интересных и правдоподобных идеях, однако они наталкиваются на значительные математические трудности и сложности в программной реализации, поэтому их рассмотрение в данном исследовании признано нецелесообразным.

2. Предложенная математическая модель обеспечивает эффективное решение следующих задач, возникающих в рефлексивных АСУ АО:

– разработка абстрактной информационной модели АОУ;

– адаптация и конкретизация абстрактной модели на основе информации о реальном поведении АОУ;

– расчет влияния факторов на переход АОУ в различные возможные состояния;

– прогнозирование поведения АОУ при конкретном управляющем воздействии и выработка многофакторного управляющего воздействия (основная задача АСУ);

– выявление факторов, вносящих основной вклад в детерминацию состояния АОУ;

– корректное удаление второстепенных факторов с низкой дифференцирующей способностью, т.е. снижение размерности модели при заданных граничных условиях;

– сравнение влияния факторов, сравнение целевых и других состояний АОУ.

3. Показано, что предложенная методология, основанная на системном обобщении теории информации, обеспечивает эффективное моделирование задач принятия решений в РАСУ АОУ.

4. Доказана возможность сведения многокритериальной задачи принятия решений к однокритериальной, показана глубокая внутренняя взаимосвязь данной модели с математической моделью распознавания образов. На этой основе введено понятие "интегрального метода" распознавания и принятия решений и, после анализа и переосмысления основных понятий теории информации, предложена базовая математическая модель "интегрального метода", основанная на системной теории информации. Показано, что теория информации может рассматриваться как единая математическая и методологическая основа методов распознавания образов и теории принятия решений. При этом распознавание образов рассматривается как принятие решения о принадлежности объекта к определенному классу распознавания, прогнозирование – как распознавание будущих состояний, а принятие решения об управляющем воздействии на объект управления в АСУ как решение обратной задачи прогнозирования (распознавания).

5. Проведено исследование базовой математической модели на примере решения основной задачи АСУ – задачи принятия решения о наиболее эффективном управляющем воздействии. Осуществлена декомпозиция основной задачи в последовательность частных задач для каждой из которых найдено решение, показана взаимосвязь основной задачи АСУ с задачей декодирования теории информации.


Обобщенная структура системы "Эйдос"


Система "Эйдос" включает семь

подсистем: "Словари", "Обучение", "Оптимизация", "Распознавание", "Типология", "Анализ", "Сервис" (таблица30).

Таблица 30 – ОБОБЩЕННАЯ СТРУКТУРА СИСТЕМЫ "ЭЙДОС" (версии 12.5)

Подсистема

Режим

Функция

Операция

1.

Словари

1. Классификационные шкалы и градации

2. Описательные шкалы (и градации)

3. Градации описательных шкал (признаки)

4. Иерархические уровни систем

1. Уровни классов

2. Уровни признаков

5. Программные интерфейсы для импорта данных

1. Импорт данных из TXT-фалов стандарта DOS-текст

2. Импорт данных из DBF-файлов стандарта проф. А.Н.Лебедева

3. Импорт из транспонированных DBF-файлов проф. А.Н.Лебедева

4. Генерация шкал и обучающей выборки RND-модели

5. Генерация шкал и обучающей выборки для исследования чисел

6. Транспонирование DBF-матриц исходных данных

6. Почтовая служба по НСИ

1. Обмен по классам

2. Обмен по обобщенным признакам

3. Обмен по первичным признакам

7. Печать анкеты

Продолжение таблицы 30

Подсистема

Режим

Функция

Операция

2.

Обучение

1. Ввод–корректировка обучающей выборки

2. Управление обучающей выборкой

1. Параметрическое задание объектов для обработки

2. Статистическая характеристика, ручной ремонт

3. Автоматический ремонт обучающей выборки

3. Пакетное обучение системы распознавания

1. Накопление абсолютных частот

2. Исключение артефактов (робастная процедура)

3. Расчет информативностей признаков

4. Расчет условных процентных распределений

5. Автоматическое выполнение режимов 1–2–3–4

6. Измерение сходимости и устойчивости модели

1. Сходимость и устойчивость СИМ

2. Зависимость валидности модели от объема обучающей выборки

4. Почтовая служба по обучающей информации

3.

Оптимизация

1. Формирование ортонормированного базиса классов

2. Исключение признаков с низкой селективной силой

3. Удаление классов и признаков, по которым недостаточно данных

4.

Распознавание

1. Ввод–корректировка распознаваемой выборки

2. Пакетное распознавание

3. Вывод результатов распознавания

1. Разрез: один объект – много классов

2. Разрез: один класс – много объектов

4. Почтовая служба по распознаваемой выборке

5.

Типология

1. Типологический анализ классов распознавания

1. Информационные (ранговые) портреты (классов)

2. Кластерный и конструктивный анализ классов

1 Расчет матрицы сходства образов классов

2. Генерация кластеров и конструктов классов

3. Просмотр и печать кластеров и конструктов

4. Автоматическое выполнение режимов: 1,2,3

5. Вывод 2d семантических сетей классов

3. Когнитивные диаграммы классов

2. Типологический анализ первичных признаков

1. Информационные (ранговые) портреты признаков

2. Кластерный и конструктивный анализ признаков

1. Расчет матрицы сходства образов признаков

2. Генерация кластеров и конструктов признаков

3. Просмотр и печать кластеров и конструктов

4. Автоматическое выполнение режимов: 1,2,3

5. Вывод 2d семантических сетей признаков

3. Когнитивные диаграммы признаков

6. Анализ

1. Оценка достоверности заполнения объектов

2. Измерение адекватности семантической информационной модели

3. Измерение независимости классов и признаков

4. Просмотр профилей классов и признаков

5. Графическое отображение нелокальных нейронов

6. Отображение Паретто-подмножеств нейронной сети

7. Классические и интегральные когнитивные карты

7.

Сервис

1. Генерация (сброс) БД

1. Все базы данных

2. НСИ

1. Всех баз данных

2. БД классов

3. БД первичных признаков

4. БД обобщенных признаков

3. Обучающая выборка

4. Распознаваемая выборка

5. Базы данных статистики

2. Переиндексация всех баз данных

3. Печать БД абсолютных частот

4. Печать БД условных процентных распределений

5. Печать БД информативностей

6. Интеллектуальная дескрипторная информационно–поисковая система

Структура и взаимодействие этих подсистем позволяют полностью реализовать все аспекты СК-анализа в удобной для пользователя форме. Обобщенной структуре соответствуют и структура управления и дерево диалога системы. Подробнее подсистемы, режимы, функции и операции, реализуемые системой "Эйдос", описаны в работах [64, 92].



Обобщенная структура системы управления


Автоматизированная система управления состоит из двух основных частей: объекта управления и управляющей системы (рисунок 71).

Управляющая система осуществляет следующие функции:

– идентификация состояния объекта управления;

– выработка управляющего воздействия исходя из целей управления с учетом состояния объекта управления и окружающей среды;

– оказание управляющего воздействия на объект управления.

Рисунок 71. Обобщенная схема рефлексивной системы управления

активными объектами



Обобщенное описание алгоритмов СК-анализа


В данном разделе приведены 24 детальных алгоритма всех 10 базовых когнитивных операций системного анализа (таблица 28), коды которых полностью соответствуют обобщенной схеме СК-анализа (рисунок 44).

Таблица 28 – БАЗОВЫЕ КОГНИТИВНЫЕ ОПЕРАЦИИ

 

СИСТЕМНОГО АНАЛИЗА (БКОСА)

В таблице 29 приведена структура каждой

базовой когнитивной операции, дана их нумерация в соответствии с обобщенной схемой СК-анализа и нумерация реализующих их алгоритмов.

Таблица 29 – ДЕТАЛЬНЫЙ СПИСОК БКОСА И ИХ АЛГОРИТМОВ

Описания базовых когнитивных операций системного анализа и их реальные детализированные алгоритмы приведены ниже (рисунки 45 – 68).



Обобщенные когнитивные карты


Если объединить несколько классических когнитивных карт на одной диаграмме и изобразить на ней также связи между нейронами в форме семантической сети классов, то получим обобщенную (интегральную) когнитивную карту. На рисунке  82 приведена обобщенная когнитивная карта, отражающая результаты идентификации лет с помощью интегрального критерия уровня качества жизни, на рисунке 83 – влияние инвестиций на уровень качества жизни.

Рисунок 82. Результаты оценки лет с 1991 по 2003

с помощью интегрального критерия уровня качества жизни

Рисунок 83. Обобщенная (интегральная) когнитивная карта,

визуализирующая связи 2-й степени опосредованности МСИМ

между структурой инвестиций и уровнем качества жизни

Система "Эйдос" обеспечивает построение любого подмножества многоуровневой семантической информационной модели с заданными или выбираемыми по заданным критериям рецепторами и нейронами, связанными друг с другом связями любого уровня опосредованности в форме классических и обобщенных когнитивных карт. В частности, в системе полуавтоматически формируется задание на генерацию подмножеств обобщенной когнитивной карты, показанных на рисунках 84.

Рисунок 84. Примеры подмножеств интегральной когнитивной карты,

отражающие влияние объемов инвестиций по конкретным отраслям

на уровень качества жизни населения региона (система "Эйдос")



Обобщенный язык функций выбора


Язык функций выбора основан на теории множеств и позволяет оперировать с отображениями множеств на свои подмножества, соответствующие различным вариантам выбора, без необходимости перечисления элементов. Этот язык является весьма общим и потенциально позволяет описывать любой выбор. Однако, математический аппарат обобщенных функций выбора в настоящее время еще только разрабатывается и проверяется в основном на задачах, которые уже решены с помощью критериального или бинарного подходов.



Обоснование принципиальной возможности реализации идеи


Относительная независимость функций от поддерживающих их структур

При рассмотрении самой идеи реализации естественного интеллекта на иной материальной основе сразу возникает вопрос о том, на сколько это вообще в принципе возможно, т.е. вопрос о том, могут ли интеллектуальные функции

быть реализованы на основе иной, чем мозг, материальной структуры. Это вопрос о соотношении функций и поддерживающих их структур.

Конечно, структура зависит от функций, которые она поддерживает, и в целом более сложные функции поддерживаются более сложными структурами. Однако к счастью эта связь "структура – функция" не однозначна, т.е. одни и те же функции могут поддерживаться самыми разнообразными, т.е. альтернативными структурами. Так, например, согласно современным представлениям (В.А. Драгавцев) определенные фенотипические признаки могут поддерживаться различными генными ансамблями, а не только конкретными генами, как в теории Менделя.

Если ген уподобить букве алфавита, а смысл фразы – фенотипическому признаку, то можно сказать, что возможно очень большое количество фраз с одним и тем же смысловым содержанием (тогда как в классической генетике считалось, что признак соответствует гену, хотя есть и такие). После расшифровки генома человека мы настолько же приблизились к его пониманию, как изучивший русскую или немецкую азбуку англичанин, не знающий этих языков, приблизился к чтению в оригинале и пониманию содержания "Войны и Мира" Льва Толстого или "Феноменологии Духа" Георга В.Ф.Гегеля.

При этом обычно функциональная универсальность достигается за счет определенной структурной избыточности, что неизбежно приводит к уменьшению эффективности поддержки конкретных функций, по сравнению с их специализированной реализацией. На этих закономерностях самым существенным образом основано все развитие нашей технократической цивилизации, т.к. прогресс техники представляет собой ни что иное, как процесс последовательной передачи трудовых функций человека средствам труда.


И системы искусственного интеллекта, с этой точки зрения, представляют собой совершенно закономерный, более того – даже неизбежный, этап развития информационных средств труда, т.е. современных информационных технологий.

Но функция (или определенное качество) вполне корректно рассматривать и как свойство соответствующей поддерживающей его структуры. Поэтому, для того, чтобы сформировать более углубленное представление о соотношении структуры и поддерживаемых ими функций кратко рассмотрим диалектику "Структура – свойство – отношение".

Диалектика: "Структура – свойство – отношение"

Рассмотрим простой пример. Два электрона определенным образом взаимодействуют друг с другом, находясь в определенных отношениях, а именно – отталкиваясь друг от друга с различной силой, зависящей от расстояния между ними. Но о каждом электроне можно сказать, что он обладает свойством

отталкиваться от другого электрона. Чем поддерживается (обеспечивается) это свойство электронов, благодаря которому они могут быть в определенных отношениях друг с другом?

В науке настоящего времени считается, что существует соответствующая материальная структура, которая называется "электрическое поле" и является одной из форм электромагнитного поля. Возникает вопрос - а может ли эта структура существовать независимо от электрона?

Уже давно Герцем и Максвеллом получен однозначный положительный ответ на этот вопрос: "Да, может, и это – электромагнитные волны!!!"

Таким образом, свойство может существовать как некая материальная структура отдельно и независимо от объекта, свойством которого оно являлось и благодаря которому этот объект вступал в определенные отношения с другими объектами, обладавшими тем же свойством.



Так нам светят звезды, которых, давно уже нет. Мы восхищаемся произведениями художников, поэтов и музыкантов давно прошедших времен. Поэтому шутка Л.Кэррола об улыбке Чеширского кота, висевшей в воздухе, хотя сам кот и ушел, не так уж и далека от истины.Ряд исследований о квантовой природе сознания [165, 219] свидетельствует в пользу того, что определенные формы сознания может существовать независимо от физического организма.

Итак, существуют различные точки зрения на одно и то же, которое, при различных условиях, может рассматриваться либо как определенные отношения объектов, либо как свойства этих объектов, на которых основаны их отношения, либо как самостоятельно существующая материальная структура.

Каждая точка зрения имеет право на существование, но, по-видимому, каждая последующая из этих точек зрения является более глубокой, чем предыдущая.


Общее описание задачи (файл: zoo_names.htm):


Zoo Database

From Richard Forsyth

Artificial

7 classes of animals

17 attributes (besides name), 15 Boolean and 2 numeric-valued

No missing attribute values

Ftp Access

1. Title: Zoo database

2. Source Information

   -- Creator: Richard Forsyth

   -- Donor: Richard S. Forsyth

             8 Grosvenor Avenue

             Mapperley Park

             Nottingham NG3 5DX

             0602-621676

   -- Date: 5/15/1990

3. Past Usage:

   -- None known other than what is shown in Forsyth's PC/BEAGLE User's Guide.

4. Relevant Information:

   -- A simple database containing 17 Boolean-valued attributes.  The "type"

      attribute appears to be the class attribute.  Here is a breakdown of

      which animals are in which type: (I find it unusual that there are

      2 instances of "frog" and one of "girl"!)

      Class# Set of animals:

      ====== ===============================================================

           1 (41) aardvark, antelope, bear, boar, buffalo, calf,

                  cavy, cheetah, deer, dolphin, elephant,

                  fruitbat, giraffe, girl, goat, gorilla, hamster,

                  hare, leopard, lion, lynx, mink, mole, mongoose,

                  opossum, oryx, platypus, polecat, pony,

                  porpoise, puma, pussycat, raccoon, reindeer,

                  seal, sealion, squirrel, vampire, vole, wallaby,wolf

           2 (20) chicken, crow, dove, duck, flamingo, gull, hawk,

                  kiwi, lark, ostrich, parakeet, penguin, pheasant,

                  rhea, skimmer, skua, sparrow, swan, vulture, wren

           3 (5)  pitviper, seasnake, slowworm, tortoise, tuatara

           4 (13) bass, carp, catfish, chub, dogfish, haddock,

                  herring, pike, piranha, seahorse, sole, stingray, tuna

           5 (4)  frog, frog, newt, toad

           6 (8)  flea, gnat, honeybee, housefly, ladybird, moth, termite, wasp

           7 (10) clam, crab, crayfish, lobster, octopus,



Общие положения


Системами с биологической обратной связью (БОС) будем называть системы, поведение которых зависит от психофизиологического (биологического) состояния пользователя.

Это означает, что в состав систем с БОС в качестве подсистем входят информационно-измерительные системы и системы искусственного интеллекта.

Съем информации о состоянии пользователя осуществляется с помощью контактных и/или дистанционных датчиков в режиме реального времени с применением транспьютерных или обычных карт (плат) с аналого-цифровыми преобразователями (АЦП).

При этом информация может сниматься по большому количеству каналов – показателей (количество которых обычно кратно степеням двойки), подавляющее большинство которых обычно являются несознаваемыми

для пользователя. Это является весьма существенным обстоятельством, т.к. означает, что системы БОС позволяют вывести на уровень сознания обычно ранее не осознаваемую информацию о состоянии своего организма, т.е. расширить область осознаваемого. А это значит, что у человека появляются условия, обеспечивающие возможность сознательного управления своими состояниями, ранее не управляемыми на сознательном уровне, что является важным эволюционным достижением технократической цивилизации.

Передача информации от блока съема информации к АЦП-карте может также осуществляться либо по проводной связи, либо дистанционно с использованием каналов инфракрасной или радиосвязи.

Приведем три примера применения подобных систем:

1. Мониторинг состояния сотрудников на конвейере с целью обеспечения высокого качества продукции.

2. Компьютерные тренажеры, основанные на БОС, для обучения больных с функциональными нарушениями управлению своим состоянием.

3. Компьютерные игры с БОС.


Ниже приводятся примерные наименования тем для самостоятельной работы студентов. Каждая тема изучается одним студентом индивидуально. На изучение каждой темы отводится 38 часов самостоятельной работы. По результатам работы оформляется реферат.



Обучающая выборка (файл: zoo_data.htm)


aardvark,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1

antelope,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

bass,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1

boar,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

buffalo,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

calf,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

carp,0,0,1,0,0,1,0,1,1,0,0,1,0,1,1,0,4

catfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

cavy,1,0,0,1,0,0,0,1,1,1,0,0,4,0,1,0,1

cheetah,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

chicken,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

chub,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

clam,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,7

crab,0,0,1,0,0,1,1,0,0,0,0,0,4,0,0,0,7

crayfish,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7

crow,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2

deer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

dogfish,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

dolphin,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1

dove,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

duck,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,0,2

elephant,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

flamingo,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,1,2

flea,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6

frog,0,0,1,0,0,1,1,1,1,1,0,0,4,0,0,0,5

frog,0,0,1,0,0,1,1,1,1,1,1,0,4,0,0,0,5

fruitbat,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1

giraffe,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

girl,1,0,0,1,0,0,1,1,1,1,0,0,2,0,1,1,1

gnat,0,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

goat,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

gorilla,1,0,0,1,0,0,0,1,1,1,0,0,2,0,0,1,1

gull,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

haddock,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

hamster,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,0,1

hare,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1

hawk,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,0,2

herring,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

honeybee,1,0,1,0,1,0,0,0,0,1,1,0,6,0,1,0,6

housefly,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

kiwi,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,0,2

ladybird,0,0,1,0,1,0,1,0,0,1,0,0,6,0,0,0,6

lark,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

leopard,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

lion,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

lobster,0,0,1,0,0,1,1,0,0,0,0,0,6,0,0,0,7

lynx,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

mink,1,0,0,1,0,1,1,1,1,1,0,0,4,1,0,1,1

mole,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1

mongoose,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

moth,1,0,1,0,1,0,0,0,0,1,0,0,6,0,0,0,6

newt,0,0,1,0,0,1,1,1,1,1,0,0,4,1,0,0,5

octopus,0,0,1,0,0,1,1,0,0,0,0,0,8,0,0,1,7

opossum,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,0,1

oryx,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

ostrich,0,1,1,0,0,0,0,0,1,1,0,0,2,1,0,1,2

parakeet,0,1,1,0,1,0,0,0,1,1,0,0,2,1,1,0,2

penguin,0,1,1,0,0,1,1,0,1,1,0,0,2,1,0,1,2

pheasant,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

pike,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

piranha,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,0,4

pitviper,0,0,1,0,0,0,1,1,1,1,1,0,0,1,0,0,3

platypus,1,0,1,1,0,1,1,0,1,1,0,0,4,1,0,1,1

polecat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

pony,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

porpoise,0,0,0,1,0,1,1,1,1,1,0,1,0,1,0,1,1

puma,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

pussycat,1,0,0,1,0,0,1,1,1,1,0,0,4,1,1,1,1

raccoon,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

reindeer,1,0,0,1,0,0,0,1,1,1,0,0,4,1,1,1,1

rhea,0,1,1,0,0,0,1,0,1,1,0,0,2,1,0,1,2

scorpion,0,0,0,0,0,0,1,0,0,1,1,0,8,1,0,0,7

seahorse,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

seal,1,0,0,1,0,1,1,1,1,1,0,1,0,0,0,1,1

sealion,1,0,0,1,0,1,1,1,1,1,0,1,2,1,0,1,1

seasnake,0,0,0,0,0,1,1,1,1,0,1,0,0,1,0,0,3

seawasp,0,0,1,0,0,1,1,0,0,0,1,0,0,0,0,0,7

skimmer,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

skua,0,1,1,0,1,1,1,0,1,1,0,0,2,1,0,0,2

slowworm,0,0,1,0,0,0,1,1,1,1,0,0,0,1,0,0,3

slug,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7

sole,0,0,1,0,0,1,0,1,1,0,0,1,0,1,0,0,4

sparrow,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

squirrel,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,0,1

starfish,0,0,1,0,0,1,1,0,0,0,0,0,5,0,0,0,7

stingray,0,0,1,0,0,1,1,1,1,0,1,1,0,1,0,1,4

swan,0,1,1,0,1,1,0,0,1,1,0,0,2,1,0,1,2

termite,0,0,1,0,0,0,0,0,0,1,0,0,6,0,0,0,6

toad,0,0,1,0,0,1,0,1,1,1,0,0,4,0,0,0,5

tortoise,0,0,1,0,0,0,0,0,1,1,0,0,4,1,0,1,3

tuatara,0,0,1,0,0,0,1,1,1,1,0,0,4,1,0,0,3

tuna,0,0,1,0,0,1,1,1,1,0,0,1,0,1,0,1,4

vampire,1,0,0,1,1,0,0,1,1,1,0,0,2,1,0,0,1

vole,1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,0,1

vulture,0,1,1,0,1,0,1,0,1,1,0,0,2,1,0,1,2

wallaby,1,0,0,1,0,0,0,1,1,1,0,0,2,1,0,1,1

wasp,1,0,1,0,1,0,0,0,0,1,1,0,6,0,0,0,6

wolf,1,0,0,1,0,0,1,1,1,1,0,0,4,1,0,1,1

worm,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,7

wren,0,1,1,0,1,0,0,0,1,1,0,0,2,1,0,0,2

 



Обучающая выборка и ее репрезентативность


Обучающая выборка является некоторым подмножеством исследуемой совокупности, которая называется "генеральная совокупность". На основе изучения обучающей выборки мы хотели бы сделать выводы о генеральной совокупности, причем важно знать степень достоверности этих выводов.

Рассмотрим, как зависит степень достоверности выводов о генеральной совокупности от объема обучающей выборки.

Если обучающая выборка включает все объекты генеральной совокупности, т.е. они совпадают, то достоверность выводов будет наиболее высокой (при всех прочих равных условиях).

Если же обучающая выборка очень мала, то вряд ли на ее основе могут быть сделаны достоверные выводы о генеральной совокупности, т.к. в этом случае в обучающую выборку могут даже не входить примеры объектов всех или подавляющего большинства классов.

Под репрезентативностью обучающей выборки будем понимать ее способность адекватно представлять генеральную совокупность, так что изучение самой генеральной совокупности можно корректно заменить исследованием обучающей выборки.

Но репрезентативность зависит не только от объема, но и от структуры обучающей выборки, т.е. от того, насколько полно представлены все категории объектов генеральной совокупности (классы) и от того, насколько полно они описаны признаками.

Взвешивание данных или ремонт обучающей выборки – это операция, в результате которой частное распределение объектов по классам в обучающей выборке максимально, на сколько это возможно, приближается либо к частотному распределению генеральной совокупности (если оно известно из независимых источников), либо к равномерному.

В системе "Эйдос" режим взвешивания данных реализован.



Обучение нелокальной нейронной сети


В классических нейронных сетях обучение состоит в таком подборе весовых коэффициентов на дендритах, что минимизируется ошибка выходного сигнала сети по сравнению с эталонным. Этот вид обучения аналогичен обучению человека с уже сформированным мозгом, т.е. в достаточно зрелом возрасте, когда структура нейронной сети уже сформирована и фиксирована.

Однако в раннем возрасте и до наступления зрелости может быть основную роль играет другой вид обучения, который состоит в том, что формируется и перестраивается сама структура нейронной сети. Этот процесс включает:

– формирование новых связей между уже существующими нейронами;

– формирование новых нейронов;

– формирование связей между уже существующими и новыми нейронами;

– формирование связей между новыми нейронами;

– формирование новых нейронных систем (ансамблей) и слоев.

В классической нейронной сети обучение в каждом конкретном случае затрагивает лишь те нейроны, которые физически связаны с входными рецепторами и конкретными выходными аксонами.

В нелокальной нейронной сети могут возникать и новые связи между рецепторами и аксонами (адаптивность СИМ и ННС), а также добавляться новые рецепторы и нейроны (пересинтез СИМ и ННС).



Обучение с учителем (экспертом) и самообучение (кластерный анализ)


Обучение с учителем

– это процесс формирования обобщенных образов классов, на основе обучающей выборки, содержащей характеристики конкретных объектов как в описательных, так и в классификационных шкалах и градациях.

Причем, если описательные характеристики могут формироваться с помощью информационно-измерительной системы автоматически, то классификационные – представляют собой результат вообще говоря неформализуемого процесса оценки степени принадлежности данных объектов к различным классам, который осуществляется человеком-экспертом или, как традиционно говорят специалисты по распознаванию образов, "учителем". В этом случае не возникает вопроса о том, для формирования обобщенного образа каких классов использовать описание данного конкретного объекта.

Обучение без учителя или самообучение

– это процесс формирования обобщенных образов классов, на основе обучающей выборки, содержащей характеристики конкретных объектов, причем только в описательных шкалах и градациях.

Поэтому этот процесс реализуется в три этапа:

1. Кластерный анализ объектов обучающей выборки, в результате которого определяются группы наиболее сходных их них по их признакам (кластеры).

2. Присвоение кластерам статуса обобщенных классов, для формирования обобщенных образов которых используются конкретные объекты, входящие именно в эти кластеры.

3. Формирование обобщенных образов классов, аналогично тому, как это делалось при обучении с учителем.



Обзор опыта применения АСК-анализа для управления и исследования социально-экономических систем


Впервые предложенная модель была практически применена автором в 1981 году для разработки оптимальной методики тестирования и диагностики специальных способностей. Имеются акты об успешном проведении исследований с помощью данной системы в области социологии, политологии и прикладной психологии по заказам НИИ культуры Российской Федерации и Краснодарского государственного института культуры (ноябрь 1987г.), Академии общественных наук под руководством доцента Б.И.Бессалаева (март 1987г.), Института социологических исследований АН СССР под руководством доктора социологии профессора А.А.Хагурова (май 1987г. и сентябрь 1987г.). В 1994 году система "Эйдос" была представлена в ВЦ РАН в присутствии иностранных специалистов (в основном из Японии) и получила положительную оценку председателя комитета по искусственному интеллекту Российской Академии наук академика Д.А.Поспелова (рекомендована для применения в социологических и психологических исследованиях), имеются положительные отзывы о Системе от Северо-Кавказской поисково-спасательной службы МЧС России (начальник В.М.Нархов) и Министерства Труда Российской Федерации (зам.нач. Управления, профессор Е.В.Белкин), прошла экспериментальную эксплуатацию в отделе информационного взаимодействия Аналитического центра при Президенте РФ (начальник отдела доктор технических наук, академик МАИ профессор А.Н.Райков), а также приобретена

Аналитическим центром администрации Ярославской области (руководитель А.В.Бушуев), Информационно - аналитическим центром администрации Краснодарского края (директор С.Б.Лисицын), АО "Новороссийское морское пароходство" (вице-президент, капитан 1-го ранга, к.т.н. доцент В.А.Бобыр), Краснодарским юридическим институтом МВД России (начальник генерал-майор, доктор философских наук, профессор  Ю.А.Агафонов). Работы в МЧС и АО "Новошип" проводились совместно с Научно-производственной фирмой "ЭВРИТОП" (директор Б.В.Гауфман) под научным руководством кандидата технических наук, доктора биологических профессора О.А.Засухиной.
Под ее же руководством Кубанским Агроуниверситетом совместно с НПП "Эйдос", на основе эмпирических исходных данных, представленных профессором Н.Г.Малюгой, была разработана методика прогнозирования урожайности и качества сельскохозяйственных культур в зависимости от вида почв, культуры-предшественника, применяемой агротехнологии (нормы высева, удобрения, вспашка и т.п.). Данная методика позволяет "просматривать" различные варианты технологии, прогнозировать последствия их применения, и, на этой основе, вырабатывать научно обоснованные рекомендации по выбору возделываемой культуры и оптимальной для поставленных целей агротехнологии. Это исследование показательно как само по себе, так и в качестве примера применения Системы для выявления взаимосвязей между различными технологиями и хозяйственными результатами. Материалы этих и других работ были представлены на международной конференции "Партнерство во имя прогресса", проходившей в конце мая 1994 года в г.Анапе. Совместно с канд.мед.наук. Г.А.Авакимяном на базе системы "Эйдос" была разработана методика диагностики избыточности и недостаточности меридианов, основанная на внешней симптоматике и анамнезе. Для строительной фирмы "ЭКСТЕРН" (директор В.Г.Очередько) была разработана методика прогнозирования профессиональной пригодности сотрудников для работы по должностям, имеющимся в фирме. Кроме того прогнозируется возможность криминогенных проявлений. Данная методика является автоматизированным рабочим местом (АРМом) менеджера по персоналу и эксплуатировалась несколько лет в адаптивном режиме, обеспечивающем постоянное повышение качества прогнозирования на основе роста представительности обучающей выборки.

Таким образом, опыт применения АСК-анализа подтверждает эффективность его использования в следующих предметных областях: прогнозирование результатов применения агротехнологий и управление выращиванием сельскохозяйственных культур (Кубанский государственный аграрный университет); идентификация и анализ макроэкономических состояний городов и районов Краснодарского края и края в целом на основе оценки значимости индикаторов макроэкономики и применения методов статистической теории информации и искусственного интеллекта (Департамент экономики и прогнозирования администрации Краснодарского края); прогнозирование уровня безработицы (Аналитический центр администрации Ярославской области); социологические и политологические исследования, анализ общественного мнения (Краснодарский сектор Института социологических исследований АН СССР, Краснодарский краевой агропромышленный комитет, Академия государственной службы при Президенте РФ, Краснодарский государственный институт культуры, Информационно-аналитический центр администрации Краснодарского края, Аналитический центр администрации Ярославской области и др.); решение ряда задач управления качеством подготовки специалистов (Краснодарский юридический институт МВД РФ); прогнозирование успешности будущей профессиональной деятельности в экстремальных ситуациях в условиях высокой ответственности и дефицита времени (Северокавказская региональная поисково-спасательная служба Государственного комитета РФ по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий МЧС, АО "Новошип" Новороссийское морское пароходство); решение задач Центра Правительственной связи в Краснодарском крае; проектирование адаптивных АСУ сложными техническими объектами (Государственное предприятие особое конструкторское бюро "Икар", Кубанский государственный технологический университет).Это подтверждается 17 актами внедрения предлагаемых технологий за период с 1987 по 2002 годы (приложение 6).


Оценка адекватности модели. Зависимость достоверности прогнозирования от разброса точечных прогнозов


Адекватность модели определяется несколькими способами: путем численного эксперимента, т.е. ретроспективного прогнозирования по данным обучающей выборки (внутренняя валидность); путем экспериментально сопоставления прогнозируемого и фактического развития активного объекта (внешняя валидность). И внутренняя, и внешняя валидность может определяться в разрезе по классам (дифференциальная) или как средневзвешенная по всем классам (интегральная валидность).

При исследовании системно-когнитивной модели было обнаружено, что ошибка прогнозирования курса Российского рубля по отношению к доллару США зависит от прогнозируемой ситуации, т.е. дифференциальная валидность существенно отличается от интегральной.

Прохождение системой точек бифуркации изменяет значения атрибута, но не изменяет его смысла по отношению к рассмотренным классам, т.е. не изменяет порядка факторов в семантическом портрете атрибута, поэтому данный вид устойчивости предлагается называть "Семантическая устойчивость". Из рисунков 90 и 91 видно, что погрешность прогнозирования (т.е. отклонение фактического курса от средневзвешенного) и разброс точечных прогнозов резко возрастают синхронно с "обвалами" рубля. При искусственном (волевом) "удержании" курса рубля, которое обычно следует за периодами его "обвала", прогноз сильно отличается от фактического курса. Это можно объяснить тем, что фактически прогнозируется рыночный, а не искусственно установленный курс.

Таким образом, разброс точечных прогнозов является количественным измерителем степени неопределенности состояния системы и позволяет классифицировать это состояние как "детерминистское" или "бифуркационное" или оценить степень близости к этим состояниям.

Когда разброс точечных прогнозов незначителен, средневзвешенному прогнозу можно доверять, т.к. система находится на детерминистском участке своего развития, на котором ее поведение хорошо прогнозируется, т.к. закономерности, управляющие этим поведением на детерминистском этапе известны и не изменяются.
Если же разброс точечных прогнозов велик, то средневзвешенному прогнозу доверять нельзя, т.к. система находится в бифуркационном состоянии, на котором ее дальнейшее поведение неопределенно, т.к. закономерности, управляющие этим будущим поведением только формируются и еще не определены.

Из сравнения рисунков 90 и 91 видно, что погрешность прогнозирования и разброс точечных прогнозов сильно корреллируют. Таким образом, разброс точечных прогнозов может быть использован как количественный измеритель степени неопределенности состояния системы и позволяет оценить степень близости этого состояния к "детерминистскому" или "бифуркационному". А так как разброс точечных прогнозов может быть измерен за долго до наступления прогнозируемого состояния системы, то это позволяет прогнозировать переход системы в бифуркационное состояние.

Здесь необходимо особо отметить, что в предложенной математической модели и технологии АСК-анализа разброс точечных прогнозов не увеличивается пропорционально увеличению длительности периода прогнозирования, как доверительный интервал в статистических моделях, а является именно функцией степени объективной неопределенности состояния системы и изменяется сложным образом.

Кроме того, в системе "Эйдос" реализован режим автоматического удаления из модели классов, по которым в сформированной модели оказалась низкая достоверность идентификации и прогнозирования, после чего адекватность модели резко возрастают. Этот режим аналогичен использованию для этих целей доверительных интервалов в процедуре предсказания с помощью регрессионного анализа.

Таким образом, развитые методика, технология и программный инструментарий АСК-анализа позволяют либо надежно прогнозировать развитие активного объекта, либо надежно прогнозировать его переход в бифуркационное состояние, что само по себе также чрезвычайно ценно.


Оценка достоверности заполнения анкет


В данном режиме исследуются корреляции между ответами в каждой анкете, эти корреляции сравниваются с выявленными на основе всей обучающей выборки и все анкеты ранжируются в порядке уменьшения типичности обнаруженных в них корреляций. Считается, что если корреляции в анкете соответствуют "среднестатистическим", которые принимаются за "норму", то анкета отражает обнаруженные макрозакономерности, если же нет, то возникает подозрение в том, что она заполнена некорректно.

В режиме "Измерение независимости объектов и признаков" реализован стандартный анализ c2, а также рассчитываются коэффициенты Пирсона, Чупрова и Крамера, популярные в экономических, социологических и политологических исследованиях. В системе задание на расчет матриц сопряженности вводится в специальный бланк, который служит также для отображения обобщающих результатов расчетов. На основе этого задания рассчитываются и записываются в форме текстовых файлов одномерные и двумерные матрицы сопряженности для заданных подматриц.

В отличие от матриц сопряженности, выводимых в известной системе SPSS, здесь они выводятся с текстовыми пояснениями

на том языке, на котором сформированы классификационные и описательные шкалы, с констатацией того, обнаружена ли статистически-значимая связь на заданном уровне значимости. Необходимо также отметить, что в системе "Эйдос" не используются табулированные теоретические значения критерия c2 для различных степеней свободы, а необходимые теоретические значения непосредственно рассчитываются системой, причем со значительно большей точностью, чем они приведены в таблицах (при этом численно берется обратный интеграл вероятностей).

Режим "Просмотр профилей классов и признаков". Система "Эйдос" текущей версии 12.5 позволяет генерировать и выводить более 54 различных видов 2d & 3d графических форм, каждая из которых выводится в форме, определяемой задаваемыми в диалоге параметрами.

Подсистема "Сервис". Реальная эксплуатация ни одной программной системы невозможна либо без тщательного сопровождения эксплуатации и без наличия в системе развитых средств обеспечения надежности эксплуатации. В системе "Эйдос" для этого служит подсистема "Сервис"  в которой:

– автоматически ведется архивирование баз данных;

– создаются отсутствующие базы данных и индексные массивы;

– распечатываются в текстовые файлы служебные формы, являющиеся основой содержательной информационной модели (базы абсолютных частот, условных процентных распределений и информативностей).

В подсистему "Сервис" входит также интеллектуальная дескрипторная информационно-поисковая система, автоматически генерирующая нечеткие дескрипторы и имеющая интерфейс нечетких запросов на любом естественном языке, использующем кириллицу или латиницу (т.е. не только русском). Отчет по результатам запроса содержит информационные объекты базы данных системы, ранжированные в порядке уменьшения степени соответствия запросу.



Однослойная нейронная сеть и персептрон Розенблата


Исторически первой искусственной нейронной сетью, способной к перцепции (восприятию) и формированию реакции на воспринятый стимул, явился Perceptron

Розенблатта (F.Rosenblatt, 1957). Термин " Perceptron" происходит от латинского perceptio, что означает восприятие, познавание. Русским аналогом этого термина является "Персептрон". Его автором персептрон рассматривался не как конкретное техническое вычислительное устройство, а как модель работы мозга. Современные работы по искусственным нейронным сетям редко преследуют такую цель.

Простейший классический персептрон содержит элементы трех типов (рисунок 75), назначение которых в целом соответствует нейрону рефлекторной нейронной сети, рассмотренному выше.

Рисунок 75. Элементарный персептрон Розенблатта

S-элементы – это сенсоры или рецепторы, принимающие двоичные

сигналы от внешнего мира. Каждому S-элементу соответствует определенная градация некоторой описательной шкалы.

Далее сигналы поступают в слой ассоциативных или A-элементов (показана часть связей от S к A-элементам). Только ассоциативные элементы, представляющие собой формальные нейроны, выполняют совместную аддитивную

обработку информации, поступающей от ряда S-элементов с учетом изменяемых

весов связей (рисунок 75). Каждому A-элементу соответствует определенная градация некоторой классификационной шкалы.

R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул. R-элементы обобщают информацию о реакциях нейронов на входной объект, например могут выдавать сигнал об идентификации данного объекта, как относящегося к некоторому классу только в том случае, если все нейроны, соответствующие этому классу выдадут результат именно о такой идентификации объекта. Это означает, что в R-элементах может использоваться мультипликативная функция от выходных сигналов нейронов. R-элементы также, как и A-элементы, соответствует определенным градациям классификационных шкал.

Розенблатт считал такую нейронную сеть трехслойной, однако по современной терминологии, представленная сеть является однослойной, так как имеет только один слой нейропроцессорных элементов.


Если бы R- элементы были тождественными по функциям A-элементам, то нейронная сеть классического персептрона была бы двухслойной. Тогда бы A-элементы выступали для R-элементов в роли S-элементов.

Однослойный персептрон характеризуется матрицей синаптических связей ||W|| от S- к A-элементам. Элемент матрицы отвечает связи, ведущей от i-го S-элемента (строки) к j-му A-элементу (столбцы). Эта матрица очень напоминает матрицы абсолютных частот и информативностей, формируемые в семантической информационной модели, основанной на системной теории информации.

С точки зрения современной нейроинформатики однослойный персептрон представляет в основном чисто исторический интерес, вместе с тем на его примере могут быть изучены основные понятия и простые алгоритмы обучения нейронных сетей.

Обучение классической нейронной сети

состоит в подстройке весовых коэффициентов каждого нейрона.

Пусть имеется набор пар векторов {xa, ya}, a = 1..p, называемый обучающей выборкой, состоящей из p объектов.

Вектор {xa} характеризует систему признаков конкретного объекта a обучающей выборки, зафиксированную S-элементами.

Вектор {ya} характеризует картину возбуждения нейронов при предъявлении нейронной сети конкретного объекта a обучающей выборки:



Будем называть нейронную сеть обученной

на данной обучающей выборке, если при подаче на вход сети вектора {xa} на выходе всегда получается соответствующий вектор {ya}, т.е. каждому набору признаков соответствуют определенные классы.

Ф.Розенблаттом предложен итерационный алгоритм обучения из 4-х шагов, который состоит в подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах:

Шаг 0:

Начальные значения весов всех нейронов полагаются случайными.

Шаг 1:

Сети предъявляется входной образ xa, в результате формируется выходной образ.

Шаг 2:

Вычисляется вектор ошибки, делаемой сетью на выходе.

Шаг 3:

Вектора весовых коэффициентов корректируются таким образом, что величина корректировки пропорциональна ошибке на выходе и равна нулю если ошибка равна нулю:

– модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов;

– знак приращения веса соответствует знаку ошибки, т.е. положительная ошибка (значение выхода меньше требуемого) проводит к усилению связи;

– обучение каждого нейрона происходит независимо от обучения остальных нейронов, что соответствует важному с биологической точки зрения, принципу локальности обучения.

Шаг 4:

Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, если выполняется по крайней мере одно из условий:

– когда итерации сойдутся, т.е. вектор весов перестает изменяться;

– когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Данный метод обучения был назван Ф.Розенблаттом "методом коррекции с обратной передачей сигнала ошибки". Имеется в виду передача сигнала ошибка от выхода сети на ее вход, где и определяются, и используются весовые коэффициенты. Позднее этот алгоритм назвали "d-правилом".

Данный алгоритм относится к широкому классу алгоритмов обучения с учителем, т.к. в нем считаются известными не только входные вектора, но и значения выходных векторов, т.е. имеется учитель, способный оценить правильность ответа ученика, причем в качестве последнего выступает нейронная сеть.

Розенблаттом доказана "Теорема о сходимости обучения" по d-правилу. Эта теорема говорит о том, что персептрон способен обучится любому обучающему набору, который он способен представить. Но она ничего не говорит о том, какие именно обучающие наборы он способен представить. Ответ на этот вопрос мы получим в следующем разделе.


Ограничения АСК-анализа и обоснованное расширение области его применения на основе научной индукции


Необходимо отметить, что ряд материалов данного раздела носят в определенной степени проблемно–дискуссионный характер.

Предложенные и развитые в данной работе математическая модель, методология и конкретная технология синтеза РАСУ АО основаны на фундаментальных положениях теории информации, распознавания образов и принятия решений, имеющих весьма общий характер. Они разрабатывались в общем виде без привязки к специфике какого–либо конкретного объекта управления. По этим причинам методы, развитые в данной работе и детализированные в главе 6 данной работы,  обладают высокой универсальностью и применимы для синтеза РАСУ АО в самых различных предметных областях, в частности таких как:

техника (управление сложными техническими системами); технология (управление технологиями в целях получения заданных хозяйственных и финансовых результатов);

психология (разработка и применение профессиограмм, идентификация, мониторинг, прогнозирование и управление психологическими состояниями);

обучение (прогнозирование успешности профессиональной деятельности, управление индивидуальным обучением, исследования влияния учебной активности на качество обучения и т.д.);

– другие применения (социология, политология, реклама, маркетинг, правоохранительная сфера и др.).

Рассмотрим перспективы применения методики и технологии АСК-анализа в некоторых из этих предметных областей более подробно. Многие из рассмотренных ниже применений технологии АСК-анализа описаны в работах автора с соавторами: [29, 30, 34, 62, 64 – 111, 139 – 146, 169, 172 – 185, 201 – 206, 212, 214, 224 – 226].

Предложенная технология АСК-анализа продемонстрировала эффективность в различных предметных областях: это и синтез систем управления сложными техническими системами, и решение задач управления качеством подготовки специалистов; и прогнозирование ситуаций на фондовом рынке; и прогнозирование результатов выращивания сельскохозяйственных культур; и выбор оптимальных агротехнологий.

На первый взгляд эти области имеют мало общего между собой, между тем с математической точки зрения и с точки зрения технологии интеллектуальной обработки информации во всех этих областях решались одни и те же задачи.
В этой связи возникает закономерный вопрос о существовании ограничений предложенной технологии и возможном корректном расширении области ее применения на другие предметные области.

Очевидно, ограничения АСК-анализа должны существовать, а значит они должны быть изучены, чтобы, с одной стороны, пользователь обоснованно пользовался этой технологией в областях ее оптимального, уверенного и рискованного применения, а с другой стороны, не возлагал необоснованных надежд на ее применение в тех предметных областях и для решения тех задач, для которых она не предназначена.

При решении вопроса о расширении области применения АСК-анализа целесообразно основываться на методе научной индукции.

В данном контексте этот метод научной индукции состоит в следующем:

1. Применить АСК-анализ для синтеза рефлексивной АСУ активными объектами на одном примере, в нашем случае – на примере управления выращиванием сельхозкультур.

2. Выявить факторы, которые являются причинами успешности, т.е. обусловили успех применения АСК-анализа в данном случае.

3. Выдвинуть гипотезу, что и в других случаях, когда сформулированные факторы (причины) успешности применения АСК-анализа действуют, т.е. имеют место, применение этой технологии будет успешным, и наоборот, при отсутствии хотя бы одного из этих факторов – на успех надеяться нет оснований.

4. Применить АСК-анализ в других предметных областях, обеспечив в обязательном порядке действие факторов успешности.

5. Проверить, успешным ли оказалось применение АСК-анализа в этих других случаях.

6. Если да, т.е. успешным, то считается, что такой результат получен за счет действия факторов успешности, и что на этом основании можно обоснованно утверждать, что и в других случаях, в которых будут присутствовать факторы успешности, можно надеяться на успешное применение АСК-анализа, и наоборот, в тех случаях, когда один или несколько факторов не соблюдаются, надеяться на успех нет оснований.

Примечание к п.6: если для какого-либо фактора успешности неизвестно, действует он или нет в данном конкретном случае, то результат применения АСК-анализа может быть положительным и отрицательным, в зависимости от того, действует ли данный фактор или нет и от того, является ли данный фактор детерминистским.


В этом случае мы имеем дело с рискованным применением АСК-анализа.

Выполним эту программу.

1. АСК-анализ успешно применен для синтеза рефлексивной АСУ активными объектами:  выращивание сельхозкультур.

2. Этот результат обусловлен следующими факторами:

– семантическая информационная модель адекватна предметной области;

– информация в обучающей выборке полна и достоверна:

1) достоверны тесты, применяемые для получения вторичных параметров (качественны и сами тесты и процедуры их использования)$

2)достоверны и согласованны (объективны) независимые экспертные оценки объектов обучающей в выборки, (эксперты компетентны, процедуры сбора и обобщения экспертных оценок корректны и эффективны);

3) ввод информации в автоматизированную систему произведен качественно;

– в предметной области существуют реальные закономерности;

– обучающая выборка обладает общей и структурной репрезентативностью;

– методические и технологические этапы АСК-анализа реализованы корректно;

– специальный программный инструментарий выполняет возложенные на него функции автоматизации БКОСА.

3. Выдвигается гипотеза (т.е. предполагается), что когда обязательные факторы успешности применения АСК-анализа, приведенные в п.2 действуют, его применение будет успешным.

4. АСК-анализ реально эффективно применялся в десятках различных предметных областей с обязательным соблюдением факторов успешности.

5. Успешность применения АСК-анализа подтверждена актами внедрения (всего имеется 17 таких актов, подтверждающих успешность применения). О некоторых из этих применений информация приведена в данном разделе (ниже). При этом необходимо отметить, что примерно треть применений не документировались по ряду причин.

6. Это подтверждает гипотезу, сформулированную в п.3 и означает, что на основании принципа научной индукции АСК-анализ должен сохранять адекватность и эффективность и в других новых предметных областях при условии действия факторов успешности.


Ограничения и недостатки предложенных модели и инструментария и пути их преодоления


Однако, в приведенном исследовании были и определенные ограничения и недостатки:

– предложенный программный инструментарий системы "Эйдос" разработан еще до создания в операционной системы MS Windows и нуждается в приведении пользовательского интерфейса к современным стандартам;

– в описанном приложении, разработанном на данных Кубанского государственного аграрного университета совместно с О.А.Засухиной в 1993 – 1996 годах никак не учитывались метеоданные (по причине отсутствия соответствующей исходной информации);

– данное приложение было разработано на примере единственной агрокультуры (зерновые колосовые);

– использованные объемы данных: размерность модели составила: 35 прогнозируемых результатов выращивания, 188 градаций факторов, 217 прецедентов в обучающей выборке, 18594 факта для данной области являются достаточно скромными и позволяют лишь продемонстрировать работоспособность предлагаемых технологий, тогда как для обеспечения реального практического использования эти объемы должны быть увеличены на несколько порядков;

– не ставилась и не решалась задача районирования сельхозкультур, и не использовалась технология геоинформационных систем;

– не ставилась и не решалась задача создания многоагентной консалтинговой системы по выращиванию сельхозкультур в Internet.

Некоторые из указанных ограничений и недостатков были преодолены в следующей разработке автора совместно с Драгавцевой И.А. и Лопатиной Л.М.:  [25, 29, 30, 34, 109, 140, 143], кратко описанной ниже.



Описательные шкалы и градации (БКОСА-


Описательные шкалы и градации предназначены для ввода справочников факторов, влияющих на поведение активного объекта управления – признаков. В этом режиме обеспечивается ввод, удаление, корректировка, копирование наименований описательных шкал и связанных с ними градаций. Характерной особенностью системы "Эйдос" является возможность использования неальтернативных градаций, которых может быть различное количество по различным шкалам (в широких пределах). Справочник позволяет работать непосредственно с градациями (с учетом связей со шкалами), видеть их общее количество, а также просматривать и распечатывать процентное распределение ответов респондентов по.

Уровни организации систем (уровни Вольфа Мерлина) являются независимым способом классификации классов и факторов, что позволяет легко создавать и анализировать различные их подмножества как сами по себе, так и в сопоставлении друг с другом. В.С.Мерлин предложил интегральную концепцию индивидуальности, в которой рассматривал взаимодействие и взаимообусловленность различных уровней свойств личности: от генетически предопределенных, до социально-обусловленных и отражающих сиюминутное состояние. В системе "Эйдос" предусмотрен аппарат, позволяющий классифицировать факторы таким образом, что становится возможным исследовать различные уровни их организации и взаимообусловленности. Уровни организации классов предназначены для классификации будущих состояний активного объекта управления, как целевых и нежелательных с точки зрения самого объекта управления и управляющей системы, а также различных вариантов сочетаний этих вариантов. Возможны и другие виды классификации.

Система "Эйдос" обеспечивает решение задач атрибуции анонимных и псевдонимных текстов (установления вероятного авторства), датировки текстов, определения их принадлежности к определенным традициям, школам или течениям мысли [72, 73]. При этом различные структуры, из которых состоят тексты, рассматриваются как их атрибуты. В системе "Эйдос" реализован специальный режим, обеспечивающий автоматическое выявление и ввод этих атрибутов текстов непосредственно из текстовых файлов.

Технология работы в системе "Эйдос" не предусматривает одновременной работы многих пользователей с одними и теми же базами данных в режиме корректировки записей. Поэтому возможна эффективная организация распределенной работы по многомашинной технологии без использования ЛВС. Для обеспечения необходимой тождественности справочников на различных компьютерах служит режим "Почтовая служба по НСИ".

Классификационные шкалы и градации в экономических, социально-психологических и политологических исследованиях часто представляют собой опросники (анкеты). Для их распечатки в файл (в поддиректорию "TXT") служит режим: "Печать анкеты". В системе "Эйдос" все текстовые и графические входные и выходные формы автоматически сохраняются в виде файлов, удобных для использования в различных приложениях под Windows.



Определение идентификационной и прогностической ценности атрибутов


Не все факторы имеют одинаковую ценность для решения задач идентификации, прогнозирования и управления. Традиционно считается, что факторы имеют одинаковую ценность только в тех случаях (обычно в психологии), когда определить их действительную ценность не представляется возможным по каким-либо причинам.

Для достижения целей, поставленных в данном исследовании, необходимо решить проблему определения ценности факторов, т.е. разработать математическую модель и алгоритм, которые допускают программную реализацию и обеспечивают на практике определение идентификационной и прогностической ценности факторов.



Определение основных понятий


Термин: "Когнитивный" происходит от "cognition" – "познание" (англ.) и используется для обозначения нового перспективного направления психологии (когнитивная психология), а также направления развития систем искусственного интеллекта (когнитивное моделирование и системно-когнитивный анализ), в которых ставится и решается задача автоматизации некоторых функций, реализуемых человеком, в процессе познания.

Исторически процессы познания первоначально изучались философами. В философии теория познания (сознания) называется гносеологией, от греч. gnosis, – знание, учение, познание, в отличие от онтологии

– учения о бытие.

Однако, философский анализ процессов познания не касается исследования естественно-научными методами конкретных форм сознания и характерных для них методов познания, а также конкретных способов их достижения и реализации.

Когнитивная психология – это область психологии, непосредственно теоретически и экспериментально изучающая процессы познания у конкретных людей, различного пола, возраста, социального статуса и т.д.

Когнитивное моделирование – это способ анализа, обеспечивающий определение силы и направления влияния факторов на перевод объекта управления в целевое состояние с учетом сходства и различия в влиянии различных факторов на объект управления.

Классическая когнитивная карта – это ориентированный граф, в котором привилегированной вершиной является некоторое будущее (как правило, целевое) состояние объекта управления, остальные вершины соответствуют факторам, дуги, соединяющие факторы с вершиной состояния имеют толщину и знак, соответствующий силе и направлению влияния данного фактора на переход объекта управления в данное состояние, а дуги, соединяющие факторы показывают сходство и различие в влиянии этих факторов на объект управления.

Ведущей научной организацией России, занимающейся разработкой и применением технологии когнитивного анализа, является Институт проблем управления РАН, подразделение: Сектор-51, ученые Максимов В.И., Корноушенко Е.К., Качаев С.В., Григорян А.К.
и другие. На их научных трудах в области когнитивного анализа и основывается данная лекция.

В основе технологии когнитивного анализа и моделирования (рисунок 86) лежит когнитивная (познавательно-целевая) структуризация знаний об объекте и внешней для него среды.



Рисунок 86. Технология когнитивного анализа и моделирования

Когнитивная структуризация предметной области

– это выявление будущих целевых и нежелательных состояний объекта управления и наиболее существенных (базисных) факторов управления и внешней среды, влияющих на переход объекта в эти состояния, а также установление на качественном уровне причинно-следственных связей между ними, с учетом взаимовлияния факторов друг на друга.

Результаты когнитивной структуризации отображаются с помощью когнитивной карты (модели).


Определение понятия конфигуратора


Понятие конфигуратора, по-видимому, впервые предложено В.А.Лефевром [148], хотя безусловно это понятие использовалось и раньше, но, во-первых, оно не получало самостоятельного названия, а, во-вторых, использовалось в частных случаях и не получало обобщения. Под конфигуратором В.А.Лефевр понимал минимальный полный набор понятийных шкал или конструктов, достаточный для адекватного описания предметной области. Примеры конфигураторов приведены в [148].



Оптимизация модели (подсистема "Оптимизация") (БКОСА-


В данной подсистеме различными способами корректно реализуется контролируемое существенное снижение размерности семантических пространств классов и атрибутов при несущественном уменьшении их объема.



Оптимизация семантической информационной модели


Оптимизация СИМ состоит в удалении из модели атрибутов с низкой селективной силой (по сути это Парето-оптимизация или ортонормирование) и осуществляется в режиме: "Исключение признаков с низкой селективной силой" подсистемы "Оптимизация" (рисунок 208).

Рисунок 208. Подсистема: "Оптимизация семантической

информационной модели"

В данном случае оптимизации СИМ не требуется, т.к. система признаков в модели содержит всего 25 булевых градаций, и все они, в основном, имеют достаточно высокую значимость, что видно из характерной формы Парето-диаграммы с отсутствием выраженной "полочки" (рисунок 209):

Рисунок 209. Парето-диаграмма атрибутов

(накопительная, т.е. логистическая, кривая значимости атрибутов)



Оптимизировать семантическую информационную модель


Оптимизация модели представляет собой исключение из нее малозначащих признаков без потери адекватности модели. Эта операция осуществляется во 2-м режиме 3-й подсистемы (рисунок 158).

Рисунок 158. Выход на режимы оптимизации модели

При том имеется возможность вывести график ценности признаков "нарастающим итогом", т.е. Паретто-диаграмму признаков (рисунок 159).

Рисунок 159. Паретто-диаграмма признаков

Видно, что в системе признаков нет имеющих очень малую или нулевую ценность. Это связано с тем, что все слова являются практически уникальными для фрагментов текстов, т.е. встречаются во всех текстах в основном от 1 до 5 раз (рисунок 160).

Рисунок 160. Частотное распределение частот признаков



Организм человека и средства труда как информационные системы


Очевидно образ продукта труда и сам продукт труда относятся к качественно различным уровням Реальности на которых тождественная по содержанию (семантике) информация просто физически не может находится в одной и той же языковой, синтаксической форме. Поэтому тело человека и его средства труда как информационный канал, соединяющий качественно различные уровни Реальности, не просто передает информацию с сохранением ее содержания с одного уровня на другой, но при этом с необходимостью преобразует и языковую форму представления информации, т.е. осуществляет ее компиляцию, которая фактически и представляет собой технологический процесс.

Информация образа продукта труда, проявляющаяся первоначально в форме целесообразной и целенаправленной трудовой деятельности, т.е. как свободная информация, преобразуется затем в форму связанной информации, выступающей как покоящиеся полезные свойства продукта труда, определяемые его физической формой и структурой.

Свободная информация, существующая в форме целесообразности процесса труда не имеет стоимости, но образует ее в той мере, в какой преобразуется в информацию, связанную в структуре физической формы продукта труда. При этом смысл (содержание, семантика, качество) информации связанной в продукте труда определяет его потребительскую стоимость, тогда как ее количество связано с абстрактной себестоимостью продукта.

Время, за которое перезаписывается определенное количество информации из образа продукта труда в его физическую структуру определяется информационной пропускной способностью организма человека и его средств труда как информационного канала. Чем это время меньше, т.е. чем выше информационная пропускная способность тела человека и его средств труда, тем выше уровень развития человека и технологии. Так как процесс труда это сознательный процесс, то и количественные и содержательные возможности человека как информационного канала определяются типом и состоянием его сознания. Процесс увеличения информационной пропускной способности сознания человека поддерживается (обеспечивается, сопровождается) соответствующими психофизиологическими изменениями в теле человека.


Роль человека и его средств труда в процессе перезаписи информации из образа продукта труда в структуру его физической формы и в создании потребительной стоимости и стоимости продукта труда различна. Это различие определяется тем, что в процессе труда человек выполняет лишь ту часть работы по созданию определенного продукта труда, которая заключается в выполнении функций еще не переданных его средствам труда. Та же часть работы, которая состоит в выполнении уже полностью переданных средствам труда функций выполняется ими автоматически, т.е. без участия человека (рисунок 2):



Рисунок 2. Упрощенная схема информационного канала

для процессов труда с использованием средств труда


Ортонормирование семантических пространств классов и атрибутов (Парето-оптимизация)


Если не все факторы имеют одинаковую ценность для решения задач идентификации, прогнозирования и управления, то возникает проблема исключения из системы факторов тех из них, которые не представляют особой ценности. Удаление малоценных факторов вполне оправданно и целесообразно, т.к. сбор и обработка информации по ним в среднем связана с такими же затратами времени, вычислительных и информационных ресурсов, как и при обработке ценных факторов. В этом состоит идея Парето-оптимизации. Однако это удаление должно осуществляться при вполне определенных граничных условиях, характеризующих результирующую систему: адекватность модели; количество признаков на класс; суммарное количество градаций признаков в описательных шкалах. В противном случае удаление факторов может отрицательно сказываться на качестве решения задач. На практике проблема реализации Парето-оптимизации состоит в том, что факторы вообще говоря коррелируют друг с другом и поэтому их ценность может изменяться при удалении любого из них, в том числе и наименее ценного. Поэтому просто взять и удалить наименее ценные факторы не представляется возможным и необходимо разработать корректный итерационный вычислительный алгоритм обеспечивающий решение этой проблемы при заданных граничных условиях.



Ослабление влияния факторов со временем


Разработка методики прогнозирования основывалась на предположении о том, что факторы в среднем должны оказывать тем меньшее воздействие на текущую ситуацию на фондовом рынке, чем больше прошло времени со времени окончания их действия. Поэтому в реализованной методике учитывались факторы, действующие в течение прошедшего месяца. Специальное исследование, проведенное после разработки методики, показало, что факторы, действующие примерно 30 дней до возникновения текущей ситуации на фондовом рынке, незначительно отличаются по силе влияния на фондовый рынок от факторов, действующих 10 или 20 дней назад. Это означает, что в принципе оправдано было бы взять и значительно больший предстоящий период, например 6 месяцев, в течение которого учитывалось бы действие факторов на текущую ситуацию. Для определения длины предстоящего периода необходимо проведение специального исследования с очень большим предстоящим периодом, составляющим, например, несколько лет.



ОСНОВНАЯ ЛИТЕРАТУРА


1. Луценко Е. В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар:  КубГАУ. 2002. – 605 с.

2. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с.

3. Луценко Е.В. Универсальная автоматизированная система распознавания образов "Эйдос" (версия 4.1).-Краснодар: КЮИ МВД РФ, 1995.- 76с.

4. Симанков В.С., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов. Монография (научное издание). – Краснодар: ТУ КубГТУ, 1999. - 318с.

5. Симанков В.С., Луценко Е.В., Лаптев В.Н. Системный анализ в адаптивном управлении: Монография (научное издание). /Под науч. ред. В.С.Симанкова. – Краснодар: ИСТЭК КубГТУ, 2001. – 258с.



Основные операции: обобщение и распознавание


Обобщение – это операция формирования обобщенных образов классов на основе описаний конкретных объектов, входящих в обучающую выборку.

Сразу необходимо отметить, что операция обобщения реализуется далеко не во всех моделях систем распознавания (например, в методе k-ближайших соседей), а в тех, в которых оно реализуется, – это делается по-разному.

Обычно, пока не реализовано обобщение нет возможности определить ценность признаков для решения задачи идентификации.

Например, если у нас есть 10 конкретных мячей разного размера и цвета, состоящих из разных материалов и предназначенных для разных игр, и мы рассматриваем их как совершенно независимые друг от друга объекты, наряду с другими, то у нас нет возможности определить, какие признаки являются наиболее характерными для мячей и наиболее сильно отличают их от этих других объектов. Но как только мы сформируем обобщенные образы "мяч", "стул", и т.д., сразу выясниться, что цвет мяча и материал, из которого он сделан, не является жестко связанными с обобщенным образом класса "мяч", а наиболее существенно то, что он круглый и его можно бросать или бить во время игры.

Распознавание – это операция сравнения и определения степени сходства образа данного конкретного объекта с образами других конкретных объектов или с обобщенными образами классов, в результате которой формируется рейтинг объектов или классов по убыванию сходства с распознаваемым объектом.

Ключевым моментом при реализации операции распознавания в математической модели является выбор вида интегрального критерия или меры сходства, который бы на основе знания о признаках конкретного объекта позволил бы количественно определить степень его сходства с другими объектами или обобщенными образами классов.

В ортонормированном пространстве, осями которого являются шкалы отношений, вполне естественным является использовать в качестве такой меры сходства Евклидово расстояние. Однако, такие пространства на практике встречаются скорее как исключение из правила, а операция ортонормирования является довольно трудоемкой в вычислительном отношении и приводит к обеднению модели, а значит ее не всегда удобно и целесообразно осуществлять.

Поэтому актуальной является задача выбора или конструирования интегрального критерия сходства, применение которого было бы корректно и в неортонормированных пространствах. Кроме того, этот интегральный критерий должен быть устойчив к наличию шума, т.е. к неполноте и искажению

как в исходных данных, так и самой численной модели.

Требование устойчивости к наличию шума математически означает, что результат применения интегрального критерия к сигналу, состоящему только из белого шума, должен быть равным нулю. Это значит, что в качестве интегрального критерия может быть применена функция, используемая при определении самого понятия "белый шум", т.е. свертка, скалярное произведение, корреляция.

Такой интегральный критерий предложен в математической модели системно-когнитивного анализа и реализован в системе "Эйдос".



Основные положения информационно-функциональной теории развития техники


Теоретические основы информационно-функциональной теории развития техники были разработаны автором в 1979 – 1981 годах и опубликованы в специальных материалах, а также в сокращенном виде в работах [64, 92]. Основываясь на этой теории рассмотрим следующие вопросы:

1. Процесс труда, как информационный процесс.

2. Организм человека и средства труда как информационные системы.

3. Законы развития техники:

– закон перераспределения функций между человеком и средствами труда;

– закон повышения качества базиса.

4. Детерминация формы сознания человека функциональным уровнем средств труда.

5. Неизбежность возникновения компьютеров, информационных систем и систем искусственного интеллекта.



Основные понятия


Системой распознавания образов будем называть класс систем искусственного интеллекта, обеспечивающих:

– формирование конкретных образов объектов и обобщенных образов классов;

– обучение, т.е. формирование обобщенных образов классов на основе ряда примеров объектов, классифицированных (т.е. отнесенных к тем или иным категориям – классам) учителем и составляющих обучающую выборку;

– самообучение, т.е. формирование кластеров объектов на основе анализа неклассифицированной обучающей выборки;

– распознавание, т.е. идентификацию (и прогнозирование) состояний объектов, описанных признаками, друг с другом и с обобщенными образами классов;

– измерение степени адекватности модели;

– решение обратной задачи идентификации и прогнозирования (обеспечивается не всеми моделями).



Основные понятия, принципы и предпосылки генетических алгоритмов


Генетические Алгоритмы (ГА)

– это адаптивные методы функциональной оптимизации, основанные на компьютерном имитационном моделировании биологической эволюции. Основные принципы ГА были сформулированы Голландом (Holland, 1975), и хорошо описаны во многих работах и на ряде сайтов в Internet.

В настоящее время существует ряд теорий биологической эволюции (Ж.-Б.Ламарка, П.Тейяра де Шардена, К.Э.Бэра, Л.С.Берга, А.А.Любищева, С.В.Мейена и др.), однако, ни одна из них не считается общепризнанной. Наиболее известной и популярной, конечно, является теория Чарльза Дарвина, которую он представил в работе "Происхождение Видов" в 1859 году.

Эта теория, как и другие, содержит довольно много нерешенных проблем, глубокое рассмотрение которых далеко выходит за рамки данной работы. Здесь мы можем отметить лишь некоторые наиболее известные из них. Как это ни парадоксально, но несмотря на то, что сам Чарльз Дарвин назвал свою работу "Происхождение Видов" но как раз именно происхождения видов

она и не объясняет. Дело в том, что возникновение нового вида "по алгоритму Дарвина" является крайне маловероятным событием, т.к. для этого требуется случайное возникновение в одной точке пространства и времени сразу не менее 100 особей нового вида, т.е. особей, которые могли бы иметь плодовитое потомство. При меньшем количестве особей вид обречен на вымирание. Поэтому процесс видообразования на основе случайных мутаций должен был бы занять несуразно много времени (по некоторым оценкам даже в намного раз больше, чем время существования Вселенной). Кроме того, "алгоритм Дарвина" не объясняет явной системности в многообразии возникающих форм, типа закона гомологичных рядов Н.И. Вавилова. Поэтому Л.С. Берг предложил очень интересную концепцию номогенеза – закономерной

или направленной эволюции живого. В этой концепции предполагается, что филогенез имеет определенное направление и смена форма является не случайной, а задается некоторым вектором, природа которого не ясна.
Идеи номогенеза глубоко разработал и развил А.А. Любищев, высказавший гипотезу о математических закономерностях, которые определяют многообразие живых форм. Кроме того, Дарвин не смог показать механизм наследования, при котором поддерживается и закрепляется изменчивость. Это было на пятьдесят лет до того, как генетическая теория наследственности начала распространяться по миру, и за тридцать лет до того, как "эволюционный синтез" укрепил связь между теорией эволюции и молодой генетикой.

Тем ни менее и не смотря на свои недостатки, именно теория Дарвина традиционно и моделируется в ГА, хотя, конечно, это не исключает возможности моделирования и других теорий эволюции в ГА. Более того, возможно именно такое компьютерное моделирование и сравнение его результатов с картиной реальной эволюции жизни на Земле может быть и сыграет положительную роль в дальнейшей разработке наиболее адекватной теории биологической эволюции.

Теория Дарвина применима не к отдельным особям, а к популяциям – большому количеству особей одного вида, т.е. способных давать плодовитое потомство, находящейся в определенной статичной или динамичной внешней среде.

В основе модели эволюции Дарвина лежат  случайные изменения отдельных материальных элементов живого организма при переходе от поколения к поколению. Целесообразные изменения, которые облегчают выживание и производство потомков в данной конкретной внешней среде, сохраняются и передаются потомству, т.е. наследуются. Особи, не имеющие соответствующих приспособлений, погибают, не оставив потомства или оставив его меньше, чем приспособленные (считается, что количество потомства пропорционально степени приспособленности). Поэтому в результате естественного отбора

возникает популяция из наиболее приспособленных особей, которая может стать основой нового вида.

Естественный отбор происходит в условиях конкуренции особей популяции, а иногда и различных видов, друг с другом за различные ресурсы, такие, например, как пища или вода. Кроме того, члены популяции одного вида часто конкурируют за привлечение брачного партнера.Те особи, которые наиболее приспособлены к окружающим условиям, будут иметь относительно больше шансов воспроизвести потомков. Слабо приспособленные особи либо совсем не произведут потомства, либо их потомство будет очень немногочисленным. Это означает, что гены от высоко адаптированных или приспособленных особей будут распространятся в увеличивающемся количестве потомков на каждом последующем поколении.

Таким образом, по сути дела каждый конкретный генетический алгоритм представляют имитационную модель некоторой определенной теории биологической эволюции или ее варианта. Вместе с тем необходимо отметить, что сами исследователи биологической эволюции пока еще не до конца определились с критериями и методами определения степени существенности для поддерживаемой ими теории эволюции тех или иных биологических процессов, которые собственно и моделируются в генетических алгоритмах.


Особенности технологии создания


Система искусственного интеллекта в качестве существенной своей части включает базу знаний, которая является результатом обобщения опыта эксплуатации данной системы в определенных конкретных условиях. Это значит, что программистом может быть разработана только "пустая оболочка" системы искусственного интеллекта, которая превращается в работоспособную систему в результате процесса обучения, который, таким образом, является необходимым технологическим этапом создания подобных систем. Можно провести аналогию между такой системой и ребенком: ребенок не может идти работать, т.к. ему для этого предварительно требуется длительное обучение в школе, а затем часто и в вузе, чтобы он смог выполнять определенные виды работ.



Осуществить когнитивную структуризацию предметной области.


Под когнитивной структуризацией в СК-анализе понимается определение причин и следствий, факторов и состояний объекта управления, исходной информации и того, на что она влияет.

В данной лабораторной работе необходимо решить задачу идентификации текстов по входящим в них словам. Следовательно, необходимо будет сформировать обобщенные образы текстов, соответствующих определенной тематике или автору (будем считать, что сочинение принадлежит тому писателю, творчеству которого оно посвящено). Для этого в качестве объектов обучающей выборки использоваться фрагменты текстов школьных сочинений, взятые из Internet, а в качестве признаков текстов будут использоваться входящие в них слова.

Каждое сочинение разобьем случайным образом на примерно равные по размеру небольшие фрагменты, которые используем в качестве объектов обучающей выборки.



Осуществить пересинтез модели и измерить, как изменилась ее адекватность


Под повторным синтезом (пересинтезом) модели понимается ее качественная модификация, осуществляемая путем включения в модель новых дополнительных классификационных и описательных шкал и градаций, представленных примерами в обучающей выборке.

Пересинтез модели обеспечивает возможность ее применения для идентификации объектов расширенной или новой генеральной совокупности.

Приведем пример синтеза новой модели, обобщающей предыдущую.

В модель добавлены новые классы распознавания (таблица 81).

Таблица 81 – КЛАССИФИКАЦИОННЫЕ ШКАЛЫ

Наименования классов распознавания

1

Загадки о животных

2

А.П.Чехов "Вишневый сад"

3

Ф.М.Достоевский "Преступление и наказание"

4

Н.В.Гоголь "Ревизор"

5

А.С.Грибоедов "Горе от ума"

6

И.А.Крылов

7

М.Ю.Лермонтов "Мцыри"

8

Фольклорные загадки о природе

9

Некрасов "Кому на Руси жить хорошо"

10

Пословицы

Продолжение таблицы 81

Наименования классов распознавания

11

А.С.Пушкин "Евгений Онегин"

12

Загадки о саде и огороде

13

В.Шекспир

14

М.А.Шолохов "Тихий Дон"

15

Скороговорки

16

Л.Н.Толстой "Война и мир"

17

И.С.Тургенев "Отцы и дети"

Описательные шкалы и градации не приводятся, т.к. размерность составляет 6974 градации. Необходимо отметить, что текущая версия 12.5 системы "Эйдос" не имеет принципиальных ограничений на суммарное количество градаций классификационных и описательных шкал при синтезе модели и решении задач идентификации и прогнозирования, а также количество объектов обучающей выборки. Реально решались задачи с объемом обучающей выборки до 25000 объектов с 1500 классами и 7000 признаками. При этом был осуществлен синтез и исследование моделей, содержащих до 25 миллионов фактов.

В программном интерфейсе импорта данных из 17 исходных текстовых файлов, посвященных различным темам (см. таблицу 81) было сформировано 592 фрагмента, которые стали основой обучающей выборки.

После синтеза модели измеряется ее адекватность. Для этого обучающая выборка копируется в распознаваемую, после чего проводится распознавание и измерение валидности (рисунок 168). Продемонстрирована очень высокая внутренняя валидность новой модели.

Рисунок 168. Выходная форма с результатами измерения

внутренней валидности после пересинтеза модели



Осуществить синтез и верификацию (измерение адекватности) семантической информационной модели.


Синтез модели осуществляется в 5-й функции 3-го режима 2-й подсистемы системы "Эйдос", а верификация (после копирования обучающей выборки в распознаваемую и распознавания со 2-м интегральным критерием сходства) – во 2-м режиме 6-й подсистемы. При этом получен результат, представленный на рисунке 171, который говорит о высокой степени адекватности модели и корректности выводов, полученных путем ее исследования.

Рисунок 171. Экранная форма режима измерения адекватности СИМ


Вводим классификационные и описательные шкалы и градации (в 1-м и 2-м режимах 1-й подсистемы), а также обучающую выборку (в 1-м режиме 2-й подсистемы) в систему "Эйдос" и осуществляем синтез модели (в 5-й функции 3-го режима 2-й подсистемы), а затем ее верификацию (во 2-м режиме 6-й подсистемы). В результате получаем семантическую информационную модель, обладающую достаточно высокой степенью адекватности: 94,29%, чтобы результаты ее исследования можно было считать исследованием самой моделируемой предметной области (рисунок 181).

Рисунок 181. Экранная форма по измерению адекватности СИМ



Осуществить синтез семантической информационной модели


Синтез модели осуществляется во 2-й подсистеме, 4-м режиме, 5-й функции (рисунок 156).

Рисунок 156. Запуск режима:

"Синтез семантической информационной модели"

Стадия процесса синтеза отображается в ряде экранных форм, одна из которых приводится на рисунке 157.

Рисунок 157. Экранная форма, отображающая одну из стадий процесса синтеза семантической информационной модели



Осуществить содержательное сравнение


Структуру любой линии в семантических сетях классов или признаков можно детально увидеть в когнитивных диаграммах классов и признаков (рисунок 177).

Рисунок 177. Примеры когнитивных диаграмм классов и признаков


В 3-й функции 1-го и 2-го режимов 5-й подсистемы получим когнитивные диаграммы классов и признаков (рисунок 185).

Рисунок 185. Пример когнитивных диаграмм, содержащих результаты содержательного сравнения классов и факторов

Из диаграммы классов мы видим, что основной вклад в сходство конуса и цилиндра вносит то, что одна из проекций у них одинаковая, т.е. круг, а основной вклад в различие – что остальные проекции у конуса – треугольник, а у цилиндра – квадрат.

Из диаграммы сравнения признаков мы видим, что такие проекции есть и у пирамиды, и у призмы, а в различие – то, что эти проекции характерны для различных тел.

Задания 3.5 – 3.7 выполнить самостоятельно.



От электронных вычислительных машин к компьютерам. Функциональное определение компьютера


На первых этапах развития информационных технологий считалось, что компьютеры предназначены в основном для проведения математических расчетов.

Это нашло отражение и в термине, первоначально введенному для обозначения компьютеров: "Электронная вычислительная машина" (ЭВМ). Этот термин включает общее понятие: "Машина", а также два специфических признака: "Электронная" и "Вычислительная". Первый из этих признаков является характеристикой элементной базы, как бы сейчас сказали Hard Ware, а второй является функциональным.

Давать определения средств труда, основываясь на их структуре, методологически неправильно с точки зрения информационно-функциональной теории развития техники, согласно которой определения должны быть функциональными.

Сегодня ясно, что у компьютеров может быть неэлектронная основа, и что их функции далеко выходят за пределы собственно проведения вычислений. Поэтому более правильным, по мнению автора, было бы такое определение компьютера: "Компьютер – это средство труда для обработки информации (т.е. средство труда 5-го функционального уровня)".



Отличия системы "Эйдос" от аналогов: экспертных и статистических систем


От экспертных систем система "Эйдос" отличается тем, что для ее обучения от экспертов требуется лишь само их решение о принадлежности того или иного объекта или его состояния к определенному классу, а не формулирование правил (продукций) или весовых коэффициентов, позволяющих прийти к такому решению (система генерирует их сама, т.е. автоматически). Дело в том, что часто эксперт не может или не хочет вербализовать, тем более формализовать свои способы принятия решений. Система "Эйдос" генерирует обобщенную таблицу решений непосредственно на основе эмпирических данных и их оценки экспертами.

От систем статистической обработки информации система "Эйдос" отличается прежде всего своими целями, которые состоят в следующем: формирование обобщенных образов исследуемых классов распознавания и признаков по данным обучающей выборки (т.е. обучение); исключение из системы признаков тех из них, которые оказались наименее ценными для решения задач системы;  вывод информации по обобщенным образам классов распознавания и признаков в удобной для восприятия и анализа текстовой и графической форме (информационные или ранговые портреты); сравнение распознаваемых формальных описаний объектов с обобщенными образами классов распознавания (распознавание); сравнение обобщенных образов классов распознавания и признаков друг с другом (кластерно-конструктивный анализ); расчет частотных распределений классов распознавания и признаков, а также двумерных матриц сопряженности на основе критерия c2 и коэффициентов Пирсона, Чупрова и Крамера;  результаты кластерно-конструктивного и информационного анализа выводятся в форме семантических сетей и когнитивных диаграмм. Система "Эйдос" в универсальной форме автоматизирует базовые когнитивные операции системного анализа, т.е. является инструментарием СК-анализа. Таким образом, система "Эйдос" выполняет за исследователя-аналитика ту работу, которую при использовании систем статистической обработки ему приходится выполнять вручную, что чаще всего просто невозможно при реальных размерностях данных. Поэтому система "Эйдос" и называется универсальной когнитивной аналитической системой.



Параметрическая модель адаптивной АСУ сложными системами


Конкретизируем типовую структуру АСУ (рисунок 15), используя классификацию входных и выходных параметров объекта управления. В результате получим параметрическую модель адаптивной АСУ сложными системами (рисунок 16).

Рисунок 16. Параметрическая модель адаптивной АСУ сложными системами

Входные параметры (факторы) делятся на три группы: характеризующие предысторию и текущее состояние объекта управления, управляющие (технологические) факторы и факторы окружающей среды.

Выходные параметры – это свойства объекта управления, зависящие от входных параметров (в т.ч. параметров, характеризующих среду). В автоматизированных системах параметрического управления целью управления является получение определенных значений выходных параметров объекта управления, т.е. перевод объекта управления в заданное целевое состояние.

Однако, в случае сложного объекта управления (СОУ) его выходные параметры связаны с состоянием сложным и неоднозначным (нечетким) способом. Поэтому возможность параметрического управления сложными объектами является проблематичной и вводится более общее понятие "управление по состоянию СОУ".

Для ААСУ СС выполняется принцип соответствия,

т.е. в предельном случае, когда связь выходных параметров и состояний объекта управления имеет однозначный и детерминистский характер, управление по состояниям сводится к управлению по параметрам и функции ААСУ СС сводится к их подмножеству: т.е. к функциям типовой АСУ. Однако, когда состояние объекта управления связано с его параметрами сложным и неоднозначным образом, возникает задача идентификации состояния СОУ по его выходным параметрам, которая решается подсистемой идентификации управляющей подсистемы, работающей на принципах адаптивного распознавания образов. При этом классами распознавания являются текущие состояния сложного объекта управления, а признаками – его выходные параметры.

Подсистема выработки управляющих воздействий, также основанная на алгоритмах распознавания образов, решает следующие задачи: прогноз развития окружающей среды; прогноз развития объекта управления в условиях отсутствия управляющих воздействий ("движение по инерции"); выбор управления, переводящего объект управления в целевое состояние.

Подсистема реализации управляющих воздействий осуществляет выбранное технологическое воздействие на объект управления.



Параметры семантической информационной модели


Созданная модель включает:

– активный объект управления (сельскохозяйственную культуру);

– классы (будущие состояния объекта управления, т.е. количественные и качественные результаты выращивания);

– факторы управляющей системы (агротехнологии, т.е. нормы высева, виды и нормы внесения удобрений, методы вспашки, и т.п.);

– факторы окружающей среды (вид почв, культуры–предшественники по предшествующим годам и др.).

Размерность модели составила: 35 прогнозируемых результатов выращивания, 188 градаций факторов, 217 прецедентов в обучающей выборке, 18594 факта. На основе предложенной технологии АСК-анализа разработано конкретное приложение, обеспечивающее поддержку принятия решений по выбору оптимальной агротехнологии, обеспечивающей достижение поставленной цели выращивания с учетом параметров окружающей среды.



Перспективы информационных технологий


Сегодня мы все чаще видим как вместе или по отдельности реализуются и другие подходы:

1. Адаптивные и самообучающиеся системы настраиваются на решение тех или иных задач за счет учета априорной информации и информации, поступающей в систему в процессе ее эксплуатации. Можно считать, что подобные системы развиваются на основе опыта их эксплуатации и что усвоение этого опыта есть один из технологических этапов создания таких систем.

2. Саморазвивающиеся открытые системы очень большого масштаба, которые не спроектированы какой-либо одной группой разработчиков и развиваются не по какому-либо плану, созданному кем-либо заранее. Эти системы создают как бы информационную среду общего доступа в развитие которой могут вносить свой вклад разработчики и даже пользователи, независимо от своего места нахождения.

Таким образом перспектива информационных систем в создании технологий их создания и развития с учетом опыта эксплуатации, часто без заранее разработанного плана и в этом процессе могут принимать участие не только разработчики, но и пользователи, находящиеся где угодно в мире.

Такие системы будем называть открытыми распределенными адаптивными саморазвивающимися системами.



Поддержка принятия решений по выбору агротехнологий


Исследование проведено совместно с О.А.Засухиной на базе Кубанского государственного аграрного университета в 1993-1996 годах [64] на основе эмпирических исходных данных, представленных Н.Г.Малюгой. Предложенные технологии АСК-анализа реализовывалась на базе системы "Эйдос". С помощью сформированной содержательной информационной модели прогнозировались результаты выращивания сельскохозяйственных культур и вырабатывались научно-обоснованных рекомендации по управлению урожайностью и качеством сельскохозяйственной продукции.



Поддержка принятия решений по выбору культур и пунктов выращивания


Данная работа проводилась в рамках гранта "ИННО-РФФИ" № 02-04-08080 "Модифицирование и коммерциализация методов компьютерной оценки ресурсного потенциала территорий и адаптивности генотипов для оптимизации размещения и зональных технологий с.х.культур" и гранта "Инициативный научный проект" № 02-05-64233 "Разработка теории многокритериальной оценки ландшафтных и метеорологических характеристик Юга России для увеличения продуктивности плодовых культур на основе создания системы банков данных и компьютерного моделирования" совместно с И.А.Драгавцевой и Л.М.Лопатиной [25, 29, 30, 34, 109, 140, 143].



Подготовка и ввод обучающей выборки


С обучающей выборкой осуществляем следующие преобразования формы представления:

1. Отмечаем блоком в Internet-броузере при просмотре файла zoo_data.htm весь файл, копируем его в буфер обмена, переходим в Word и вставляем из буфера обмена в документ.

2. Записываем обучающую выборку в форме TXT-файла с именем zoo_data.txt в стандарте "Текст DOS с разбиением на строки".

3. Загружаем Excel и выполняем шаги:

– считываем файл zoo_data.txt

в Excel, предварительно указав в окне: "Тип файлов" вариант: "Все файлы", появляется 1-е окно (рисунок 198);

– в 1-м окне задаем формат файла: "DOS или OS/2 (PC-8) и нажимаем кнопку: "Далее", появляется 2-е окно (рисунок 199);

Рисунок 198. Excel-окно №1

Рисунок 199. Excel-окно №2

– во 2-м окне задаем символ-разделитель "запятая" и нажимаем кнопку: "Далее", появляется 3-е окно (рисунок 200);

– нажимаем "Готово" и появляется 4-е окно (рисунок 201):

Рисунок 200. Excel-окно №3

Рисунок 201. Excel-окно №4

4. Оформляем Excel-таблицу, представленную на рисунке 201, с использованием информации, содержащейся в общем описании задачи. В результате получаем таблицу (рисунок 202) и записываем ее в Excel-книге с именем: zoo_data.xls.

Рисунок 202. Вид фрагмента обучающей выборки в Excel

5. Создаем в Excel-книге zoo_data.xls еще один лист с именем Kod, в котором булевы значения, означающие "есть атрибут/нет атрибута", заменяются в описательных шкалах и градациях кодами атрибутов (рисунок 203):

Рисунок 203. Лист кодов обучающей выборки в Excel

6. Создаем Excel-страницу для преобразования в DBF-стандарт: модифицируем формулу, заменяя пробелы (нет кода) нулями, с целью сохранения единого типа данных для столбцов таблицы, которые станут полями базы данных. Получаем таблицу, фрагмент которой приведен на рисунке 204.

Рисунок 204. Лист кодов обучающей выборки в Excel

для преобразования в DBF-стандарт

<
7. Записываем лист "DBF" Excel-таблицы в DBF-стандарте:

– отмечаем блоком подтаблицу: A4:V105, в которой находятся коды атрибутов и классов;

– помещаем отмеченный блок в буфер обмена;

– выбираем режим "Файл – Сохранить как – Тип файла: DBF 4 (DBASE IV) – Сохранить".

8. Аналогично записываем в DBF-стандарте Excel-таблицу Prizn.xls.

В результате получаем промежуточные DBF-файлы с именами:

Zoo_data.dbf:

база данных с кодами признаков (атрибутов);

Prizn.dbf:

база данных с признаками (атрибутами).

Фрагменты этих баз данных, как они отображаются в просмотрщике, представлены на рисунках 205 и 206. Отметим, что эти промежуточные базы данных содержат всю необходимую и достаточную информацию в заданном стандарте для выполнения следующего – 2-го этапа работы.



Рисунок 205. Фрагмент базы данных: Zoo_data.DBF



Рисунок 206. Фрагмент базы данных: Prizn.DBF


Пользовательский интерфейс, технология


Не смотря на то, что данный раздел посвящен интерфейсу системы "Эйдос", видеограммы и экранные формы в нем не приводятся, т.к. они есть в описаниях лабораторных работ. В наименованиях разделов с описаниями подсистем и режимов системы "Эйдос" указаны коды реализуемых ими базовых когнитивных операций системного анализа в соответствии с обобщенной схемой СК-анализа (рисунок 14).