13
        
        
        
          
            СИСТЕМЫИСКУССТВЕННОГО ИНТЕЛЛЕКТА И ПРИНЯТИЯ РЕШЕНИЙ.
          
        
        
          
            ОПТИМИЗАЦИЯ БАЗ ЗНАНИЙ НЕЧЕТКИХ ЭКСПЕРТНЫХ СИСТЕМ
          
        
        
          
            
              1.2.2.
            
          
        
        
          
            
              Обзор алгоритмов Datamining
            
          
        
        
          При исследовании данных средствами Datamining используется значитель-
        
        
          ное число методов и их комбинации. В работе 
        
        
        
           перечисляются наиболее рас-
        
        
          пространенные методы:
        
        
          •
        
        
          деревья решений;
        
        
          •
        
        
          алгоритмы ограниченного перебора;
        
        
          •
        
        
          нечеткая логика;
        
        
          •
        
        
          генетические алгоритмы;
        
        
          •
        
        
          регрессионные методы;
        
        
          •
        
        
          эволюционное программирование;
        
        
          •
        
        
          нейронные сети.
        
        
          Подробнее рассмотрим методы, оперирующие знаниями в виде "если – то"-
        
        
          правил, выявим их достоинства и недостатки, исследуем возможность их приме-
        
        
          нения для приобретения знаний ЭС.
        
        
          
            1.
          
        
        
          
            Деревья решений
          
        
        
          В последнее время для решения задач классификации в разных проблемных
        
        
          областях стали широко применяться алгоритмы деревьев решений
        
        
          (
        
        
          decisiontrees).В таких задачах необходимо отнести объект к одному из конечно-
        
        
          го множества классов, в зависимости от значений его параметров.
        
        
          Рассмотрим случай, когда классов два, т.е.целевая переменная, обозначаю-
        
        
          щая класс, может приниматьодно их двух значений: 0 или 1. Все множество
        
        
          примеров в обучающей выборке может быть разбито на два подмножества: при-
        
        
          меры, для которых целевая переменная имеет значение 0, и примеры, для кото-
        
        
          рых ее значение равно 1. Необходимо найти правило, позволяющеес наибольшей
        
        
          точностью разделитьобучающую выборку на эти два подмножества. В условной
        
        
          части такого правила значение одного из параметров объекта будет сравниваться
        
        
          с некоторой константой:
        
        
          или
        
        
          ,
        
        
          где –независимая переменная (пара-
        
        
          метр объекта), –константа. В результате применения правила из исходной вы-
        
        
          борки образуются дваподмножества: примеры, для которых правило сработало,
        
        
          и остальные примеры.Если в подмножестве присутствуют примеры с разными
        
        
          классами, для него повторяется процедура поиска наиболее точного правила.
        
        
          Процесс продолжается, пока подмножества не будут содержать примеры только
        
        
          одного класса. Совокупность полученных классифицирующих правил может
        
        
          быть представлена в виде бинарного дерева.
        
        
          К достоинствам деревьев решений следует отнести высокую скорость рабо-
        
        
          ты алгоритмов их построения. Времяпостроениячасто линейно зависит от коли-
        
        
          чества примеров в обучающей выборке. Популярность деревьев решений также
        
        
          обусловлена возможностью наглядно представить данные в виде иерархической
        
        
          структуры.
        
        
          Недостатком подхода является ограниченность выразительной силы деревь-
        
        
          ев решений в представлении сложных зависимостей, которые не могут быть