13
СИСТЕМЫИСКУССТВЕННОГО ИНТЕЛЛЕКТА И ПРИНЯТИЯ РЕШЕНИЙ.
ОПТИМИЗАЦИЯ БАЗ ЗНАНИЙ НЕЧЕТКИХ ЭКСПЕРТНЫХ СИСТЕМ
1.2.2.
Обзор алгоритмов Datamining
При исследовании данных средствами Datamining используется значитель-
ное число методов и их комбинации. В работе
перечисляются наиболее рас-
пространенные методы:
•
деревья решений;
•
алгоритмы ограниченного перебора;
•
нечеткая логика;
•
генетические алгоритмы;
•
регрессионные методы;
•
эволюционное программирование;
•
нейронные сети.
Подробнее рассмотрим методы, оперирующие знаниями в виде "если – то"-
правил, выявим их достоинства и недостатки, исследуем возможность их приме-
нения для приобретения знаний ЭС.
1.
Деревья решений
В последнее время для решения задач классификации в разных проблемных
областях стали широко применяться алгоритмы деревьев решений
(
decisiontrees).В таких задачах необходимо отнести объект к одному из конечно-
го множества классов, в зависимости от значений его параметров.
Рассмотрим случай, когда классов два, т.е.целевая переменная, обозначаю-
щая класс, может приниматьодно их двух значений: 0 или 1. Все множество
примеров в обучающей выборке может быть разбито на два подмножества: при-
меры, для которых целевая переменная имеет значение 0, и примеры, для кото-
рых ее значение равно 1. Необходимо найти правило, позволяющеес наибольшей
точностью разделитьобучающую выборку на эти два подмножества. В условной
части такого правила значение одного из параметров объекта будет сравниваться
с некоторой константой:
или
,
где –независимая переменная (пара-
метр объекта), –константа. В результате применения правила из исходной вы-
борки образуются дваподмножества: примеры, для которых правило сработало,
и остальные примеры.Если в подмножестве присутствуют примеры с разными
классами, для него повторяется процедура поиска наиболее точного правила.
Процесс продолжается, пока подмножества не будут содержать примеры только
одного класса. Совокупность полученных классифицирующих правил может
быть представлена в виде бинарного дерева.
К достоинствам деревьев решений следует отнести высокую скорость рабо-
ты алгоритмов их построения. Времяпостроениячасто линейно зависит от коли-
чества примеров в обучающей выборке. Популярность деревьев решений также
обусловлена возможностью наглядно представить данные в виде иерархической
структуры.
Недостатком подхода является ограниченность выразительной силы деревь-
ев решений в представлении сложных зависимостей, которые не могут быть