Вималкумар Б. Вагела, Калпеш Х. Вандра и Нилеш К. Моди
Сегодня данные хранятся в реляционных структурах. В обычном подходе к добыче этих данных мы часто используем объединение нескольких отношений для формирования одного отношения с использованием внешних ключевых связей, что известно как выравнивание. Сглаживание может вызвать такие проблемы, как затраты времени, избыточность данных и статистический перекос данных. Следовательно, возникают критические вопросы о том, как добывать данные непосредственно из многочисленных отношений. Решением данной проблемы является подход, называемый многореляционным интеллектуальным анализом данных (MRDM). Другие проблемы заключаются в том, что нерелевантные или избыточные атрибуты в отношении могут не вносить вклад в точность классификации. Таким образом, выбор признаков является важным этапом предварительной обработки данных в многореляционном интеллектуальном анализе данных. Отфильтровывая нерелевантные или избыточные признаки из отношений для добычи данных, мы повышаем точность классификации, достигаем хороших временных показателей и улучшаем понятность моделей. Мы предложили метод выбора признаков на основе энтропии для многореляционного наивного байесовского классификатора. Мы использовали метод InfoDist и параметры корреляции Пирсона, которые будут использоваться для фильтрации нерелевантных и избыточных признаков из многореляционной базы данных и повысят точность классификации. Мы проанализировали наш алгоритм на финансовом наборе данных PKDD и достигли лучшей точности по сравнению с существующими методами выбора признаков.