Vimalkumar B Vaghela, Kalpesh H Vandra y Nilesh K Modi
Hoy en día, los datos se almacenan en estructuras de relación. En el enfoque habitual para extraer estos datos, a menudo usamos unir varias relaciones para formar una sola relación utilizando enlaces de clave externa, lo que se conoce como aplanamiento. El aplanamiento puede causar problemas como consumo de tiempo, redundancia de datos y sesgo estadístico en los datos. Por lo tanto, surgen los problemas críticos de cómo extraer datos directamente en numerosas relaciones. La solución del problema dado es el enfoque llamado minería de datos multirelacional (MRDM). Otros problemas son que los atributos irrelevantes o redundantes en una relación pueden no contribuir a la precisión de la clasificación. Por lo tanto, la selección de características es un paso de preprocesamiento de datos esencial en la minería de datos multirelacional. Al filtrar las características irrelevantes o redundantes de las relaciones para la minería de datos, mejoramos la precisión de la clasificación, logramos un buen rendimiento en tiempo y mejoramos la comprensión de los modelos. Habíamos propuesto el método de selección de características basado en la entropía para el clasificador bayesiano ingenuo multirelacional. Hemos utilizado el método InfoDist y los parámetros de correlación de Pearson, que se utilizarán para filtrar las características irrelevantes y redundantes de la base de datos multirelacional y mejorarán la precisión de la clasificación. Analizamos nuestro algoritmo sobre el conjunto de datos financieros PKDD y logramos una mayor precisión en comparación con los métodos de selección de características existentes.