Le présent mémoire de maîtrise présente plusieurs applications des algorithmes de clustering à la génération automatique de bases de connaissances floues à l'aide d'algorithmes génétiques. Les quatre principaux objectifs des recherches présentées dans ce mémoire sont : la réduction du temps d'exécution, l'accroissement de la robustesse, l'amélioration de la performance et l'accroissement de l'autonomie.
La génération automatique de bases de connaissances floues à l'aide de techniques telles que les algorithmes génétiques a tendance à être fortement dépendante de la qualité des données d'apprentissage. Tout d'abord, des échantillons de données trop grands peuvent mener à d'importants temps de calcul, alors que des échantillons de données plus petits pourraient décrire le problème tout aussi bien. Pour palier à ce problème, on propose de compresser les données à l'aide d'algorithmes de clustering en éliminant les informations similaires et redondantes. Différents algorithmes de clustering sont comparés et la validation des résultats à travers une surface 3D synthétique montre que la compression de l'échantillon de données à l'aide d'algorithmes de clustering à 5% de sa taille permet d'accélérer le processus d'apprentissage de 94%.
De plus, la présence de bruit et d'outliers peut détériorer la qualité des résultats de l'algorithme d'apprentissage. Les algorithmes de clustering permettent le filtrage de données, rendant ainsi la génération de bases de connaissances floues plus précise. Lorsque la quantité d'outliers dans l'échantillon de données est importante, les algorithmes de clustering peuvent rendre les résultats plus stables et augmenter la performance des bases de connaissances floues obtenues de jusqu'à 2.4% dans le cas d'un échantillon contenant 10% d'outliers, selon les tests effectués sur une surface 3D synthétique.
Les troisième et quatrième objectifs sont accomplis en palliant à un problème bien connu entourant la génération automatique de bases de connaissances floues à l'aide d'algorithmes génétiques, soit la recherche d'un nombre de sous-ensembles flous optimal pour chaque prémisse. Certains algorithmes génétiques couramment utilisés, emploient une méthode multi-objectif combinant la minimisation de l'erreur et la simplification du modèle (base de connaissances floues). Ce travail présente des solutions basées sur l'analyse des clusters et sur les indices de validation pour le nombre de clusters afin de prédéfinir les nombres de sous-ensembles flous. Deux indices de validation ainsi que la combinaison de l'un d'entre eux et de la méthode multi-objectif sont comparés à la méthode multi-objectif originale. La validation à travers des données synthétiques et expérimentales montre des améliorations considérables dans la précision de la prédiction effectuée avec l'usage des nombres de sous-ensembles flous prédéfinis. Sur l'ensemble de données synthétique, une amélioration moyenne de 15.4% (maximale de 21%) a été obtenue avec la technique Silhouette. Également, sur l'ensemble de données expérimentales, une amélioration de 28% a été obtenue. De plus, l'usage d'un nombre de sous-ensembles flous prédéfini permet de contourner la nécessité de préanalyser les données d'entraînement. Une complexité optimale peut être déterminée automatiquement par le processus de clustering, éliminant ainsi la nécessité de supervision humaine.
This master's thesis presents several applications of clustering algorithms for the automatic generation of fuzzy knowledge bases using genetic algorithms. Four main objectives are targeted: execution time, robustness, performance and autonomy.
Automatic knowledge base generation techniques such as genetic algorithms tend to be highly dependent on the quality and size of the learning data. First of all, large data sets can lead to unnecessary time loss, when smaller data sets could describe the problem as well. To address this issue, data are compressed by reducing similar and redundant information. Different clustering algorithms are compared and the validation of the results through a synthetic 3D surface shows that when compressing the data to 5% of its original size, clustering algorithms accelerate the learning process by up to 94%.
Second of all, the presence of noise and outliers can lead the learning algorithm to degenerate. Clustering techniques allow the filtering of the data, thus making the generation of fuzzy knowledge bases more accurate. When the learning data contains a large amount of outliers, clustering algorithms can make the results more stable and improve the fitness of the resulting fuzzy knowledge bases by 2.4% in presence of 10% of outliers, based on the tests performed on a synthetic 3D surface.
The third and fourth objectives are accomplished by addressing a well known issue surrounding fuzzy knowledge base generation using genetic algorithms: finding an optimal number of fuzzy sets for each premise. Some of the current genetic algorithm methods for the automatic generation of fuzzy knowledge bases use a multi-objective method combining error minimization and simplification. This work proposes solutions based on cluster analysis and validation indices for the numbers of clusters used to predefine the numbers of fuzzy sets. Two different validation indices as well as a combination of one of them and of the multi-objective method are compared to the original multi-objective method. The validation with synthetic and experimental data shows considerable improvement in terms of prediction accuracy for fuzzy knowledge bases obtained with predefined numbers of fuzzy sets. On the synthetic data set, an average improvement of 15.4% (and a maximum of 21%) was obtained with the Silhouette technique. On the experimental data set, an improvement of 28% was obtained with the same technique. Moreover, the use of a predefined number of fuzzy sets removes the necessity to preanalyze the training data. An optimal complexity can be determined automatically by the clustering process, thus removing the need of human supervision.