Cette thèse est consacrée à l'automatisation, par le biais d'algorithmes génétiques, du processus de construction de structures de données floues. Le nom plus générique de "base de connaissances floues" est plus souvent utilisé. Il est à noter qu'une structure de données floues est une base de connaissances floues sans son moteur d'inférences. L'objectif principal de ce travail est de démontrer que par l'utilisation d'algorithmes génétiques, il est possible de générer automatiquement une structure de données floues sans avoir besoin d'un expert humain.
Les algorithmes génétiques, développés dans le cadre de cette thèse, suivent deux paradigmes de codage différents, soit un codage binaire traditionnel et un co- dage hybride combinant les nombres réels et les entiers (binaires). Les opérations d'évolution sont adaptées à chacun des deux algorithmes. Le codage hybride com- prend deux parties distinctes dans son mécanisme de reproduction, soit : un croisement adapté aux nombres réels pour la base de faits et un croisement simple pour la base de règles (partie binaire du codage hybride). Les deux algorithmes d'apprentissage sont testés sur des ensembles de données synthétiques représentant des surfaces 3D. Une étude comparative de leurs comportements respectifs est en- treprise et ce en tenant compte de critères de performance différents et variés tels que la précision, la simplicité et le temps d'apprentissage des bases de connais- sances floues. Il en est ressorti la supériorité du codage hybride quant à la tâche d'apprentissage des structures de données floues et ce sur tous les critères considérés. Cette partie a donné lieu à une première publication dans une revue scientifique. L'un des problèmes importants rencontrés dans l'apprentissage automatique par algorithmes métaheuristiques (dont font partie les algorithmes génétiques) est la convergence prématurée des solutions. Afin de remédier à cette problématique, des techniques pour augmenter la diversité au sein de la population de solutions sont proposées. Ces techniques utilisent des stratégies de reproduction multiples (utilisant différents mécanismes de croisement) associées à une stratégie de fa- mille nombreuse. Ces approches ont démontré leur supériorité par rapport aux stratégies traditionnelles de reproduction (i.e. application d'un seul mécanisme de croisement). Aussi, une étude sur l'amélioration de l'équilibre entre l'exploitation et l'exploration au cours de l'évolution des solutions est proposée. Celle-ci a permis de prouver l'existence de stades d'évolution dans un algorithme génétique et de mettre en évidence l'influence des niveaux d'exploitation et d'exploration sur ses performances. L'exploration suivie de l'exploitation relaxée et, finalement, de l'exploitation est l'ordre d'évolution préconisé. Une application de l'apprentissage automatique (hybride) à un problème de suivi d'usure d'outils a donné des résultats concluants. Cette partie a donné lieu à deux autres publications. Une Applica- tion de l'algorithme génétique hybride, avec méthode évolutive de reproduction, au problème de prédiction de la qualité de la pâte thermomécanique (domaine des pâtes et papiers) a été entreprise. La qualité de la pâte thermomécanique est définie par sa blancheur ISO. L'apprentissage des structures de données floues se fait en utilisant plusieurs combinaisons de variables d'entrées fournies par le Chip Management System (CMS©), appareil permettant de caractériser la qualité des copeaux de bois en aval du procédé de fabrication des pâtes thermomécaniques, par le biais du traitement d'image (caméra RGB) et d'un capteur à infrarouges proches évaluant l'humidité surfacique des dits copeaux. Cette approche est innovatrice du fait de la prédiction de la qualité de la pâte à partir de la qualité des copeaux en utilisant des mesures synthétiques (non prises en laboratoire), ce qui permet une prédiction/contrôle de la qualité de la pâte en ligne. Cette partie a donné lieu à une quatrième et cinquième publication. Enfin, une discussion sur l'ensemble de la recherche menée dans cette thèse est présentée.
This thesis presents the automatic generation of fuzzy data structures. A fuzzy data structure is a fuzzy knowledge base without its inference engine. The generic name of "fuzzy knowledge bases" will be used throughout this thesis. The optimization tool used for the automatic learning is a genetically based algorithm. The first objective of this research is to prove the feasibility of the automatic generation of fuzzy knowledge bases (without the need of a human expert).
The genetic algorithms developed in this thesis follow two coding paradigms: a traditional binary coding and a new real/binary-like coding (hybrid coding). The evolution operators are adapted to each algorithm. In the hybrid coding the reproduction mechanism is made of two distinct parts: a specialized crossovers suited for the factual base (real coded part) and a traditional single point crossover used for the rule base (binary-like coded part). A comparative study on the learning performances of both algorithms, using synthetic data obtained from theoretical 3D surfaces, is done taking into account several performance criteria such as: the precision, the simplicity and the learning time of the genetically-generated fuzzy knowledge bases. From this comparative study, the hybrid coding emerged as the most efficient for most of the performance criteria, which prove the advantage of adapting a genetic algorithm to the optimization problem under study. This part resulted into the first publication presented in this thesis. One of the most tedious problems encountered in automatic learning using meta-heuristic algorithms (genetic algorithms being a part of the meta-heuristic algorithms family) is the premature convergence. In order to overcome these problems (only the hybrid approach is considered) several methods to improve the diversity within the population of solutions are developed. These methods use multiple reproduction strategies (using different crossover mechanisms) along with a crowded family strategy. These approaches showed their superiority when compared with the conventional reproduction strategies (using a single crossover mechanism through the entire evolution). Furthermore, a study on enhancing the performance of the genetic learning by improving the balance between exploration and exploitation within the individuals is done. This study showed the existence of evolution stages in genetic algorithms and also the influence of the exploitation/exploration levels on genetic learning performance. Exploration at the early stages of the evolution, followed by relaxed exploitation during the evolution stage and exploitation in the last stages is the order that improves the learning performance. Genetic learning on experimental data obtained from a tool wear monitoring application gave very satisfactory results. This part resulted into two more publications. An application of the evolutionary algorithms to the thermomechanical pulp and paper process (TMP) was performed, where the quality of the pulp is defined by the ISO brightness. The learning of the fuzzy knowledge bases is performed using input variables obtained from a Chip Management System (CMS®). The CMS® characterizes the quality of wood chips upfront of the TMP process using sensors such as: an RGB camera and near-infrared sensor. This approach allows an online prediction of the pulp quality, since no laboratory measurements are needed for the prediction. This part resulted into a fourth and fifth publication. Finally, a general discussion followed by a set of recommendations and conclusions close this thesis.