For advanced computer vision (CV) tasks such as classification, scene segmentation, and salient object detection, extracting features from images is mandatory. One of the most used tools for feature extraction is the convolutional kernel, with each kernel being specialized for specific feature detection. In recent years, the convolutional neural network (CNN) became the standard method of feature detection since it allowed to optimize thousands of kernels at the same time. However, a limitation of the CNN is that all the kernels are small (usually between 3x3 and 7x7), which limits the receptive field. Another limitation is that feature merging is done via weighted additions and pooling, which cannot be used to merge spatial-domain features with gradient-domain features since they are not located at the same pixel coordinate.
The objective of this thesis is to develop electromagnetic (EM) convolutions and Green’s functions (GF) convolutions to be used in Computer Vision and convolutional neural networks (CNN). These new kernels do not have the limitations of the standard CNN kernels since they allow an unlimited receptive field and interaction between any pixel in the image by using kernels bigger than the image. They allow merging spatial domain features with gradient domain features by integrating any vector field. Additionally, they can transform any vector field of features into its least-error conservative field, meaning that the field of features becomes smooth, irrotational and conservative (line-integrable).
At first, we developed different symmetrical and asymmetrical convolutional kernel based on EM and GF that are both resolution and rotation invariant. Then we developed the first method of determining the probability of being inside partial edges, which allow extrapolating thin edge features into the full 2D space. Furthermore, the current thesis proves that GF kernels are the leasterror gradient and Laplacian solvers, and they are empirically demonstrated to be faster than the fastest competing method and easier to implement.
Consequently, using the fast gradient solver, we developed the first method that directly combines edges with saliency maps in the gradient domain, then solves the gradient to go back to the saliency domain. The improvement of the saliency maps over the F-measure is on average 6.6 times better than the nearest competing algorithm on a selected dataset. Then, to improve the saliency maps further, we developed the DSS-GIS model which combines edges with salient regions deep inside the network. This combination helped improve the performance and reduce the overfitting of the model using a single GF-based kernel at the last layer of each branch. The added GIS layer allowed an average F-measure improvement of 3.9% for noisy images and 2.3% for low-light images with only 10ms of additional computation cost. Finally, we developed an early prototype that uses the GF convolution at different points inside a classification network for digit recognition. It acts by transforming the field of features into the nearest possible conservative field. Early results show that it helped reduce the training time by a factor 5, reduce the noise in the validation curve and reduce the testing error by 28%, without increasing the computational capacity of the network.
The main outcome of the current thesis is the creation of GF-based operations, a novel category of operations that can be used to improve CNN’s. Standard operations used in CNN are the convolutions, the pooling and the activation functions. The GF-based operations do not fit in any of these categories as they offer completely novel properties, allowing the network to have an unlimited receptive field at any given layer, to operate in the gradient-domain and to convert its features into conservative and physically interpretable features. Furthermore, the GF-based operations were written into different languages: Matlab, C++ (OpenCV) and Python (Tensorflow and Pytorch); allowing to deliver the work to the computer vision and machine learning community.
Pour les problèmes de vision machine (CV) avancées, tels que la classification, la segmentation de scènes et la détection d’objets salients, il est nécessaire d’extraire le plus de caractéristiques possibles des images. Un des outils les plus utilisés pour l’extraction de caractéristiques est l’utilisation d’un noyau de convolution, où chacun des noyaux est spécialisé pour l’extraction d’une caractéristique donnée. Ceci a mené au développement récent des réseaux de neurones convolutionnels (CNN) qui permet d’optimiser des milliers de noyaux à la fois, faisant du CNN la norme pour l’analyse d’images. Toutefois, une limitation importante du CNN est que les noyaux sont petits (généralement de taille 3x3 à 7x7), ce qui limite l’interaction longue-distance des caractéristiques. Une autre limitation est que la fusion des caractéristiques se fait par des additions pondérées et des opérations de mise en commun (moyennes et maximums locaux). En effet, ces opérations ne permettent pas de fusionner des caractéristiques du domaine spatial avec des caractéristiques puisque ces caractéristiques occupent des positions éloignées sur l’image.
L’objectif de cette thèse est de développer des nouveaux noyaux de convolutions basés sur l’électromagnétisme (EM) et les fonctions de Green (GF) pour être utilisés dans des applications de vision machine (CV) et dans des réseaux de neurones convolutionnels (CNN). Ces nouveaux noyaux sont au moins aussi grands que l’image. Ils évitent donc plusieurs des limitations des CNN standards puisqu’ils permettent l’interaction longue-distance entre les pixels de limages. De plus, ils permettent de fusionner les caractéristiques du domaine spatial avec les caractéristiques du domaine du gradient. Aussi, étant donné tout champ vectoriel, les nouveaux noyaux permettent de trouver le champ vectoriel conservatif le plus rapproché du champ initial, ce qui signifie que le nouveau champ devient lisse, irrotationnel et conservatif (intégrable par intégrale curviligne).
Pour répondre à cet objectif, nous avons d’abord développé des noyaux convolutionnels symétriques et asymétriques basés sur les propriétés des EM et des GF et résultant en des noyaux qui sont invariants en résolution et en rotation. Ensuite, nous avons développé la première méthode qui permet de déterminer la probabilité d’inclusion dans des contours partiels, permettant donc d’extrapoler des contours fins en des régions continues couvrant l’espace 2D. De plus, la présente thèse démontre que les noyaux basés sur les GF sont les solveurs optimaux du gradient et du Laplacien. De ce fait, même s’il n’existe pas de solution exacte au gradient et au Laplacien, les noyaux développés trouvent la solution la plus rapprochée possible d’un résultat, et ce en étant au moins 3.2 fois plus rapide que toute autre méthode de la littérature.
Ainsi, en utilisant notre solveur de gradient, nous avons développé la première méthode qui permet de combiner directement des matrices de contours avec des matrices de salience. L’amélioration des matrices de salience est en moyenne 6.6 fois supérieure au plus proche compétiteur sur des bases de données sélectionnées. Ensuite, pour améliorer notre algorithme de salience, nous avons développé le modèle DSS-GIS qui combine les contours et à la salience directement à l’intérieur d’un CNN profond. Cette combinaison a permis d’améliorer la performance du CNN, de réduire le surapprentissage et de réduire le temps d’apprentissage, pour une augmentation de seulement 10% du temps d’exécution. En plus, la couche GIS a permis d’améliorer les performances du F-measure de 3.9% dans le cas d’images bruitées et de 2.3% dans le cas d’images à faible luminosité. Finalement, nous avons développé un premier prototype qui permet d’utiliser les GF à différentes profondeurs dans un réseau de classification de chiffres. Ce prototype fonctionne en transformant le champ vectoriel de caractéristiques en un champ conservatif. Les premiers résultats sont prometteurs, car ils montrent une réduction du temps d’entrainement d’un facteur 5.2, une réduction du bruit dans les courbes d’apprentissage et une réduction de 28% de l’erreur de classification.
La principale retombée scientifique de la présente thèse est la création d’une nouvelle catégorie d’opérations pouvant être utilisés dans les CNNs. Ces opérations basées sur les GF permettent aux CNN de combiner l’information du domaine de l’image avec l’information du domaine du gradient, ce qui diffèrent entièrement des autres catégories d’opérations, soit les noyaux de convolutions, la réduction de taille (pooling) et les fonctions d’activations. Les GF permettent au CNN d’avoir un champ réceptif illimité, et ce à tout emplacement dans le réseau. De plus, ils permettent de convertir en un champ conservatif tout champ d’informations contenus dans les CNN. Enfin, dans le but d’étendre la portée du travail, ces opérations ont été codées dans différents langages, soit Matlab, C++ (OpenCV) et Python (Tensorflow et Pytorch).