Bioinformatics is a crucial component of genomics research because it enables the analyses of large and complex data sets. Conventionally, these analyses involve the use of sophisticated software, and are largely performed by those with prior experience in bioinformatics using adequate computational resources.
Massively parallel DNA sequencing (MPS) platforms have democratized genome sequencing, making it affordable to the biologist. For many biologists this will be their first venture into bioinformatics and genomics. Consequently, they may be unfamiliar with bioinformatics or lack the necessary computer resources. For these biologists, the potential of using MPS platforms for genome analysis is half fulfilled; providing affordable genomic data without the means to easily analyze it. One approach to close this gap is to build software oriented towards those with limited bioinformatics expertise or resources.
This dissertation describes a paradigm to close the gap between genome analysis and the biologist. Using this paradigm, I have developed software tools for three bioinformatics tasks in genome analysis: [i] assessment of a genome assembly, [ii] display and integrated analysis of genomic data, and [iii] deriving biological insight using public information. The first tool I developed was cgb, a program that creates custom UCSC Genome Browsers, allowing biologists to use this browser for genome sequences obtained from MPS platforms. Using cgb for a comparative genomics study of Clostridium difficile assisted us to identify diagnostic DNA markers associated with disease severity and to estimate that the pan-genome is larger than previously estimated. Next I developed contiGo, a general purpose tool to inspect genome assemblies via a web browser, thus bypassing the need for the biologist to install software, satisfy hardware requirements, and download large datasets. Along with cgb, this program enabled us to evaluate the performance of the Roche/454 Genome Sequencer-FLX MPS platform across five sequencing core facilities, and to produce a high quality genome sequence of the fungus Ophiostoma novo-ulmi. Lastly, I developed BL!P, a program to automate NCBI BLAST searches and explore the results in a dynamic interface. This program was inspired by my work on characterizing the genome of a multi-drug resistant and pathogenic strain of Escherichia fergusonii, for which cgb and contiGo were also used in data analysis. These applications have been used in other genomics projects by users with a range of bioinformatics expertise and resources. Other data-intensive fields of science could benefit from a similar software development paradigm.
La bioinformatique fait maintenant partie intégrante de la recherche en génomique, car elle permet des analyses de bases de données larges et complexes. Conventionnellement, ces analyses impliquent l'utilisation de logiciels sophistiqués et sont généralement faites par des personnes expérimentées en bioinformatique qui utilisent des ressources informatiques adéquates.
Les plateformes de séquençage haut débit d'ADN ont démocratisé le séquençage du génome, le rendant ainsi accessible aux biologistes. Pour de nombreux biologistes, ce sera leur première incursion dans les domaines de la bioinformatique et de la génomique. Par conséquent, ils ne sont probablement pas familiers avec la bioinformatique ou n'ont pas les ressources informatiques nécessaires afin d’analyser les résultats. Pour ces biologistes, l’utilisation des plateformes de séquençage haut débit permet l’obtention abordable de données génomiques, mais n’offre pas les outils pour les analyser facilement. Le développement de logiciels ciblant les chercheurs ayant une expertise en bioinformatique limitée ou avec peu de ressources permettrait de combler cet écart.
Cette dissertation décrit un paradigme visant à réduire, voire même à fermer, l’écart entre l'analyse du génome et le biologiste. En utilisant ce paradigme, j'ai développé des outils informatiques pour trois tâches facilitant l'analyse génomique : [i] l'évaluation de l’assemblage du génome, [ii] l’affichage et l'analyse intégrée des données génomiques, et [iii] l’obtention de connaissances biologiques utilisant de l'information publique. Le premier outil que j'ai développé était cgb, un programme qui crée des navigateurs personnalisés « UCSC Genome ». Il permet aux biologistes d'utiliser ces navigateurs pour évaluer les séquences obtenues à partir de plateformes de séquençage haut débit. L’utilisation de cgb lors d’une étude génomique comparative de Clostridium difficile nous a permis d’identifier des marqueurs diagnostics d'ADN associés à la gravité de la maladie et de démontrer que son pan-génome est plus grand qu’estimé précédemment. Ensuite, j'ai développé contiGo, un outil d'usage général pour réviser les assemblages de séquences génomiques par l’intermédiaire d’un navigateur web. Cette application permet aux biologistes de contourner la nécessité d’installer un logiciel, de satisfaire les exigences de l’équipement informatique, et de télécharger des larges bases de données. Conjointement avec cgb, ce programme nous a permis d'évaluer la performance de la plateforme de séquençage haut débit Roche/454 Genome Sequencer FLX, à travers cinq installations de séquençage, ainsi qu’à générer une séquence génomique de grande qualité du champignon Ophiostoma novo-ulmi. Finalement, j'ai développé BL!P, un programme pour automatiser les recherches BLAST NCBI et pour explorer les résultats obtenus dans une interface dynamique. Ce programme a été inspiré par mon travail sur la caractérisation du génome d’une souche pathogène et multi résistante d'Escherichia fergusonii, et pour laquelle cgb et contiGo ont également été utilisés dans l'analyse des données. Ces applications ont été utilisées dans d'autres projets de génomique par des utilisateurs possédant un éventail de compétences et de ressources bioinformatiques. D'autres domaines scientifiques générant des multitudes de données pourraient bénéficier d'un paradigme similaire de développement de logiciel informatique