To see the other types of publications on this topic, follow the link: UCI MACHINE LEARNING.

Dissertations / Theses on the topic 'UCI MACHINE LEARNING'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'UCI MACHINE LEARNING.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Modi, Navikkumar. "Machine Learning and Statistical Decision Making for Green Radio." Thesis, CentraleSupélec, 2017. http://www.theses.fr/2017SUPL0002/document.

Full text
Abstract:
Cette thèse étudie les techniques de gestion intelligente du spectre et de topologie des réseaux via une approche radio intelligente dans le but d’améliorer leur capacité, leur qualité de service (QoS – Quality of Service) et leur consommation énergétique. Les techniques d’apprentissage par renforcement y sont utilisées dans le but d’améliorer les performances d’un système radio intelligent. Dans ce manuscrit, nous traitons du problème d’accès opportuniste au spectre dans le cas de réseaux intelligents sans infrastructure. Nous nous plaçons dans le cas où aucune information n’est échangée entre les utilisateurs secondaires (pour éviter les surcoûts en transmissions). Ce problème particulier est modélisé par une approche dite de bandits manchots « restless » markoviens multi-utilisateurs (multi-user restless Markov MAB -multi¬armed bandit). La contribution principale de cette thèse propose une stratégie d’apprentissage multi-joueurs qui prend en compte non seulement le critère de disponibilité des canaux (comme déjà étudié dans la littérature et une thèse précédente au laboratoire), mais aussi une métrique de qualité, comme par exemple le niveau d’interférence mesuré (sensing) dans un canal (perturbations issues des canaux adjacents ou de signaux distants). Nous prouvons que notre stratégie, RQoS-UCB distribuée (distributed restless QoS-UCB – Upper Confidence Bound), est quasi optimale car on obtient des performances au moins d’ordre logarithmique sur son regret. En outre, nous montrons par des simulations que les performances du système intelligent proposé sont améliorées significativement par l’utilisation de la solution d’apprentissage proposée permettant à l’utilisateur secondaire d’identifier plus efficacement les ressources fréquentielles les plus disponibles et de meilleure qualité. Cette thèse propose également un nouveau modèle d’apprentissage par renforcement combiné à un transfert de connaissance afin d’améliorer l’efficacité énergétique (EE) des réseaux cellulaires hétérogènes. Nous formulons et résolvons un problème de maximisation de l’EE pour le cas de stations de base (BS – Base Stations) dynamiquement éteintes et allumées (ON-OFF). Ce problème d’optimisation combinatoire peut aussi être modélisé par des bandits manchots « restless » markoviens. Par ailleurs, une gestion dynamique de la topologie des réseaux hétérogènes, utilisant l’algorithme RQoS-UCB, est proposée pour contrôler intelligemment le mode de fonctionnement ON-OFF des BS, dans un contexte de trafic et d’étude de capacité multi-cellulaires. Enfin une méthode incluant le transfert de connaissance « transfer RQoS-UCB » est proposée et validée par des simulations, pour pallier les pertes de récompense initiales et accélérer le processus d’apprentissage, grâce à la connaissance acquise à d’autres périodes temporelles correspondantes à la période courante (même heure de la journée la veille, ou même jour de la semaine par exemple). La solution proposée de gestion dynamique du mode ON-OFF des BS permet de diminuer le nombre de BS actives tout en garantissant une QoS adéquate en atténuant les fluctuations de la QoS lors des variations du trafic et en améliorant les conditions au démarrage de l’apprentissage. Ainsi, l’efficacité énergétique est grandement améliorée. Enfin des démonstrateurs en conditions radio réelles ont été développés pour valider les solutions d’apprentissage étudiées. Les algorithmes ont également été confrontés à des bases de données de mesures effectuées par un partenaire dans la gamme de fréquence HF, pour des liaisons transhorizon. Les résultats confirment la pertinence des solutions d’apprentissage proposées, aussi bien en termes d’optimisation de l’utilisation du spectre fréquentiel, qu’en termes d’efficacité énergétique
Future cellular network technologies are targeted at delivering self-organizable and ultra-high capacity networks, while reducing their energy consumption. This thesis studies intelligent spectrum and topology management through cognitive radio techniques to improve the capacity density and Quality of Service (QoS) as well as to reduce the cooperation overhead and energy consumption. This thesis investigates how reinforcement learning can be used to improve the performance of a cognitive radio system. In this dissertation, we deal with the problem of opportunistic spectrum access in infrastructureless cognitive networks. We assume that there is no information exchange between users, and they have no knowledge of channel statistics and other user's actions. This particular problem is designed as multi-user restless Markov multi-armed bandit framework, in which multiple users collect a priori unknown reward by selecting a channel. The main contribution of the dissertation is to propose a learning policy for distributed users, that takes into account not only the availability criterion of a band but also a quality metric linked to the interference power from the neighboring cells experienced on the sensed band. We also prove that the policy, named distributed restless QoS-UCB (RQoS-UCB), achieves at most logarithmic order regret. Moreover, numerical studies show that the performance of the cognitive radio system can be significantly enhanced by utilizing proposed learning policies since the cognitive devices are able to identify the appropriate resources more efficiently. This dissertation also introduces a reinforcement learning and transfer learning frameworks to improve the energy efficiency (EE) of the heterogeneous cellular network. Specifically, we formulate and solve an energy efficiency maximization problem pertaining to dynamic base stations (BS) switching operation, which is identified as a combinatorial learning problem, with restless Markov multi-armed bandit framework. Furthermore, a dynamic topology management using the previously defined algorithm, RQoS-UCB, is introduced to intelligently control the working modes of BSs, based on traffic load and capacity in multiple cells. Moreover, to cope with initial reward loss and to speed up the learning process, a transfer RQoS-UCB policy, which benefits from the transferred knowledge observed in historical periods, is proposed and provably converges. Then, proposed dynamic BS switching operation is demonstrated to reduce the number of activated BSs while maintaining an adequate QoS. Extensive numerical simulations demonstrate that the transfer learning significantly reduces the QoS fluctuation during traffic variation, and it also contributes to a performance jump-start and presents significant EE improvement under various practical traffic load profiles. Finally, a proof-of-concept is developed to verify the performance of proposed learning policies on a real radio environment and real measurement database of HF band. Results show that proposed multi-armed bandit learning policies using dual criterion (e.g. availability and quality) optimization for opportunistic spectrum access is not only superior in terms of spectrum utilization but also energy efficient
APA, Harvard, Vancouver, ISO, and other styles
2

Duncan, Andrew Paul. "The analysis and application of artificial neural networks for early warning systems in hydrology and the environment." Thesis, University of Exeter, 2014. http://hdl.handle.net/10871/17569.

Full text
Abstract:
Artificial Neural Networks (ANNs) have been comprehensively researched, both from a computer scientific perspective and with regard to their use for predictive modelling in a wide variety of applications including hydrology and the environment. Yet their adoption for live, real-time systems remains on the whole sporadic and experimental. A plausible hypothesis is that this may be at least in part due to their treatment heretofore as “black boxes” that implicitly contain something that is unknown, or even unknowable. It is understandable that many of those responsible for delivering Early Warning Systems (EWS) might not wish to take the risk of implementing solutions perceived as containing unknown elements, despite the computational advantages that ANNs offer. This thesis therefore builds on existing efforts to open the box and develop tools and techniques that visualise, analyse and use ANN weights and biases especially from the viewpoint of neural pathways from inputs to outputs of feedforward networks. In so doing, it aims to demonstrate novel approaches to self-improving predictive model construction for both regression and classification problems. This includes Neural Pathway Strength Feature Selection (NPSFS), which uses ensembles of ANNs trained on differing subsets of data and analysis of the learnt weights to infer degrees of relevance of the input features and so build simplified models with reduced input feature sets. Case studies are carried out for prediction of flooding at multiple nodes in urban drainage networks located in three urban catchments in the UK, which demonstrate rapid, accurate prediction of flooding both for regression and classification. Predictive skill is shown to reduce beyond the time of concentration of each sewer node, when actual rainfall is used as input to the models. Further case studies model and predict statutory bacteria count exceedances for bathing water quality compliance at 5 beaches in Southwest England. An illustrative case study using a forest fires dataset from the UCI machine learning repository is also included. Results from these model ensembles generally exhibit improved performance, when compared with single ANN models. Also ensembles with reduced input feature sets, using NPSFS, demonstrate as good or improved performance when compared with the full feature set models. Conclusions are drawn about a new set of tools and techniques, including NPSFS and visualisation techniques for inspection of ANN weights, the adoption of which it is hoped may lead to improved confidence in the use of ANN for live real-time EWS applications.
APA, Harvard, Vancouver, ISO, and other styles
3

Bouneffouf, Djallel. "DRARS, A Dynamic Risk-Aware Recommender System." Phd thesis, Institut National des Télécommunications, 2013. http://tel.archives-ouvertes.fr/tel-01026136.

Full text
Abstract:
L'immense quantité d'information générée et gérée au quotidien par les systèmes d'information et leurs utilisateurs conduit inéluctablement ?a la problématique de surcharge d'information. Dans ce contexte, les systèmes de recommandation traditionnels fournissent des informations pertinentes aux utilisateurs. Néanmoins, avec la propagation récente des dispositifs mobiles (Smartphones et tablettes), nous constatons une migration progressive des utilisateurs vers la manipulation d'environnements pérvasifs. Le problème avec les approches traditionnelles de recommandation est qu'elles n'utilisent pas toute l'information disponible pour produire des recommandations. Davantage d'informations contextuelles pourraient être utilisées dans le processus de recommandation pour aboutir à des recommandations plus précises. Les systèmes de recommandations sensibles au contexte (CARS) combinent les caractéristiques des systèmes sensibles au contexte et des systèmes de recommandation an de fournir des informations personnalisées aux utilisateurs dans des environnements ubiquitaires. Dans cette perspective ou tout ce qui concerne l'utilisateur est dynamique, les contenus qu'il manipule et son environnement, deux questions principales doivent être adressées : i) Comment prendre en compte la dynamicité des contenus de l'utilisateur ? et ii ) Comment éviter d'être intrusif en particulier dans des situations critiques ?. En réponse ?a ces questions, nous avons développé un système de recommandation dynamique et sensible au risque appelé DRARS (Dynamic Risk-Aware Recommender System), qui modélise la recommandation sensible au contexte comme un problème de bandit. Ce système combine une technique de filtrage basée sur le contenu et un algorithme de bandit contextuel. Nous avons montré que DRARS améliore la stratégie de l'algorithme UCB (Upper Con dence Bound), le meilleur algorithme actuellement disponible, en calculant la valeur d'exploration la plus optimale pour maintenir un compromis entre exploration et exploitation basé sur le niveau de risque de la situation courante de l'utilisateur. Nous avons mené des expériences dans un contexte industriel avec des données réelles et des utilisateurs réels et nous avons montré que la prise en compte du niveau de risque de la situation de l'utilisateur augmentait significativement la performance du système de recommandation.
APA, Harvard, Vancouver, ISO, and other styles
4

Fanciulli, Matteo. "Forecast sull'impatto della crescita esponenziale della tecnologia nel mondo del lavoro e nella società." Master's thesis, Alma Mater Studiorum - Università di Bologna, 2016.

Find full text
Abstract:
In questa tesi esaminerò alcuni aspetti fondamentali della tecnologia moderna tra cui alcune leggi chiave che spiegheranno come mai la crescente disoccupazione in Europa, e in occidente in generale, non è causata solamente da crisi finanziarie o politiche, ma dall'intrinseca natura della tecnologia stessa. Ci troveremo nella situazione nella quale una persona non sia in grado di trovare un'occupazione non a causa di demeriti propri, ma poiché il sistema è diventato talmente ottimizzato da tagliare completamente la necessità di alcuni ruoli chiave nel sistema di lavoro. Spiegherò quali sono le strategie da attuare per evitare di trovarsi in questo nuovo sistema di occupazione senza un ruolo al suo interno, quali sono le politiche che un governo debba attuare per garantire i necessari bisogni primari dei propri cittadini, le strutture che ogni azienda deve creare per rimanere all'interno del proprio settore di investimento.
APA, Harvard, Vancouver, ISO, and other styles
5

van, Merriënboer Bart. "Sequence-to-sequence learning for machine translation and automatic differentiation for machine learning software tools." Thèse, 2018. http://hdl.handle.net/1866/21743.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Askari, Hemmat Reyhane. "SLA violation prediction : a machine learning perspective." Thèse, 2016. http://hdl.handle.net/1866/18754.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Mokaddem, Mouna. "Learning a graph made of boolean function nodes : a new approach in machine learning." Thèse, 2016. http://hdl.handle.net/1866/18763.

Full text
Abstract:
Dans ce document, nous présentons une nouvelle approche en apprentissage machine pour la classification. Le cadre que nous proposons est basé sur des circuits booléens, plus précisément le classifieur produit par notre algorithme a cette forme. L’utilisation des bits et des portes logiques permet à l’algorithme d’apprentissage et au classifieur d’utiliser des opérations vectorielles binaires très efficaces. La qualité du classifieur, produit par notre approche, se compare très favorablement à ceux qui sont produits par des techniques classiques, à la fois en termes d’efficacité et de précision. En outre, notre approche peut être utilisée dans un contexte où la confidentialité est une nécessité, par exemple, nous pouvons classer des données privées. Ceci est possible car le calcul ne peut être effectué que par des circuits booléens et les données chiffrées sont quantifiées en bits. De plus, en supposant que le classifieur a été déjà entraîné, il peut être alors facilement implémenté sur un FPGA car ces circuits sont également basés sur des portes logiques et des opérations binaires. Par conséquent, notre modèle peut être facilement intégré dans des systèmes de classification en temps réel.
In this document we present a novel approach in machine learning for classification. The framework we propose is based on boolean circuits, more specifically the classifier produced by our algorithm has that form. Using bits and boolean gates enable the learning algorithm and the classifier to use very efficient boolean vector operations. The accuracy of the classifier we obtain with our framework compares very favourably with those produced by conventional techniques, both in terms of efficiency and accuracy. Furthermore, the framework can be used in a context where information privacy is a necessity, for example we can classify private data. This can be done because computation can be performed only through boolean circuits as encrypted data is quantized in bits. Moreover, assuming that the classifier was trained, it can then be easily implemented on FPGAs (i.e., Field-programmable gate array) as those circuits are also based on logic gates and bitwise operations. Therefore, our model can be easily integrated in real-time classification systems.
APA, Harvard, Vancouver, ISO, and other styles
8

Chapados, Nicolas. "Sequential Machine learning Approaches for Portfolio Management." Thèse, 2009. http://hdl.handle.net/1866/3578.

Full text
Abstract:
Cette thèse envisage un ensemble de méthodes permettant aux algorithmes d'apprentissage statistique de mieux traiter la nature séquentielle des problèmes de gestion de portefeuilles financiers. Nous débutons par une considération du problème général de la composition d'algorithmes d'apprentissage devant gérer des tâches séquentielles, en particulier celui de la mise-à-jour efficace des ensembles d'apprentissage dans un cadre de validation séquentielle. Nous énumérons les desiderata que des primitives de composition doivent satisfaire, et faisons ressortir la difficulté de les atteindre de façon rigoureuse et efficace. Nous poursuivons en présentant un ensemble d'algorithmes qui atteignent ces objectifs et présentons une étude de cas d'un système complexe de prise de décision financière utilisant ces techniques. Nous décrivons ensuite une méthode générale permettant de transformer un problème de décision séquentielle non-Markovien en un problème d'apprentissage supervisé en employant un algorithme de recherche basé sur les K meilleurs chemins. Nous traitons d'une application en gestion de portefeuille où nous entraînons un algorithme d'apprentissage à optimiser directement un ratio de Sharpe (ou autre critère non-additif incorporant une aversion au risque). Nous illustrons l'approche par une étude expérimentale approfondie, proposant une architecture de réseaux de neurones spécialisée à la gestion de portefeuille et la comparant à plusieurs alternatives. Finalement, nous introduisons une représentation fonctionnelle de séries chronologiques permettant à des prévisions d'être effectuées sur un horizon variable, tout en utilisant un ensemble informationnel révélé de manière progressive. L'approche est basée sur l'utilisation des processus Gaussiens, lesquels fournissent une matrice de covariance complète entre tous les points pour lesquels une prévision est demandée. Cette information est utilisée à bon escient par un algorithme qui transige activement des écarts de cours (price spreads) entre des contrats à terme sur commodités. L'approche proposée produit, hors échantillon, un rendement ajusté pour le risque significatif, après frais de transactions, sur un portefeuille de 30 actifs.
This thesis considers a number of approaches to make machine learning algorithms better suited to the sequential nature of financial portfolio management tasks. We start by considering the problem of the general composition of learning algorithms that must handle temporal learning tasks, in particular that of creating and efficiently updating the training sets in a sequential simulation framework. We enumerate the desiderata that composition primitives should satisfy, and underscore the difficulty of rigorously and efficiently reaching them. We follow by introducing a set of algorithms that accomplish the desired objectives, presenting a case-study of a real-world complex learning system for financial decision-making that uses those techniques. We then describe a general method to transform a non-Markovian sequential decision problem into a supervised learning problem using a K-best paths search algorithm. We consider an application in financial portfolio management where we train a learning algorithm to directly optimize a Sharpe Ratio (or other risk-averse non-additive) utility function. We illustrate the approach by demonstrating extensive experimental results using a neural network architecture specialized for portfolio management and compare against well-known alternatives. Finally, we introduce a functional representation of time series which allows forecasts to be performed over an unspecified horizon with progressively-revealed information sets. By virtue of using Gaussian processes, a complete covariance matrix between forecasts at several time-steps is available. This information is put to use in an application to actively trade price spreads between commodity futures contracts. The approach delivers impressive out-of-sample risk-adjusted returns after transaction costs on a portfolio of 30 spreads.
APA, Harvard, Vancouver, ISO, and other styles
9

Gidel, Gauthier. "Multi-player games in the era of machine learning." Thesis, 2020. http://hdl.handle.net/1866/24800.

Full text
Abstract:
Parmi tous les jeux de société joués par les humains au cours de l’histoire, le jeu de go était considéré comme l’un des plus difficiles à maîtriser par un programme informatique [Van Den Herik et al., 2002]; Jusqu’à ce que ce ne soit plus le cas [Silveret al., 2016]. Cette percée révolutionnaire [Müller, 2002, Van Den Herik et al., 2002] fût le fruit d’une combinaison sophistiquée de Recherche arborescente Monte-Carlo et de techniques d’apprentissage automatique pour évaluer les positions du jeu, mettant en lumière le grand potentiel de l’apprentissage automatique pour résoudre des jeux. L’apprentissage antagoniste, un cas particulier de l’optimisation multiobjective, est un outil de plus en plus utile dans l’apprentissage automatique. Par exemple, les jeux à deux joueurs et à somme nulle sont importants dans le domain des réseaux génératifs antagonistes [Goodfellow et al., 2014] ainsi que pour maîtriser des jeux comme le Go ou le Poker en s’entraînant contre lui-même [Silver et al., 2017, Brown andSandholm, 2017]. Un résultat classique de la théorie des jeux indique que les jeux convexes-concaves ont toujours un équilibre [Neumann, 1928]. Étonnamment, les praticiens en apprentissage automatique entrainent avec succès une seule paire de réseaux de neurones dont l’objectif est un problème de minimax non-convexe et non-concave alors que pour une telle fonction de gain, l’existence d’un équilibre de Nash n’est pas garantie en général. Ce travail est une tentative d'établir une solide base théorique pour l’apprentissage dans les jeux. La première contribution explore le théorème minimax pour une classe particulière de jeux non-convexes et non-concaves qui englobe les réseaux génératifs antagonistes. Cette classe correspond à un ensemble de jeux à deux joueurs et a somme nulle joués avec des réseaux de neurones. Les deuxième et troisième contributions étudient l’optimisation des problèmes minimax, et plus généralement, les inégalités variationnelles dans le cadre de l’apprentissage automatique. Bien que la méthode standard de descente de gradient ne parvienne pas à converger vers l’équilibre de Nash de jeux convexes-concaves simples, il existe des moyens d’utiliser des gradients pour obtenir des méthodes qui convergent. Nous étudierons plusieurs techniques telles que l’extrapolation, la moyenne et la quantité de mouvement à paramètre négatif. La quatrième contribution fournit une étude empirique du comportement pratique des réseaux génératifs antagonistes. Dans les deuxième et troisième contributions, nous diagnostiquons que la méthode du gradient échoue lorsque le champ de vecteur du jeu est fortement rotatif. Cependant, une telle situation peut décrire un pire des cas qui ne se produit pas dans la pratique. Nous fournissons de nouveaux outils de visualisation afin d’évaluer si nous pouvons détecter des rotations dans comportement pratique des réseaux génératifs antagonistes.
Among all the historical board games played by humans, the game of go was considered one of the most difficult to master by a computer program [Van Den Heriket al., 2002]; Until it was not [Silver et al., 2016]. This odds-breaking break-through [Müller, 2002, Van Den Herik et al., 2002] came from a sophisticated combination of Monte Carlo tree search and machine learning techniques to evaluate positions, shedding light upon the high potential of machine learning to solve games. Adversarial training, a special case of multiobjective optimization, is an increasingly useful tool in machine learning. For example, two-player zero-sum games are important for generative modeling (GANs) [Goodfellow et al., 2014] and mastering games like Go or Poker via self-play [Silver et al., 2017, Brown and Sandholm,2017]. A classic result in Game Theory states that convex-concave games always have an equilibrium [Neumann, 1928]. Surprisingly, machine learning practitioners successfully train a single pair of neural networks whose objective is a nonconvex-nonconcave minimax problem while for such a payoff function, the existence of a Nash equilibrium is not guaranteed in general. This work is an attempt to put learning in games on a firm theoretical foundation. The first contribution explores minimax theorems for a particular class of nonconvex-nonconcave games that encompasses generative adversarial networks. The proposed result is an approximate minimax theorem for two-player zero-sum games played with neural networks, including WGAN, StarCrat II, and Blotto game. Our findings rely on the fact that despite being nonconcave-nonconvex with respect to the neural networks parameters, the payoff of these games are concave-convex with respect to the actual functions (or distributions) parametrized by these neural networks. The second and third contributions study the optimization of minimax problems, and more generally, variational inequalities in the context of machine learning. While the standard gradient descent-ascent method fails to converge to the Nash equilibrium of simple convex-concave games, there exist ways to use gradients to obtain methods that converge. We investigate several techniques such as extrapolation, averaging and negative momentum. We explore these techniques experimentally by proposing a state-of-the-art (at the time of publication) optimizer for GANs called ExtraAdam. We also prove new convergence results for Extrapolation from the past, originally proposed by Popov [1980], as well as for gradient method with negative momentum. The fourth contribution provides an empirical study of the practical landscape of GANs. In the second and third contributions, we diagnose that the gradient method breaks when the game’s vector field is highly rotational. However, such a situation may describe a worst-case that does not occur in practice. We provide new visualization tools in order to exhibit rotations in practical GAN landscapes. In this contribution, we show empirically that the training of GANs exhibits significant rotations around Local Stable Stationary Points (LSSP), and we provide empirical evidence that GAN training converges to a stable stationary point, which is a saddle point for the generator loss, not a minimum, while still achieving excellent performance.
APA, Harvard, Vancouver, ISO, and other styles
10

Dauphin, Yann. "Advances in scaling deep learning algorithms." Thèse, 2015. http://hdl.handle.net/1866/13710.

Full text
APA, Harvard, Vancouver, ISO, and other styles
11

Trabelsi, Amine. "Configuration et exploitation d'une machine émotionnelle." Thèse, 2010. http://hdl.handle.net/1866/4566.

Full text
Abstract:
Dans ce travail, nous explorons la faisabilité de doter les machines de la capacité de prédire, dans un contexte d'interaction homme-machine (IHM), l'émotion d'un utilisateur, ainsi que son intensité, de manière instantanée pour une grande variété de situations. Plus spécifiquement, une application a été développée, appelée machine émotionnelle, capable de «comprendre» la signification d'une situation en se basant sur le modèle théorique d'évaluation de l'émotion Ortony, Clore et Collins (OCC). Cette machine est apte, également, à prédire les réactions émotionnelles des utilisateurs, en combinant des versions améliorées des k plus proches voisins et des réseaux de neurones. Une procédure empirique a été réalisée pour l'acquisition des données. Ces dernières ont fourni une connaissance consistante aux algorithmes d'apprentissage choisis et ont permis de tester la performance de la machine. Les résultats obtenus montrent que la machine émotionnelle proposée est capable de produire de bonnes prédictions. Une telle réalisation pourrait encourager son utilisation future dans des domaines exploitant la reconnaissance automatique de l'émotion.
This work explores the feasibility of equipping computers with the ability to predict, in a context of a human computer interaction, the probable user’s emotion and its intensity for a wide variety of emotion-eliciting situations. More specifically, an online framework, the Emotional Machine, is developed enabling computers to «understand» situations using OCC model of emotion and to predict user’s reaction by combining refined versions of Artificial Neural Network and k Nearest Neighbours algorithms. An empirical procedure including a web-based anonymous questionnaire for data acquisition was designed to provide the chosen machine learning algorithms with a consistent knowledge and to test the application’s recognition performance. Results from the empirical investigation show that the proposed Emotional Machine is capable of producing accurate predictions. Such an achievement may encourage future using of our framework for automated emotion recognition in various application fields.
APA, Harvard, Vancouver, ISO, and other styles
12

Mastropietro, Olivier. "Deep Learning for Video Modelling." Thèse, 2017. http://hdl.handle.net/1866/20192.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Jean, Sébastien. "From Word Embeddings to Large Vocabulary Neural Machine Translation." Thèse, 2015. http://hdl.handle.net/1866/13421.

Full text
Abstract:
Dans ce mémoire, nous examinons certaines propriétés des représentations distribuées de mots et nous proposons une technique pour élargir le vocabulaire des systèmes de traduction automatique neurale. En premier lieu, nous considérons un problème de résolution d'analogies bien connu et examinons l'effet de poids adaptés à la position, le choix de la fonction de combinaison et l'impact de l'apprentissage supervisé. Nous enchaînons en montrant que des représentations distribuées simples basées sur la traduction peuvent atteindre ou dépasser l'état de l'art sur le test de détection de synonymes TOEFL et sur le récent étalon-or SimLex-999. Finalament, motivé par d'impressionnants résultats obtenus avec des représentations distribuées issues de systèmes de traduction neurale à petit vocabulaire (30 000 mots), nous présentons une approche compatible à l'utilisation de cartes graphiques pour augmenter la taille du vocabulaire par plus d'un ordre de magnitude. Bien qu'originalement développée seulement pour obtenir les représentations distribuées, nous montrons que cette technique fonctionne plutôt bien sur des tâches de traduction, en particulier de l'anglais vers le français (WMT'14).
In this thesis, we examine some properties of word embeddings and propose a technique to handle large vocabularies in neural machine translation. We first look at a well-known analogy task and examine the effect of position-dependent weights, the choice of combination function and the impact of supervised learning. We then show that simple embeddings learnt with translational contexts can match or surpass the state of the art on the TOEFL synonym detection task and on the recently introduced SimLex-999 word similarity gold standard. Finally, motivated by impressive results obtained by small-vocabulary (30,000 words) neural machine translation embeddings on some word similarity tasks, we present a GPU-friendly approach to increase the vocabulary size by more than an order of magnitude. Despite originally being developed for obtaining the embeddings only, we show that this technique actually works quite well on actual translation tasks, especially for English to French (WMT'14).
APA, Harvard, Vancouver, ISO, and other styles
14

Gupta, Gunshi. "Look-ahead meta-learning for continual learning." Thesis, 2020. http://hdl.handle.net/1866/24315.

Full text
Abstract:
Le problème “d’apprentissage continu” implique l’entraînement des modèles profonds avec une capacité limitée qui doivent bien fonctionner sur un nombre inconnu de tâches arrivant séquentiellement. Cette configuration peut souvent résulter en un système d’apprentissage qui souffre de “l’oublie catastrophique”, lorsque l’apprentissage d’une nouvelle tâche provoque des interférences sur la progression de l’apprentissage des anciennes tâches. Les travaux récents ont montré que les techniques de “méta-apprentissage” ont le potentiel de ré- duire les interférences entre les anciennes et les nouvelles tâches. Cependant, les procé- dures d’entraînement ont présentement une tendance à être lente ou hors ligne et sensibles à de nombreux hyperparamètres. Dans ce travail, nous proposons “Look-ahead MAML (La-MAML)”, un algorithme de méta-apprentissage rapide basé sur l’optimisation pour l’apprentissage continu en ligne et aidé par une petite mémoire épisodique. Ceci est réalisé en utilisant l’équivalence d’un objectif MAML en plusieurs étapes et un objectif d’apprentissage continu “temps conscient”. L’équivalence résulte au développement d’un algorithme intuitif que nous appelons Continual-MAML (C-MAML), utilisant un méta-apprentissage continu pour optimiser un modèle afin qu’il fonctionne bien sur une série de distributions de don- nées changeantes. En intégrant la modulation des taux d’apprentissage par paramètre dans La-MAML, notre approche fournit un moyen plus flexible et efficace d’atténuer l’oubli catas- trophique par rapport aux méthodes classiques basées sur les prieurs. Cette modulation a également des liens avec des travaux sur la métadescendance, que nous identifions comme une direction importante de la recherche pour développer de meilleurs optimiser pour un ap- prentissage continu. Dans des expériences menées sur des repères de classification visuelle du monde réel, La-MAML atteint des performances supérieures aux autres approches basées sur la relecture, basées sur les prieurs et basées sur le méta-apprentissage pour un apprentissage continu. Nous démontrons également qu’elle est robuste et plus évolutive que de nombreuses approches de pointe.
The continual learning problem involves training models with limited capacity to perform well on a set of an unknown number of sequentially arriving tasks. This setup can of- ten see a learning system undergo catastrophic forgetting, when learning a newly seen task causes interference on the learning progress of old tasks. While recent work has shown that meta-learning has the potential to reduce interference between old and new tasks, the current training procedures tend to be either slow or offline, and sensitive to many hyper-parameters. In this work, we propose Look-ahead MAML (La-MAML), a fast optimisation-based meta- learning algorithm for online-continual learning, aided by a small episodic memory. This is achieved by realising the equivalence of a multi-step MAML objective to a time-aware con- tinual learning objective adopted in prior work. The equivalence leads to the formulation of an intuitive algorithm that we call Continual-MAML (C-MAML), employing continual meta- learning to optimise a model to perform well across a series of changing data distributions. By additionally incorporating the modulation of per-parameter learning rates in La-MAML, our approach provides a more flexible and efficient way to mitigate catastrophic forgetting compared to conventional prior-based methods. This modulation also has connections to prior work on meta-descent, which we identify as an important direction of research to de- velop better optimizers for continual learning. In experiments conducted on real-world visual classification benchmarks, La-MAML achieves performance superior to other replay-based, prior-based and meta-learning based approaches for continual learning. We also demonstrate that it is robust, and more scalable than many recent state-of-the-art approaches.
APA, Harvard, Vancouver, ISO, and other styles
15

Shabanian, Samira. "Bidirectional Helmholtz Machines." Thèse, 2016. http://hdl.handle.net/1866/16181.

Full text
Abstract:
L'entraînement sans surveillance efficace et inférence dans les modèles génératifs profonds reste un problème difficile. Une approche assez simple, la machine de Helmholtz, consiste à entraîner du haut vers le bas un modèle génératif dirigé qui sera utilisé plus tard pour l'inférence approximative. Des résultats récents suggèrent que de meilleurs modèles génératifs peuvent être obtenus par de meilleures procédures d'inférence approximatives. Au lieu d'améliorer la procédure d'inférence, nous proposons ici un nouveau modèle, la machine de Helmholtz bidirectionnelle, qui garantit qu'on peut calculer efficacement les distributions de haut-vers-bas et de bas-vers-haut. Nous y parvenons en interprétant à les modèles haut-vers-bas et bas-vers-haut en tant que distributions d'inférence approximative, puis ensuite en définissant la distribution du modèle comme étant la moyenne géométrique de ces deux distributions. Nous dérivons une borne inférieure pour la vraisemblance de ce modèle, et nous démontrons que l'optimisation de cette borne se comporte en régulisateur. Ce régularisateur sera tel que la distance de Bhattacharyya sera minisée entre les distributions approximatives haut-vers-bas et bas-vers-haut. Cette approche produit des résultats de pointe en terme de modèles génératifs qui favorisent les réseaux significativement plus profonds. Elle permet aussi une inférence approximative amérliorée par plusieurs ordres de grandeur. De plus, nous introduisons un modèle génératif profond basé sur les modèles BiHM pour l'entraînement semi-supervisé.
Efficient unsupervised training and inference in deep generative models remains a challenging problem. One basic approach, called Helmholtz machine, involves training a top-down directed generative model together with a bottom-up auxiliary model used for approximate inference. Recent results indicate that better generative models can be obtained with better approximate inference procedures. Instead of improving the inference procedure, we here propose a new model, the bidirectional Helmholtz machine, which guarantees that the top-down and bottom-up distributions can efficiently invert each other. We achieve this by interpreting both the top-down and the bottom-up directed models as approximate inference distributions and by defining the model distribution to be the geometric mean of these two. We present a lower-bound for the likelihood of this model and we show that optimizing this bound regularizes the model so that the Bhattacharyya distance between the bottom-up and top-down approximate distributions is minimized. This approach results in state of the art generative models which prefer significantly deeper architectures while it allows for orders of magnitude more efficient approximate inference. Moreover, we introduce a deep generative model for semi-supervised learning problems based on BiHM models.
APA, Harvard, Vancouver, ISO, and other styles
16

Gagnon, Louis-Guillaume. "Searching for supersymmetry using deep learning with the ATLAS detector." Thesis, 2020. http://hdl.handle.net/1866/24811.

Full text
Abstract:
Le Modèle Standard de la physique des particules (MS) est une théorie fondamentale de la nature dont la validité a été largement établie par diverses expériences. Par contre, quelques problèmes théoriques et expérimentaux subsistent, ce qui motive la recherche de théories alternatives. La Supersymétrie (SUSY), famille de théories dans laquelle une nouvelle particule est associée à chaque particules du MS, est une des théories ayant les meilleures motivations pour étendre la portée du modèle. Par exemple, plusieurs théories supersymétriques prédisent de nouvelles particules stables et interagissant seulement par la force faible, ce qui pourrait expliquer les observations astronomiques de la matière sombre. La découverte de SUSY représenterait aussi une importante étape dans le chemin vers une théorie unifiée de l'univers. Les recherches de supersymétrie sont au coeur du programme expérimental de la collaboration ATLAS, qui exploite un détecteur de particules installé au Grand Collisioneur de Hadrons (LHC) au CERN à Genève, mais à ce jours aucune preuve en faveur de la supersymétrie n'a été enregistrée par les présentes analyses, largement basées sur des techniques simples et bien comprises. Cette thèse documente l'implémentation d'une nouvelle approche à la recherche de particules basée sur l'apprentissage profond, utilisant seulement les quadri-impulsions comme variables discriminatoires; cette analyse utilise l'ensemble complet de données d'ATLAS enregistré en 2015-2018. Les problèmes de la naturalité du MS et de la matière sombre orientent la recherche vers les partenaires supersymétriques du gluon (le gluino), des quarks de troisième génération (stop et sbottom), ainsi que des bosons de gauge (le neutralino). Plusieurs techniques récentes sont employées, telles que l'utilisation directe des quadri-impulsions reconstruites à partir des données enregistrées par le détecteur ATLAS ainsi que la paramétrisation d'un réseau de neurone avec les masses des particules recherchées, ce qui permet d'atteindre une performance optimale quelle que soit l'hypothèse de masses. Cette méthode améliore la signification statistique par un facteur 85 par rapport au dernier résultat d'ATLAS pour certaines hypothèses de masses, et ce avec la même luminosité. Aucun excès signifif au-delà du Modèle Standard n'est observé. Les masses du gluino en deçà de 2.45 TeV et du neutralino en deça de 1.7 TeV sont exclues à un niveau de confiance de 95%, ce qui étend largement les limites précédentes sur deux modèles de productions de paires de gluinos faisant intervenir des stops et des sbottoms, respectivement.
The Standard Model of particle physics (SM) is a fundamental theory of nature whose validity has been extensively confirmed by experiments. However, some theoretical and experimental problems subsist, which motivates searches for alternative theories to supersede it. Supersymmetry (SUSY), which associate new fundamental particles to each SM particle, is one of the best-motivated such theory and could solve some of the biggest outstanding problems with the SM. For example, many SUSY scenarios predict stable neutral particles that could explain observations of dark matter in the universe. The discovery of SUSY would also represent a huge step towards a unified theory of the universe. Searches for SUSY are at the heart of the experimental program of the ATLAS collaboration, which exploits a state-of-the-art particle detector installed at the Large Hadron Collider (LHC) at CERN in Geneva. The probability to observe many supersymmetric particles went up when the LHC ramped up its collision energy to 13~TeV, the highest ever achieved in laboratory, but so far no evidence for SUSY has been recorded by current searches, which are mostly based on well-known simple techniques such as counting experiments. This thesis documents the implementation of a novel deep learning-based approach using only the four-momenta of selected physics objects, and its application to the search for supersymmetric particles using the full ATLAS 2015-2018 dataset. Motivated by naturalness considerations as well as by the problem of dark matter, the search focuses on finding evidence for supersymmetric partners of the gluon (the gluino), third generation quarks (the stop and the sbottom), and gauge bosons (the neutralino). Many recently introduced physics-specific machine learning developments are employed, such as directly using detector-recorded energies and momenta of produced particles instead of first deriving a restricted set of physically motivated variables and parametrizing the classification model with the masses of the particles searched for, which allows optimal sensitivity for all mass hypothesis. This method improves the statistical significance of the search by up to 85 times that of the previous ATLAS analysis for some mass hypotheses, after accounting for the luminosity difference. No significant excesses above the SM background are recorded. Gluino masses below 2.45 TeV and neutralino masses below 1.7 TeV are excluded at the 95% confidence level, greatly increasing the previous limit on two simplified models of gluino pair production with off-shell stops and sbottoms, respectively.
APA, Harvard, Vancouver, ISO, and other styles
17

Prato, Gabriele. "Compression in Sequence to Sequence Learning for Natural Language Processing." Thèse, 2019. http://hdl.handle.net/1866/23787.

Full text
Abstract:
Dans ce travail, nous proposons une méthode presque sans perte d’information pour encoder de longues séquences de texte ainsi que toutes leurs sous-séquences en des représentations riches en information. Nous testons notre méthode sur une tâche d’analyse de sentiments et obtenons de bons résultats avec les vecteurs de sous-phrases et de phrases. Ce travail présente aussi l’utilisation de la distillation de connaissance et de la quantification pour compresser le modèle de Transformer [Vaswani et al., 2017] pour la tâche de traduction. Nous sommes, au mieux de nos connaissances, les premiers à démontrer que le Transformer avec ses poids quantifiés à 8-bits peut obtenir un score BLEU aussi bon qu’avec ses poids de précisions pleines. De plus, en combinant la distillation de connaissance avec la quantification des poids, nous pouvons entraîner de plus petits réseaux Transformer et obtenir un taux de compression jusqu’à 12.59x, en ne perdant que seulement 2.51 BLEU sur la tâche de traduction WMT 2014 Anglais-Français, comparativement au modèle de base. Le chapitre 1 introduit des concepts d’apprentissage machine pour le traitement des langues naturelles, concepts qui sont essentiels à la compréhension des deux papiers présentés dans cette thèse. Chapitre 2 et 3 couvrent respectivement chaque papier, avant de conclure par le chapitre 4.
In this work, we propose a near lossless method for encoding long sequences of texts as well as all of their sub-sequences into feature rich representations. We test our method on sentiment analysis and show good performance across all sub-sentence and sentence embeddings. This work also demonstrates the use of knowledge distillation and quantization to compress the original Transformer model [Vaswani et al., 2017] for the translation task. We are, to the best of our knowledge, the first to show that 8-bit quantization of the weights of the Transformer can achieve the same BLEU score as the full-precision model. Furthermore, when we combine knowledge distillation with weight quantization, we can train smaller Transformer networks and achieve up to 12.59x compression while losing only 2.51 BLEU off the baseline on the WMT 2014 English-to-French translation task. Chapter 1 introduces machine learning concepts for natural language processing which are essential to understanding both papers presented in this thesis. Chapter 2 and 3 cover each paper respectively, before finally concluding with chapter 4.
APA, Harvard, Vancouver, ISO, and other styles
18

Cyr-Cronier, Jessica. "Effets d’âge et de sexe sur la synchronisation de l’EEG en sommeil : analyses multivariées par apprentissage machine." Thèse, 2017. http://hdl.handle.net/1866/20534.

Full text
APA, Harvard, Vancouver, ISO, and other styles
19

Kahya, Emre Onur. "Identifying electrons with deep learning methods." Thesis, 2020. http://hdl.handle.net/1866/25101.

Full text
Abstract:
Cette thèse porte sur les techniques de l’apprentissage machine et leur application à un problème important de la physique des particules expérimentale: l’identification des électrons de signal résultant des collisions proton-proton au Grand collisionneur de hadrons. Au chapitre 1, nous fournissons des informations sur le Grand collisionneur de hadrons et expliquons pourquoi il a été construit. Nous présentons ensuite plus de détails sur ATLAS, l’un des plus importants détecteurs du Grand collisionneur de hadrons. Ensuite, nous expliquons en quoi consiste la tâche d’identification des électrons ainsi que l’importance de bien la mener à terme. Enfin, nous présentons des informations détaillées sur l’ensemble de données que nous utilisons pour résoudre cette tâche d’identification des électrons. Au chapitre 2, nous donnons une brève introduction des principes fondamentaux de l’apprentissage machine. Après avoir défini et introduit les différents types de tâche d’apprentissage, nous discutons des diverses façons de représenter les données d’entrée. Ensuite, nous présentons ce qu’il faut apprendre de ces données et comment y parvenir. Enfin, nous examinons les problèmes qui pourraient se présenter en régime de “sur-apprentissage”. Au chapitres 3, nous motivons le choix de l’architecture choisie pour résoudre notre tâche, en particulier pour les sections où des images séquentielles sont utilisées comme entrées. Nous présentons ensuite les résultats de nos expériences et montrons que notre modèle fonctionne beaucoup mieux que les algorithmes présentement utilisés par la collaboration ATLAS. Enfin, nous discutons des futures orientations afin d’améliorer davantage nos résultats. Au chapitre 4, nous abordons les deux concepts que sont la généralisation hors distribution et la planéité de la surface associée à la fonction de coût. Nous prétendons que les algorithmes qui font converger la fonction coût vers minimum couvrant une région large et plate sont également ceux qui offrent le plus grand potentiel de généralisation pour les tâches hors distribution. Nous présentons les résultats de l’application de ces deux algorithmes à notre ensemble de données et montrons que cela soutient cette affirmation. Nous terminons avec nos conclusions.
This thesis is about applying the tools of Machine Learning to an important problem of experimental particle physics: identifying signal electrons after proton-proton collisions at the Large Hadron Collider. In Chapters 1, we provide some information about the Large Hadron Collider and explain why it was built. We give further details about one of the biggest detectors in the Large Hadron Collider, the ATLAS. Then we define what electron identification task is, as well as the importance of solving it. Finally, we give detailed information about our dataset that we use to solve the electron identification task. In Chapters 2, we give a brief introduction to fundamental principles of machine learning. Starting with the definition and types of different learning tasks, we discuss various ways to represent inputs. Then we present what to learn from the inputs as well as how to do it. And finally, we look at the problems that would arise if we “overdo” learning. In Chapters 3, we motivate the choice of the architecture to solve our task, especially for the parts that have sequential images as inputs. We then present the results of our experiments and show that our model performs much better than the existing algorithms that the ATLAS collaboration currently uses. Finally, we discuss future directions to further improve our results. In Chapter 4, we discuss two concepts: out of distribution generalization and flatness of loss surface. We claim that the algorithms, that brings a model into a wide flat minimum of its training loss surface, would generalize better for out of distribution tasks. We give the results of implementing two such algorithms to our dataset and show that it supports our claim. Finally, we end with our conclusions.
APA, Harvard, Vancouver, ISO, and other styles
20

Delalleau, Olivier. "Apprentissage machine efficace : théorie et pratique." Thèse, 2012. http://hdl.handle.net/1866/8669.

Full text
Abstract:
Malgré des progrès constants en termes de capacité de calcul, mémoire et quantité de données disponibles, les algorithmes d'apprentissage machine doivent se montrer efficaces dans l'utilisation de ces ressources. La minimisation des coûts est évidemment un facteur important, mais une autre motivation est la recherche de mécanismes d'apprentissage capables de reproduire le comportement d'êtres intelligents. Cette thèse aborde le problème de l'efficacité à travers plusieurs articles traitant d'algorithmes d'apprentissage variés : ce problème est vu non seulement du point de vue de l'efficacité computationnelle (temps de calcul et mémoire utilisés), mais aussi de celui de l'efficacité statistique (nombre d'exemples requis pour accomplir une tâche donnée). Une première contribution apportée par cette thèse est la mise en lumière d'inefficacités statistiques dans des algorithmes existants. Nous montrons ainsi que les arbres de décision généralisent mal pour certains types de tâches (chapitre 3), de même que les algorithmes classiques d'apprentissage semi-supervisé à base de graphe (chapitre 5), chacun étant affecté par une forme particulière de la malédiction de la dimensionalité. Pour une certaine classe de réseaux de neurones, appelés réseaux sommes-produits, nous montrons qu'il peut être exponentiellement moins efficace de représenter certaines fonctions par des réseaux à une seule couche cachée, comparé à des réseaux profonds (chapitre 4). Nos analyses permettent de mieux comprendre certains problèmes intrinsèques liés à ces algorithmes, et d'orienter la recherche dans des directions qui pourraient permettre de les résoudre. Nous identifions également des inefficacités computationnelles dans les algorithmes d'apprentissage semi-supervisé à base de graphe (chapitre 5), et dans l'apprentissage de mélanges de Gaussiennes en présence de valeurs manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux algorithmes capables de traiter des ensembles de données significativement plus grands. Les deux derniers chapitres traitent de l'efficacité computationnelle sous un angle différent. Dans le chapitre 7, nous analysons de manière théorique un algorithme existant pour l'apprentissage efficace dans les machines de Boltzmann restreintes (la divergence contrastive), afin de mieux comprendre les raisons qui expliquent le succès de cet algorithme. Finalement, dans le chapitre 8 nous présentons une application de l'apprentissage machine dans le domaine des jeux vidéo, pour laquelle le problème de l'efficacité computationnelle est relié à des considérations d'ingénierie logicielle et matérielle, souvent ignorées en recherche mais ô combien importantes en pratique.
Despite constant progress in terms of available computational power, memory and amount of data, machine learning algorithms need to be efficient in how they use them. Although minimizing cost is an obvious major concern, another motivation is to attempt to design algorithms that can learn as efficiently as intelligent species. This thesis tackles the problem of efficient learning through various papers dealing with a wide range of machine learning algorithms: this topic is seen both from the point of view of computational efficiency (processing power and memory required by the algorithms) and of statistical efficiency (n umber of samples necessary to solve a given learning task).The first contribution of this thesis is in shedding light on various statistical inefficiencies in existing algorithms. Indeed, we show that decision trees do not generalize well on tasks with some particular properties (chapter 3), and that a similar flaw affects typical graph-based semi-supervised learning algorithms (chapter 5). This flaw is a form of curse of dimensionality that is specific to each of these algorithms. For a subclass of neural networks, called sum-product networks, we prove that using networks with a single hidden layer can be exponentially less efficient than when using deep networks (chapter 4). Our analyses help better understand some inherent flaws found in these algorithms, and steer research towards approaches that may potentially overcome them. We also exhibit computational inefficiencies in popular graph-based semi-supervised learning algorithms (chapter 5) as well as in the learning of mixtures of Gaussians with missing data (chapter 6). In both cases we propose new algorithms that make it possible to scale to much larger datasets. The last two chapters also deal with computational efficiency, but in different ways. Chapter 7 presents a new view on the contrastive divergence algorithm (which has been used for efficient training of restricted Boltzmann machines). It provides additional insight on the reasons why this algorithm has been so successful. Finally, in chapter 8 we describe an application of machine learning to video games, where computational efficiency is tied to software and hardware engineering constraints which, although often ignored in research papers, are ubiquitous in practice.
APA, Harvard, Vancouver, ISO, and other styles
21

Trofimov, Assya. "Étude des signatures géniques dans un contexte d’expériences de RNA- Seq." Thèse, 2017. http://hdl.handle.net/1866/20417.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

Xu, Ge Ya. "Balancing signals for semi-supervised sequence learning." Thèse, 2019. http://hdl.handle.net/1866/23792.

Full text
Abstract:
Recurrent Neural Networks(RNNs) are powerful models that have obtained outstanding achievements in many sequence learning tasks. Despite their accomplishments, RNN models still suffer with long sequences during training. It is because error propagate backwards from output to input layers carrying gradient signals, and with long input sequence, issues like vanishing and exploding gradients can arise. This thesis reviews many current studies and existing architectures designed to circumvent the long-term dependency problems in backpropagation through time (BPTT). Mainly, we focus on the method proposed by Trinh et al. (2018) which uses semi- supervised learning method to alleviate the long-term dependency problems in BPTT. Despite the good results Trinh et al. (2018)’s model achieved, we suggest that the model can be further improved with a more systematic way of balancing auxiliary signals. In this thesis, we present our paper – RNNs with Private and Shared Representations for Semi-Supervised Learning – which is currently under review for AAAI-2019. We propose a semi-supervised RNN architecture with explicitly designed private and shared representations that regulates the gradient flow from auxiliary task to main task.
Les réseaux neuronaux récurrents (RNN) sont des modèles puissants qui ont obtenu des réalisations exceptionnelles dans de nombreuses tâches d’apprentissage séquentiel. Malgré leurs réalisations, les modèles RNN sou˙rent encore de longues séquences pendant l’entraî-nement. C’est parce que l’erreur se propage en arrière de la sortie vers les couches d’entrée transportant des signaux de gradient, et avec une longue séquence d’entrée, des problèmes comme la disparition et l’explosion des gradients peuvent survenir. Cette thèse passe en revue de nombreuses études actuelles et architectures existantes conçues pour contour-ner les problèmes de dépendance à long terme de la rétropropagation dans le temps (BPTT). Nous nous concentrons principalement sur la méthode proposée par cite Trinh2018 qui utilise une méthode d’apprentissage semi-supervisée pour atténuer les problèmes de dépendance à long terme dans BPTT. Malgré les bons résultats obtenus avec le modèle de cite Trinh2018, nous suggérons que le modèle peut être encore amélioré avec une manière plus systématique d’équilibrer les signaux auxiliaires. Dans cette thèse, nous présentons notre article - emph RNNs with Private and Shared Representations for Semi-Supervised Learning - qui est actuellement en cours de révision pour AAAI-2019. Nous propo-sons une architecture RNN semi-supervisée avec des représentations privées et partagées explicitement conçues qui régule le flux de gradient de la tâche auxiliaire à la tâche principale.
APA, Harvard, Vancouver, ISO, and other styles
23

Bordes, Florian. "Learning to sample from noise with deep generative models." Thèse, 2017. http://hdl.handle.net/1866/19370.

Full text
Abstract:
L’apprentissage automatique et spécialement l’apprentissage profond se sont imposés ces dernières années pour résoudre une large variété de tâches. Une des applications les plus remarquables concerne la vision par ordinateur. Les systèmes de détection ou de classification ont connu des avancées majeurs grâce a l’apprentissage profond. Cependant, il reste de nombreux obstacles à une compréhension du monde similaire aux être vivants. Ces derniers n’ont pas besoin de labels pour classifier, pour extraire des caractéristiques du monde réel. L’apprentissage non supervisé est un des axes de recherche qui se concentre sur la résolution de ce problème. Dans ce mémoire, je présente un nouveau moyen d’entrainer des réseaux de neurones de manière non supervisée. Je présente une méthode permettant d’échantillonner de manière itérative a partir de bruit afin de générer des données qui se rapprochent des données d’entrainement. Cette procédure itérative s’appelle l’entrainement par infusion qui est une nouvelle approche permettant d’apprendre l’opérateur de transition d’une chaine de Markov. Dans le premier chapitre, j’introduis des bases concernant l’apprentissage automatique et la théorie des probabilités. Dans le second chapitre, j’expose les modèles génératifs qui ont inspiré ce travail. Dans le troisième et dernier chapitre, je présente comment améliorer l’échantillonnage dans les modèles génératifs avec l’entrainement par infusion.
Machine learning and specifically deep learning has made significant breakthroughs in recent years concerning different tasks. One well known application of deep learning is computer vision. Tasks such as detection or classification are nearly considered solved by the community. However, training state-of-the-art models for such tasks requires to have labels associated to the data we want to classify. A more general goal is, similarly to animal brains, to be able to design algorithms that can extract meaningful features from data that aren’t labeled. Unsupervised learning is one of the axes that try to solve this problem. In this thesis, I present a new way to train a neural network as a generative model capable of generating quality samples (a task akin to imagining). I explain how by starting from noise, it is possible to get samples which are close to the training data. This iterative procedure is called Infusion training and is a novel approach to learning the transition operator of a generative Markov chain. In the first chapter, I present some background about machine learning and probabilistic models. The second chapter presents generative models that inspired this work. The third and last chapter presents and investigates our novel approach to learn a generative model with Infusion training.
APA, Harvard, Vancouver, ISO, and other styles
24

Breuleux, Olivier. "Échantillonnage dynamique de champs markoviens." Thèse, 2009. http://hdl.handle.net/1866/4316.

Full text
Abstract:
L'un des modèles d'apprentissage non-supervisé générant le plus de recherche active est la machine de Boltzmann --- en particulier la machine de Boltzmann restreinte, ou RBM. Un aspect important de l'entraînement ainsi que l'exploitation d'un tel modèle est la prise d'échantillons. Deux développements récents, la divergence contrastive persistante rapide (FPCD) et le herding, visent à améliorer cet aspect, se concentrant principalement sur le processus d'apprentissage en tant que tel. Notamment, le herding renonce à obtenir un estimé précis des paramètres de la RBM, définissant plutôt une distribution par un système dynamique guidé par les exemples d'entraînement. Nous généralisons ces idées afin d'obtenir des algorithmes permettant d'exploiter la distribution de probabilités définie par une RBM pré-entraînée, par tirage d'échantillons qui en sont représentatifs, et ce sans que l'ensemble d'entraînement ne soit nécessaire. Nous présentons trois méthodes: la pénalisation d'échantillon (basée sur une intuition théorique) ainsi que la FPCD et le herding utilisant des statistiques constantes pour la phase positive. Ces méthodes définissent des systèmes dynamiques produisant des échantillons ayant les statistiques voulues et nous les évaluons à l'aide d'une méthode d'estimation de densité non-paramétrique. Nous montrons que ces méthodes mixent substantiellement mieux que la méthode conventionnelle, l'échantillonnage de Gibbs.
One of the most active topics of research in unsupervised learning is the Boltzmann machine --- particularly the Restricted Boltzmann Machine or RBM. In order to train, evaluate or exploit such models, one has to draw samples from it. Two recent algorithms, Fast Persistent Contrastive Divergence (FPCD) and Herding aim to improve sampling during training. In particular, herding gives up on obtaining a point estimate of the RBM's parameters, rather defining the model's distribution with a dynamical system guided by training samples. We generalize these ideas in order to obtain algorithms capable of exploiting the probability distribution defined by a pre-trained RBM, by sampling from it, without needing to make use of the training set. We present three methods: Sample Penalization, based on a theoretical argument as well as FPCD and Herding using constant statistics for their positive phases. These methods define dynamical systems producing samples with the right statistics and we evaluate them using non-parametric density estimation. We show that these methods mix substantially better than Gibbs sampling, which is the conventional sampling method used for RBMs.
APA, Harvard, Vancouver, ISO, and other styles
25

Lemieux, Simon. "Espaces de timbre générés par des réseaux profonds convolutionnels." Thèse, 2011. http://hdl.handle.net/1866/6294.

Full text
Abstract:
Il est avant-tout question, dans ce mémoire, de la modélisation du timbre grâce à des algorithmes d'apprentissage machine. Plus précisément, nous avons essayé de construire un espace de timbre en extrayant des caractéristiques du son à l'aide de machines de Boltzmann convolutionnelles profondes. Nous présentons d'abord un survol de l'apprentissage machine, avec emphase sur les machines de Boltzmann convolutionelles ainsi que les modèles dont elles sont dérivées. Nous présentons aussi un aperçu de la littérature concernant les espaces de timbre, et mettons en évidence quelque-unes de leurs limitations, dont le nombre limité de sons utilisés pour les construire. Pour pallier à ce problème, nous avons mis en place un outil nous permettant de générer des sons à volonté. Le système utilise à sa base des plug-ins qu'on peut combiner et dont on peut changer les paramètres pour créer une gamme virtuellement infinie de sons. Nous l'utilisons pour créer une gigantesque base de donnée de timbres générés aléatoirement constituée de vrais instruments et d'instruments synthétiques. Nous entrainons ensuite les machines de Boltzmann convolutionnelles profondes de façon non-supervisée sur ces timbres, et utilisons l'espace des caractéristiques produites comme espace de timbre. L'espace de timbre ainsi obtenu est meilleur qu'un espace semblable construit à l'aide de MFCC. Il est meilleur dans le sens où la distance entre deux timbres dans cet espace est plus semblable à celle perçue par un humain. Cependant, nous sommes encore loin d'atteindre les mêmes capacités qu'un humain. Nous proposons d'ailleurs quelques pistes d'amélioration pour s'en approcher.
This thesis presents a novel way of modelling timbre using machine learning algorithms. More precisely, we have attempted to build a timbre space by extracting audio features using deep-convolutional Boltzmann machines. We first present an overview of machine learning with an emphasis on convolutional Boltzmann machines as well as models from which they are derived. We also present a summary of the literature relevant to timbre spaces and highlight their limitations, such as the small number of timbres used to build them. To address this problem, we have developed a sound generation tool that can generate as many sounds as we wish. At the system's core are plug-ins that are parameterizable and that we can combine to create a virtually infinite range of sounds. We use it to build a massive randomly generated timbre dataset that is made up of real and synthesized instruments. We then train deep-convolutional Boltzmann machines on those timbres in an unsupervised way and use the produced feature space as a timbre space. The timbre space we obtain is a better space than a similar space built using MFCCs. We consider it as better in the sense that the distance between two timbres in that space is more similar to the one perceived by a human listener. However, we are far from reaching the performance of a human. We finish by proposing possible improvements that could be tried to close our performance gap.
APA, Harvard, Vancouver, ISO, and other styles
26

Desjardins, Guillaume. "Improving sampling, optimization and feature extraction in Boltzmann machines." Thèse, 2013. http://hdl.handle.net/1866/10550.

Full text
Abstract:
L’apprentissage supervisé de réseaux hiérarchiques à grande échelle connaît présentement un succès fulgurant. Malgré cette effervescence, l’apprentissage non-supervisé représente toujours, selon plusieurs chercheurs, un élément clé de l’Intelligence Artificielle, où les agents doivent apprendre à partir d’un nombre potentiellement limité de données. Cette thèse s’inscrit dans cette pensée et aborde divers sujets de recherche liés au problème d’estimation de densité par l’entremise des machines de Boltzmann (BM), modèles graphiques probabilistes au coeur de l’apprentissage profond. Nos contributions touchent les domaines de l’échantillonnage, l’estimation de fonctions de partition, l’optimisation ainsi que l’apprentissage de représentations invariantes. Cette thèse débute par l’exposition d’un nouvel algorithme d'échantillonnage adaptatif, qui ajuste (de fa ̧con automatique) la température des chaînes de Markov sous simulation, afin de maintenir une vitesse de convergence élevée tout au long de l’apprentissage. Lorsqu’utilisé dans le contexte de l’apprentissage par maximum de vraisemblance stochastique (SML), notre algorithme engendre une robustesse accrue face à la sélection du taux d’apprentissage, ainsi qu’une meilleure vitesse de convergence. Nos résultats sont présent ́es dans le domaine des BMs, mais la méthode est générale et applicable à l’apprentissage de tout modèle probabiliste exploitant l’échantillonnage par chaînes de Markov. Tandis que le gradient du maximum de vraisemblance peut-être approximé par échantillonnage, l’évaluation de la log-vraisemblance nécessite un estimé de la fonction de partition. Contrairement aux approches traditionnelles qui considèrent un modèle donné comme une boîte noire, nous proposons plutôt d’exploiter la dynamique de l’apprentissage en estimant les changements successifs de log-partition encourus à chaque mise à jour des paramètres. Le problème d’estimation est reformulé comme un problème d’inférence similaire au filtre de Kalman, mais sur un graphe bi-dimensionnel, où les dimensions correspondent aux axes du temps et au paramètre de température. Sur le thème de l’optimisation, nous présentons également un algorithme permettant d’appliquer, de manière efficace, le gradient naturel à des machines de Boltzmann comportant des milliers d’unités. Jusqu’à présent, son adoption était limitée par son haut coût computationel ainsi que sa demande en mémoire. Notre algorithme, Metric-Free Natural Gradient (MFNG), permet d’éviter le calcul explicite de la matrice d’information de Fisher (et son inverse) en exploitant un solveur linéaire combiné à un produit matrice-vecteur efficace. L’algorithme est prometteur: en terme du nombre d’évaluations de fonctions, MFNG converge plus rapidement que SML. Son implémentation demeure malheureusement inefficace en temps de calcul. Ces travaux explorent également les mécanismes sous-jacents à l’apprentissage de représentations invariantes. À cette fin, nous utilisons la famille de machines de Boltzmann restreintes “spike & slab” (ssRBM), que nous modifions afin de pouvoir modéliser des distributions binaires et parcimonieuses. Les variables latentes binaires de la ssRBM peuvent être rendues invariantes à un sous-espace vectoriel, en associant à chacune d’elles, un vecteur de variables latentes continues (dénommées “slabs”). Ceci se traduit par une invariance accrue au niveau de la représentation et un meilleur taux de classification lorsque peu de données étiquetées sont disponibles. Nous terminons cette thèse sur un sujet ambitieux: l’apprentissage de représentations pouvant séparer les facteurs de variations présents dans le signal d’entrée. Nous proposons une solution à base de ssRBM bilinéaire (avec deux groupes de facteurs latents) et formulons le problème comme l’un de “pooling” dans des sous-espaces vectoriels complémentaires.
Despite the current widescale success of deep learning in training large scale hierarchical models through supervised learning, unsupervised learning promises to play a crucial role towards solving general Artificial Intelligence, where agents are expected to learn with little to no supervision. The work presented in this thesis tackles the problem of unsupervised feature learning and density estimation, using a model family at the heart of the deep learning phenomenon: the Boltzmann Machine (BM). We present contributions in the areas of sampling, partition function estimation, optimization and the more general topic of invariant feature learning. With regards to sampling, we present a novel adaptive parallel tempering method which dynamically adjusts the temperatures under simulation to maintain good mixing in the presence of complex multi-modal distributions. When used in the context of stochastic maximum likelihood (SML) training, the improved ergodicity of our sampler translates to increased robustness to learning rates and faster per epoch convergence. Though our application is limited to BM, our method is general and is applicable to sampling from arbitrary probabilistic models using Markov Chain Monte Carlo (MCMC) techniques. While SML gradients can be estimated via sampling, computing data likelihoods requires an estimate of the partition function. Contrary to previous approaches which consider the model as a black box, we provide an efficient algorithm which instead tracks the change in the log partition function incurred by successive parameter updates. Our algorithm frames this estimation problem as one of filtering performed over a 2D lattice, with one dimension representing time and the other temperature. On the topic of optimization, our thesis presents a novel algorithm for applying the natural gradient to large scale Boltzmann Machines. Up until now, its application had been constrained by the computational and memory requirements of computing the Fisher Information Matrix (FIM), which is square in the number of parameters. The Metric-Free Natural Gradient algorithm (MFNG) avoids computing the FIM altogether by combining a linear solver with an efficient matrix-vector operation. The method shows promise in that the resulting updates yield faster per-epoch convergence, despite being slower in terms of wall clock time. Finally, we explore how invariant features can be learnt through modifications to the BM energy function. We study the problem in the context of the spike & slab Restricted Boltzmann Machine (ssRBM), which we extend to handle both binary and sparse input distributions. By associating each spike with several slab variables, latent variables can be made invariant to a rich, high dimensional subspace resulting in increased invariance in the learnt representation. When using the expected model posterior as input to a classifier, increased invariance translates to improved classification accuracy in the low-label data regime. We conclude by showing a connection between invariance and the more powerful concept of disentangling factors of variation. While invariance can be achieved by pooling over subspaces, disentangling can be achieved by learning multiple complementary views of the same subspace. In particular, we show how this can be achieved using third-order BMs featuring multiplicative interactions between pairs of random variables.
APA, Harvard, Vancouver, ISO, and other styles
27

Fréchette, Nicolas. "Segmentation automatique de la fibrose pulmonaire sur images de tomodensitométrie en radio-oncologie." Thèse, 2019. http://hdl.handle.net/1866/23812.

Full text
Abstract:
La fibrose pulmonaire est une maladie pulmonaire interstitielle caractérisée par une production irréversible de tissus conjonctifs. Le pronostic de la maladie est plus faible que celui de plusieurs cancers. Dans les dernières années, cette pathologie a été identifiée comme un risque de complication suite à des traitements de radiothérapie. Développer une toxicité post-radique peut compromettre les bénéfices de la radiothérapie, ce qui fait de la fibrose pulmonaire une contre-indication relative. Localiser manuellement la présence de fibrose sur des images de tomodensitométrie (CT) est un problème difficile pouvant nécessiter l’intervention de plusieurs experts pour un seul patient. L’objectif de ce projet est de segmenter automatiquement la fibrose pulmonaire sur des images CT. Des réseaux de neurones complètement convolutifs ont été développés et implémentés pour effectuer une assignation automatique de tissus pulmonaires. Sur une coupe axiale donnée en entrée, l’assignation est réalisée pour l’ensemble des voxels pulmonaires en une seule inférence. L’optimisation des paramètres a été réalisée dans des contextes d’apprentissage supervisé et semi-supervisé en minimisant des variantes de l’entropie croisée entre les prédictions et des annotations manuelles d’experts. Les données utilisées consistent en des images CT haute résolution ainsi que des délinéations réalisées par des radiologistes et des radio-oncologues. Les cartes de segmentation prédites ont été comparées par rapport à des segmentations manuelles afin de valider les tissus assignés par les réseaux convolutifs. Les résultats obtenus suggèrent que des applications en radio-oncologie sont envisageables, telles que le dépistage de la fibrose avant la planification de traitements et l’évaluation de la progression de la fibrose pendant et suivant les traitements de radiothérapie.
Pulmonary fibrosis is an interstitial lung disease characterized by an irreversible production of scarring tissue. Pulmonary fibrosis has a particularly poor prognosis, with a mean survival after diagnosis lower than many cancers. This pathology was recently identified as a risk for complication following radiation therapy treatments. Pulmonary toxicity can lead to severe conditions that compromise the benefits provided by radiation therapy, making pulmonary fibrosis a relative contraindication to treatments. Manual segmentation of fibrosis on computed tomography (CT) images is a difficult task that can involve many experts for a single patient. The aim of this project is to perform automatic segmentation of pulmonary fibrosis on CT images. Fully convolutional neural networks were developed and implemented to automatically assign lung tissues. For an input CT slice, every lung voxel is assigned a tissue in a single inference. Parameters optimization was performed in a supervised and semi-supervised manner by minimizing variants of the cross-entropy between the prediction and manual annotations produced by experts. The dataset employed consists of high resolution CT scans and delineations made by radiologists and radiation oncologists. Predicted segmentation maps were compared with manual segmentations to validate the tissues assigned by the convolutional networks. Results suggest that radiation oncology applications could be developed. Possible applications include pulmonary fibrosis screening prior to treatment planning and assessment of fibrosis progression during and post-treatment.
APA, Harvard, Vancouver, ISO, and other styles
28

Fu, Min. "FPGA-based object detection using classification circuits." Thèse, 2015. http://hdl.handle.net/1866/12507.

Full text
Abstract:
Dans l'apprentissage machine, la classification est le processus d’assigner une nouvelle observation à une certaine catégorie. Les classifieurs qui mettent en œuvre des algorithmes de classification ont été largement étudié au cours des dernières décennies. Les classifieurs traditionnels sont basés sur des algorithmes tels que le SVM et les réseaux de neurones, et sont généralement exécutés par des logiciels sur CPUs qui fait que le système souffre d’un manque de performance et d’une forte consommation d'énergie. Bien que les GPUs puissent être utilisés pour accélérer le calcul de certains classifieurs, leur grande consommation de puissance empêche la technologie d'être mise en œuvre sur des appareils portables tels que les systèmes embarqués. Pour rendre le système de classification plus léger, les classifieurs devraient être capable de fonctionner sur un système matériel plus compact au lieu d'un groupe de CPUs ou GPUs, et les classifieurs eux-mêmes devraient être optimisés pour ce matériel. Dans ce mémoire, nous explorons la mise en œuvre d'un classifieur novateur sur une plate-forme matérielle à base de FPGA. Le classifieur, conçu par Alain Tapp (Université de Montréal), est basé sur une grande quantité de tables de recherche qui forment des circuits arborescents qui effectuent les tâches de classification. Le FPGA semble être un élément fait sur mesure pour mettre en œuvre ce classifieur avec ses riches ressources de tables de recherche et l'architecture à parallélisme élevé. Notre travail montre que les FPGAs peuvent implémenter plusieurs classifieurs et faire les classification sur des images haute définition à une vitesse très élevée.
In the machine learning area, classification is a process of mapping a new observation to a certain category. Classifiers which implement classification algorithms have been studied widely over the past decades. Traditional classifiers are based on algorithms such as SVM and neural nets, and are usually run by software on CPUs which cause the system to suffer low performance and high power consumption. Although GPUs can be used to accelerate the computation of some classifiers, its high power consumption prevents the technology from being implemented on portable devices such as embedded systems or wearable hardware. To make a lightweight classification system, classifiers should be able to run on a more compact hardware system instead of a group of CPUs/GPUs, and classifiers themselves should be optimized to fit that hardware. In this thesis, we explore the implementation of a novel classifier on a FPGA-based hardware platform. The classifier, devised by Alain Tapp (Université de Montréal), is based on a large amount of look-up tables that form tree-structured circuits to do classification tasks. The FPGA appears to be a tailor-made component to implement this classifier with its rich resources of look-up tables and the highly parallel architecture. Our work shows that a single FPGA can implement multiple classifiers to do classification on high definition images at a very high speed.
APA, Harvard, Vancouver, ISO, and other styles
29

Lacaille, Philippe. "Analyzing the benefits of communication channels between deep learning models." Thèse, 2018. http://hdl.handle.net/1866/22128.

Full text
APA, Harvard, Vancouver, ISO, and other styles
30

Pezeshki, Mohammad. "Towards deep semi supervised learning." Thèse, 2016. http://hdl.handle.net/1866/18343.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Touré, Fodé. "Évaluation et amélioration du rendement de la formation en entreprise : vers une démarche basée sur la gestion des processus d’affaires." Thèse, 2014. http://hdl.handle.net/1866/11414.

Full text
APA, Harvard, Vancouver, ISO, and other styles
32

Alamian, Golnoush. "Investigation of neural activity in Schizophrenia during resting-state MEG : using non-linear dynamics and machine-learning to shed light on information disruption in the brain." Thesis, 2020. http://hdl.handle.net/1866/25254.

Full text
Abstract:
Environ 25% de la population mondiale est atteinte de troubles psychiatriques qui sont typiquement associés à des problèmes comportementaux, fonctionnels et/ou cognitifs et dont les corrélats neurophysiologiques sont encore très mal compris. Non seulement ces dysfonctionnements réduisent la qualité de vie des individus touchés, mais ils peuvent aussi devenir un fardeau pour les proches et peser lourd dans l’économie d’une société. Cibler les mécanismes responsables du fonctionnement atypique du cerveau en identifiant des biomarqueurs plus robustes permettrait le développement de traitements plus efficaces. Ainsi, le premier objectif de cette thèse est de contribuer à une meilleure caractérisation des changements dynamiques cérébraux impliqués dans les troubles mentaux, plus précisément dans la schizophrénie et les troubles d’humeur. Pour ce faire, les premiers chapitres de cette thèse présentent, en intégral, deux revues de littératures systématiques que nous avons menées sur les altérations de connectivité cérébrale, au repos, chez les patients schizophrènes, dépressifs et bipolaires. Ces revues révèlent que, malgré des avancées scientifiques considérables dans l’étude de l’altération de la connectivité cérébrale fonctionnelle, la dimension temporelle des mécanismes cérébraux à l’origine de l’atteinte de l’intégration de l’information dans ces maladies, particulièrement de la schizophrénie, est encore mal comprise. Par conséquent, le deuxième objectif de cette thèse est de caractériser les changements cérébraux associés à la schizophrénie dans le domaine temporel. Nous présentons deux études dans lesquelles nous testons l’hypothèse que la « disconnectivité temporelle » serait un biomarqueur important en schizophrénie. Ces études explorent les déficits d’intégration temporelle en schizophrénie, en quantifiant les changements de la dynamique neuronale dite invariante d’échelle à partir des données magnétoencéphalographiques (MEG) enregistrés au repos chez des patients et des sujets contrôles. En particulier, nous utilisons (1) la LRTCs (long-range temporal correlation, ou corrélation temporelle à longue-distance) calculée à partir des oscillations neuronales et (2) des analyses multifractales pour caractériser des modifications de l’activité cérébrale arythmique. Par ailleurs, nous développons des modèles de classification (en apprentissage-machine supervisé) pour mieux cerner les attributs corticaux et sous-corticaux permettant une distinction robuste entre les patients et les sujets sains. Vu que ces études se basent sur des données MEG spontanées enregistrées au repos soit avec les yeux ouvert, ou les yeux fermées, nous nous sommes par la suite intéressés à la possibilité de trouver un marqueur qui combinerait ces enregistrements. La troisième étude originale explore donc l’utilité des modulations de l’amplitude spectrale entre yeux ouverts et fermées comme prédicteur de schizophrénie. Les résultats de ces études démontrent des changements cérébraux importants chez les patients schizophrènes au niveau de la dynamique d’invariance d’échelle. Elles suggèrent une dégradation du traitement temporel de l’information chez les patients, qui pourrait être liée à leurs symptômes cognitifs et comportementaux. L’approche multimodale de cette thèse, combinant la magétoencéphalographie, analyses non-linéaires et apprentissage machine, permet de mieux caractériser l’organisation spatio-temporelle du signal cérébrale au repos chez les patients atteints de schizophrénie et chez des individus sains. Les résultats fournissent de nouvelles preuves supportant l’hypothèse d’une « disconnectivité temporelle » en schizophrénie, et étendent les recherches antérieures, en explorant la contribution des structures cérébrales profondes et en employant des mesures non-linéaires avancées encore sous-exploitées dans ce domaine. L’ensemble des résultats de cette thèse apporte une contribution significative à la quête de nouveaux biomarqueurs de la schizophrénie et démontre l’importance d’élucider les altérations des propriétés temporelles de l’activité cérébrales intrinsèque en psychiatrie. Les études présentées offrent également un cadre méthodologique pouvant être étendu à d’autres psychopathologie, telles que la dépression.
Psychiatric disorders affect nearly a quarter of the world’s population. These typically bring about debilitating behavioural, functional and/or cognitive problems, for which the underlying neural mechanisms are poorly understood. These symptoms can significantly reduce the quality of life of affected individuals, impact those close to them, and bring on an economic burden on society. Hence, targeting the baseline neurophysiology associated with psychopathologies, by identifying more robust biomarkers, would improve the development of effective treatments. The first goal of this thesis is thus to contribute to a better characterization of neural dynamic alterations in mental health illnesses, specifically in schizophrenia and mood disorders. Accordingly, the first chapter of this thesis presents two systematic literature reviews, which investigate the resting-state changes in brain connectivity in schizophrenia, depression and bipolar disorder patients. Great strides have been made in neuroimaging research in identifying alterations in functional connectivity. However, these two reviews reveal a gap in the knowledge about the temporal basis of the neural mechanisms involved in the disruption of information integration in these pathologies, particularly in schizophrenia. Therefore, the second goal of this thesis is to characterize the baseline temporal neural alterations of schizophrenia. We present two studies for which we hypothesize that the resting temporal dysconnectivity could serve as a key biomarker in schizophrenia. These studies explore temporal integration deficits in schizophrenia by quantifying neural alterations of scale-free dynamics using resting-state magnetoencephalography (MEG) data. Specifically, we use (1) long-range temporal correlation (LRTC) analysis on oscillatory activity and (2) multifractal analysis on arrhythmic brain activity. In addition, we develop classification models (based on supervised machine-learning) to detect the cortical and sub-cortical features that allow for a robust division of patients and healthy controls. Given that these studies are based on MEG spontaneous brain activity, recorded at rest with either eyes-open or eyes-closed, we then explored the possibility of finding a distinctive feature that would combine both types of resting-state recordings. Thus, the third study investigates whether alterations in spectral amplitude between eyes-open and eyes-closed conditions can be used as a possible marker for schizophrenia. Overall, the three studies show changes in the scale-free dynamics of schizophrenia patients at rest that suggest a deterioration of the temporal processing of information in patients, which might relate to their cognitive and behavioural symptoms. The multimodal approach of this thesis, combining MEG, non-linear analyses and machine-learning, improves the characterization of the resting spatiotemporal neural organization of schizophrenia patients and healthy controls. Our findings provide new evidence for the temporal dysconnectivity hypothesis in schizophrenia. The results extend on previous studies by characterizing scale-free properties of deep brain structures and applying advanced non-linear metrics that are underused in the field of psychiatry. The results of this thesis contribute significantly to the identification of novel biomarkers in schizophrenia and show the importance of clarifying the temporal properties of altered intrinsic neural dynamics. Moreover, the presented studies offer a methodological framework that can be extended to other psychopathologies, such as depression.
APA, Harvard, Vancouver, ISO, and other styles
33

Langlois, Dansereau Christian. "Dealing with heterogeneity in the prediction of clinical diagnosis." Thèse, 2017. http://hdl.handle.net/1866/20491.

Full text
APA, Harvard, Vancouver, ISO, and other styles
34

Hamel, Philippe. "Apprentissage de représentations musicales à l'aide d'architectures profondes et multiéchelles." Thèse, 2012. http://hdl.handle.net/1866/8678.

Full text
Abstract:
L'apprentissage machine (AM) est un outil important dans le domaine de la recherche d'information musicale (Music Information Retrieval ou MIR). De nombreuses tâches de MIR peuvent être résolues en entraînant un classifieur sur un ensemble de caractéristiques. Pour les tâches de MIR se basant sur l'audio musical, il est possible d'extraire de l'audio les caractéristiques pertinentes à l'aide de méthodes traitement de signal. Toutefois, certains aspects musicaux sont difficiles à extraire à l'aide de simples heuristiques. Afin d'obtenir des caractéristiques plus riches, il est possible d'utiliser l'AM pour apprendre une représentation musicale à partir de l'audio. Ces caractéristiques apprises permettent souvent d'améliorer la performance sur une tâche de MIR donnée. Afin d'apprendre des représentations musicales intéressantes, il est important de considérer les aspects particuliers à l'audio musical dans la conception des modèles d'apprentissage. Vu la structure temporelle et spectrale de l'audio musical, les représentations profondes et multiéchelles sont particulièrement bien conçues pour représenter la musique. Cette thèse porte sur l'apprentissage de représentations de l'audio musical. Des modèles profonds et multiéchelles améliorant l'état de l'art pour des tâches telles que la reconnaissance d'instrument, la reconnaissance de genre et l'étiquetage automatique y sont présentés.
Machine learning (ML) is an important tool in the field of music information retrieval (MIR). Many MIR tasks can be solved by training a classifier over a set of features. For MIR tasks based on music audio, it is possible to extract features from the audio with signal processing techniques. However, some musical aspects are hard to extract with simple heuristics. To obtain richer features, we can use ML to learn a representation from the audio. These learned features can often improve performance for a given MIR task. In order to learn interesting musical representations, it is important to consider the particular aspects of music audio when building learning models. Given the temporal and spectral structure of music audio, deep and multi-scale representations are particularly well suited to represent music. This thesis focuses on learning representations from music audio. Deep and multi-scale models that improve the state-of-the-art for tasks such as instrument recognition, genre recognition and automatic annotation are presented.
APA, Harvard, Vancouver, ISO, and other styles
35

Almahairi, Amjad. "Advances in deep learning with limited supervision and computational resources." Thèse, 2018. http://hdl.handle.net/1866/23434.

Full text
Abstract:
Les réseaux de neurones profonds sont la pierre angulaire des systèmes à la fine pointe de la technologie pour une vaste gamme de tâches, comme la reconnaissance d'objets, la modélisation du langage et la traduction automatique. Mis à part le progrès important établi dans les architectures et les procédures de formation des réseaux de neurones profonds, deux facteurs ont été la clé du succès remarquable de l'apprentissage profond : la disponibilité de grandes quantités de données étiquetées et la puissance de calcul massive. Cette thèse par articles apporte plusieurs contributions à l'avancement de l'apprentissage profond, en particulier dans les problèmes avec très peu ou pas de données étiquetées, ou avec des ressources informatiques limitées. Le premier article aborde la question de la rareté des données dans les systèmes de recommandation, en apprenant les représentations distribuées des produits à partir des commentaires d'évaluation de produits en langage naturel. Plus précisément, nous proposons un cadre d'apprentissage multitâches dans lequel nous utilisons des méthodes basées sur les réseaux de neurones pour apprendre les représentations de produits à partir de textes de critiques de produits et de données d'évaluation. Nous démontrons que la méthode proposée peut améliorer la généralisation dans les systèmes de recommandation et atteindre une performance de pointe sur l'ensemble de données Amazon Reviews. Le deuxième article s'attaque aux défis computationnels qui existent dans l'entraînement des réseaux de neurones profonds à grande échelle. Nous proposons une nouvelle architecture de réseaux de neurones conditionnels permettant d'attribuer la capacité du réseau de façon adaptative, et donc des calculs, dans les différentes régions des entrées. Nous démontrons l'efficacité de notre modèle sur les tâches de reconnaissance visuelle où les objets d'intérêt sont localisés à la couche d'entrée, tout en maintenant une surcharge de calcul beaucoup plus faible que les architectures standards des réseaux de neurones. Le troisième article contribue au domaine de l'apprentissage non supervisé, avec l'aide du paradigme des réseaux antagoniste génératifs. Nous introduisons un cadre fléxible pour l'entraînement des réseaux antagonistes génératifs, qui non seulement assure que le générateur estime la véritable distribution des données, mais permet également au discriminateur de conserver l'information sur la densité des données à l'optimum global. Nous validons notre cadre empiriquement en montrant que le discriminateur est capable de récupérer l'énergie de la distribution des données et d'obtenir une qualité d'échantillons à la fine pointe de la technologie. Enfin, dans le quatrième article, nous nous attaquons au problème de l'apprentissage non supervisé à travers différents domaines. Nous proposons un modèle qui permet d'apprendre des transformations plusieurs à plusieurs à travers deux domaines, et ce, à partir des données non appariées. Nous validons notre approche sur plusieurs ensembles de données se rapportant à l'imagerie, et nous montrons que notre méthode peut être appliquée efficacement dans des situations d'apprentissage semi-supervisé.
Deep neural networks are the cornerstone of state-of-the-art systems for a wide range of tasks, including object recognition, language modelling and machine translation. In the last decade, research in the field of deep learning has led to numerous key advances in designing novel architectures and training algorithms for neural networks. However, most success stories in deep learning heavily relied on two main factors: the availability of large amounts of labelled data and massive computational resources. This thesis by articles makes several contributions to advancing deep learning, specifically in problems with limited or no labelled data, or with constrained computational resources. The first article addresses sparsity of labelled data that emerges in the application field of recommender systems. We propose a multi-task learning framework that leverages natural language reviews in improving recommendation. Specifically, we apply neural-network-based methods for learning representations of products from review text, while learning from rating data. We demonstrate that the proposed method can achieve state-of-the-art performance on the Amazon Reviews dataset. The second article tackles computational challenges in training large-scale deep neural networks. We propose a conditional computation network architecture which can adaptively assign its capacity, and hence computations, across different regions of the input. We demonstrate the effectiveness of our model on visual recognition tasks where objects are spatially localized within the input, while maintaining much lower computational overhead than standard network architectures. The third article contributes to the domain of unsupervised learning with the generative adversarial networks paradigm. We introduce a flexible adversarial training framework, in which not only the generator converges to the true data distribution, but also the discriminator recovers the relative density of the data at the optimum. We validate our framework empirically by showing that the discriminator is able to accurately estimate the true energy of data while obtaining state-of-the-art quality of samples. Finally, in the fourth article, we address the problem of unsupervised domain translation. We propose a model which can learn flexible, many-to-many mappings across domains from unpaired data. We validate our approach on several image datasets, and we show that it can be effectively applied in semi-supervised learning settings.
APA, Harvard, Vancouver, ISO, and other styles
36

Pelland-Goulet, Pénélope. "Mesure de l'attention visuo-spatiale dans l'espace et le temps par les potentiels reliés aux événements (PRÉ)." Thesis, 2020. http://hdl.handle.net/1866/24397.

Full text
Abstract:
Les potentiels reliés aux événements (PRÉ) sont très couramment utilisés comme méthode de mesure de l’attention visuelle. Certaines composantes PRÉ comme la N2pc et la P3 sont largement considérées comme marqueurs du déploiement de l’attention. Afin d’investiguer s’il est possible de déterminer la localisation sur laquelle l’attention est dirigée ou encore la présence ou non de l’attention à une localisation donnée, une tâche d’indiçage spatial a été utilisée. L’indice indiquait l’une de quatre localisations sur laquelle les participants devaient diriger leur attention. L’indice spatial utilisé était de nature exclusivement symbolique, impliquant que l’attention devait être déplacée de façon volontaire. L’analyse des signaux ÉEG captés alors que les participants réalisaient la tâche a été effectuée en faisant usage d’une technique d’apprentissage machine. Un classificateur de type SVM (Support Vector Machine) a ainsi été utilisé afin de prédire la présence ou l’absence d’attention à une localisation en utilisant le signal ÉEG associé aux cibles et aux distracteurs. Un taux de précision de 75% (p < 0,001) a été obtenu lors de cette classification, le niveau du hasard se trouvant à 50%. Un classificateur de type DSVM (SVM à dendrogramme) a été utilisé afin de prédire le locus précis de l’attention en utilisant le signal ÉEG relié aux cibles uniquement. Dans ce problème de classification, un taux de prédiction exacte de 51,7% (p < 0,001) a été obtenu, le niveau du hasard étant de 25%. Les résultats indiquent qu’il est possible de distinguer le locus attentionnel à partir des PRÉ dans un espace de +/- 0,4 degrés d’angle visuel et ce, avec des taux de précision dépassant largement le niveau du hasard.
Event related potentials (ERP) are commonly used as a method of measuring visual attention. ERP components such as N2pc and P3 are largely considered as markers of attention deployment. In order to investigate the possibility of predicting the locus and the presence or absence of attention, a spatial cueing task was used. A cue indicated one of the four locations on which subjects had to direct their attention. The spatial cue was exclusively symbolic, implying that attention had to be oriented voluntarily. The analysis of the EEG signal which was measured as subjects carried out the task was performed using machine learning. An SVM (Support Vector Machine) classifier was used to predict the presence or absence of attention at one location, using the EEG signal associated with targets and distractors. A decoding accuracy of 75% (p < 0,001) was achieved for this classification, with a chance level of 50%. A DSVM (Dendrogram SVM) was used to predict the precise locus of attention using the EEG signal linked to targets only. In this classification problem, a decoding accuracy of 51,7% (p < 0,001) was achieved, with a chance level of 25%. These results suggest that it is possible to distinguish the locus of attention from ERPs in a +/- 0,4 degrees of visual angle space with decoding accuracies considerably above chance.
APA, Harvard, Vancouver, ISO, and other styles
37

Levade, Inès. "Évolution intra-hôte de Vibrio cholerae et interactions avec le microbiome intestinal." Thesis, 2020. http://hdl.handle.net/1866/25268.

Full text
Abstract:
Le choléra est une infection diarrhéique aiguë qui représente encore aujourd’hui un grave problème de santé publique dans les pays où l’accès à l’eau potable et un système d’assainissement adéquat ne peut pas être garanti. Vibrio cholerae, le pathogène bactérien responsable de cette maladie, peut provoquer toute une série de symptômes chez les individus infectés, allant d’une diarrhée intense conduisant à une déshydratation sévère, au portage asymptomatique de la bactérie. Bien que notre compréhension du choléra à une échelle macro-épidémiologique a considérablement été améliorée par le développement des techniques de séquençage à haut débit et par les avancées dans le domaine de la génomique bactérienne, aucune étude n’a encore été menée pour caractériser son évolution à l’échelle des individus infectés. De plus, le rôle des porteurs asymptomatiques au sein d’une épidémie et la raison derrière l’absence de symptômes chez ces individus infectés sont encore méconnus. L’objectif principal de cette thèse est donc de (1) caractériser la diversité génomique de V. cholerae au niveau des individus et des cercles familiaux, mais aussi (2) d’évaluer le rôle potentiel du microbiome intestinal dans la susceptibilité de contracter cette maladie entérique aiguë et de présenter des symptômes sévères. Dans un premier temps, nous caractérisons la diversité génomique de colonies isolées à partir de patients symptomatiques. Le séquençage de génomes entiers de souches provenant de patients du Bangladesh et d’Haïti révèle que cette diversité sous la forme de mutations ponctuelles reste limitée, mais détectable au sein des hôtes. Une grande partie de la variation du contenu génétique semble être surtout due au gain et à la perte de phages et de plasmides au sein de la population de V. cholerae, avec des échanges occasionnels entre le pathogène et d’autres membres commensaux du microbiote intestinal. Cela contredit l’hypothèse couramment acceptée que les infections par V. cholerae sont majoritairement clonales, et confirme que le transfert horizontal de gènes est un facteur important dans l’évolution de V. cholerae. De plus, nos résultats montrent que certains de ces variants peuvent avoir un effet phénotypique, impactant par exemple la formation de biofilms, et peuvent être sélectionnés au sein des individus infectés. Par la suite, nous appliquons une association de méthodes de séquençage de génomes entiers et de méthodes métagénomiques afin d’améliorer la détection des variants intra-hôte, à la fois chez des patients symptomatiques, mais aussi chez des porteurs asymptomatiques. Notre étude montre que l’approche métagénomique offre une meilleure résolution dans la détection de la diversité dans la population microbienne, mais reste difficile à appliquer chez des patients asymptomatiques, en raison du faible nombre de cellules de V. cholerae chez ces patients. Dans l’ensemble, nous constatons que le niveau de diversité au sein de la population bactérienne intra-hôte est similaire entre les patients symptomatiques et asymptomatiques. Nous détectons aussi la présence de souches hypermutantes chez certains patients. De plus, alors que les mutations chez les patients porteurs de phénotypes d’hypermutations ne semblent pas sous l’effet de la sélection, des signes d'évolution parallèle sont détectés chez les patients présentant un plus faible nombre de mutations, suggérant des mécanismes d’adaptation au sein de l’hôte. Nos résultats soulignent la puissance de la métagénomique combinée au séquençage de génomes entiers pour caractériser la diversité intra-hôte dans le cas d’une infection aiguë du choléra, mais aussi dans le cas de portage asymptomatique, tout en identifiant pour la première fois le phénotype d’hypermutation chez des patients infectés. Finalement, nous nous intéressons aux facteurs liés à la susceptibilité à la maladie et à la sévérité des symptômes. Basée sur une étude récente utilisant le séquençage 16S pour montrer le lien potentiel entre le microbiome intestinal et la susceptibilité à l’infection par V. cholerae, nos analyses utilisent les méthodes de séquençage métagénomique sur les mêmes échantillons de cette précédente étude afin de caractériser les profils taxonomiques et fonctionnels du microbiome intestinal de contacts familiaux exposés à V. cholerae. Les échantillons sont prélevés avant l’infection de ces contacts familiaux et l’apparition ou non de symptômes, et sont analysés pour identifier des prédicteurs à la maladie symptomatique. Grâce à un algorithme d’apprentissage machine, nous pouvons identifier des espèces, des familles de gènes et des voies métaboliques du microbiome au moment de l'exposition à V. cholerae pour détecter des biomarqueurs potentiels corrélés avec les risques d'infection et la gravité des symptômes. Nos résultats montrent que l’utilisation du séquençage métagénomique améliore la précision et l’exactitude des prévisions par rapport au séquençage 16S. Nos analyses permettent aussi de prédire la gravité de la maladie, bien qu’avec une plus grande incertitude que la prédiction de l’infection. Des taxons bactériens des genres Prevotella et Bifidobacterium ont été identifiées comme des marqueurs potentiels de protection contre l’infection, tout comme gènes impliqués dans le métabolisme du fer. Nos résultats soulignent le pouvoir de la métagénomique pour prédire l’évolution des maladies et identifient des espèces et des gènes spécifiques pouvant être impliqués dans des tests expérimentaux afin d’étudier les mécanismes liés au microbiome intestinal expliquant la potentielle protection contre le choléra.
Cholera is an acute diarrhoeal disease that remains a global threat to public health in countries where access to safe water and adequate sanitation cannot be guaranteed. Vibrio cholerae, the bacterial pathogen responsible for this disease, can cause a range of symptoms in infected individuals, from intense diarrhea leading to severe dehydration, to asymptomatic carriage of the bacteria. Although our understanding of cholera on a macro-epidemiological scale has been considerably improved by the development of high-throughput sequencing techniques and by advances in bacterial genomics, no studies have yet been conducted to characterize its evolution at the scale of infected individuals. Furthermore, the role of asymptomatic carriers in an epidemic and the reason behind the absence of symptoms in these infected individuals remains unknown. The main objective of this thesis is therefore to characterize the genomic diversity of V. cholerae at the level of individuals and households, but also to evaluate the potential role of the gut microbiome in the susceptibility to contract this acute enteric disease and to present severe symptoms. First, we characterize the genomic diversity of colonies isolated from symptomatic patients. The whole genome sequencing of strains from patients in Bangladesh and Haiti reveals that this diversity is detectable in the form of point mutations within hosts, but remains limited. Much of the variation detected within patients appears to be due to the gain and loss of phages and plasmids within the V. cholerae population, with occasional exchanges between the pathogen and other commensal members of the gut microbiota. These results challenge the commonly accepted assumption that V. cholerae infections are predominantly clonal, and confirm that horizontal gene transfer is an important factor in the evolution of V. cholerae. In addition, our results show that some of these variants may also have a phenotypic effect, for example by impacting biofilm formation, and can be selected within infected individuals. Next, we apply a combination of whole genome sequencing and metagenomic approaches to improve the detection of intra-host variants, both in symptomatic patients and in asymptomatic carriers. Our study shows that the metagenomic approach offers a better resolution in the detection of the diversity in the microbial population, but remains difficult to apply in asymptomatic patients, due to the low number of V. cholerae cells in these individuals. Overall, we find that the level of diversity within the intra-host bacterial population is similar between symptomatic and asymptomatic patients. We also detect the presence of hypermutator strains in some patients. In addition, while mutations in patients with hypermutator phenotypes did not appear to be driven by selection, signs of parallel evolution are detected in patients with fewer mutations, suggesting adaptive mechanisms within the host. Our results underline the power of metagenomics combined with whole genome sequencing to characterize intra-host diversity in acute cholera infection, but also in asymptomatic carriers, while identifying for the first time an hypermutator phenotype in infected patients. Finally, we are interested in factors related to susceptibility to the disease and related to the severity of symptoms. Based on a recent study using 16S rRNA amplicon sequencing to show the potential link between the intestinal microbiome and susceptibility to V. cholerae infection, our study uses metagenomic sequencing methods on the same samples from this previous study to characterize the taxonomic and functional profiles of the gut microbiome of household contacts exposed to V. cholerae. Samples are collected prior to infection of these household contacts, and used to identify predictors of symptomatic disease. Using a machine learning algorithm, we can identify species, gene families and metabolic pathways in the microbiome at the time of exposure to V. cholerae to detect potential biomarkers correlated with risk of infection and symptom severity. Our results show that the use of metagenomic sequencing improves the precision and accuracy of predictions compared to 16S rRNA amplicon sequencing. Our analyses also predict disease severity, although with greater uncertainty than the prediction of infection. Bacterial taxa from the genera Prevotella and Bifidobacterium have been identified as potential markers of protection against infection, as well as genes involved in iron metabolism. Our results highlight the power of metagenomics to predict disease progression and identify specific species and genes that could be involved in experimental tests to study the mechanisms related to the microbiome explaining potential protection against cholera.
APA, Harvard, Vancouver, ISO, and other styles
38

Almousli, Hani. "Recognition of Facial Expressions with Autoencoders and Convolutional-Nets." Thèse, 2013. http://hdl.handle.net/1866/10688.

Full text
Abstract:
Les humains communiquent via différents types de canaux: les mots, la voix, les gestes du corps, des émotions, etc. Pour cette raison, un ordinateur doit percevoir ces divers canaux de communication pour pouvoir interagir intelligemment avec les humains, par exemple en faisant usage de microphones et de webcams. Dans cette thèse, nous nous intéressons à déterminer les émotions humaines à partir d’images ou de vidéo de visages afin d’ensuite utiliser ces informations dans différents domaines d’applications. Ce mémoire débute par une brève introduction à l'apprentissage machine en s’attardant aux modèles et algorithmes que nous avons utilisés tels que les perceptrons multicouches, réseaux de neurones à convolution et autoencodeurs. Elle présente ensuite les résultats de l'application de ces modèles sur plusieurs ensembles de données d'expressions et émotions faciales. Nous nous concentrons sur l'étude des différents types d’autoencodeurs (autoencodeur débruitant, autoencodeur contractant, etc) afin de révéler certaines de leurs limitations, comme la possibilité d'obtenir de la coadaptation entre les filtres ou encore d’obtenir une courbe spectrale trop lisse, et étudions de nouvelles idées pour répondre à ces problèmes. Nous proposons également une nouvelle approche pour surmonter une limite des autoencodeurs traditionnellement entrainés de façon purement non-supervisée, c'est-à-dire sans utiliser aucune connaissance de la tâche que nous voulons finalement résoudre (comme la prévision des étiquettes de classe) en développant un nouveau critère d'apprentissage semi-supervisé qui exploite un faible nombre de données étiquetées en combinaison avec une grande quantité de données non-étiquetées afin d'apprendre une représentation adaptée à la tâche de classification, et d'obtenir une meilleure performance de classification. Finalement, nous décrivons le fonctionnement général de notre système de détection d'émotions et proposons de nouvelles idées pouvant mener à de futurs travaux.
Humans communicate via different types of channels: words, voice, body gesture, emotions …etc. For this reason, implementing these channels in computers is inevitable to make them interact intelligently with humans. Using a webcam and a microphone, computers should figure out what we want to tell from our voice, gesture and face emotions. In this thesis we are interested in figuring human emotions from their images or video in order to use that later in different applications. The thesis starts by giving an introduction to machine learning and some of the models and algorithms we used like multilayer perceptron, convolutional neural networks, autoencoders and finally report the results of applying these models on several facial emotion expression datasets. We moreover concentrate on studying different kinds of autoencoders (Denoising Autoencoder , Contractive Autoencoder, …etc.) and identify some limitations like the possibility of obtaining filters co-adaptation and undesirably smooth spectral curve and we investigate new ideas to address these problems. We also overcome the limitations of training autoencoders in a purely unsupervised manner, i.e. without using any knowledge of task we ultimately want to solve (such as predicting class labels) and develop a new semi-supervised training criterion which exploits the knowledge of the few labeled data to train the autoencoder together with a large amount of unlabeled data in order to learn a representation better suited for the classification task, and obtain better classification performance. Finally, we describe the general pipeline for our emotion detection system and suggest new ideas for future work.
APA, Harvard, Vancouver, ISO, and other styles
39

van, Beurden Louis. "Comparaison de systèmes de traduction automatique pour la post édition des alertes météorologique d'Environnement Canada." Thesis, 2019. http://hdl.handle.net/1866/23791.

Full text
Abstract:
Ce mémoire a pour but de déterminer la stratégie de traduction automatique des alertes météorologiques produites par Environnement Canada, qui nécessite le moins d’efforts de postédition de la part des correcteurs du bureau de la traduction. Nous commencerons par constituer un corpus bilingue d’alertes météorologiques représentatives de la tâche de traduction. Ensuite, ces données nous serviront à comparer les performances de différentes approches de traduction automatique, de configurations de mémoires de traduction et de systèmes hybrides. Nous comparerons les résultats de ces différents modèles avec le système WATT, développé par le RALI pour Environnement Canada, ainsi qu’avec les systèmes de l’industrie GoogleTranslate et DeepL. Nous étudierons enfin une approche de postédition automatique.
The purpose of this paper is to determine the strategy for the automatic translation of weather warnings produced by Environment Canada, which requires the least post-editing effort by the proofreaders of the Translation Bureau. We will begin by developing a bilingual corpus of weather warnings representative of this task. Then, this data will be used to compare the performance of different approaches of machine translation, translation memory configurations and hybrid systems. We will compare the results of these models with the system WATT, the latest system provided by RALI for Environment Canada, as well as with the industry systems GoogleTranslate and DeepL. Finaly, we will study an automatic post-edition system.
APA, Harvard, Vancouver, ISO, and other styles
40

Ferreira, Guerra Steve. "Une procédure de sélection automatique de la discrétisation optimale de la ligne du temps pour des méthodes longitudinales d’inférence causale." Thèse, 2017. http://hdl.handle.net/1866/20549.

Full text
APA, Harvard, Vancouver, ISO, and other styles
41

Gotti, Fabrizio. "L'atténuation statistique des surdétections d'un correcteur grammatical symbolique." Thèse, 2012. http://hdl.handle.net/1866/9809.

Full text
Abstract:
Les logiciels de correction grammaticale commettent parfois des détections illégitimes (fausses alertes), que nous appelons ici surdétections. La présente étude décrit les expériences de mise au point d’un système créé pour identifier et mettre en sourdine les surdétections produites par le correcteur du français conçu par la société Druide informatique. Plusieurs classificateurs ont été entraînés de manière supervisée sur 14 types de détections faites par le correcteur, en employant des traits couvrant di-verses informations linguistiques (dépendances et catégories syntaxiques, exploration du contexte des mots, etc.) extraites de phrases avec et sans surdétections. Huit des 14 classificateurs développés sont maintenant intégrés à la nouvelle version d’un correcteur commercial très populaire. Nos expériences ont aussi montré que les modèles de langue probabilistes, les SVM et la désambiguïsation sémantique améliorent la qualité de ces classificateurs. Ce travail est un exemple réussi de déploiement d’une approche d’apprentissage machine au service d’une application langagière grand public robuste.
Grammar checking software sometimes erroneously flags a correct word sequence as an error, a problem we call overdetection in the present study. We describe the devel-opment of a system for identifying and filtering out the overdetections produced by the French grammar checker designed by the firm Druide Informatique. Various fami-lies of classifiers have been trained in a supervised way for 14 types of detections flagged by the grammar checker, using features that capture diverse linguistic phe-nomena (syntactic dependency links, POS tags, word context exploration, etc.), extracted from sentences with and without overdetections. Eight of the 14 classifiers we trained are now part of the latest version of a very popular commercial grammar checker. Moreover, our experiments have shown that statistical language models, SVMs and word sense disambiguation can all contribute to the improvement of these classifiers. This project is a striking illustration of a machine learning component suc-cessfully integrated within a robust, commercial natural language processing application.
APA, Harvard, Vancouver, ISO, and other styles
42

Dumoulin, Vincent. "Representation Learning for Visual Data." Thèse, 2018. http://hdl.handle.net/1866/21140.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Zhang, Ying. "Sequence to sequence learning and its speech applications." Thèse, 2018. http://hdl.handle.net/1866/21287.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Krueger, David. "Designing Regularizers and Architectures for Recurrent Neural Networks." Thèse, 2016. http://hdl.handle.net/1866/14019.

Full text
APA, Harvard, Vancouver, ISO, and other styles
45

Bibi, Khalil. "Personal information prediction from written texts." Thesis, 2020. http://hdl.handle.net/1866/24308.

Full text
Abstract:
La détection de la paternité textuelle est un domaine de recherche qui existe depuis les années 1960. Il consiste à prédire l’auteur d’un texte en se basant sur d’autres textes dont les auteurs sont connus. Pour faire cela, plusieurs traits sur le style d’écriture et le contenu sont extraits. Pour ce mémoire, deux sous-problèmes de détection de la paternité textuelle ont été traités : la prédiction du genre et de l’âge de l’auteur. Des données collectées de blogs en ligne ont été utilisées pour faire cela. Dans ce travail, plusieurs traits (features) textuels ont été comparé en utilisant des méthodes d’apprentissage automatique. De même, des méthodes d’apprentissage profond ont été appliqués. Pour la tâche de classification du genre, les meilleurs résultats ont été obtenus en appliquant un système de vote majoritaire sur la prédiction d’autres modèles. Pour la classification d’âge, les meilleurs résultats ont été obtenu en utilisant un classificateur entrainé sur TF-IDF.
Authorship Attribution (AA) is a field of research that exists since the 60s. It consists of identifying the author of a certain text based on texts with known authors. This is done by extracting features about the writing style and the content of the text. In this master thesis, two sub problems of AA were treated: gender and age classification using a corpus collected from online blogs. In this work, several features were compared using several feature-based algorithms. As well as deep learning methods. For the gender classification task, the best results are the ones obtained by a majority vote system over the outputs of several classifiers. For the age classification task, the best result was obtained using classifier trained over TFIDF.
APA, Harvard, Vancouver, ISO, and other styles
46

Dinh, Laurent. "Reparametrization in deep learning." Thèse, 2018. http://hdl.handle.net/1866/21139.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Goodfellow, Ian. "Deep learning of representations and its application to computer vision." Thèse, 2014. http://hdl.handle.net/1866/11674.

Full text
APA, Harvard, Vancouver, ISO, and other styles
48

Kastner, Kyle. "Structured prediction and generative modeling using neural networks." Thèse, 2016. http://hdl.handle.net/1866/18760.

Full text
Abstract:
Cette thèse traite de l'usage des Réseaux de Neurones pour modélisation de données séquentielles. La façon dont l'information a été ordonnée et structurée est cruciale pour la plupart des données. Les mots qui composent ce paragraphe en constituent un exemple. D'autres données de ce type incluent les données audio, visuelles et génomiques. La Prédiction Structurée est l'un des domaines traitant de la modélisation de ces données. Nous allons aussi présenter la Modélisation Générative, qui consiste à générer des points similaires aux données sur lesquelles le modèle a été entraîné. Dans le chapitre 1, nous utiliserons des données clients afin d'expliquer les concepts et les outils de l'Apprentissage Automatique, incluant les algorithmes standards d'apprentissage ainsi que les choix de fonction de coût et de procédure d'optimisation. Nous donnerons ensuite les composantes fondamentales d'un Réseau de Neurones. Enfin, nous introduirons des concepts plus complexes tels que le partage de paramètres, les Réseaux Convolutionnels et les Réseaux Récurrents. Le reste du document, nous décrirons de plusieurs types de Réseaux de Neurones qui seront à la fois utiles pour la prédiction et la génération et leur application à des jeux de données audio, d'écriture manuelle et d'images. Le chapitre 2 présentera le Réseau Neuronal Récurrent Variationnel (VRNN pour variational recurrent neural network). Le VRNN a été développé dans le but de générer des échantillons semblables aux exemples de la base d'apprentissage. Nous présenterons des modèles entraînées de manière non-supervisée afin de générer du texte manuscrites, des effets sonores et de la parole. Non seulement ces modèles prouvent leur capacité à apprendre les caractéristiques de chaque type de données mais établissent aussi un standard en terme de performance. Dans le chapitre 3 sera présenté ReNet, un modèle récemment développé. ReNet utilise les sorties structurées d'un Réseau Neuronal Récurrent pour classifier des objets. Ce modèle atteint des performances compétitives sur plusieurs tâches de reconnaissance d'images, tout en utilisant une architecture conçue dès le départ pour de la Prédiction Structurée. Dans ce cas-ci, les résultats du modèle sont utilisés simplement pour de la classification mais des travaux suivants (non inclus ici) ont utilisé ce modèle pour de la Prédiction Structurée. Enfin, au Chapitre 4 nous présentons les résultats récents non-publiés en génération acoustique. Dans un premier temps, nous fournissons les concepts musicaux et représentations numériques fondamentaux à la compréhension de notre approche et introduisons ensuite une base de référence et de nouveaux résultats de recherche avec notre modèle, RNN-MADE. Ensuite, nous introduirons le concept de synthèse vocale brute et discuterons de notre recherche en génération. Dans notre dernier Chapitre, nous présenterons enfin un résumé des résultats et proposerons de nouvelles pistes de recherche.
In this thesis we utilize neural networks to effectively model data with sequential structure. There are many forms of data for which both the order and the structure of the information is incredibly important. The words in this paragraph are one example of this type of data. Other examples include audio, images, and genomes. The work to effectively model this type of ordered data falls within the field of structured prediction. We also present generative models, which attempt to generate data that appears similar to the data which the model was trained on. In Chapter 1, we provide an introduction to data and machine learning. First, we motivate the need for machine learning by describing an expert system built on a customer database. This leads to a discussion of common algorithms, losses, and optimization choices in machine learning. We then progress to describe the basic building blocks of neural networks. Finally, we add complexity to the models, discussing parameter sharing and convolutional and recurrent layers. In the remainder of the document, we discuss several types of neural networks which find common use in both prediction and generative modeling and present examples of their use with audio, handwriting, and images datasets. In Chapter 2, we introduce a variational recurrent neural network (VRNN). Our VRNN is developed with to generate new sequential samples that resemble the dataset that is was trained on. We present models that learned in an unsupervised manner how to generate handwriting, sound effects, and human speech setting benchmarks in performance. Chapter 3 shows a recently developed model called ReNet. In ReNet, intermediate structured outputs from recurrent neural networks are used for object classification. This model shows competitive performance on a number of image recognition tasks, while using an architecture designed to handle structured prediction. In this case, the final model output is only used for simple classification, but follow-up work has expanded to full structured prediction. Lastly, in Chapter 4 we present recent unpublished experiments in sequential audio generation. First we provide background in musical concepts and digital representation which are fundamental to understanding our approach and then introduce a baseline and new research results using our model, RNN-MADE. Next we introduce the concept of raw speech synthesis and discuss our investigation into generation. In our final chapter, we present a brief summary of results and postulate future research directions.
APA, Harvard, Vancouver, ISO, and other styles
49

Thibodeau-Laufer, Eric. "Algorithmes d’apprentissage profonds supervisés et non-supervisés: applications et résultats théoriques." Thèse, 2013. http://hdl.handle.net/1866/10689.

Full text
Abstract:
La liste des domaines touchés par l’apprentissage machine s’allonge rapidement. Au fur et à mesure que la quantité de données disponibles augmente, le développement d’algorithmes d’apprentissage de plus en plus puissants est crucial. Ce mémoire est constitué de trois parties: d’abord un survol des concepts de bases de l’apprentissage automatique et les détails nécessaires pour l’entraînement de réseaux de neurones, modèles qui se livrent bien à des architectures profondes. Ensuite, le premier article présente une application de l’apprentissage machine aux jeux vidéos, puis une méthode de mesure performance pour ceux-ci en tant que politique de décision. Finalement, le deuxième article présente des résultats théoriques concernant l’entraînement d’architectures profondes nonsupervisées. Les jeux vidéos sont un domaine particulièrement fertile pour l’apprentissage automatique: il estf facile d’accumuler d’importantes quantités de données, et les applications ne manquent pas. La formation d’équipes selon un critère donné est une tˆache commune pour les jeux en lignes. Le premier article compare différents algorithmes d’apprentissage à des réseaux de neurones profonds appliqués à la prédiction de la balance d’un match. Ensuite nous présentons une méthode par simulation pour évaluer les modèles ainsi obtenus utilisés dans le cadre d’une politique de décision en ligne. Dans un deuxième temps nous présentons une nouvelleméthode pour entraîner des modèles génératifs. Des résultats théoriques nous indiquent qu’il est possible d’entraîner par rétropropagation des modèles non-supervisés pouvant générer des échantillons qui suivent la distribution des données. Ceci est un résultat pertinent dans le cadre de la récente littérature scientifique investiguant les propriétés des autoencodeurs comme modèles génératifs. Ces résultats sont supportés avec des expériences qualitatives préliminaires ainsi que quelques résultats quantitatifs.
The list of areas affected by machine learning is growing rapidly. As the amount of available training data increases, the development of more powerful learning algorithms is crucial. This thesis consists of three parts: first an overview of the basic concepts of machine learning and the details necessary for training neural networks, models that lend themselves well to deep architectures. The second part presents an application of machine learning to online video games, and a performance measurement method when using these models as decision policies. Finally, the third section presents theoretical results for unsupervised training of deep architectures. Video games are a particularly fertile area for machine learning: it is easy to accumulate large amounts of data, and many tasks are possible. Assembling teams of equal skill is a common machine learning application for online games. The first paper compares different learning algorithms against deep neural networks applied to the prediction of match balance in online games. We then present a simulation based method to evaluate the resulting models used as decision policies for online matchmaking. Following this we present a new method to train generative models. Theoretical results indicate that it is possible to train by backpropagation unsupervised models that can generate samples following the data’s true distribution. This is a relevant result in the context of the recent literature investigating the properties of autoencoders as generative models. These results are supported with preliminary quantitative results and some qualitative experiments.
APA, Harvard, Vancouver, ISO, and other styles
50

Wood, Sean. "Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals." Thèse, 2009. http://hdl.handle.net/1866/3769.

Full text
Abstract:
On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante.
We study the application of unsupervised matrix decomposition algorithms such as Non-negative Matrix Factorization (NMF) to frequency domain representations of music audio signals. These algorithms, driven by a given reconstruction error function, learn a set of basis functions and a set of corresponding coefficients that approximate the input signal. We compare the use of three reconstruction error functions when NMF is applied to monophonic and harmonized musical scales: least squares, Kullback-Leibler divergence, and a recently introduced “phase-aware” divergence measure. Novel supervised methods for interpreting the resulting decompositions are presented and compared to previously used methods that rely on domain knowledge. Finally, the ability of the learned basis functions to generalize across musical parameter values including note amplitude, note duration and instrument type, are analyzed. To do so, we introduce two basis function labeling algorithms that outperform the previous labeling approach in the majority of our tests, instrument type with monophonic audio being the only notable exception.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography