Dissertations / Theses on the topic 'Apprentissage automatique sur données confidentielles'

To see the other types of publications on this topic, follow the link: Apprentissage automatique sur données confidentielles.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage automatique sur données confidentielles.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Saadeh, Angelo. "Applications of secure multi-party computation in Machine Learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La préservation des données privées dans l'apprentissage automatique et l'analyse des données devient de plus en plus importante à mesure que la quantité d'informations personnelles sensibles collectées et utilisées par les organisations continue de croître. Cela pose le risque d'exposer des informations personnelles sensibles à des tiers malveillants, ce qui peut entraîner un vol d'identité, une fraude financière ou d'autres types de cybercriminalité. Les lois contre l'utilisation des données privées sont importantes pour protéger les individus contre l'utilisation et le partage de leurs informations. Cependant, ce faisant, les lois sur la protection des données limitent les applications des modèles d'apprentissage automatique, et certaines de ces applications pourraient sauver des vies, comme dans le domaine médical.Le calcul multipartite sécurisé (MPC) permet à plusieurs partis de calculer collaborativement une fonction sur leurs entrées sans avoir à révéler ou à échanger les données elles-mêmes. Cet outil peut être utilisé pour entraîner et utiliser des modèles d'apprentissage automatique collaboratif lorsqu'il existe des problèmes de confidentialité concernant l'échange d'ensembles de données sensibles entre différentes entités.Dans cette thèse, nous (I) utilisons des algorithmes de calcul multipartite sécurisés existants et en développons de nouveaux, (II) introduisons des approximations cryptographiques des fonctions couramment utilisées en apprentissage automatique, et (III) complémentons le calcul multipartite sécurisé avec d'autres outils de confidentialité. Ce travail est effectué dans le but de mettre en œuvre des algorithmes d'apprentissage automatique et d'analyse de données préservant la confidentialité.Notre travail et nos résultats expérimentaux montrent qu'en exécutant les algorithmes à l'aide du calcul multipartite sécurisé, la confidentialités des données est préservée et l'exactitude du résultat est satisfait. En d'autres termes, aucun parti n'a accès aux informations d'un autre et les résultats obtenus par les modèles d'apprentissage automatique et des algorithmes d'analyse de données sont les mêmes par rapport aux résultats des algorithmes exécutés sur données non chiffrés.Dans son ensemble, cette thèse offre une vision globale du calcul multipartite sécurisé pour l'apprentissage automatique, démontrant son potentiel à révolutionner le domaine. Cette thèse contribue au déploiement et à l'acceptabilité du calcul multipartite sécurisé en apprentissage automatique et en analyse de données
Privacy-preserving in machine learning and data analysis is becoming increasingly important as the amount of sensitive personal information collected and used by organizations continues to grow. This poses the risk of exposing sensitive personal information to malicious third parties - which can lead to identity theft, financial fraud, or other types of cybercrime. Laws against the use of private data are important to protect individuals from having their information used and shared. However, by doing so, data protection laws limit the applications of machine learning models, and some of these applications could be life-saving - like in the medical field.Secure multi-party computation (MPC) allows multiple parties to jointly compute a function over their inputs without having to reveal or exchange the data itself. This tool can be used for training collaborative machine learning models when there are privacy concerns about exchanging sensitive datasets between different entities.In this thesis, we (I) use existing and develop new secure multi-party computation algorithms, (II) introduce cryptography-friendly approximations of common machine functions, and (III) complement secure multi-party computation with other privacy tools. This work is done in the goal of implementing privacy-preserving machine learning and data analysis algorithms.Our work and experimental results show that by executing the algorithms using secure multi-party computation both security and correctness are satisfied. In other words, no party has access to another's information and they are still being able to collaboratively train machine learning models with high accuracy results, and to collaboratively evaluate data analysis algorithms in comparison with non-encrypted datasets.Overall, this thesis provides a comprehensive view of secure multi-party computation for machine learning, demonstrating its potential to revolutionize the field. This thesis contributes to the deployment and acceptability of secure multi-party computation in machine learning and data analysis
2

Girard, Régis. "Classification conceptuelle sur des données arborescentes et imprécises." La Réunion, 1997. http://elgebar.univ-reunion.fr/login?url=http://thesesenligne.univ.run/97_08_Girard.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux exposés dans cette thèse se situent dans le cadre de la classification conceptuelle automatique. Nous présentons un formalisme de représentations de données structurées et imprécises fondées sur la notion d'attribut et de valeur : les arborescences symboliques nuancées (ASN). La définition de treillis de nuances permet de prendre en compte l'imprécision d'une valeur. Les attributs peuvent être de plusieurs types : simple, structure ou même récursif et permettent de manipuler des données de nature arborescente. L'introduction de contraintes de validité entre les valeurs des attributs donne la possibilité de représenter des connaissances sur le domaine d'application. Nous proposons des algorithmes permettant de manipuler des observations définies à partir du modèle proposé et de trouver des concepts aisément interprétables. Dans un premier temps, nous définissons une correspondance de galois entre des entités et leurs descriptions à partir d'attributs nuancés mais non structurés, et nous proposons un algorithme de calcul des concepts. Ensuite, nous précisons les algorithmes de généralisation et de comparaison de deux ASN et nous présentons un algorithme incrémental de construction du treillis de galois entre des entités et des ASN. Nous étendons ainsi les treillis de galois au cas de données arborescentes et nuancées. Les concepts trouvés sont décrits de manière imprécise par des ASN. Le treillis des concepts étant de grande taille, l'introduction d'un indice de distance défini sur les ASN nous permet de générer un sous-treillis de galois formé de concepts ne dépassant pas un seuil donné de généralité. Enfin, nous définissons une mesure de similarité sur les ASN et nous proposons un algorithme d'extraction d'un graphe hiérarchique de concepts à partir d'un treillis de galois. Dans la dernière partie de la thèse, nous présentons le système CID fondé sur le formalisme des ASN et nous terminons par deux exemples d'application.
3

Allesiardo, Robin. "Bandits Manchots sur Flux de Données Non Stationnaires." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS334/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de récompenses D(µk) de moyenne µk Є [0, 1] et de support [0, 1]. A chaque tour t Є [1, T], il choisit un bras kt et observe la récompense y kt tirée depuis D (µkt). La difficulté du problème vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant de sélectionner en ligne l'expert le plus performant durant son apprentissage
The multi-armed bandit is a framework allowing the study of the trade-off between exploration and exploitation under partial feedback. At each turn t Є [1,T] of the game, a player has to choose an arm kt in a set of K and receives a reward ykt drawn from a reward distribution D(µkt) of mean µkt and support [0,1]. This is a challeging problem as the player only knows the reward associated with the played arm and does not know what would be the reward if she had played another arm. Before each play, she is confronted to the dilemma between exploration and exploitation; exploring allows to increase the confidence of the reward estimators and exploiting allows to increase the cumulative reward by playing the empirical best arm (under the assumption that the empirical best arm is indeed the actual best arm).In the first part of the thesis, we will tackle the multi-armed bandit problem when reward distributions are non-stationary. Firstly, we will study the case where, even if reward distributions change during the game, the best arm stays the same. Secondly, we will study the case where the best arm changes during the game. The second part of the thesis tacles the contextual bandit problem where means of reward distributions are now dependent of the environment's current state. We will study the use of neural networks and random forests in the case of contextual bandits. We will then propose meta-bandit based approach for selecting online the most performant expert during its learning
4

Bascol, Kevin. "Adaptation de domaine multisource sur données déséquilibrées : application à l'amélioration de la sécurité des télésièges." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSES062.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Bluecime a mis au point un système de vidéosurveillance à l'embarquement de télésièges qui a pour but d'améliorer la sécurité des passagers. Ce système est déjà performant, mais il n'utilise pas de techniques d'apprentissage automatique et nécessite une phase de configuration chronophage. L’apprentissage automatique est un sous-domaine de l'intelligence artificielle qui traite de l'étude et de la conception d'algorithmes pouvant apprendre et acquérir des connaissances à partir d'exemples pour une tâche donnée. Une telle tâche pourrait consister à classer les situations sûres ou dangereuses dans les télésièges à partir d'exemples d'images déjà étiquetées dans ces deux catégories, appelés exemples d’entraînement. L'algorithme d'apprentissage automatique apprend un modèle capable de prédire la catégories de nouveaux cas. Depuis 2012, il a été démontré que les modèles d'apprentissage profond sont les modèles d'apprentissage machine les mieux adaptés pour traiter les problèmes de classification d'images lorsque de nombreuses données d’entraînement sont disponibles. Dans ce contexte, cette thèse, financée par Bluecime, vise à améliorer à la fois le coût et l'efficacité du système actuel de Bluecime grâce à l'apprentissage profond
Bluecime has designed a camera-based system to monitor the boarding station of chairlifts in ski resorts, which aims at increasing the safety of all passengers. This already successful system does not use any machine learning component and requires an expensive configuration step. Machine learning is a subfield of artificial intelligence which deals with studying and designing algorithms that can learn and acquire knowledge from examples for a given task. Such a task could be classifying safe or unsafe situations on chairlifts from examples of images already labeled with these two categories, called the training examples. The machine learning algorithm learns a model able to predict one of these two categories on unseen cases. Since 2012, it has been shown that deep learning models are the best suited machine learning models to deal with image classification problems when many training data are available. In this context, this PhD thesis, funded by Bluecime, aims at improving both the cost and the effectiveness of Bluecime's current system using deep learning
5

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats
Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results
6

Jaillet, Simon. "Catégorisation automatique de documents textuels : D'une représentation basée sur les concepts aux motifs séquentiels." Montpellier 2, 2005. http://www.theses.fr/2005MON20030.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
8

Dragoni, Laurent. "Tri de potentiels d'action sur des données neurophysiologiques massives : stratégie d’ensemble actif par fenêtre glissante pour l’estimation de modèles convolutionnels en grande dimension." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4016.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Au sein du système nerveux, des cellules appelées neurones sont spécialisées dans la communication de l'information. À travers l'émission et la propagation de courants électriques nommés potentiels d'action, les neurones peuvent transmettre l'information dans le corps. Étant donné le rôle prééminent des neurones, afin de mieux comprendre le fonctionnement du système nerveux, une vaste gamme de méthodes ont été proposées pour l'étude de ces cellules. Dans cette thèse, nous nous intéressons à l'analyse de signaux ayant été enregistrés par des électrodes, et plus spécifiquement, des tétrodes et des multi-electrode arrays (MEA). Ces appareils mesurant en général l'activité d'un ensemble de neurones, les signaux enregistrés forment souvent un mélange de l'activité de plusieurs neurones. Afin de gagner plus d'information sur ce type de données, un pré-traitement crucial appelé tri de potentiels d'action est requis pour séparer l'activité de chaque neurone. Actuellement, la procédure générale de tri de potentiels d'action repose sur une procédure en trois étapes : seuillage, extraction de caractéristiques et partitionnement de données. Malheureusement cette méthodologie requiert un grand nombre d'opérations manuelles. De plus, elle devient encore plus difficile à mettre en oeuvre sur de grands volumes de données, en particulier pour des enregistrements de MEA qui ont tendance à présenter davantage de synchronisations de neurones. Dans cette thèse, nous présentons une stratégie de tri de potentiels d'action permettant l'analyse de grands volumes de données et qui requiert peu d'opérations manuelles. Cette stratégie utilise un modèle convolutionnel dont le but est de représenter les signaux mesurés en convolutions temporelles entre deux facteurs : les activations de neurones et les formes de potentiels d'action. L'estimation de ces deux facteurs est généralement traitée par optimisation alternée. Étant la tâche la plus difficile, nous nous concentrons ici sur l'estimation des activations, en supposant que les formes de potentiels d'action sont connues. Le célèbre estimateur Lasso présente d'intéressantes propriétés mathématiques pour la résolution d'un tel problème. Néanmoins son calcul demeure difficile sur des problèmes de grande taille. Nous proposons un algorithme basé sur la stratégie d'ensemble actif afin de calculer efficacement le Lasso. Cet algorithme exploite la structure particulière du problème, déduite de propriétés biologiques, en utilisant des fenêtres glissantes temporelles, lui permettant d'être appliqué en grande dimension. De plus, nous adaptons des résultats théoriques sur le Lasso pour montrer que, sous des hypothèses raisonnables, notre estimateur retrouve le support du vrai vecteur d'activation avec grande probabilité. Nous proposons également des modèles pour la distribution spatiale et des temps d'activations des neurones qui nous permettent de quantifier la taille du problème et de déduire la complexité temporelle théorique de notre algorithme. En particulier, nous obtenons une complexité quasi-linéaire par rapport à la taille du signal enregistré. Finalement nous présentons des expériences numériques illustrant à la fois les résultats théoriques et les performances de notre approche
In the nervous system, cells called neurons are specialized in the communication of information. Through the generation and propagation of electrical currents named action potentials, neurons are able to transmit information in the body. Given the importance of the neurons, in order to better understand the functioning of the nervous system, a wide range of methods have been proposed for studying those cells. In this thesis, we focus on the analysis of signals which have been recorded by electrodes, and more specifically, tetrodes and multi-electrode arrays (MEA). Since those devices usually record the activity of a set of neurons, the recorded signals are often a mixture of the activity of several neurons. In order to gain more knowledge from this type of data, a crucial pre-processing step called spike sorting is required to separate the activity of each neuron. Nowadays, the general procedure for spike sorting consists in a three steps procedure: thresholding, feature extraction and clustering. Unfortunately this methodology requires a large number of manual operations. Moreover, it becomes even more difficult when treating massive volumes of data, especially MEA recordings which also tend to feature more neuronal synchronizations. In this thesis, we present a spike sorting strategy allowing the analysis of large volumes of data and which requires few manual operations. This strategy makes use of a convolutional model which aims at breaking down the recorded signals as temporal convolutions between two factors: neuron activations and action potential shapes. The estimation of these two factors is usually treated through alternative optimization. Being the most difficult task, we only focus here on the estimation of the activations, assuming that the action potential shapes are known. Estimating the activations is traditionally referred to convolutional sparse coding. The well-known Lasso estimator features interesting mathematical properties for the resolution of such problem. However its computation remains challenging on high dimensional problems. We propose an algorithm based of the working set strategy in order to compute efficiently the Lasso. This algorithm takes advantage of the particular structure of the problem, derived from biological properties, by using temporal sliding windows, allowing it to scale in high dimension. Furthermore, we adapt theoretical results about the Lasso to show that, under reasonable assumptions, our estimator recovers the support of the true activation vector with high probability. We also propose models for both the spatial distribution and activation times of the neurons which allow us to quantify the size of our problem and deduce the theoretical complexity of our algorithm. In particular, we obtain a quasi-linear complexity with respect to the size of the recorded signal. Finally we present numerical results illustrating both the theoretical results and the performances of our approach
9

Roudiere, Gilles. "Détection d'attaques sur les équipements d'accès à Internet." Thesis, Toulouse, INSA, 2018. http://www.theses.fr/2018ISAT0017/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les anomalies réseaux, et en particulier les attaques par déni de service distribuées, restent une menace considérable pour les acteurs de l'Internet. La détection de ces anomalies requiert des outils adaptés, capables non seulement d'opérer une détection correcte, mais aussi de répondre aux nombreuses contraintes liées à un fonctionnement dans un contexte industriel. Entre autres, la capacité d'un détecteur à opérer de manière autonome, ainsi qu'à fonctionner sur du trafic échantillonné sont des critères importants. Au contraire des approches supervisées ou par signatures, la détection non-supervisée des attaques ne requiert aucune forme de connaissance préalable sur les propriétés du trafic ou des anomalies. Cette approche repose sur une caractérisation autonome du trafic en production, et ne nécessite l'intervention de l'administrateur qu'à postériori, lorsqu’une déviation du trafic habituel est détectée. Le problème avec de telle approches reste que construire une telle caractérisation est algorithmiquement complexe, et peut donc nécessiter des ressources de calculs conséquentes. Cette exigence, notamment lorsque la détection doit fonctionner sur des équipements réseaux aux charges fonctionnelles déjà lourdes, est dissuasive quant à l'adoption de telles approches. Ce constat nous amène à proposer un nouvel algorithme de détection non-supervisé plus économe en ressources de calcul, visant en priorité les attaques par déni de service distribuées. Sa détection repose sur la création à intervalles réguliers d'instantanés du trafic, et produit des résultats simples à interpréter, aidant le diagnostic de l'administrateur. Nous évaluons les performances de notre algorithme sur deux jeux de données pour vérifier à la fois sa capacité à détecter correctement les anomalies sans lever de faux-positifs et sa capacité à fonctionner en temps réel avec des ressources de calcul limitées, ainsi que sur du trafic échantillonné. Les résultats obtenus sont comparés à ceux de deux autres détecteurs, FastNetMon et UNADA
Network anomalies, and specifically distributed denial of services attacks, are still an important threat to the Internet stakeholders. Detecting such anomalies requires dedicated tools, not only able to perform an accurate detection but also to meet the several constraints due to an industrial operation. Such constraints include, amongst others, the ability to run autonomously or to operate on sampled traffic. Unlike supervised or signature-based approaches, unsupervised detection do not require any kind of knowledge database on the monitored traffic. Such approaches rely on an autonomous characterization of the traffic in production. They require the intervention of the network administrator a posteriori, when it detects a deviation from the usual shape of the traffic. The main problem with unsupervised detection relies on the fact that building such characterization is complex, which might require significant amounts of computing resources. This requirement might be deterrent, especially when the detection should run on network devices that already have a significant workload. As a consequence, we propose a new unsupervised detection algorithm that aims at reducing the computing power required to run the detection. Its detection focuses on distributed denial of service attacks. Its processing is based upon the creation, at a regular interval, of traffic snapshots, which helps the diagnosis of detected anomalies. We evaluate the performances of the detector over two datasets to check its ability to accurately detect anomalies and to operate, in real time, with limited computing power resources. We also evaluate its performances over sampled traffic. The results we obtained are compared with those obtained with FastNetMon and UNADA
10

Eude, Thibaut. "Forage des données et formalisation des connaissances sur un accident : Le cas Deepwater Horizon." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEM079/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le forage de données, méthode et moyens développés dans cette thèse, redéfinit le processus d’extraction de données, de la formalisation de la connaissance et de son enrichissement notamment dans le cadre de l’élucidation d’évènements qui n’ont pas ou peu été documentés. L’accident de la plateforme de forage Deepwater Horizon, opérée pour le compte de BP dans le Golfe du Mexique et victime d’un blowout le 20 avril 2010, sera notre étude de cas pour la mise en place de notre preuve de concept de forage de données. Cet accident est le résultat d’un décalage inédit entre l’état de l’art des heuristiques des ingénieurs de forage et celui des ingénieurs antipollution. La perte de contrôle du puits MC 252-1 est donc une faillite d’ingénierie et il faudra quatre-vingt-sept jours à l’équipe d’intervention pour reprendre le contrôle du puits devenu sauvage et stopper ainsi la pollution. Deepwater Horizon est en ce sens un cas d’ingénierie en situation extrême, tel que défini par Guarnieri et Travadel.Nous proposons d’abord de revenir sur le concept général d’accident au moyen d’une analyse linguistique poussée présentant les espaces sémantiques dans lesquels se situe l’accident. Cela permet d’enrichir son « noyau de sens » et l’élargissement de l’acception commune de sa définition.Puis, nous amenons que la revue de littérature doit être systématiquement appuyée par une assistance algorithmique pour traiter les données compte tenu du volume disponible, de l’hétérogénéité des sources et des impératifs d’exigences de qualité et de pertinence. En effet, plus de huit cent articles scientifiques mentionnant cet accident ont été publiés à ce jour et une vingtaine de rapports d’enquêtes, constituant notre matériau de recherche, ont été produits. Notre méthode montre les limites des modèles d’accidents face à un cas comme Deepwater Horizon et l’impérieuse nécessité de rechercher un moyen de formalisation adéquat de la connaissance.De ce constat, l’utilisation des ontologies de haut niveau doit être encouragée. L’ontologie DOLCE a montré son grand intérêt dans la formalisation des connaissances à propos de cet accident et a permis notamment d’élucider très précisément une prise de décision à un moment critique de l’intervention. La population, la création d’instances, est le coeur de l’exploitation de l’ontologie et son principal intérêt mais le processus est encore très largement manuel et non exempts d’erreurs. Cette thèse propose une réponse partielle à ce problème par un algorithme NER original de population automatique d’une ontologie.Enfin, l’étude des accidents n’échappe pas à la détermination des causes et à la réflexion sur les « faits socialement construits ». Cette thèse propose les plans originaux d’un « pipeline sémantique » construit à l’aide d’une série d’algorithmes qui permet d’extraire la causalité exprimée dans un document et de produire un graphe représentant ainsi le « cheminement causal » sous-jacent au document. On comprend l’intérêt pour la recherche scientifique ou industrielle de la mise en lumière ainsi créée du raisonnement afférent de l’équipe d’enquête. Pour cela, ces travaux exploitent les avancées en Machine Learning et Question Answering et en particulier les outils Natural Language Processing.Cette thèse est un travail d’assembleur, d’architecte, qui amène à la fois un regard premier sur le cas Deepwater Horizon et propose le forage des données, une méthode et des moyens originaux pour aborder un évènement, afin de faire émerger du matériau de recherche des réponses à des questionnements qui échappaient jusqu’alors à la compréhension
Data drilling, the method and means developed in this thesis, redefines the process of data extraction, the formalization of knowledge and its enrichment, particularly in the context of the elucidation of events that have not or only slightly been documented. The Deepwater Horizon disaster, the drilling platform operated for BP in the Gulf of Mexico that suffered a blowout on April 20, 2010, will be our case study for the implementation of our proof of concept for data drilling. This accident is the result of an unprecedented discrepancy between the state of the art of drilling engineers' heuristics and that of pollution response engineers. The loss of control of the MC 252-1 well is therefore an engineering failure and it will take the response party eighty-seven days to regain control of the wild well and halt the pollution. Deepwater Horizon is in this sense a case of engineering facing extreme situation, as defined by Guarnieri and Travadel.First, we propose to return to the overall concept of accident by means of an in-depth linguistic analysis presenting the semantic spaces in which the accident takes place. This makes it possible to enrich its "core meaning" and broaden the shared acceptance of its definition.Then, we bring that the literature review must be systematically supported by algorithmic assistance to process the data taking into account the available volume, the heterogeneity of the sources and the requirements of quality and relevance standards. In fact, more than eight hundred scientific articles mentioning this accident have been published to date and some twenty investigation reports, constituting our research material, have been produced. Our method demonstrates the limitations of accident models when dealing with a case like Deepwater Horizon and the urgent need to look for an appropriate way to formalize knowledge.As a result, the use of upper-level ontologies should be encouraged. The DOLCE ontology has shown its great interest in formalizing knowledge about this accident and especially in elucidating very accurately a decision-making process at a critical moment of the intervention. The population, the creation of instances, is the heart of the exploitation of ontology and its main interest, but the process is still largely manual and not without mistakes. This thesis proposes a partial answer to this problem by an original NER algorithm for the automatic population of an ontology.Finally, the study of accidents involves determining the causes and examining "socially constructed facts". This thesis presents the original plans of a "semantic pipeline" built with a series of algorithms that extract the expressed causality in a document and produce a graph that represents the "causal path" underlying the document. It is significant for scientific or industrial research to highlight the reasoning behind the findings of the investigation team. To do this, this work leverages developments in Machine Learning and Question Answering and especially the Natural Language Processing tools.As a conclusion, this thesis is a work of a fitter, an architect, which offers both a prime insight into the Deepwater Horizon case and proposes the data drilling, an original method and means to address an event, in order to uncover answers from the research material for questions that had previously escaped understanding
11

Bordes, Antoine. "Nouveaux Algorithmes pour l'Apprentissage de Machines à Vecteurs Supports sur de Grandes Masses de Données." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2010. http://tel.archives-ouvertes.fr/tel-00464007.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Internet ainsi que tous les moyens numériques modernes disponibles pour communiquer, s'informer ou se divertir génèrent des données en quantités de plus en plus importantes. Dans des domaines aussi variés que la recherche d'information, la bio-informatique, la linguistique computationnelle ou la sécurité numérique, des méthodes automatiques capables d'organiser, classifier, ou transformer des téraoctets de données apportent une aide précieuse. L'apprentissage artificiel traite de la conception d'algorithmes qui permettent d'entraîner de tels outils à l'aide d'exemples d'apprentissage. Utiliser certaines de ces méthodes pour automatiser le traitement de problèmes complexes, en particulier quand les quantités de données en jeu sont insurmontables pour des opérateurs humains, paraît inévitable. Malheureusement, la plupart des algorithmes d'apprentissage actuels, bien qu'efficaces sur de petites bases de données, présentent une complexité importante qui les rend inutilisables sur de trop grandes masses de données. Ainsi, il existe un besoin certain dans la communauté de l'apprentissage artificiel pour des méthodes capables d'être entraînées sur des ensembles d'apprentissage de grande échelle, et pouvant ainsi gérer les quantités colossales d'informations générées quotidiennement. Nous développons ces enjeux et défis dans le Chapitre 1. Dans ce manuscrit, nous proposons des solutions pour réduire le temps d'entraînement et les besoins en mémoire d'algorithmes d'apprentissage sans pour autant dégrader leur précision. Nous nous intéressons en particulier aux Machines à Vecteurs Supports (SVMs), des méthodes populaires utilisées en général pour des tâches de classification automatique mais qui peuvent être adaptées à d'autres applications. Nous décrivons les SVMs en détail dans le Chapitre 2. Ensuite, dans le Chapitre 3, nous étudions le processus d'apprentissage par descente de gradient stochastique pour les SVMs linéaires. Cela nous amène à définir et étudier le nouvel algorithme, SGD-QN. Après cela, nous introduisons une nouvelle procédure d'apprentissage : le principe du “Process/Reprocess”. Nous déclinons alors trois algorithmes qui l'utilisent. Le Huller et LaSVM sont présentés dans le Chapitre 4. Ils servent à apprendre des SVMs destinés à traiter des problèmes de classification binaire (décision entre deux classes). Pour la tˆache plus complexe de prédiction de sorties structurées, nous modifions par la suite en profondeur l'algorithme LaSVM, ce qui conduit à l'algorithme LaRank présenté dans le Chapitre 5. Notre dernière contribution concerne le problème récent de l'apprentissage avec une supervision ambigüe pour lequel nous proposons un nouveau cadre théorique (et un algorithme associé) dans le Chapitre 6. Nous l'appliquons alors au problème de l'étiquetage sémantique du langage naturel. Tous les algorithmes introduits dans cette thèse atteignent les performances de l'état-de-l'art, en particulier en ce qui concerne les vitesses d'entraînement. La plupart d'entre eux ont été publiés dans des journaux ou actes de conférences internationaux. Des implantations efficaces de chaque méthode ont également été rendues disponibles. Dans la mesure du possible, nous décrivons nos nouveaux algorithmes de la manière la plus générale possible afin de faciliter leur application à des tâches nouvelles. Nous esquissons certaines d'entre elles dans le Chapitre 7.
12

Simon, Franck. "Découverte causale sur des jeux de données classiques et temporels. Application à des modèles biologiques." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS528.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur le domaine de la découverte causale, c’est-à-dire la construction de graphes causaux à partir de données observées, et en particulier, la découverte causale temporelle et la reconstruction de larges réseaux de régulation de gènes. Après un bref historique, ce mémoire introduit les principaux concepts, hypothèses et théorèmes aux fondements des graphes causaux ainsi que les deux grandes approches : à base de scores et à base de contraintes. La méthode MIIC (Multivariate Information-based Inductive Causation), développée au sein de notre laboratoire est ensuite décrite avec ses dernières améliorations : Interpretable MIIC. Les problématiques et solutions mises en œuvre pour construire une version temporelle (tMIIC) sont exposées ainsi que les benchmarks traduisant les avantages de tMIIC sur d’autres méthodes de l’état de l’art. L’application à des séquences d’images prises au microscope d’un environnement tumoral reconstitué sur des micro-puces permet d’illustrer les capacités de tMIIC à retrouver, uniquement à partir des données, des relations connues et nouvelles. Enfin, cette thèse introduit l’utilisation d’un a priori de conséquence pour appliquer la découverte causale à la reconstruction de réseaux de régulation de gènes. En posant l’hypothèse que tous les gènes, hormis les facteurs de transcription, sont des conséquences, il devient possible de reconstruire des graphes avec des milliers de gènes. La capacité à identifier des facteurs de transcription clés de novo est illustrée par une application à des données de séquençage d’ARN en cellules uniques avec identification de deux facteurs de transcription susceptibles d’être impliqués dans le processus biologique d’intérêt
This thesis focuses on the field of causal discovery : the construction of causal graphs from observational data, and in particular, temporal causal discovery and the reconstruction of large gene regulatory networks. After a brief history, this thesis introduces the main concepts, hypotheses and theorems underlying causal graphs as well as the two main approaches: score-based and constraint-based methods. The MIIC (Multivariate Information-based Inductive Causation) method, developed in our laboratory, is then described with its latest improvements: Interpretable MIIC. The issues and solutions implemented to construct a temporal version (tMIIC) are presented as well as benchmarks reflecting the advantages of tMIIC compared to other state-of-the-art methods. The application to sequences of images taken with a microscope of a tumor environment reconstituted on microchips illustrates the capabilities of tMIIC to recover, solely from data, known and new relationships. Finally, this thesis introduces the use of a consequence a priori to apply causal discovery to the reconstruction of gene regulatory networks. By assuming that all genes, except transcription factors, are only consequence genes, it becomes possible to reconstruct graphs with thousands of genes. The ability to identify key transcription factors de novo is illustrated by an application to single cell RNA sequencing data with the discovery of two transcription factors likely to be involved in the biological process of interest
13

Durand, Maëva. "Alimentation sur mesure et estimation du bien-être des truies gestantes à partir de données hétérogènes." Electronic Thesis or Diss., Rennes, Agrocampus Ouest, 2023. http://www.theses.fr/2023NSARC169.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les nouvelles technologies se développent en élevage porcin, afin d’aider le travail des agriculteurs. Elles permettent la distribution d’une alimentation sur mesure pour des truies gestantes et une meilleure surveillance du comportement des animaux. La problématique de cette thèse est d’améliorer l’estimation des besoins nutritionnels journaliers et d’identifier l’état de bien-être individuel des truies gestantes, à l’aide de données comportementales et environnementales. Le premier objectif s’est intéressé à l’évaluation des effets des perturbations environnementales sur le comportement et les besoins nutritionnels. Pour cela, deux bandes de truies ont été suivies lors de deux gestations consécutives durant lesquelles différents évènements ont étéprovoqués. Les résultats ont permis de mettre en évidence l’influence des conditions environnementales sur le comportement et les besoins nutritionnels des truies au cours de leur gestation, et ont permis d’identifier une forte variabilité individuelle. Dans une deuxième partie, il s’agissait d’estimer individuellement les besoins journaliers et le bien-être, à partir des données comportementales et environnementales enregistrées par des capteurs. Les résultats ont montré que cette estimation peut être réalisée de façon précise grâce à différents algorithmes de machine learning sur des données produites par l’automate d’alimentation. Cette thèse propose donc des méthodes innovantes pour la conception d’un outil d’aide à la décision visant à améliorer l’alimentation sur mesure et le bien-être des truies gestantes
New technologies are developing increasingly in pig farming, to help farmers in their labour tasks. They allow the distribution of tailored diets for gestating sows and better animal behaviour monitoring. The issue of this thesis is to improve the estimation of daily nutritional requirements and estimate the individual welfare status of gestating sows using behavioural and environmental data collected automatically. The first aim was to evaluate experimentally the effects of environmental disturbances on behaviour and nutritional requirements. To achieve this, two groups of sows were followed during two consecutive gestations during which several events were induced. A database containing a variety ofsows’ behavioural data was built from these experiments. The results of the thesis highlighted the influence of environmental conditions on the behaviour and nutritional requirements of sows during gestation, as well as an important individual variability. The second part involved estimating individual daily requirements and welfare based on behavioural and environmental data recorded by sensors. The individual estimation of nutritional requirements and state of welfare can be carried out accurately using machine learning algorithms and data produced by the automatic feeder. Using these innovative methods, this thesis opens potential for the design of a decision-support tool aiming at adjusting feeding and improving the welfare of gestating sows
14

Mahmoudysepehr, Mehdi. "Modélisation du comportement du tunnelier et impact sur son environnement." Thesis, Centrale Lille Institut, 2020. http://www.theses.fr/2020CLIL0028.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail de recherche de thèse de doctorat consiste à comprendre le comportement du tunnelier en fonction de l’environnement rencontré afin de proposer des solutions sûres, durables et de quqlité pour le creusement du tunnel.Le principal objectif de ce travail de thèse de doctorat est de mieux comprendre le comportement du tunnelier en fonction de son environnement. Ainsi, on explorera comment le tunnelier réagit en fonction des différents types de terrain et comment il agit sur les différents éléments de structure du tunnel (voussoirs). Cela permettra de proposer un dimensionnement intelligent et optimal des voussoirs et des consignes de pilotages adaptées
This PhD thesis research work consists in understanding the behavior of the TBM according to the environment encountered in order to propose safe, durable and quality solutions for the digging of the tunnel.The main objective of this doctoral thesis work is to better understand the behavior of the TBM according to its environment. Thus, we will explore how the TBM reacts according to the different types of terrain and how it acts on the various elements of tunnel structure (voussoirs). This will make it possible to propose an intelligent and optimal dimensioning of the voussoirs and instructions of adapted piloting
15

Loeffel, Pierre-Xavier. "Algorithmes de machine learning adaptatifs pour flux de données sujets à des changements de concept." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066496/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous considérons le problème de la classification supervisée sur un flux de données sujets à des changements de concepts. Afin de pouvoir apprendre dans cet environnement, nous pensons qu’un algorithme d’apprentissage doit combiner plusieurs caractéristiques. Il doit apprendre en ligne, ne pas faire d’hypothèses sur le concept ou sur la nature des changements de concepts et doit être autorisé à s’abstenir de prédire lorsque c’est nécessaire. Les algorithmes en ligne sont un choix évident pour traiter les flux de données. De par leur structure, ils sont capables de continuellement affiner le modèle appris à l’aide des dernières observations reçues. La structure instance based a des propriétés qui la rende particulièrement adaptée pour traiter le problème des flux de données sujet à des changements de concept. En effet, ces algorithmes font très peu d’hypothèses sur la nature du concept qu’ils essaient d’apprendre ce qui leur donne une flexibilité qui les rend capable d’apprendre un vaste éventail de concepts. Une autre force est que stocker certaines des observations passées dans la mémoire peux amener de précieuses meta-informations qui pourront être utilisées par la suite par l’algorithme. Enfin, nous mettons en valeur l’importance de permettre à un algorithme d’apprentissage de s’abstenir de prédire lorsque c’est nécessaire. En effet, les changements de concepts peuvent être la source de beaucoup d’incertitudes et, parfois, l’algorithme peux ne pas avoir suffisamment d’informations pour donner une prédiction fiable
In this thesis, we investigate the problem of supervised classification on a data stream subject to concept drifts. In order to learn in this environment, we claim that a successful learning algorithm must combine several characteristics. It must be able to learn and adapt continuously, it shouldn’t make any assumption on the nature of the concept or the expected type of drifts and it should be allowed to abstain from prediction when necessary. On-line learning algorithms are the obvious choice to handle data streams. Indeed, their update mechanism allows them to continuously update their learned model by always making use of the latest data. The instance based (IB) structure also has some properties which make it extremely well suited to handle the issue of data streams with drifting concepts. Indeed, IB algorithms make very little assumptions about the nature of the concept they are trying to learn. This grants them a great flexibility which make them likely to be able to learn from a wide range of concepts. Another strength is that storing some of the past observations into memory can bring valuable meta-informations which can be used by an algorithm. Furthermore, the IB structure allows the adaptation process to rely on hard evidences of obsolescence and, by doing so, adaptation to concept changes can happen without the need to explicitly detect the drifts. Finally, in this thesis we stress the importance of allowing the learning algorithm to abstain from prediction in this framework. This is because the drifts can generate a lot of uncertainties and at times, an algorithm might lack the necessary information to accurately predict
16

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
17

Irain, Malik. "Plateforme d'analyse de performances des méthodes de localisation des données dans le cloud basées sur l'apprentissage automatique exploitant des délais de messages." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30195.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'utilisation du cloud est une nécessité aujourd'hui, les données produites et utilisées par tous les types d'utilisateurs (individus particuliers, entreprises, structures administratives) ayant atteint une masse trop importante pour être stockées autrement. L'utilisation du cloud nécessite la signature, explicite ou non, d'un contrat avec un fournisseur de service de stockage. Ce contrat mentionne les niveaux de qualité de service requis selon différents critères. Parmi ces critères se trouve la localisation des données. Cependant, ce critère n'est pas facilement vérifiable par un utilisateur. C'est pour cela que la recherche dans le domaine de la vérification de localisation de données a suscité plusieurs travaux depuis quelques années, mais les solutions proposées restent encore perfectibles. Le travail proposé dans le cadre de cette thèse consiste à étudier les solutions de vérification de localisation par les clients, c'est-à-dire les solutions estimant la localisation des données et fonctionnant à l'aide de points de repère. L'approche à investiguer peut être résumée comme suit : en exploitant les délais de communication et en utilisant des modèles de temps de traversée du réseau, estimer, avec une certaine erreur de distance, la localisation des données. Pour cela, le travail réalisé est le suivant : • Une revue de l'état de l'art des différentes méthodes permettant aux utilisateurs de connaitre la localisation de leurs données. • La conception d'une notation unifiée pour les méthodes étudiées dans la revue de l'état de l'art, avec une proposition de deux scores pour évaluer et comparer les méthodes. • La mise en place d'une plateforme de collecte de mesures réseau. Grâce à cette plateforme, deux jeux de données ont été récoltés, un au niveau national et l'autre un niveau mondial. Ces deux jeux de données permettent d'évaluer les différentes méthodes présentées dans la revue de l'état de l'art. • La mise en place d'une architecture d'évaluation à partir des deux jeux de données et des scores définis, afin d'établir la qualité des méthodes (taux de succès) et la qualité des résultats (précision du résultat) grâce aux scores proposés
Cloud usage is a necessity today, as data produced and used by all types of users (individuals, companies, administrative structures) has become too large to be stored otherwise. It requires to sign, explicitly or not, a contract with a cloud storage provider. This contract specifies the levels of quality of service required for various criteria. Among these criteria is the location of the data. However, this criterion is not easily verifiable by a user. This is why research in the field of data localization verification has led to several studies in recent years, but the proposed solutions can still be improved. The work proposed in this thesis consists in studying solutions of location verification by a user, i.e. solutions that estimate data location and operate using landmarks. The implemented approach can be summarized as follows: exploiting communication delays and using network time models to estimate, with some distance error, data location. To this end, the work carried out is as follows: • A survey of the state of the art on the different methods used to provide users with location information. • The design of a unified notation for the methods studied in the survey, with a proposal of two scores to assess methods. • Implementation of a network measurements collecting platform. Thanks to this platform, two datasets were collected, at both national level and international level. These two data sets are used to evaluate the different methods presented in the state of the art survey. • Implementation of an evaluation architecture based on the two data sets and the defined scores. This allows us to establish the quality of the methods (success rate) and the quality of the results (accuracy of the result) thanks to the proposed scores
18

Qamar, Ali Mustafa. "Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00591988.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleurs. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. gCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé.
19

Ghrissi, Amina. "Ablation par catheter de fibrillation atriale persistante guidée par dispersion spatiotemporelle d’électrogrammes : Identification automatique basée sur l’apprentissage statistique." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4026.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La fibrillation atriale (FA) est l’arythmie cardiaque soutenue la plus fréquemment rencontrée dans la pratique clinique. Pour la traiter, l’ablation par cathéter de zones cardiaques jugées responsables de soutenir l’arythmie est devenue la thérapie la plus utilisée. Un nouveau protocole d’ablation se base sur l’identification des zones atriales où les électrogrammes (EGM) enregistrés à l’aide d’un cathéter à électrodes multiples, appelé PentaRay, manifestent des décalages spatiotemporels significatifs sur plusieurs voies adjacentes. Ce phénomène est appelé dispersion spatio-temporelle (DST). L’intervention devient ainsi plus adaptée aux spécificités de chaque patient et elle atteint un taux de succès procédural de 95%. Cependant, à l’heure actuelle les zones de DST sont identifiées de manière visuelle par le spécialiste pratiquant l’ablation. Cette thèse vise à identifier automatiquement les sites potentiels d’ablation basée sur la DST à l’aide de techniques d’apprentissage statistique et notamment d’apprentissage profond adaptées. Dans la première partie, les enregistrements EGM sont classés par catégorie en DST vs. non-DST. Cependant, le rapport très déséquilibré entre les données issues des deux classes dégrade les résultats de classification. Nous abordons ce problème en utilisant des techniques d’augmentation de données adaptées à la problématique médicale et qui permettent d’obtenir de bons taux de classification. La performance globale s’élève ainsi atteignant des valeurs de précision et d’aire sous la courbe ROC autour de 90%. Deux approches sont ensuite comparées, l’ingénierie des caractéristiques et l’extraction automatique de ces caractéristiques par apprentissage statistique à partir d’une série temporelle, appelée valeur absolue de tension maximale aux branches du PentRay (VAVp). Les résultats montrent que la classification supervisée de VAVp est prometteuse avec des valeurs de précision, sensibilité et spécificité autour de 90%. Ensuite, la classification des enregistrements EGM bruts est effectuée à l’aide de plusieurs outils d’apprentissage statistique. Une première approche consiste à étudier les circuits arithmétiques à convolution pour leur intérêt théorique prometteur, mais les expériences sur des données synthétiques sont infructueuses. Enfin, nous investiguons des outils d’apprentissage supervisé plus conventionnels comme les réseaux de neurones convolutifs (RNC). Nous concevons une sélection de représentation des données adaptées à différents algorithmes de classification. Ces modèles sont ensuite évalués en termes de performance et coût de calcul. L’apprentissage profond par transfert est aussi étudié. La meilleure performance est obtenue avec un RNC peu profond pour la classification des matrices EGM brutes, atteignant 94% de précision et d’aire sous la courbe ROC en plus d’un score F1 de 60%. Dans la deuxième partie, les enregistrements EGM acquis pendant la cartographie sont étiquetés ablatés vs. non-ablatés en fonction de leur proximité par rapport aux sites d’ablation, puis classés dans les mêmes catégories. Les annotations de dispersion sont aussi prises en compte comme une probabilité à priori dans la classification. La meilleure performance représente un score F1 de 76%. L’agrégation de l’étiquette DST ne permet pas d’améliorer les performances du modèle. Globalement, ce travail fait partie des premières tentatives d’application de l’analyse statistique et d’outils d’apprentissage pour l’identification automatique et réussie des zones d’ablation en se basant sur la DST. En fournissant aux cardiologues interventionnels un outil intelligent, objectif et déployé en temps réel qui permet la caractérisation de la dispersion spatiotemporelle, notre solution permet d’améliorer potentiellement l’efficacité de la thérapie personnalisée d’ablation par cathéter de la FA persistante
Catheter ablation is increasingly used to treat atrial fibrillation (AF), the most common sustained cardiac arrhythmia encountered in clinical practice. A recent patient-tailored AF ablation therapy, giving 95% of procedural success rate, is based on the use of a multipolar mapping catheter called PentaRay. It targets areas of spatiotemporal dispersion (STD) in the atria as potential AF drivers. STD stands for a delay of the cardiac activation observed in intracardiac electrograms (EGMs) across contiguous leads.In practice, interventional cardiologists localize STD sites visually using the PentaRay multipolar mapping catheter. This thesis aims to automatically characterize and identify ablation sites in STD-based ablation of persistent AF using machine learning (ML) including deep learning (DL) techniques. In the first part, EGM recordings are classified into STD vs. non-STD groups. However, highly imbalanced dataset ratio hampers the classification performance. We tackle this issue by using adapted data augmentation techniques that help achieve good classification. The overall performance is high with values of accuracy and AUC around 90%. First, two approaches are benchmarked, feature engineering and automatic feature extraction from a time series, called maximal voltage absolute values at any of the bipoles (VAVp). Statistical features are extracted and fed to ML classifiers but no important dissimilarity is obtained between STD and non-STD categories. Results show that the supervised classification of raw VAVp time series itself into the same categories is promising with values of accuracy, AUC, sensi-tivity and specificity around 90%. Second, the classification of raw multichannel EGM recordings is performed. Shallow convolutional arithmetic circuits are investigated for their promising theoretical interest but experimental results on synthetic data are unsuccessful. Then, we move forward to more conventional supervised ML tools. We design a selection of data representations adapted to different ML and DL models, and benchmark their performance in terms of classification and computational cost. Transfer learning is also assessed. The best performance is achieved with a convolutional neural network (CNN) model for classifying raw EGM matrices. The average performance over cross-validation reaches 94% of accuracy and AUC added to an F1-score of 60%. In the second part, EGM recordings acquired during mapping are labeled ablated vs. non-ablated according to their proximity to the ablation sites then classified into the same categories. STD labels, previously defined by interventional cardiologists at the ablation procedure, are also aggregated as a prior probability in the classification task.Classification results on the test set show that a shallow CNN gives the best performance with an F1-score of 76%. Aggregating STD label does not help improve the model’s performance. Overall, this work is among the first attempts at the application of statistical analysis and ML tools to automatically identify successful ablation areas in STD-based ablation. By providing interventional cardiologists with a real-time objective measure of STD, the proposed solution offers the potential to improve the efficiency and effectiveness of this fully patient-tailored catheter ablation approach for treating persistent AF
20

Ahmia, Oussama. "Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes." Thesis, Lorient, 2020. http://www.theses.fr/2020LORIS555.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse, effectuée dans le cadre d’un contrat CIFRE avec la société OctopusMind, est centrée sur le développement d'un outillage informatique dédié et optimisé pour l'assistance à l'exploitation de la base d'appels d'offres, dans une finalité de veille stratégique. Notre contribution se décline en trois chapitres : le premier concerne le développement d’une ressource multilingue partiellement comparable. Qui est construite à partir des appels d’offres européens publiés par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiées durant les 9 dernières années. Le deuxième chapitre concerne une étude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux la sémantique selon différentes échelles. Nous avons proposé deux approches : la première est basée sur une combinaison entre word2vec et LSA. La deuxième est basée sur une architecture neuronale originale basée sur des réseaux d’attention convolutionnels à deux niveaux. Ces vectorisations sont exploitées à titre de validation sur des tâches de classification et de clustering de textes. Le troisième chapitre concerne l’extraction de relations sémantiques contenues dans des appels d’offres, permettant de relier des bâtiments à des surfaces, des lots à des budgets, etc... Les développées sont ici plus traditionnelles et reposent sur des CRF. La fin de ce chapitre concerne la mise en production dans l’environnement logiciel d’OctopusMind des différentes solutions, notamment l’extraction d’informations, le système de recommandation, ainsi que la combinaison de ces différents modules pour résoudre des problèmes plus complexes
This thesis, carried out within the framework of a CIFRE contract with the OctopusMind company, is focused on developing a set of automated tools dedicated and optimized to assist call for tender databases processing, for the purpose of strategic intelligence monitoring. Our contribution is divided into three chapters: The first chapter is about developing a partially comparable multilingual corpus, built from the European calls for tender published by TED (Tenders Electronic Daily). It contains more than 2 million documents translated into 24 languages published over the last 9 years. The second chapter presents a study on the questions of words, sentences and documents embedding, likely to capture semantic features at different scales. We proposed two approaches: the first one is based on a combination between a word embedding (word2vec) and latent semantic analysis (LSA). The second one is based on a novel artificial neural network architecture based on two-level convolutional attention mechanisms. These embedding methods are evaluated on classification and text clustering tasks. The third chapter concerns the extraction of semantic relationships in calls for tenders, in particular, allowing to link buildings to areas, lots to budgets, and so on. The supervised approaches developed in this part of the thesis are essentially based on Conditionnal Random Fields. The end of the third chapter concerns the application aspect, in particular with the implementation of some solutions deployed within OctopusMind's software environment, including information extraction, a recommender system, as well as the combination of these different modules to solve some more complex problems
21

Kerrouche, Abdelali. "Routage des données dans les réseaux centrés sur les contenus." Thesis, Paris Est, 2017. http://www.theses.fr/2017PESC1119/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les Réseaux Orientés Contenus (Information Centric Networking (ICN)) représentent un nouveau paradigme qui se développe de plus en plus dans le monde de l’Internet. Ils mettent en avant de nouvelles approches centrées sur le contenu pour concevoir une nouvelle architecture pour le réseau Internet du futur dont l’usage bascule aujourd’hui d’une communication orientée machines (hosts) vers une distribution et une récupération de contenus à large échelle.Dans ce cadre, plusieurs architectures de type ICN ont été proposées par la communauté scientifique dans le cadre de plusieurs projets internationaux : DONA, PURSUIT, SAIL, COMET, CONVERGENCE, Named Data Networking (NDN), etc.Nos travaux de thèse se sont focalisés sur la problématique du routage dans les réseaux de ce type, au travers d’une architecture de type NDN qui représente aujourd’hui une des architectures ICN les plus évoluées.En particulier, nous nous sommes intéressés à concevoir et à mettre en œuvre des solutions de routage qui intègrent les métriques de qualité de service (QdS) dans les architectures NDN au regard de usages courants dans le réseau Internet. Celui-ci est en effet caractérisé par une hétérogénéité des liaisons et des conditions de trafic hautement dynamiques.Dans ce type d’architectures, la diffusion des paquets de données est organisée en deux plans : le plande routage et le plan d’acheminement. Ce dernier est responsable de l’acheminement des paquets sur l’ensemble des chemins disponibles au moyen d’une stratégie identifiée en amont. Le plan du routage est quant à lui utilisé uniquement pour soutenir le plan d’acheminement. De fait, les solutions que nous proposons consistent en de nouvelles stratégies d’acheminement avec QdS que nous qualifions d’adaptatives. Ces stratégies sont capables de transmettre les paquets sur de multiples chemins tout en considérant les paramètres de QdS liés à l’état du réseau et collectés en temps réel.La première approche proposée est conçue sur la base d’une méthode d’apprentissage inductif,du type Q-learning en ligne, et est utilisée pour estimer les informations collectées sur l’état dynamique du réseau.La deuxième contribution consiste dans une stratégie d’acheminement adaptatif conçue pour les architectures NDN et prenant en compte les métriques liées à la QdS. Elle est basée sur les similarités entre le processus d’acheminement des paquets dans les architectures NDN et le comportement des fourmis lors de la recherche du plus court chemin entre leur nid et les sources de nourriture. Les techniques utilisées pour concevoir cette stratégie sont inspirées des approches d’optimisation utilisées dans les algorithmes de type « colonies de fourmis ».Enfin, dans la dernière partie de la thèse, nous généralisons l’approche décrite ci-dessus pour l’étendre à la prise en compte simultanée de plusieurs paramètres de QdS. Sur la base de ces mêmes principes, cette approche a ensuite été étendue à la résolution des problèmes liés à la congestion.Les résultats obtenus montrent l’efficacité des solutions proposées dans une architecture NDN et permettent ainsi de considérer les paramètres de QdS dans les mécanismes d’acheminement des paquets ouvrant la voie à diverses applications orientées contenus sur ce type d’architecture
The Information Centric Networking (ICN) represents a new paradigm that is increasingly developed within the Internet world. It brings forward new content-centric based approaches, in order to design a new architecture for the future Internet, whose usage today shifts from a machine oriented communication (hosts) to a large-scale content distribution and retrieval.In this context, several ICN architectures have been proposed by the scientific community, within several international projects: DONA, PURSUIT, SAIL, COMET, CONVERGENCE, Named Data Networking (NDN), etc.Our thesis work has focused on the problems of routing in such networks, through a NDN architecture, which represents one of the most advanced ICN architectures nowadays.In particular, we were interested in designing and implementing routing solutions that integrate quality-of-service metrics (QoS) in the NDN architecture in terms of current Internet usage. This latter is indeed characterized by a heterogeneity of connections and highly dynamic traffic conditions.In this type of architecture, data packets broadcast is organized in two levels: the routing planand the forwarding plane. The latter is responsible for routing packets on all available paths through an identified upstream strategy. The routing plan is meanwhile used only to support the forwarding plane. In fact, our solutions consist of new QoS routing strategies which we describe as adaptive. These strategies can transmit packets over multiple paths while taking into account the QoS parameters related to the state of the network and collected in real time.The first proposed approach is designed on the basis of a on-line Q-learn type inductive learning method, and is used to estimate the information collected on the dynamic state of the network.The second contribution is an adaptive routing strategy designed for NDN architectures which considers the metrics related to QoS. It is based on the similarities between the packet forwarding process in the NDN architecture and the behavior of ants when finding the shortest path between their nest and food sources. The techniques used to design this strategy are based on optimization approaches used "ant colonies" algorithms.Finally, in the last part of the thesis, we generalize the approach described above to extend it to the simultaneous consideration of several QoS parameters. Based on these principles, this approach was later extended to solving problems related to congestion.The results show the effectiveness of the proposed solutions in an NDN architecture and thus allow to consider QoS parameters in packet delivery mechanisms paving the way for various content-oriented applications on this architecture
22

Coelho, Rodrigues Pedro Luiz. "Exploration des invariances de séries temporelles multivariées via la géométrie Riemannienne : validation sur des données EEG." Electronic Thesis or Diss., Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAT095.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’utilisation de séries temporelles multi-variées est une procédure standard pour décrire et analyser des mesures enregistrées par plusieurs capteurs au cours d’une expérience. Dans ce travail, nous discutons certains aspects de ces représentations temporelles, invariants aux transformations qui peuvent se produire en situations pratiques. Nos recherches s’inspirent en grande partie d’expériences neurophysiologiques reposant sur l’enregistrement de l’activité cérébrale au moyen de l'électroencéphalographie (EEG), mais les idées que nous présentons ne sont pas restreintes à ce cas particulier et peuvent s’étendre à d'autres types de séries temporelles.La première invariance sur laquelle nous portons notre attention est celle de la dimensionalité des séries temporelles multi-variées. Bien souvent, les signaux enregistrés par des capteurs voisins présentent une forte dépendance statistique entre eux. Nous introduisons donc l’utilisation de techniques permettant d’éliminer la redondance des signaux corrélés et d’obtenir de nouvelles représentations du même phénomène en dimension réduite.La deuxième invariance que nous traitons est liée à des séries temporelles qui décrivent le même phénomène mais sont enregistrées dans des conditions expérimentales différentes. Par exemple, des signaux enregistrés avec le même appareil expérimental, mais à différents jours de la semaine ou sur différents sujets, etc. Dans de tels cas, malgré une variabilité sous-jacente, les séries temporelles multi-variées partagent certains points communs qui peuvent être exploités par une analyse conjointe. En outre, la réutilisation des informations déjà disponibles à partir d'autres jeux de données est une idée très séduisante et permet l’utilisation de méthodes d'apprentissage automatiques dites «data-efficient». Nous présentons une procédure originale d’apprentissage par transfert qui transforme les séries temporelles de telle sorte que leurs distributions statistiques soient alignées et puissent être regroupées pour une analyse statistique plus poussée.Enfin, nous étendons le cas précédent au contexte où les séries temporelles sont obtenues à partir de différentes conditions expérimentales et de différentes configurations d’enregistrement de données. Nous présentons une méthode originale qui transforme ces séries temporelles multi-variées afin qu'elles deviennent compatibles en termes de dimensionalité et de distributions statistiques.Nous illustrons les techniques citées ci-dessus en les appliquant à des signaux EEG enregistrés dans le cadre d’expériences d’interface cerveau-ordinateur (BCI). Nous montrons sur plusieurs exemples, avec des simulations et des données réelles, que la réduction de dimension - judicieusement choisie - de la série temporelle multi-variée n’affecte pas les performances de classifieurs statistiques utilisés pour déterminer la classe des signaux, et que notre méthode de transfert d'apprentissage et de compatibilité de dimensionalité apporte des améliorations remarquables en matière de classification inter-sessions et inter-sujets.Pour explorer les invariances présentées ci-dessus, nous nous appuyons sur l’utilisation de matrices Hermitiennes définies positives (HPD) afin de décrire les statistiques des séries temporelles multi-variées. Nous manipulons ces matrices en considérant qu’elles reposent dans une variété Riemannienne pour laquelle une métrique adéquate est choisie. Nous utilisons des concepts issus de la géométrie Riemannienne pour définir des notions telles que la distance géodésique, le centre de masse ou encore les classifieurs statistiques de séries temporelles. Cette approche repose sur les résultats fondamentaux de la géométrie différentielle pour les matrices Hermitiennes définies positives et est liée à d'autres domaines bien établis en mathématiques appliquées, tels que la géométrie de l'information et le traitement du signal
Multivariate time series are the standard tool for describing and analysing measurements from multiple sensors during an experiment. In this work, we discuss different aspects of such representations that are invariant to transformations occurring in practical situations. The main source of inspiration for our investigations are experiments with neural signals from electroencephalography (EEG), but the ideas that we present are amenable to other kinds of time series.The first invariance that we consider concerns the dimensionality of the multivariate time series. Very often, signals recorded from neighbouring sensors present strong statistical dependency between them. We present techniques for disposing of the redundancy of these correlated signals and obtaining new multivariate time series that represent the same phenomenon but in a smaller dimension.The second invariance that we treat is related to time series describing the same phenomena but recorded under different experimental conditions. For instance, signals recorded with the same experimental apparatus but on different days of the week, different test subjects, etc. In such cases, despite an underlying variability, the multivariate time series share certain commonalities that can be exploited for joint analysis. Moreover, reusing information already available from other datasets is a very appealing idea and allows for “data-efficient” machine learning methods. We present an original transfer learning procedure that transforms these time series so that their statistical distributions become aligned and can be pooled together for further statistical analysis.Finally, we extend the previous case to when the time series are obtained from different experimental conditions and also different experimental setups. A practical example is having EEG recordings from subjects executing the same cognitive task but with the electrodes positioned differently. We present an original method that transforms these multivariate time series so that they become compatible in terms of dimensionality and also in terms of statistical distributions.We illustrate the techniques described above on EEG epochs recorded during brain-computer interface (BCI) experiments. We show examples where the reduction of the multivariate time series does not affect the performance of statistical classifiers used to distinguish their classes, as well as instances where our transfer learning and dimension-matching proposals provide remarkable results on classification in cross-session and cross-subject settings.For exploring the invariances presented above, we rely on a framework that parametrizes the statistics of the multivariate time series via Hermitian positive definite (HPD) matrices. We manipulate these matrices by considering them in a Riemannian manifold in which an adequate metric is chosen. We use concepts from Riemannian geometry to define notions such as geodesic distance, center of mass, and statistical classifiers for time series. This approach is rooted on fundamental results of differential geometry for Hermitian positive definite matrices and has links with other well established areas in applied mathematics, such as information geometry and signal processing
23

Loeffel, Pierre-Xavier. "Algorithmes de machine learning adaptatifs pour flux de données sujets à des changements de concept." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066496.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous considérons le problème de la classification supervisée sur un flux de données sujets à des changements de concepts. Afin de pouvoir apprendre dans cet environnement, nous pensons qu’un algorithme d’apprentissage doit combiner plusieurs caractéristiques. Il doit apprendre en ligne, ne pas faire d’hypothèses sur le concept ou sur la nature des changements de concepts et doit être autorisé à s’abstenir de prédire lorsque c’est nécessaire. Les algorithmes en ligne sont un choix évident pour traiter les flux de données. De par leur structure, ils sont capables de continuellement affiner le modèle appris à l’aide des dernières observations reçues. La structure instance based a des propriétés qui la rende particulièrement adaptée pour traiter le problème des flux de données sujet à des changements de concept. En effet, ces algorithmes font très peu d’hypothèses sur la nature du concept qu’ils essaient d’apprendre ce qui leur donne une flexibilité qui les rend capable d’apprendre un vaste éventail de concepts. Une autre force est que stocker certaines des observations passées dans la mémoire peux amener de précieuses meta-informations qui pourront être utilisées par la suite par l’algorithme. Enfin, nous mettons en valeur l’importance de permettre à un algorithme d’apprentissage de s’abstenir de prédire lorsque c’est nécessaire. En effet, les changements de concepts peuvent être la source de beaucoup d’incertitudes et, parfois, l’algorithme peux ne pas avoir suffisamment d’informations pour donner une prédiction fiable
In this thesis, we investigate the problem of supervised classification on a data stream subject to concept drifts. In order to learn in this environment, we claim that a successful learning algorithm must combine several characteristics. It must be able to learn and adapt continuously, it shouldn’t make any assumption on the nature of the concept or the expected type of drifts and it should be allowed to abstain from prediction when necessary. On-line learning algorithms are the obvious choice to handle data streams. Indeed, their update mechanism allows them to continuously update their learned model by always making use of the latest data. The instance based (IB) structure also has some properties which make it extremely well suited to handle the issue of data streams with drifting concepts. Indeed, IB algorithms make very little assumptions about the nature of the concept they are trying to learn. This grants them a great flexibility which make them likely to be able to learn from a wide range of concepts. Another strength is that storing some of the past observations into memory can bring valuable meta-informations which can be used by an algorithm. Furthermore, the IB structure allows the adaptation process to rely on hard evidences of obsolescence and, by doing so, adaptation to concept changes can happen without the need to explicitly detect the drifts. Finally, in this thesis we stress the importance of allowing the learning algorithm to abstain from prediction in this framework. This is because the drifts can generate a lot of uncertainties and at times, an algorithm might lack the necessary information to accurately predict
24

Meghnoudj, Houssem. "Génération de caractéristiques à partir de séries temporelles physiologiques basée sur le contrôle optimal parcimonieux : application au diagnostic de maladies et de troubles humains." Electronic Thesis or Diss., Université Grenoble Alpes, 2024. http://www.theses.fr/2024GRALT003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, une nouvelle méthodologie a été proposée pour la génération de caractéristiques à partir de signaux physiologiques afin de contribuer au diagnostic d'une variété de maladies cérébrales et cardiaques. Basée sur le contrôle optimal parcimonieux, la génération de caractéristiques dynamiques parcimonieuses (SDF) s'inspire du fonctionnement du cerveau. Le concept fondamental de la méthode consiste à décomposer le signal de manière parcimonieuse en modes dynamiques qui peuvent être activés et/ou désactivés au moment approprié avec l'amplitude adéquate. Cette décomposition permet de changer le point de vue sur les données en donnant accès à des caractéristiques plus informatives qui sont plus fidèles au concept de production des signaux cérébraux. Néanmoins, la méthode reste générique et polyvalente puisqu'elle peut être appliquée à un large éventail de signaux. Les performances de la méthode ont été évaluées sur trois problématiques en utilisant des données réelles accessibles publiquement, en abordant des scénarios de diagnostic liés à : (1) la maladie de Parkinson, (2) la schizophrénie et (3) diverses maladies cardiaques. Pour les trois applications, les résultats sont très concluants, puisqu'ils sont comparables aux méthodes de l'état de l'art tout en n'utilisant qu'un petit nombre de caractéristiques (une ou deux pour les applications sur le cerveau) et un simple classifieur linéaire suggérant la robustesse et le bien-fondé des résultats. Il convient de souligner qu'une attention particulière a été accordée à l'obtention de résultats cohérents et significatifs avec une explicabilité sous-jacente
In this thesis, a novel methodology for features generation from physiological signals (EEG, ECG) has been proposed that is used for the diagnosis of a variety of brain and heart diseases. Based on sparse optimal control, the generation of Sparse Dynamical Features (SDFs) is inspired by the functioning of the brain. The method's fundamental concept revolves around sparsely decomposing the signal into dynamical modes that can be switched on and off at the appropriate time instants with the appropriate amplitudes. This decomposition provides a new point of view on the data which gives access to informative features that are faithful to the brain functioning. Nevertheless, the method remains generic and versatile as it can be applied to a wide range of signals. The methodology's performance was evaluated on three use cases using openly accessible real-world data: (1) Parkinson's Disease, (2) Schizophrenia, and (3) various cardiac diseases. For all three applications, the results are highly conclusive, achieving results that are comparable to the state-of-the-art methods while using only few features (one or two for brain applications) and a simple linear classifier supporting the significance and reliability of the findings. It's worth highlighting that special attention has been given to achieving significant and meaningful results with an underlying explainability
25

Qamar, Ali Mustafa. "Mesures de similarité et cosinus généralisé : une approche d'apprentissage supervisé fondée sur les k plus proches voisins." Phd thesis, Grenoble, 2010. http://www.theses.fr/2010GRENM083.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les performances des algorithmes d'apprentissage automatique dépendent de la métrique utilisée pour comparer deux objets, et beaucoup de travaux ont montré qu'il était préférable d'apprendre une métrique à partir des données plutôt que se reposer sur une métrique simple fondée sur la matrice identité. Ces résultats ont fourni la base au domaine maintenant qualifié d'apprentissage de métrique. Toutefois, dans ce domaine, la très grande majorité des développements concerne l'apprentissage de distances. Toutefois, dans certaines situations, il est préférable d'utiliser des similarités (par exemple le cosinus) que des distances. Il est donc important, dans ces situations, d'apprendre correctement les métriques à la base des mesures de similarité. Il n'existe pas à notre connaissance de travaux complets sur le sujet, et c'est une des motivations de cette thèse. Dans le cas des systèmes de filtrage d'information où le but est d'affecter un flot de documents à un ou plusieurs thèmes prédéfinis et où peu d'information de supervision est disponible, des seuils peuvent être appris pour améliorer les mesures de similarité standard telles que le cosinus. L'apprentissage de tels seuils représente le premier pas vers un apprentissage complet des mesures de similarité. Nous avons utilisé cette stratégie au cours des campagnes CLEF INFILE 2008 et 2009, en proposant des versions en ligne et batch de nos algorithmes. Cependant, dans le cas où l'on dispose de suffisamment d'information de supervision, comme en catégorisation, il est préférable d'apprendre des métriques complètes, et pas seulement des seuils. Nous avons développé plusieurs algorithmes qui visent à ce but dans le cadre de la catégorisation à base de k plus proches voisins. Nous avons tout d'abord développé un algorithme, SiLA, qui permet d'apprendre des similarités non contraintes (c'est-à-dire que la mesure peut être symétrique ou non). SiLA est une extension du perceptron par vote et permet d'apprendre des similarités qui généralisent le cosinus, ou les coefficients de Dice ou de Jaccard. Nous avons ensuite comparé SiLA avec RELIEF, un algorithme standard de re-pondération d'attributs, dont le but n'est pas sans lien avec l'apprentissage de métrique. En effet, il a récemment été suggéré par Sun et Wu que RELIEF pouvait être considéré comme un algorithme d'apprentissage de métrique avec pour fonction objectif une approximation de la fonction de perte 0-1. Nous montrons ici que cette approximation est relativement mauvaise et peut être avantageusement remplacée par une autre, qui conduit à un algorithme dont les performances sont meilleures. Nous nous sommes enfin intéressés à une extension directe du cosinus, extension définie comme la forme normalisée d'un produit scalaire dans un espace projeté. Ce travail a donné lieu à l'algorithme gCosLA. Nous avons testé tous nos algorithmes sur plusieurs bases de données. Un test statistique, le s-test, est utilisé pour déterminer si les différences entre résultats sont significatives ou non. GCosLA est l'algorithme qui a fourni les meilleurs résultats. De plus, SiLA et gCosLA se comparent avantageusement à plusieurs algorithmes standard, ce qui illustre leur bien fondé
Almost all machine learning problems depend heavily on the metric used. Many works have proved that it is a far better approach to learn the metric structure from the data rather than assuming a simple geometry based on the identity matrix. This has paved the way for a new research theme called metric learning. Most of the works in this domain have based their approaches on distance learning only. However some other works have shown that similarity should be preferred over distance metrics while dealing with textual datasets as well as with non-textual ones. Being able to efficiently learn appropriate similarity measures, as opposed to distances, is thus of high importance for various collections. If several works have partially addressed this problem for different applications, no previous work is known which has fully addressed it in the context of learning similarity metrics for kNN classification. This is exactly the focus of the current study. In the case of information filtering systems where the aim is to filter an incoming stream of documents into a set of predefined topics with little supervision, cosine based category specific thresholds can be learned. Learning such thresholds can be seen as a first step towards learning a complete similarity measure. This strategy was used to develop Online and Batch algorithms for information filtering during the INFILE (Information Filtering) track of the CLEF (Cross Language Evaluation Forum) campaign during the years 2008 and 2009. However, provided enough supervised information is available, as is the case in classification settings, it is usually beneficial to learn a complete metric as opposed to learning thresholds. To this end, we developed numerous algorithms for learning complete similarity metrics for kNN classification. An unconstrained similarity learning algorithm called SiLA is developed in which case the normalization is independent of the similarity matrix. SiLA encompasses, among others, the standard cosine measure, as well as the Dice and Jaccard coefficients. SiLA is an extension of the voted perceptron algorithm and allows to learn different types of similarity functions (based on diagonal, symmetric or asymmetric matrices). We then compare SiLA with RELIEF, a well known feature re-weighting algorithm. It has recently been suggested by Sun and Wu that RELIEF can be seen as a distance metric learning algorithm optimizing a cost function which is an approximation of the 0-1 loss. We show here that this approximation is loose, and propose a stricter version closer to the the 0-1 loss, leading to a new, and better, RELIEF-based algorithm for classification. We then focus on a direct extension of the cosine similarity measure, defined as a normalized scalar product in a projected space. The associated algorithm is called generalized Cosine simiLarity Algorithm (gCosLA). All of the algorithms are tested on many different datasets. A statistical test, the s-test, is employed to assess whether the results are significantly different. GCosLA performed statistically much better than SiLA on many of the datasets. Furthermore, SiLA and gCosLA were compared with many state of the art algorithms, illustrating their well-foundedness
26

Vo, Nguyen Dang Khoa. "Compression vidéo basée sur l'exploitation d'un décodeur intelligent." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4136/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse de doctorat étudie le nouveau concept de décodeur intelligent (SDec) dans lequel le décodeur est doté de la possibilité de simuler l’encodeur et est capable de mener la compétition R-D de la même manière qu’au niveau de l’encodeur. Cette technique vise à réduire la signalisation des modes et des paramètres de codage en compétition. Le schéma général de codage SDec ainsi que plusieurs applications pratiques sont proposées, suivis d’une approche en amont qui exploite l’apprentissage automatique pour le codage vidéo. Le schéma de codage SDec exploite un décodeur complexe capable de reproduire le choix de l’encodeur calculé sur des blocs de référence causaux, éliminant ainsi la nécessité de signaler les modes de codage et les paramètres associés. Plusieurs applications pratiques du schéma SDec sont testées, en utilisant différents modes de codage lors de la compétition sur les blocs de référence. Malgré un choix encore simple et limité des blocs de référence, les gains intéressants sont observés. La recherche en amont présente une méthode innovante qui permet d’exploiter davantage la capacité de traitement d’un décodeur. Les techniques d’apprentissage automatique sont exploitées pour but de réduire la signalisation. Les applications pratiques sont données, utilisant un classificateur basé sur les machines à vecteurs de support pour prédire les modes de codage d’un bloc. La classification des blocs utilise des descripteurs causaux qui sont formés à partir de différents types d’histogrammes. Des gains significatifs en débit sont obtenus, confirmant ainsi le potentiel de l’approche
This Ph.D. thesis studies the novel concept of Smart Decoder (SDec) where the decoder is given the ability to simulate the encoder and is able to conduct the R-D competition similarly as in the encoder. The proposed technique aims to reduce the signaling of competing coding modes and parameters. The general SDec coding scheme and several practical applications are proposed, followed by a long-term approach exploiting machine learning concept in video coding. The SDec coding scheme exploits a complex decoder able to reproduce the choice of the encoder based on causal references, eliminating thus the need to signal coding modes and associated parameters. Several practical applications of the general outline of the SDec scheme are tested, using different coding modes during the competition on the reference blocs. Despite the choice for the SDec reference block being still simple and limited, interesting gains are observed. The long-term research presents an innovative method that further makes use of the processing capacity of the decoder. Machine learning techniques are exploited in video coding with the purpose of reducing the signaling overhead. Practical applications are given, using a classifier based on support vector machine to predict coding modes of a block. The block classification uses causal descriptors which consist of different types of histograms. Significant bit rate savings are obtained, which confirms the potential of the approach
27

Frouin, Arthur. "Lien entre héritabilité et prédiction de phénotypes complexes chez l’humain : une approche du problème par la régression ridge sur des données de population." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASL027.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse étudie l'apport des méthodes d'apprentissage automatique pour la prédiction de phénotypes humains complexes et héritables, à partir de données génétiques en population. En effet, les études d'association à l'échelle du génome (GWAS) n'expliquent en général qu'une petite fraction de l'héritabilité observée sur des données familiales. Cependant l'héritabilité peut être approchée sur des données de population par l'héritabilité génomique, qui estime la variance phénotypique expliquée par l'ensemble des polymorphismes nucléotidiques (SNP) du génome à l'aide de modèles mixtes. Cette thèse aborde donc l'héritabilité du point de vue de l'apprentissage automatique et examine le lien étroit entre les modèles mixtes et la régression ridge. Notre contribution est double. Premièrement, nous proposons d'estimer l'héritabilité génomique en utilisant une approche prédictive via la régression ridge et la validation croisée généralisée (GCV). Deuxièmement, nous dérivons des formules simples qui expriment la précision de la prédiction par la régression ridge en fonction du rapport de la taille de la population et du nombre total de SNP, montrant clairement qu'une héritabilité élevée n'implique pas nécessairement une prédiction précise. L'estimation de l'héritabilité via GCV et les formules de précision de prédiction sont validées à l'aide de données simulées et de données réelles de UK Biobank. La dernière partie de la thèse présente des résultats sur des phénotypes qualitatifs. Ces résultats permettent une meilleure compréhension des biais des méthodes d'estimation d'héritabilité
This thesis studies the contribution of machine learning methods for the prediction of complex and heritable human phenotypes, from population genetic data. Indeed, genome-wide association studies (GWAS) generally only explain a small fraction of the heritability observed in family data. However, heritability can be approximated on population data by genomic heritability, which estimates the phenotypic variance explained by the set of single nucleotide polymorphisms (SNPs) of the genome using mixed models. This thesis therefore approaches heritability from a machine learning perspective and examines the close link between mixed models and ridge regression.Our contribution is twofold. First, we propose to estimate genomic heritability using a predictive approach via ridge regression and generalized cross validation (GCV). Second, we derive simple formulas that express the precision of the ridge regression prediction as a function of the size of the population and the total number of SNPs, showing that a high heritability does not necessarily imply an accurate prediction. Heritability estimation via GCV and prediction precision formulas are validated using simulated data and real data from UK Biobank. The last part of the thesis presents results on qualitative phenotypes. These results allow a better understanding of the biases of the heritability estimation methods
28

Muzeau, Julien. "Système de vision pour la sécurité des personnes sur les remontées mécaniques." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT075.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Devant l'augmentation de la fréquentation des domaines skiables et la multiplication des accidents sur les remontées mécaniques imputés au comportement humain, la sécurité est devenue un enjeu majeur des gérants de stations.Pour lutter contre ce phénomène, la start-up grenobloise Bluecime a développé un système de vision par ordinateur, baptisé SIVAO, capable de détecter une situation dangereuse lors de l'embarquement d'une remontée mécanique. Le fonctionnement du système se décompose en trois étapes. D'abord, le siège (ou véhicule) est détecté dans l'image. Par la suite, la présence de skieurs sur ce dernier est confirmée ou infirmée. Enfin, la position du garde-corps est déterminée. Si des passagers sont présents sur le véhicule et si le garde-corps n'est pas abaissé, alors la situation est considérée comme dangereuse. Dans ce cas, une alarme est déclenchée afin d'alerter les skieurs ou l'opérateur qui peut alors ralentir le télésiège pour sécuriser le véhicule.Malgré des résultats convaincants, de nombreuses difficultés s'opposent à SIVAO : variabilités diverses (taille du véhicule, orientation de l’embarquement, conditions météorologiques, nombre de passagers), vibrations de la caméra, configuration complexe dans le cadre d'une nouvelle installation, etc.Le projet MIVAO, en partenariat avec le laboratoire Hubert Curien, l'entreprise Bluecime et le groupe Sofival, a donc vu le jour dans le but de pallier les difficultés précédentes. L'objectif est de construire une intelligence artificielle capable de détecter, voire d'anticiper, une situation dangereuse à bord de véhicules d'un télésiège, dans le but d'assurer la sécurité des passagers. Au sein de ce projet, l'objectif général du Gipsa-lab est l'annotation automatique, de la manière la moins supervisée possible, de vidéos de rémontées mécaniques.Premièrement, nous présentons une méthode de classification visant à confirmer ou infirmer la présence de passagers sur chaque véhicule. Cette information préliminaire est en effet cruciale dans l'analyse d'un danger potentiel. La technique proposée repose sur des caractéristiques fabriquées à la main et interprétables physiquement. Nous montrons qu'en incluant des connaissances a priori, les résultats obtenus concurrencent ceux issus de réseaux de neurones complexes, tout en permettant un fonctionnement en temps-réel.Ensuite, nous détaillons un processus pour le comptage des passagers de chaque véhicule de la manière la plus non-supervisée possible. Ce processus consiste en une première étape de réduction de dimension, suivie d'une procédure de partitionnement de données. Cette dernière vise dans le cadre de notre projet à regrouper les passages dont les véhicules transportent le même nombre de passagers. Par la suite, nous pouvons déduire, à partir d'un nombre réduit d'étiquettes fournies manuellement, le nombre de personnes présentes lors de chaque passage. On détaille notamment deux algorithmes développés durant cette thèse. Le premier algorithme propose une généralisation de la méthode de clustering par densité DBSCAN via l'introduction du concept de voisinage ellipsoïdal. Le deuxième concilie les clusterings par mélange Gaussien et spectral dans le but de découvrir des groupes de données non-convexes.Dans un dernier temps, nous abordons le problème de l'extraction automatique des véhicules dans les images issues de la caméra, ainsi que de la modélisation de leur trajectoire. Pour ce faire, nous proposons une première méthode qui consiste à supprimer le bruit du flux optique grâce à l'utilisation de la déformation optique. On présente également une technique permettant de déterminer automatiquement la durée d'un passage de véhicule via une analyse fréquentielle.De plus, nous détaillons un effort d'annotations, travail visant à détourer, au niveau pixel, les passagers et véhicules de séquences de quarante images consécutives
With the increase in the number of visitors in mountain ranges and the multiplication of accidents on skilifts attributed to human behavior, safety has become a major issue for resort managers.To fight this phenomenon, the start-up from Grenoble Bluecime developed a computer vision system, named SIVAO, which is able to detect a hazardous situation at the boarding of a skilift. The operation of the system breaks down into three steps. First, the chair (or vehicle) is detected in the image. Then, the presence of passengers is confirmed or invalidated. Finally, the position of the security railing is determined. If passengers are present on the vehicle and if the security railing is not down, then the situation is considered as hazardous. In that case, an alarm is triggered, in order to inform the skiers or the operator who can slow down the skilift to secure the vehicle.Despite convincing results, numerous difficulties have to be overcome by SIVAO: various variabilities (vehicle size, boarding orientation, meteorological conditions, number of passengers), camera vibration, complex configuration in the context of a new plant, etc.The MIVAO project, in partnership with the Hubert Curien laboratory, the Bluecime start-up and the Sofival company, was born in order to overcome the previous challenges. The goal is to build an artificial intelligence able to detect, even anticipate, a hazardous situation on vehicles of a skilift, in order to guarantee the security of passengers. Within this project, the general goal of the Gipsa-lab is the automatic annotation, in the least supervised way possible, of chairlift videos.Firstly, we present a classification method whose aim is to confirm or invalidate the presence of passengers on each vehicle. In fact, this preliminary information is critical for the analysis of a potential danger. The proposed technique is based on hand-made features which have a physical interpretation. We show that, by including a priori knowledge, the obtained results are comptetitive against those from complex neural networks, allowing real-time functioning as well.Then, we detail a process for passenger counting on each vehicle in the most unsupervised way possible. This pipeline consists in a dimensionality reduction step followed by a data clustering stage. The latter aims, in the context of our project, at gathering tracks whose vehicles carry the same number of passengers. One can then deduce, from a small number of labels obtained by hand, the number of people present during each track. In particular, we detail two algorithms developed during this thesis. The first one proposes a generalisation of the density-based clustering method DBSCAN, via the introduction of the concept of ellipsoidal neighborhood. The second conciliates Gaussian mixture and spectral clusterings so as to discover non-convex data groups.Finally, we address the problem of automatic extraction of vehicles from camera images, as well as the modeling of their trajectory. To do this, we propose a first method which consists in removing the noise from the optical flow by means of the optical strain. We also present a technique for automatically determining the duration of a vehicle track via frequency analysis.Moreover, we detail an annotation work whose objective is to define clipping paths, pixel by pixel, over the passengers and vehicles in sequences of fourty consecutive images
29

Shahzad, Atif. "Une Approche Hybride de Simulation-Optimisation Basée sur la fouille de Données pour les problèmes d'ordonnancement." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00647353.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Une approche hybride basée sur la fouille de données pour découvrir de nouvelles règles de priorité pour le problème l'ordonnancement job-shop est présentée. Cette approche est basée sur la recherche de connaissances supposées être intégrés dans les solutions efficaces fournies par un module d'optimisation préalablement mis en oeuvre et utilisant la recherche tabou. L'objectif est de découvrir les principes directeurs de l'ordonnancement à l'aide de la fouille de données et donc d'obtenir un ensemble de règles capables d'obtenir des solutions efficaces pour un problème d'ordonnancement. Une structure basée sur fouille de données est présentée et mise en œuvre pour un problème de job shop avec comme objectifs le retard maximum et le retard moyen. Les résultats obtenus sont très prometteurs.
30

Sellami, Akrem. "Interprétation sémantique d'images hyperspectrales basée sur la réduction adaptative de dimensionnalité." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2017. http://www.theses.fr/2017IMTA0037/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'imagerie hyperspectrale permet d'acquérir des informations spectrales riches d'une scène dans plusieurs centaines, voire milliers de bandes spectrales étroites et contiguës. Cependant, avec le nombre élevé de bandes spectrales, la forte corrélation inter-bandes spectrales et la redondance de l'information spectro-spatiale, l'interprétation de ces données hyperspectrales massives est l'un des défis majeurs pour la communauté scientifique de la télédétection. Dans ce contexte, le grand défi posé est la réduction du nombre de bandes spectrales inutiles, c'est-à-dire de réduire la redondance et la forte corrélation de bandes spectrales tout en préservant l'information pertinente. Par conséquent, des approches de projection visent à transformer les données hyperspectrales dans un sous-espace réduit en combinant toutes les bandes spectrales originales. En outre, des approches de sélection de bandes tentent à chercher un sous-ensemble de bandes spectrales pertinentes. Dans cette thèse, nous nous intéressons d'abord à la classification d'imagerie hyperspectrale en essayant d'intégrer l'information spectro-spatiale dans la réduction de dimensions pour améliorer la performance de la classification et s'affranchir de la perte de l'information spatiale dans les approches de projection. De ce fait, nous proposons un modèle hybride permettant de préserver l'information spectro-spatiale en exploitant les tenseurs dans l'approche de projection préservant la localité (TLPP) et d'utiliser l'approche de sélection non supervisée de bandes spectrales discriminantes à base de contraintes (CBS). Pour modéliser l'incertitude et l'imperfection entachant ces approches de réduction et les classifieurs, nous proposons une approche évidentielle basée sur la théorie de Dempster-Shafer (DST). Dans un second temps, nous essayons d'étendre le modèle hybride en exploitant des connaissances sémantiques extraites à travers les caractéristiques obtenues par l'approche proposée auparavant TLPP pour enrichir la sélection non supervisée CBS. En effet, l'approche proposée permet de sélectionner des bandes spectrales pertinentes qui sont à la fois informatives, discriminantes, distinctives et peu redondantes. En outre, cette approche sélectionne les bandes discriminantes et distinctives en utilisant la technique de CBS en injectant la sémantique extraite par les techniques d'extraction de connaissances afin de sélectionner d'une manière automatique et adaptative le sous-ensemble optimal de bandes spectrales pertinentes. La performance de notre approche est évaluée en utilisant plusieurs jeux des données hyperspectrales réelles
Hyperspectral imagery allows to acquire a rich spectral information of a scene in several hundred or even thousands of narrow and contiguous spectral bands. However, with the high number of spectral bands, the strong inter-bands spectral correlation and the redundancy of spectro-spatial information, the interpretation of these massive hyperspectral data is one of the major challenges for the remote sensing scientific community. In this context, the major challenge is to reduce the number of unnecessary spectral bands, that is, to reduce the redundancy and high correlation of spectral bands while preserving the relevant information. Therefore, projection approaches aim to transform the hyperspectral data into a reduced subspace by combining all original spectral bands. In addition, band selection approaches attempt to find a subset of relevant spectral bands. In this thesis, firstly we focus on hyperspectral images classification attempting to integrate the spectro-spatial information into dimension reduction in order to improve the classification performance and to overcome the loss of spatial information in projection approaches.Therefore, we propose a hybrid model to preserve the spectro-spatial information exploiting the tensor model in the locality preserving projection approach (TLPP) and to use the constraint band selection (CBS) as unsupervised approach to select the discriminant spectral bands. To model the uncertainty and imperfection of these reduction approaches and classifiers, we propose an evidential approach based on the Dempster-Shafer Theory (DST). In the second step, we try to extend the hybrid model by exploiting the semantic knowledge extracted through the features obtained by the previously proposed approach TLPP to enrich the CBS technique. Indeed, the proposed approach makes it possible to select a relevant spectral bands which are at the same time informative, discriminant, distinctive and not very redundant. In fact, this approach selects the discriminant and distinctive spectral bands using the CBS technique injecting the extracted rules obtained with knowledge extraction techniques to automatically and adaptively select the optimal subset of relevant spectral bands. The performance of our approach is evaluated using several real hyperspectral data
31

Derksen, Dawa. "Classification contextuelle de gros volumes de données d'imagerie satellitaire pour la production de cartes d'occupation des sols sur de grandes étendues." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30290.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail étudie l'application de la classification supervisée pour la production de cartes d'occupation des sols à partir de séries temporelles d'images satellitaires à haute résolution spatiale, spectrale, et temporelle. Sur ce problème, certaines classes, par exemple, les classes urbaines, dépendent plus du contexte des pixels que de leur contenu. L'enjeu de la thèse est la prise en compte du voisinage du pixel, pour améliorer la précision de ces classes. Cette recherche nous mène dans un premier temps à questionner la définition du voisinage, et à imaginer différentes formes. Ensuite, il s'agit de décrire le voisinage, c'est à dire de créer une représentation ou un modèle qui permette de reconnaître les classes ciblées. Les combinaisons de ces deux aspects sont évaluées sur deux jeux de données expérimentales, un sur de l'imagerie Sentinel-2, et un sur une image SPOT-7
This work studies the application of supervised classification for the production of land cover maps using time series of satellite images at high spatial, spectral, and temporal resolutions. On this problem, certain classes such as urban cover, depend more on the context of the pixel than its content. The issue of this Ph.D. work is therefore to take into account the neighborhood of the pixel, to improve the recognition rates of these classes. This research first leads to question the definition of the context, and to imagine different possible shapes for it. Then comes describing the context, that is to say to create a representation or a model that allows the target classes to be recognized. The combinations of these two aspects are evaluated on two experimental data sets, one on Sentinel-2 images, and the other on SPOT-7 images
32

Zhao, Zilong. "Extracting knowledge from macroeconomic data, images and unreliable data." Thesis, Université Grenoble Alpes, 2020. http://www.theses.fr/2020GRALT074.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'identification de système et l'apprentissage automatique sont deux concepts similaires utilisés indépendamment dans la communauté automatique et informatique. L'identification des systèmes construit des modèles à partir de données mesurées. Les algorithmes d'apprentissage automatique construisent des modèles basés sur des données d'entraînement (propre ou non), afin de faire des prédictions sans être explicitement programmé pour le faire. Sauf la précision de prédiction, la vitesse de convergence et la stabilité sont deux autres facteurs clés pour évaluer le processus de l'apprentissage, en particulier dans le cas d'apprentissage en ligne, et ces propriétés ont déjà été bien étudiées en théorie du contrôle. Donc, cette thèse implémente des recherches suivantes : 1) Identification du système et contrôle optimal des données macroéconomiques : Nous modélisons d'abord les données macroéconomiques chinoises sur le modèle VAR (Vector Auto-Regression), puis identifions la relation de cointégration entre les variables et utilisons le Vector Error Correction Model (VECM) pour étudier le court terme fluctuations autour de l'équilibre à long terme, la causalité de Granger est également étudiée avec VECM. Ce travail révèle la tendance de la transition de la croissance économique de la Chine : de l'exportation vers la consommation ; La deuxième étude est avec des données de la France. On représente le modèle dans l'espace d'états, mettons le modèle dans un cadre de feedback-control, le contrôleur est conçu par un régulateur linéaire-quadratique (LQR). On peut également imposer des perturbations sur les sorties et des contraintes sur les entrées, ce qui simule la situation réelle de crise économique. 2) Utilisation de la théorie du contrôle pour améliorer l'apprentissage en ligne du réseau neuronal profond : Nous proposons un algorithme de taux d'apprentissage basé sur les performances : E (Exponential)/PD (Proportional Derivative) contrôle, qui considère le Convolutional Neural Network (CNN) comme une plante, taux d'apprentissage comme signal de commande et valeur de loss comme signal d'erreur. Le résultat montre que E/PD surpasse l'état de l'art en termes de précision finale, de loss finale et de vitesse de convergence, et le résultat est également plus stable. Cependant, une observation des expériences E/PD est que le taux d'apprentissage diminue tandis que la loss diminue continuellement. Mais la loss diminue, le modèle s’approche d’optimum, on ne devait pas diminuer le taux d'apprentissage. Pour éviter cela, nous proposons un event-based E/PD. Le résultat montre qu'il améliore E/PD en précision finale, loss finale et vitesse de convergence ; Une autre observation de l'expérience E/PD est que l'apprentissage en ligne fixe des époques constantes pour chaque batch. Puisque E/PD converge rapidement, l'amélioration significative ne vient que des époques initiales. Alors, nous proposons un autre event-based E/PD, qui inspecte la loss historique. Le résultat montre qu'il peut épargner jusqu'à 67% d'époques sur la donnée CIFAR-10 sans dégrader beaucoup les performances.3) Apprentissage automatique à partir de données non fiables : Nous proposons un cadre générique : Robust Anomaly Detector (RAD), la partie de sélection des données de RAD est un cadre à deux couches, où la première couche est utilisée pour filtrer les données suspectes, et la deuxième couche détecte les modèles d'anomalie à partir des données restantes. On dérive également trois variantes de RAD : voting, active learning et slim, qui utilisent des informations supplémentaires, par exempe, les opinions des classificateurs conflictuels et les requêtes d'oracles. Le résultat montre que RAD peut améliorer la performance du modèle en présence de bruit sur les étiquettes de données. Trois variations de RAD montrent qu'elles peuvent toutes améliorer le RAD original, et le RAD Active Learning fonctionne presque aussi bien que dans le cas où il n'y a pas de bruit sur les étiquettes
System identification and machine learning are two similar concepts independently used in automatic and computer science community. System identification uses statistical methods to build mathematical models of dynamical systems from measured data. Machine learning algorithms build a mathematical model based on sample data, known as "training data" (clean or not), in order to make predictions or decisions without being explicitly programmed to do so. Except prediction accuracy, converging speed and stability are another two key factors to evaluate the training process, especially in the online learning scenario, and these properties have already been well studied in control theory. Therefore, this thesis will implement the interdisciplinary researches for following topic: 1) System identification and optimal control on macroeconomic data: We first modelize the China macroeconomic data on Vector Auto-Regression (VAR) model, then identify the cointegration relation between variables and use Vector Error Correction Model (VECM) to study the short-time fluctuations around the long-term equilibrium, Granger Causality is also studied with VECM. This work reveals the trend of China's economic growth transition: from export-oriented to consumption-oriented; Due to limitation of China economic data, we turn to use France macroeconomic data in the second study. We represent the model in state-space, put the model into a feedback control framework, the controller is designed by Linear-Quadratic Regulator (LQR). The system can apply the control law to bring the system to a desired state. We can also impose perturbations on outputs and constraints on inputs, which emulates the real-world situation of economic crisis. Economists can observe the recovery trajectory of economy, which gives meaningful implications for policy-making. 2) Using control theory to improve the online learning of deep neural network: We propose a performance-based learning rate algorithm: E (Exponential)/PD (Proportional Derivative) feedback control, which consider the Convolutional Neural Network (CNN) as plant, learning rate as control signal and loss value as error signal. Results show that E/PD outperforms the state-of-the-art in final accuracy, final loss and converging speed, and the result are also more stable. However, one observation from E/PD experiments is that learning rate decreases while loss continuously decreases. But loss decreases mean model approaches optimum, we should not decrease the learning rate. To prevent this, we propose an event-based E/PD. Results show that it improves E/PD in final accuracy, final loss and converging speed; Another observation from E/PD experiment is that online learning fixes a constant training epoch for each batch. Since E/PD converges fast, the significant improvement only comes from the beginning epochs. Therefore, we propose another event-based E/PD, which inspects the historical loss, when the progress of training is lower than a certain threshold, we turn to next batch. Results show that it can save up to 67% epochs on CIFAR-10 dataset without degrading much performance. 3) Machine learning out of unreliable data: We propose a generic framework: Robust Anomaly Detector (RAD), The data selection part of RAD is a two-layer framework, where the first layer is used to filter out the suspicious data, and the second layer detects the anomaly patterns from the remaining data. We also derive three variations of RAD namely, voting, active learning and slim, which use additional information, e.g., opinions of conflicting classifiers and queries of oracles. We iteratively update the historical selected data to improve accumulated data quality. Results show that RAD can continuously improve model's performance under the presence of noise on labels. Three variations of RAD show they can all improve the original setting, and the RAD Active Learning performs almost as good as the case where there is no noise on labels
33

Jacques, Julie. "Classification sur données médicales à l'aide de méthodes d'optimisation et de datamining, appliquée au pré-screening dans les essais cliniques." Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00919876.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les données médicales souffrent de problèmes d'uniformisation ou d'incertitude, ce qui les rend difficilement utilisables directement par des logiciels médicaux, en particulier dans le cas du recrutement pour les essais cliniques. Dans cette thèse, nous proposons une approche permettant de palier la mauvaise qualité de ces données à l'aide de méthodes de classification supervisée. Nous nous intéresserons en particulier à 3 caractéristiques de ces données : asymétrie, incertitude et volumétrie. Nous proposons l'algorithme MOCA-I qui aborde ce problème combinatoire de classification partielle sur données asymétriques sous la forme d'un problème de recherche locale multi-objectif. Après avoir confirmé les apports de la modélisation multi-objectif dans ce contexte, nous calibrons MOCA-I et le comparons aux meilleurs algorithmes de classification de la littérature, sur des jeux de données réels et asymétriques de la littérature. Les ensembles de règles obtenus par MOCA-I sont statistiquement plus performants que ceux de la littérature, et 2 à 6 fois plus compacts. Pour les données ne présentant pas d'asymétrie, nous proposons l'algorithme MOCA, statistiquement équivalent à ceux de la littérature. Nous analysons ensuite l'impact de l'asymétrie sur le comportement de MOCA et MOCA-I, de manière théorique et expérimentale. Puis, nous proposons et évaluons différentes méthodes pour traiter les nombreuses solutions Pareto générées par MOCA-I, afin d'assister l'utilisateur dans le choix de la solution finale et réduire le phénomène de sur-apprentissage. Enfin, nous montrons comment le travail réalisé peut s'intégrer dans une solution logicielle.
34

Hamdan, Hani. "Développement de méthodes de classification pour le contrôle par émission acoustique d'appareils à pression." Compiègne, 2005. http://www.theses.fr/2005COMP1583.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'inscrit dans le cadre d'aide à la décision en temps réel pour le contrôle par émission acoustique des équipements sous pression. Le problème visé est la prise en compte de l'incertitude de localisation des signaux d'émission acoustique, dans la classification basée sur le modèle de mélange. Deux nouveaux algorithmes (EM et CEM pour les données incertaines) sont alors développés. Ces algorithmes se basent uniquement sur des données de type zone d'incertitude et leur développement est effectué en optimisant des nouveaux critères de vraisemblance adaptés à ce type de données. Pour accélérer le traitement des données lorsque leur taille devient très grande, nous développons également une nouvelle méthode de discrétisation de données incertaines. Cette méthode est comparée à celle classique appliquée aux données imprécises. Une étude expérimentale sur des données simulées et des données réelles met en évidence l'efficacité des différentes approches développées
This PhD thesis deals with real-time computer-aided decision for acoustic emission-based control of pressure equipments. The addressed problem is the taking into account of the location uncertainty of acoustic emission signals, in the mixture model-based clustering. Two new algorithms (EM and CEM for uncertain data) are developed. These algorithms are only based on uncertainty zone data and their development is carried out by optimizing new likelihood criteria adapted to this kind of data. In order to speed up the data processing when the data size becomes very big, we have also developed a new method for the discretization of uncertainty zone data. This method is compared with the traditional one applied to imprecise data. An experimental study using simulated and real data shows the efficiency of the various developed approaches
35

Hosni, Nadia. "De l’analyse en composantes principales fonctionnelle à l’autoencodeur convolutif profond sur les trajectoires de formes de Kendall pour l’analyse et la reconnaissance de la démarche en 3D." Thesis, Lille 1, 2020. http://www.theses.fr/2020LIL1I066.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Récemment, le développement de solutions automatiques et intelligentes pour la compréhension du contenu des vidéos et plus particulièrement pour l’analyse spatio-temporelle des mouvements Humains est au cœur de plusieurs domaines de recherche tels que les vidéos surveillances, les interactions Homme-Machine et la rééducation. Dans ce projet de thèse, nous proposons de procéder à l’analyse et la reconnaissance de la démarche en 3D qui est aussi un domaine de recherche actif en biométrie comportementale grâce au caractère non-invasif (aucune coopération de l’utilisateur), convivial (user-friendly) et bon marché de la démarche. Cette dernière a suscité plus d’intérêt avec la démocratisation de caméras de profondeurs bon marché (e.g., la Kinect), capables d’estimer en temps réel et de manière relativement précise les squelettes 3D et leurs mouvements, quand la personne est dans le champ de vue du capteur. Mais ces données squelettiques souffrent de la variabilité temporelle et spatiale. Pour faire face à ces verrous, nous proposons des nouvelles approches à partir de données squelettiques 3D où une séquence est d’abord représentée sur l’espace de formes de Kendall S par une trajectoire paramétrée par le temps. Les variabilités liées à l’échelle, la translation et la rotation sont ainsi filtrées. Cependant, vu la structure sphérique (non-linéaire) de la variété S, il n’est pas possible d’appliquer des techniques d’apprentissage automatique conventionnelle directement. C’est pourquoi nous avons eu recours à quelques outils de la géométrie riemannienne pour gérer le problème de non-linéarité. Notre première contribution présente une adaptation de l’Analyse en Composantes Principales Fonctionnelle (ACP fonctionnelle), qui tient compte de la nonlinéarité de l’espace de Kendall S. A l’issue de l’étape d’apprentissage, une nouvelle base de trajectoires principales, i.e., fonctions principales, est constituée. Étant donné une nouvelle trajectoire, elle est projetée sur cette nouvelle base avant d’être classée par une Machine à Vecteurs de Support (SVM). Les résultats expérimentaux sur différentes bases de données sont très compétitifs comparés à la littérature avec en plus une signature plus compacte et plus robuste. De plus, motivés par la puissance des réseaux de neurones et de l’apprentissage profond (Deep Learning), nous proposons, en deuxième méthode, un autoencodeur convolutif profond à caractère géométrique puisqu’il analyse les trajectoires de formes précédemment citées tout en tenant compte de la structure géométrique de notre espace de représentation. En fait, des étapes géométriques assurent que ces trajectoires peuvent être transmises à l’autoencodeur convolutif pour aboutir à une représentation compacte et discriminante permettant une bonne identification des personnes, et ce sans avoir recours à aucune technique d’alignement (e.g., DTW) ni de modélisation temporelle (e.g., HMM, RNN). Les résultats obtenus sur plusieurs bases publiques sont prometteurs par application à la reconnaissance de la démarche en 3D
In the field of Computer Vision and Pattern Recognition, human behavior understanding has attracted the attention of several research groups and specialized companies. Successful intelligent solutions will be playing an important role in applications which involve humanrobot or human-computer interaction, biometrics recognition (security), and physical performance assessment (healthcare and well-being) since it will help the human beings were their cognitive and limited capabilities cannot perform well. In my thesis project, we investigate the problem of 3D gait recognition and analysis as gait is user-friendly and a well-accepted technology especially with the availability of RGB-D sensors and algorithms for detecting and tracking of human landmarks in video streams. Unlike other biometrics such as fingerprints, face or iris, it can be acquired at a large distance and do not require any collaboration of the end user. This point makes gait recognition suitable in intelligent video surveillance problems used, for example, in the security field as one of the behavioral biometrics or in healthcare as good physical patterns. However, using 3D human body tracked landmarks to provide such motions’ analysis faces many challenges like spatial and temporal variations and high dimension. Hence, in this thesis, we propose novel frameworks to infer 3D skeletal sequences for the purpose of 3D gait analysis and recognition. They are based on viewing the above-cited sequences as time-parameterized trajectories on the Kendall shape space S, results of modding out shape-preserving transformations, i.e., scaling, translation and rotation. Considering the non-linear structure of the manifold on which these shape trajectories are lying, the use of the conventional machine learning tools and the standard computational tools cannot be straightforward. Hence, we make use of geometric steps related to the Riemannian geometry in order to handle the problem of nonlinearity. Our first contribution is a geometric-functional framework for 3D gait analysis with a direct application to behavioral biometric recognition and physical performance assessment. We opt for an extension of the functional Principal Component Analysis to the underlying space. This functional analysis of trajectories, grounding on the geometry of the space of representation, allows to extract compact and efficient biometric signatures. In addition, we also propose a geometric deep convolutional auto-encoder (DCAE) for the purpose of gait recognition from time-varying 3D skeletal data. To accommodate the Neural Network architectures to obtained manifold-valued trajectories on the underlying non-linear space S, these trajectories are mapped to a certain vector space by means of someRiemannien geometry tools, prior to the encoding-decoding scheme. Without applying any prior temporal alignment step (e.g., Dynamic Time Warping) or modeling (e.g., HMM, RNN), they are then fed to a convolutional auto-encoder to build an identity-relevant latent space that showed discriminating capacities for identifying persons when no Temporal Alignment is applied to the time-parametrized gait trajectories: Efficient gait patterns are extracted. Both approaches were tested on several publicly available datasets and shows promising results
36

Jiao, Yunlong. "Pronostic moléculaire basé sur l'ordre des gènes et découverte de biomarqueurs guidé par des réseaux pour le cancer du sein." Thesis, Paris Sciences et Lettres (ComUE), 2017. http://www.theses.fr/2017PSLEM027/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le cancer du sein est le deuxième cancer le plus répandu dans le monde et la principale cause de décès due à un cancer chez les femmes. L'amélioration du pronostic du cancer a été l'une des principales préoccupations afin de permettre une meilleure gestion et un meilleur traitement clinique des patients. Avec l'avancement rapide des technologies de profilage génomique durant ces dernières décennies, la disponibilité aisée d'une grande quantité de données génomiques pour la recherche médicale a motivé la tendance actuelle qui consiste à utiliser des outils informatiques tels que l'apprentissage statistique dans le domaine de la science des données afin de découvrir les biomarqueurs moléculaires en lien avec l'amélioration du pronostic. Cette thèse est conçue suivant deux directions d'approches destinées à répondre à deux défis majeurs dans l'analyse de données génomiques pour le pronostic du cancer du sein d'un point de vue méthodologique de l'apprentissage statistique : les approches basées sur le classement pour améliorer le pronostic moléculaire et les approches guidées par un réseau donné pour améliorer la découverte de biomarqueurs. D'autre part, les méthodologies développées et étudiées dans cette thèse, qui concernent respectivement l'apprentissage à partir de données de classements et l'apprentissage sur un graphe, apportent une contribution significative à plusieurs branches de l'apprentissage statistique, concernant au moins les applications à la biologie du cancer et la théorie du choix social
Breast cancer is the second most common cancer worldwide and the leading cause of women's death from cancer. Improving cancer prognosis has been one of the problems of primary interest towards better clinical management and treatment decision making for cancer patients. With the rapid advancement of genomic profiling technologies in the past decades, easy availability of a substantial amount of genomic data for medical research has been motivating the currently popular trend of using computational tools, especially machine learning in the era of data science, to discover molecular biomarkers regarding prognosis improvement. This thesis is conceived following two lines of approaches intended to address two major challenges arising in genomic data analysis for breast cancer prognosis from a methodological standpoint of machine learning: rank-based approaches for improved molecular prognosis and network-guided approaches for enhanced biomarker discovery. Furthermore, the methodologies developed and investigated in this thesis, pertaining respectively to learning with rank data and learning on graphs, have a significant contribution to several branches of machine learning, concerning applications across but not limited to cancer biology and social choice theory
37

Malherbe, Emmanuel. "Standardization of textual data for comprehensive job market analysis." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLC058/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Sachant qu'une grande partie des offres d'emplois et des profils candidats est en ligne, le e-recrutement constitue un riche objet d'étude. Ces documents sont des textes non structurés, et le grand nombre ainsi que l'hétérogénéité des sites de recrutement implique une profusion de vocabulaires et nomenclatures. Avec l'objectif de manipuler plus aisément ces données, Multiposting, une entreprise française spécialisée dans les outils de e-recrutement, a soutenu cette thèse, notamment en terme de données, en fournissant des millions de CV numériques et offres d'emplois agrégées de sources publiques.Une difficulté lors de la manipulation de telles données est d'en déduire les concepts sous-jacents, les concepts derrière les mots n'étant compréhensibles que des humains. Déduire de tels attributs structurés à partir de donnée textuelle brute est le problème abordé dans cette thèse, sous le nom de normalisation. Avec l'objectif d'un traitement unifié, la normalisation doit fournir des valeurs dans une nomenclature, de sorte que les attributs résultants forment une représentation structurée unique de l'information. Ce traitement traduit donc chaque document en un language commun, ce qui permet d'agréger l'ensemble des données dans un format exploitable et compréhensible. Plusieurs questions sont cependant soulevées: peut-on exploiter les structures locales des sites web dans l'objectif d'une normalisation finale unifiée? Quelle structure de nomenclature est la plus adaptée à la normalisation, et comment l'exploiter? Est-il possible de construire automatiquement une telle nomenclature de zéro, ou de normaliser sans en avoir une?Pour illustrer le problème de la normalisation, nous allons étudier par exemple la déduction des compétences ou de la catégorie professionelle d'une offre d'emploi, ou encore du niveau d'étude d'un profil de candidat. Un défi du e-recrutement est que les concepts évoluent continuellement, de sorte que la normalisation se doit de suivre les tendances du marché. A la lumière de cela, nous allons proposer un ensemble de modèles d'apprentissage statistique nécessitant le minimum de supervision et facilement adaptables à l'évolution des nomenclatures. Les questions posées ont trouvé des solutions dans le raisonnement à partir de cas, le learning-to-rank semi-supervisé, les modèles à variable latente, ainsi qu'en bénéficiant de l'Open Data et des médias sociaux. Les différents modèles proposés ont été expérimentés sur des données réelles, avant d'être implémentés industriellement. La normalisation résultante est au coeur de SmartSearch, un projet qui fournit une analyse exhaustive du marché de l'emploi
With so many job adverts and candidate profiles available online, the e-recruitment constitutes a rich object of study. All this information is however textual data, which from a computational point of view is unstructured. The large number and heterogeneity of recruitment websites also means that there is a lot of vocabularies and nomenclatures. One of the difficulties when dealing with this type of raw textual data is being able to grasp the concepts contained in it, which is the problem of standardization that is tackled in this thesis. The aim of standardization is to create a unified process providing values in a nomenclature. A nomenclature is by definition a finite set of meaningful concepts, which means that the attributes resulting from standardization are a structured representation of the information. Several questions are however raised: Are the websites' structured data usable for a unified standardization? What structure of nomenclature is the best suited for standardization, and how to leverage it? Is it possible to automatically build such a nomenclature from scratch, or to manage the standardization process without one? To illustrate the various obstacles of standardization, the examples we are going to study include the inference of the skills or the category of a job advert, or the level of training of a candidate profile. One of the challenges of e-recruitment is that the concepts are continuously evolving, which means that the standardization must be up-to-date with job market trends. In light of this, we will propose a set of machine learning models that require minimal supervision and can easily adapt to the evolution of the nomenclatures. The questions raised found partial answers using Case Based Reasoning, semi-supervised Learning-to-Rank, latent variable models, and leveraging the evolving sources of the semantic web and social media. The different models proposed have been tested on real-world data, before being implemented in a industrial environment. The resulting standardization is at the core of SmartSearch, a project which provides a comprehensive analysis of the job market
38

Celikkanat, Abdulkadir. "Graph Representation Learning with Random Walk Diffusions." Electronic Thesis or Diss., université Paris-Saclay, 2021. http://www.theses.fr/2021UPASG030.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif principal de l'Apprentissage de Représentations sur Graphes est de plonger les nœuds dans un espace vectoriel de petite dimension. Dans cette thèse, nous abordons plusieurs enjeux dans le domaine. Tout d'abord, nous étudions comment exploiter l'existence de communautés structurelles locales inhérentes aux graphes tout en apprenant les représentations. Nous apprenons des représentations améliorées de la communauté en combinant les informations latentes avec les représentations. De plus, nous nous concentrons sur l'expressivité des représentations. Nous mettons l'accent sur les distributions de familles exponentielles pour saisir des modèles d'interaction riches. Nous proposons un modèle qui combine les marches aléatoires avec une matrice de factorisation sous forme de noyau. Dans la dernière partie de la thèse, nous étudions des modèles permettant un bon compromis entre efficacité et précision. Nous proposons un modèle évolutif qui calcule des représentations binaires
Graph Representation Learning aims to embed nodes in a low-dimensional space. In this thesis, we tackle various challenging problems arising in the field. Firstly, we study how to leverage the inherent local community structure of graphs while learning node representations. We learn enhanced community-aware representations by combining the latent information with the embeddings. Moreover, we concentrate on the expressive- ness of node representations. We emphasize exponential family distributions to capture rich interaction patterns. We propose a model that combines random walks with kernelized matrix factorization. In the last part of the thesis, we study models balancing the trade-off between efficiency and accuracy. We propose a scalable embedding model which computes binary node representations
39

Geuens, Stijn. "Personalization in e-commerce : a procedure to create and evaluate business relevant recommendation systems." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL12016/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes de recommandation sont très étudiés dans la littérature sur l’apprentissage automatique, ce qui a permis la création de nombreux algorithmes. Cette thèse doctorale va au-delà de simples propositions de nouveaux algorithmes en tirant parti des toutes dernières techniques et en étudiant les interactions de ces techniques avec diverses sources de données. Nous nous sommes penchés sur la création de canevas capables d’aider les universitaires et les décideurs du marché dans le cadre du développement des systèmes de recommandation dans le contexte du e-commerce. Concrètement, cette thèse apporte à la littérature de sept manières différentes. Premièrement, nous décrivons et validons dans le chapitre I un cadre devant servir à évaluer les algorithmes de filtrage collaboratif. Deuxièmement, nous proposons dans le chapitre II un cadre destiné à développer et à évaluer des systèmes de recommandation hybrides, que nous validons à partir de données historiques réelles tirées du site de La Redoute. Troisièmement, le chapitre II introduit l’importance des caractéristiques dans la littérature. Quatrièmement, les algorithmes offrant les meilleurs résultats dans les tests hors-ligne sont utilisés dans le chapitre III comme base pour la création de deux systèmes de recommandation pour la maximisation du chiffre d’affaires. Cinquièmement, nous proposons, un cadre pour étudier trois effets des systèmes de recommandation sur les indicateurs tout au long du tunnel d’achat. Sixièmement, nous validons notre cadre par une expérience de terrain à grande échelle, en collaboration avec La Redoute. Enfin, une étude de cas montre la valeur ajoutée des meilleurs systèmes de recommandation
Recommendation systems are a heavily investigated within machine learning literature, resulting in the creation of many algorithms. This doctoral dissertation goes beyond merely proposing new recommendation algorithms by leveraging state-of-the-art techniques and investigating the interaction of these techniques with different data sources having distinct characteristics. The focus lies upon the creation of frameworks guiding both marketers and academics in developing, evaluating, and testing recommendation systems in an e-commerce context. Concretely, this dissertation adds to literature in seven distinct ways. First, a framework evaluating collaborative filtering algorithms is designed and validated on real-life offline data sets of a large European e-tailer, La Redoute. Second, a five-step framework to develop and evaluate hybrid recommendation systems combing different data sources is proposed and validate on real-life historical data in Chapter II. Third, Chapter II introduces feature importance in the recommendation systems literature. Fourth, the best performing algorithms in the offline tests are leveraged to serve as basis for creating two revenue maximization recommendation systems in Chapter III. Fifth, a framework investigating three effects of (revenue maximization) recommendation systems on business metrics throughout the purchase funnel is proposed in Chapter III. Sixth, the framework is validated in a large-scale field experiment executed in collaboration with La Redoute. Finally, a business case shows the added value of the best performing recommendation systems
40

Lacombe, Théo. "Statistiques sur les descripteurs topologiques à base de transport optimal." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX036.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement
Topological data analysis (TDA) allows one to extract rich information from structured data (such as graphs or time series) that occurs in modern machine learning problems. This information will be represented as descriptors such as persistence diagrams, which can be described as point measures supported on a half-plane. While persistence diagrams are not elements of a vector space, they can still be compared using partial matching metrics. The similarities between these metrics and those routinely used in optimal transport—another field of mathematics—are known for long, but a formal connection between these two fields is yet to come.The purpose of this thesis is to clarify this connection and develop new theoretical and computational tools to manipulate persistence diagrams, targeting statistical applications. First, we show how optimal partial transport with boundary, a variation of classic optimal transport theory, provides a formalism that encompasses standard metrics in TDA. We then show-case the benefits of this connection in different situations: a theoretical study and the development of an algorithm to perform fast estimation of barycenters of persistence diagrams, the characterization of continuous linear representations of persistence diagrams and how to learn such representations using a neural network, and eventually a stability result in the context of linearly averaging random persistence diagrams
41

Yang, Tong. "Constitution et exploitation d’une base de données pour l’enseignement/apprentissage des phrasèmes NAdj du domaine culinaire français auprès d’apprenants non-natifs." Thesis, Paris 3, 2019. http://www.theses.fr/2019PA030049.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce projet de thèse s’inscrit dans le cadre de l’enseignement du FOS (Français sur Objectifs Spécifiques) à des cuisiniers étrangers venus travailler dans des restaurants français ou ayant choisi la restauration comme spécialité. L’objectif de notre recherche est donc d’enseigner les phrasèmes NAdj du domaine culinaire auprès d’apprenants étrangers niveau A2. L’enseignement/apprentissage de la phraséologie s’avère nécessaire dans les langues de spécialités et la haute fréquence des phrasèmes NAdj a attiré notre attention. Plusieurs questions sont alors abordées : où trouver ce lexique spécifique ? Comment les extraire ? Par quelle approche enseignons-nous les phrasèmes sélectionnés ? Pour répondre à ces questions, nous avons fabriqué notre propre corpus Cuisitext – écrit et oral – puis nous avons utilisé NooJ pour extraire les phrasèmes NAdj du corpus. Enfin, nous avons proposé les trois approches d’utilisation des corpus pour l’enseignement/apprentissage des phrasèmes NAdj : approche inductive guidée, approche déductive, approche inductive pure
This thesis project aims to study the teaching method of FOS (French on Specific Objectives) catering to foreign cooks who come to work in French restaurants or who have chosen catering as a specialty. The objective of our research is therefore to teach the culinary NAdj phrasemas to foreign A2 level learners. The teaching/learning of phraseology is required in specialty languages and the high frequency of NAdj phrasems has caught our attention. Several questions are then addressed: where to find this specific lexicon? How to extract them? By which approach do we teach the selected phrasems? To answer these questions, we made our own corpus Cuisitext - written and oral - and then used NooJ to extract the NAdj phrasems from the corpus. Finally, we have proposed the three approaches to the use of corpora for the teaching/learning of NAdj phrasems: guided inductive approach, deductive approach, pure inductive approach
42

Ben, Chaabene Nour El Houda. "Détection d'utilisateurs violents et de menaces dans les réseaux sociaux." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAS001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les réseaux sociaux en ligne font partie intégrante de l'activité sociale quotidienne des gens. Ils fournissent des plateformes permettant de mettre en relation des personnes du monde entier et de partager leurs intérêts. Des statistiques récentes indiquent que 56% de la population mondiale utilisent ces médias sociaux. Cependant, ces services de réseau ont également eu de nombreux impacts négatifs et l'existence de phénomènes d'agressivité et d'intimidation dans ces espaces est inévitable et doit donc être abordée. L'exploration de la structure complexe des réseaux sociaux pour détecter les comportements violents et les menaces est un défi pour l'exploration de données, l'apprentissage automatique et l'intelligence artificielle. Dans ce travail de thèse, nous visons à proposer de nouvelles approches de détection des comportements violents dans les réseaux sociaux. Nos approches tentent de résoudre cette problématique pour plusieurs raisons pratiques. Premièrement, des personnes différentes ont des façons différentes d'exprimer le même comportement violent. Il est souhaitable de concevoir une approche qui fonctionne pour tout le monde en raison de la variété des comportements et des diverses manières dont ils sont exprimés. Deuxièmement, les approches doivent avoir un moyen de détecter les comportements anormaux potentiels non vus et de les ajouter automatiquement à l'ensemble d'apprentissage. Troisièmement, la multimodalité et la multidimensionnalité des données disponibles sur les sites de réseaux sociaux doivent être prises en compte pour le développement de solutions d'exploration de données qui seront capables d'extraire des informations pertinentes utiles à la détection de comportements violents. Enfin, les approches doivent considérer la nature variable dans le temps des réseaux pour traiter les nouveaux utilisateurs et liens et mettre automatiquement à jour les modèles construits. A la lumière de cela et pour atteindre les objectifs susmentionnés, les principales contributions de cette thèse sont les suivantes: - La première contribution propose un modèle de détection des comportements violents sur Twitter. Ce modèle prend en charge la nature dynamique du réseau et est capable d'extraire et d'analyser de données hétérogènes. - La deuxième contribution introduit une approche de détection des comportements atypiques sur un réseau multidimensionnel. Cette approche se base sur l'exploration et l'analyse des relations entre les individus présents sur cette structure sociale multidimensionnelle. - La troisième contribution présente un framework d'identification des personnes anormales. Ce cadre intelligent s'appuie sur l'exploitation d'un modèle multidimensionnel qui prend en entrée des données multimodales provenant de plusieurs sources, capable d'enrichir automatiquement l'ensemble d'apprentissage par les comportements violents détectés et considère la dynamicité des données afin de détecter les nouveaux comportements violents qui apparaissent sur le réseau. Cette thèse décrit des réalisations combinant les techniques d'exploration de données avec les nouvelles techniques d’apprentissage automatique. Pour prouver la performance de nos résultats d'expérimentation, nous nous sommes basés sur des données réelles extraites de trois réseaux sociaux populaires
Online social networks are an integral part of people's daily social activity. They provide platforms to connect people from all over the world and share their interests. Recent statistics indicate that 56% of the world's population use these social media. However, these network services have also had many negative impacts and the existence of phenomena of aggression and intimidation in these spaces is inevitable and must therefore be addressed. Exploring the complex structure of social networks to detect violent behavior and threats is a challenge for data mining, machine learning, and artificial intelligence. In this thesis work, we aim to propose new approaches for the detection of violent behavior in social networks. Our approaches attempt to resolve this problem for several practical reasons. First, different people have different ways of expressing the same violent behavior. It is desirable to design an approach that works for everyone because of the variety of behaviors and the various ways in which they are expressed. Second, the approaches must have a way to detect potential unseen abnormal behaviors and automatically add them to the training set. Third, the multimodality and multidimensionality of the data available on social networking sites must be taken into account for the development of data mining solutions that will be able to extract relevant information useful for the detection of violent behavior. Finally, approaches must consider the time-varying nature of networks to process new users and links and automatically update built models. In the light of this and to achieve the aforementioned objectives, the main contributions of this thesis are as follows: - The first contribution proposes a model for detecting violent behavior on Twitter. This model supports the dynamic nature of the network and is capable of extracting and analyzing heterogeneous data. - The second contribution introduces an approach for detecting atypical behaviors on a multidimensional network. This approach is based on the exploration and analysis of the relationships between the individuals present on this multidimensional social structure. - The third contribution presents a framework for identifying abnormal people. This intelligent framework is based on the exploitation of a multidimensional model which takes as input multimodal data coming from several sources, capable of automatically enriching the learning set by the violent behaviors detected and considers the dynamicity of the data in order to detect new violent behaviors that appear on the network. This thesis describes achievements combining data mining techniques with new machine learning techniques. To prove the performance of our experimental results, we sums based on real data taken from three popular social networks
43

Barré, Anthony. "Analyse statistique de données issues de batteries en usage réel sur des véhicules électriques, pour la compréhension, l’estimation et la gestion des phénomènes de vieillissement." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENT064/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le marché des véhicules électriques connait actuellement un développement important motivé par diverses raisons. Cependant, des limites liées à leurs performances constituent des inconvénients majeurs à une croissance des ventes de plus grande importance. Les performances et durée de vie des batteries utilisées sont au cœur des préoccupations des utilisateurs. Les batteries sont sujettes à des pertes de performances au fil du temps, dus à des phénomènes complexes impliquant des interactions entre les diverses conditions de vie de celles-ci. Dans l'objectif d'améliorer la compréhension et l'estimation du vieillissement d'une batterie, ces travaux étudient des données issues d'usages réels de batteries sur des véhicules électriques. En particulier, l'étude consiste en l'adaptation d'approches statistiques fondées sur les données mesurées, mettant en évidence des interactions entre variables, ainsi que la création de méthodes d'estimation du niveau de performance de batterie uniquement basé sur les mesures obtenues. Les résultats de ces méthodologies ont permis d'illustrer l'apport d'une approche statistique, par exemple en démontrant la présence d'informations contenues dans les signaux issus de la batterie, utiles pour l'estimation de son état de santé
Due to different reason The electrical vehicle market is undergoing important developments. However the limits associated with performance represent major drawbacks to increase the sales even more. The batteries performance and lifetime are the main focus of EV users. Batteries are subject to performance loss due to complex phenomena implying interactions between the different life conditions of the battery. In order to improve the understanding and estimation of battery aging, the studies were based on datasets from real use ev batteries. More precisely, this study consists in the adaptation and application of statistical approaches on the available data in order to highlight the interactions between variables, as well as the creation of methods for the estimation of battery performance. The obtained results allowed to illustrate the interests of a statistical approach. For example the demonstration of informations contained in the signals coming from the battery which are useful for the estimation of its state of health
44

Blachon, David. "Reconnaissance de scènes multimodale embarquée." Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAM001/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation
Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation
45

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'informations changeant au cours du temps." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00402644.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps.

L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données.

Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples.
46

Kassab, Randa. "Analyse des propriétés stationnaires et des propriétés émergentes dans les flux d'information changeant au cours du temps." Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10027/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nombreuses applications génèrent et reçoivent des données sous la forme de flux continu, illimité, et très rapide. Cela pose naturellement des problèmes de stockage, de traitement et d'analyse de données qui commencent juste à être abordés dans le domaine des flux de données. Il s'agit, d'une part, de pouvoir traiter de tels flux à la volée sans devoir mémoriser la totalité des données et, d'autre part, de pouvoir traiter de manière simultanée et concurrente l'analyse des régularités inhérentes au flux de données et celle des nouveautés, exceptions, ou changements survenant dans ce même flux au cours du temps. L'apport de ce travail de thèse réside principalement dans le développement d'un modèle d'apprentissage - nommé ILoNDF - fondé sur le principe de la détection de nouveauté. L'apprentissage de ce modèle est, contrairement à sa version de départ, guidé non seulement par la nouveauté qu'apporte une donnée d'entrée mais également par la donnée elle-même. De ce fait, le modèle ILoNDF peut acquérir constamment de nouvelles connaissances relatives aux fréquences d'occurrence des données et de leurs variables, ce qui le rend moins sensible au bruit. De plus, doté d'un fonctionnement en ligne sans répétition d'apprentissage, ce modèle répond aux exigences les plus fortes liées au traitement des flux de données. Dans un premier temps, notre travail se focalise sur l'étude du comportement du modèle ILoNDF dans le cadre général de la classification à partir d'une seule classe en partant de l'exploitation des données fortement multidimensionnelles et bruitées. Ce type d'étude nous a permis de mettre en évidence les capacités d'apprentissage pures du modèle ILoNDF vis-à-vis de l'ensemble des méthodes proposées jusqu'à présent. Dans un deuxième temps, nous nous intéressons plus particulièrement à l'adaptation fine du modèle au cadre précis du filtrage d'informations. Notre objectif est de mettre en place une stratégie de filtrage orientée-utilisateur plutôt qu'orientée-système, et ceci notamment en suivant deux types de directions. La première direction concerne la modélisation utilisateur à l'aide du modèle ILoNDF. Cette modélisation fournit une nouvelle manière de regarder le profil utilisateur en termes de critères de spécificité, d'exhaustivité et de contradiction. Ceci permet, entre autres, d'optimiser le seuil de filtrage en tenant compte de l'importance que pourrait donner l'utilisateur à la précision et au rappel. La seconde direction, complémentaire de la première, concerne le raffinement des fonctionnalités du modèle ILoNDF en le dotant d'une capacité à s'adapter à la dérive du besoin de l'utilisateur au cours du temps. Enfin, nous nous attachons à la généralisation de notre travail antérieur au cas où les données arrivant en flux peuvent être réparties en classes multiples
Many applications produce and receive continuous, unlimited, and high-speed data streams. This raises obvious problems of storage, treatment and analysis of data, which are only just beginning to be treated in the domain of data streams. On the one hand, it is a question of treating data streams on the fly without having to memorize all the data. On the other hand, it is also a question of analyzing, in a simultaneous and concurrent manner, the regularities inherent in the data stream as well as the novelties, exceptions, or changes occurring in this stream over time. The main contribution of this thesis concerns the development of a new machine learning approach - called ILoNDF - which is based on novelty detection principle. The learning of this model is, contrary to that of its former self, driven not only by the novelty part in the input data but also by the data itself. Thereby, ILoNDF can continuously extract new knowledge relating to the relative frequencies of the data and their variables. This makes it more robust against noise. Being operated in an on-line mode without repeated training, ILoNDF can further address the primary challenges for managing data streams. Firstly, we focus on the study of ILoNDF's behavior for one-class classification when dealing with high-dimensional noisy data. This study enabled us to highlight the pure learning capacities of ILoNDF with respect to the key classification methods suggested until now. Next, we are particularly involved in the adaptation of ILoNDF to the specific context of information filtering. Our goal is to set up user-oriented filtering strategies rather than system-oriented in following two types of directions. The first direction concerns user modeling relying on the model ILoNDF. This provides a new way of looking at user's need in terms of specificity, exhaustivity and contradictory profile-contributing criteria. These criteria go on to estimate the relative importance the user might attach to precision and recall. The filtering threshold can then be adjusted taking into account this knowledge about user's need. The second direction, complementary to the first one, concerns the refinement of ILoNDF's functionality in order to confer it the capacity of tracking drifting user's need over time. Finally, we consider the generalization of our previous work to the case where streaming data can be divided into multiple classes
47

Aziz, Usama. "Détection des défauts des éoliennes basée sur la courbe de puissance : Comparaison critique des performances et proposition d'une approche multi-turbines." Thesis, Université Grenoble Alpes, 2020. https://tel.archives-ouvertes.fr/tel-03066125.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les éoliennes étant des générateurs d'électricité, la puissance électrique produite par une machine est une variable pertinente pour la surveillance et la détection d'éventuels défauts. Dans le cadre de cette thèse, une analyse bibliographique approfondie a d'abord été réalisée sur les méthodes de détection des défauts des éoliennes utilisant la puissance électrique produite. Elle a montré que, bien que de nombreuses méthodes aient été proposées dans la littérature, il est très difficile de comparer leurs performances de manière objective en raison de l'absence de données de référence, permettant de mettre en œuvre et d'évaluer toutes ces méthodes sur la base des mêmes données.Pour répondre à ce problème, dans un premier temps, une nouvelle approche de simulation réaliste a été proposée dans cette thèse. Elle permet de créer des flots de données simulées, couplant la puissante produite, la vitesse du vent et la température, dans des conditions normales et dans des situations défauts, de manière infinie. Les défauts qui peuvent être simulés sont ceux qui impactent la forme de la courbe de puissance. Les données simulées sont générées à partir de données réelles enregistrées sur plusieurs parcs éoliens français, situés sur des sites géographiques différents. Dans un deuxième temps, une méthode permettant l'évaluation des performances des méthodes de détection des défauts utilisant la puissance produite a été proposé.Cette nouvelle méthode de simulation a été mise en œuvre sur 4 situations de défauts affectant la courbe de puissance différents, à l’aide de données provenant de 5 parcs éoliens géographiquement éloignés. Un total de 1875 années de données SCADA 10 minutes a été généré et utilisé pour comparer les performances en détection de 3 méthodes de détection de défauts proposées dans la littérature. Ceci a permis une comparaison rigoureuse de leurs performances.Dans la deuxième partie de cette recherche, la méthode de simulation proposée a été étendue à une configuration multi-turbines. En effet, plusieurs stratégies multi-turbines ont été publiées dans la littérature, avec comme objectif de réduire l'impact des conditions environnementales sur les performances des méthodes de détection de défauts utilisant comme variable la température. Pour évaluer le gain de performance qu'une stratégie multi-turbines pourrait apporter, une implémentation hybride mono-multi-turbines des méthodes de détection de défauts basées sur la courbe de puissance a été proposée dans un premier temps. Ensuite, le cadre de simulation proposé pour évaluer les méthodes monoturbines a été étendu aux approches multi-turbines et une analyse expérimentale numérique des performances de cette implémentation hybride monoturbines-multi-turbines a été réalisée
Since wind turbines are electricity generators, the electrical power produced by a machine is a relevant variable for monitoring and detecting possible faults. In the framework of this thesis, an in-depth literature review was first performed on fault detection methods for wind turbines using the electrical power produced. It showed that, although many methods have been proposed in the literature, it is very difficult to compare their performance in an objective way due to the lack of reference data, allowing to implement and evaluate all these methods on the basis of the same data.To address this problem, as a first step, a new realistic simulation approach has been proposed in this thesis. It allows to create simulated data streams, coupling the power output, wind speed and temperature, in normal conditions and in fault situations, in an infinite way. The defects that can be simulated are those that impact the shape of the power curve. The simulated data are generated from real data recorded on several French wind farms, located on different geographical sites. In a second step, a method for evaluating the performance of fault detection methods using the power produced has been proposed.This new simulation method was implemented on 4 different fault situations affecting the power curve, using data from 5 geographically remote wind farms. A total of 1875 years of 10-minute SCADA data was generated and used to compare the detection performance of 3 fault detection methods proposed in the literature. This allowed a rigorous comparison of their performance.In the second part of this research, the proposed simulation method was extended to a multi-turbine configuration. Indeed, several multi-turbine strategies have been published in the literature, with the objective of reducing the impact of environmental conditions on the performance of fault detection methods using temperature as a variable. In order to evaluate the performance gain that a multi-turbine strategy could bring, a hybrid mono-multi-turbine implementation of fault detection methods based on the power curve was first proposed. Then, the simulation framework proposed to evaluate mono-turbine methods was extended to multi-turbine approaches and a numerical experimental analysis of the performance of this hybrid mono-multi-turbine implementation was performed
48

Selmane, Sid Ali. "Détection et analyse des communautés dans les réseaux sociaux : approche basée sur l'analyse formelle de concepts." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’étude de structures de communautés dans les réseaux devient de plus en plus une question importante. La connaissance des modules de base (communautés) des réseaux nous aide à bien comprendre leurs fonctionnements et comportements, et à appréhender les performances de ces systèmes. Une communauté dans un graphe (réseau) est définie comme un ensemble de noeuds qui sont fortement liés entre eux, mais faiblement liés avec le reste du graphe. Les membres de la même communauté partagent les mêmes centres d’intérêt. L’originalité de nos travaux de recherche consiste à montrer qu’il est pertinent d’utiliser l’analyse formelle de concepts pour la détection de communautés, contrairement aux approches classiques qui utilisent des graphes. Nous avons notamment étudié plusieurs problèmes posés par la détection de communautés dans les réseaux sociaux : (1) l’évaluation des méthodes de détection de communautés proposées dans la littérature, (2) la détection de communautés disjointes et chevauchantes, et (3) la modélisation et l’analyse des réseaux sociaux de données tridimensionnelles. Pour évaluer les méthodes de détection de communautés proposées dans la littérature, nous avons abordé ce sujet en étudiant tout d’abord l’état de l’art qui nous a permis de présenter une classification des méthodes de détection de communautés en évaluant chacune des méthodes présentées dans la littérature (les méthodes les plus connues). Pour le deuxième volet, nous nous sommes ensuite intéressés à l’élaboration d’une approche de détection de communautés disjointes et chevauchantes dans des réseaux sociaux homogènes issus de matrices d’adjacence (données dites à un seul mode ou une seule dimension), en exploitant des techniques issues de l’analyse formelle de concepts. Nous avons également porté un intérêt particulier aux méthodes de modélisation de réseaux sociaux hétérogènes. Nous nous sommes intéressés en particulier aux données tridimensionnelles et proposé dans ce cadre une approche de modélisation et d’analyse des réseaux sociaux issus de données tridimensionnelles. Cette approche repose sur un cadre méthodologique permettant d’appréhender au mieux cet aspect tridimensionnel des données. De plus, l’analyse concerne la découverte de communautés et de relations dissimulées qui existent entre les différents types d’individus de ces réseaux. L’idée principale réside dans l’extraction de communautés et de règles d’association triadiques à partir de ces réseaux hétérogènes afin de simplifier et de réduire la complexité algorithmique de ce processus. Les résultats obtenus serviront par la suite à une application de recommandation de liens et de contenus aux individus d’un réseau social
The study of community structure in networks became an increasingly important issue. The knowledge of core modules (communities) of networks helps us to understand how they work and behaviour, and to understand the performance of these systems. A community in a graph (network) is defined as a set of nodes that are strongly linked, but weakly linked with the rest of the graph. Members of the same community share the same interests. The originality of our research is to show that it is relevant to use formal concept analysis for community detection unlike conventional approaches using graphs. We studied several problems related to community detection in social networks : (1) the evaluation of community detection methods in the literature, (2) the detection of disjointed and overlapping communities, and (3) modelling and analysing heterogeneous social network of three-dimensional data. To assess the community detection methods proposed in the literature, we discussed this subject by studying first the state of the art that allowed us to present a classification of community detection methods by evaluating each method presented in the literature (the best known methods). For the second part, we were interested in developing a disjointed and overlapping community detection approach in homogeneous social networks from adjacency matrices (one mode data or one dimension) by exploiting techniques from formal concept analysis. We paid also a special attention to methods of modeling heterogeneous social networks. We focused in particular to three-dimensional data and proposed in this framework a modeling approach and social network analysis from three-dimensional data. This is based on a methodological framework to better understand the threedimensional aspect of this data. In addition, the analysis concerns the discovery of communities and hidden relationships between different types of individuals of these networks. The main idea lies in mining communities and rules of triadic association from these heterogeneous networks to simplify and reduce the computational complexity of this process. The results will then be used for an application recommendation of links and content to individuals in a social network
49

Chen, Xiangtuo. "Statistical Learning Methodology to Leverage the Diversity of Environmental Scenarios in Crop Data : Application to the prediction of crop production at large-scale." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLC055.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La prévision du rendement des cultures est toujours une question primordiale. De nombreuses recherches ont été menées avec cet objectif en utilisant diverses méthodologies. Généralement, les méthodes peuvent être classées en approches basées sur les modèles et en approches basées sur les données.Les approches basées sur les modèles reposent sur la modélisation mécaniste des cultures. Ils décrivent la croissance des cultures en interaction avec leur environnement comme systèmes dynamiques. Comme ces modèles sont basés sur la description mécanique des processus biophysiques, ils impliquent potentiellement un grand nombre de variables d'état et de paramètres, dont l'estimation n'est pas simple. En particulier, les problèmes d'estimation des paramètres résultant sont généralement non linéaires et conduisent à des problèmes d'optimisation non-convexes dans un espace multidimensionnel. De plus, l’acquisition de données est très difficile et nécessite un travail expérimental lourd afin d’obtenir les données appropriées pour l’identification du modèle.D'un autre côté, les approches basées sur les données pour la prévision du rendement nécessitent des données provenant d'un grand nombre de scénarios environnementaux, mais les données sont plus simples à obtenir: (données climatiques et rendement final). Cependant, les perspectives de ce type de modèles se limitent principalement à la prévision de rendement.La première contribution originale de cette thèse consiste à proposer une méthodologie statistique pour calibrer les modèles mécanistes potentiellement complexes, lorsque des ensembles de données avec différents scénarios environnementaux et rendements sont disponibles à grande échelle. Nous l'appellerons Méthodologie d'estimation de paramètres multi-scénarios (MuScPE). Les principales étapes sont les suivantes:Premièrement, nous tirons parti des connaissances préalables sur les paramètres pour leur attribuer des distributions a priori pertinentes et effectuons une analyse de sensibilité globale sur les paramètres du modèle afin de sélectionner les paramètres les plus importants à estimer en priorité.Ensuite, nous mettons en œuvre une méthode d’optimisation efficace non convexe, l’optimisation parallèle des essaims de particules, pour rechercher l’estimateur MAP (maximum a posteriori) des paramètres;Enfin, nous choisissons la meilleure configuration en ce qui concerne le nombre de paramètres estimés par les critères de sélection de modèles. Il y a en effet un compromis à trouver entre d’un côté l'ajustement aux données, et d'un autre côté la variance du modèle et la complexité du problème d'optimisation à résoudre.Cette méthodologie est d'abord testée avec le modèle CORNFLO, un modèle de culture fonctionnel pour le maïs.La seconde contribution de la thèse est la comparaison de cette méthode basée sur un modèle mécaniste avec des méthodes classiques d'apprentissage statistique basées sur les données. Nous considérons deux classes de méthodes de régression: d'une part, les méthodes statistiques dérivées de la régression linéaire généralisée qui permettent de simplifier le modèle par réduction dimensionnelle (régressions Ridge et Lasso, Régression par composantes principales ou régression partielle des moindres carrés) et d'autre part les méthode de régression de machine learning basée sur des modèles non-linéaires ou des techniques de ré-échantillonnage comme la forêt aléatoire, le réseau de neurones et la régression SVM.Enfin, une régression pondérée est appliquée pour prédire la production à grande échelle. La production de blé tendre, une culture de grande importance économique en France, est prise en exemple. Les approches basées sur les modèles et sur les données ont également été comparées pour déterminer leur performance dans la réalisation de cet objectif, ce qui est finalement la troisième contribution de cette thèse
Crop yield prediction is a paramount issue in agriculture. Considerable research has been performed with this objective relying on various methodologies. Generally, they can be classified into model-driven approaches and data-driven approaches.The model-driven approaches are based on crop mechanistic modelling. They describe crop growth in interaction with their environment as dynamical systems. Since these models are based on the mechanical description of biophysical processes, they potentially imply a large number of state variables and parameters, whose estimation is not straightforward. In particular, the resulting parameter estimation problems are typically non-linear, leading to non-convex optimisation problems in multi-dimensional space. Moreover, data acquisition is very challenging and necessitates heavy specific experimental work in order to obtain the appropriate data for model identification.On the other hand, the data-driven approaches for yield prediction necessitate data from a large number of environmental scenarios, but with data quite easy to obtain: climatic data and final yield. However, the perspectives of this type of models are mostly limited to prediction purposes.An original contribution of this thesis consists in proposing a statistical methodology for the parameterisation of potentially complex mechanistic models, when datasets with different environmental scenarios and large-scale production records are available, named Multi-scenario Parameter Estimation Methodology (MuScPE). The main steps are the following:First, we take advantage of prior knowledge on the parameters to assign them relevant prior distributions and perform a global sensitivity analysis of the model parameters to screen the most important ones that will be estimated in priority;Then, we implement an efficient non-convex optimisation method, the parallel particle swarm optimisation, to search for the MAP (maximum a posterior) estimator of the parameters;Finally, we choose the best configuration regarding the number of estimated parameters by model selection criteria. Because when more parameters are estimated, theoretically, the calibrated model could explain better the variance of the output. Meanwhile, it increases also difficulty for optimization, which leads to uncertainty in calibration.This methodology is first tested with the CORNFLO model, a functional crop model for the corn.A second contribution of the thesis is the comparison of this model-driven method with classical data-driven methods. For this purpose, according to their different methodology in fitting the model complexity, we consider two classes of regression methods: first, Statistical methods derived from generalized linear regression that are good at simplifying the model by dimensional reduction, such as Ridge and Lasso Regression, Principal Components Regression or Partial Least Squares Regression; second, Machine Learning Regression based on re-sampling techniques like Random Forest, k-Nearest Neighbour, Artificial Neural Network and Support Vector Machine (SVM) regression.At last, a weighted regression is applied to large-scale yield prediction. Soft wheat production in France is taken as an example. Model-driven and data-driven approaches have also been compared for their performances in achieving this goal, which could be recognised as the third contribution of this thesis
50

Désoyer, Adèle. "Appariement de contenus textuels dans le domaine de la presse en ligne : développement et adaptation d'un système de recherche d'information." Thesis, Paris 10, 2017. http://www.theses.fr/2017PA100119/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de cette thèse, menée dans un cadre industriel, est d'apparier des contenus textuels médiatiques. Plus précisément, il s'agit d'apparier à des articles de presse en ligne des vidéos pertinentes, pour lesquelles nous disposons d'une description textuelle. Notre problématique relève donc exclusivement de l'analyse de matériaux textuels, et ne fait intervenir aucune analyse d'image ni de langue orale. Surviennent alors des questions relatives à la façon de comparer des objets textuels, ainsi qu'aux critères mobilisés pour estimer leur degré de similarité. L'un de ces éléments est selon nous la similarité thématique de leurs contenus, autrement dit le fait que deux documents doivent relater le même sujet pour former une paire pertinente. Ces problématiques relèvent du domaine de la recherche d'information (ri), dans lequel nous nous ancrons principalement. Par ailleurs, lorsque l'on traite des contenus d'actualité, la dimension temporelle est aussi primordiale et les problématiques qui l'entourent relèvent de travaux ayant trait au domaine du topic detection and tracking (tdt) dans lequel nous nous inscrivons également.Le système d'appariement développé dans cette thèse distingue donc différentes étapes qui se complètent. Dans un premier temps, l'indexation des contenus fait appel à des méthodes de traitement automatique des langues (tal) pour dépasser la représentation classique des textes en sac de mots. Ensuite, deux scores sont calculés pour rendre compte du degré de similarité entre deux contenus : l'un relatif à leur similarité thématique, basé sur un modèle vectoriel de ri; l'autre à leur proximité temporelle, basé sur une fonction empirique. Finalement, un modèle de classification appris à partir de paires de documents, décrites par ces deux scores et annotées manuellement, permet d'ordonnancer les résultats.L'évaluation des performances du système a elle aussi fait l'objet de questionnements dans ces travaux de thèse. Les contraintes imposées par les données traitées et le besoin particulier de l'entreprise partenaire nous ont en effet contraints à adopter une alternative au protocole classique d'évaluation en ri, le paradigme de Cranfield
The goal of this thesis, conducted within an industrial framework, is to pair textual media content. Specifically, the aim is to pair on-line news articles to relevant videos for which we have a textual description. The main issue is then a matter of textual analysis, no image or spoken language analysis was undertaken in the present study. The question that arises is how to compare these particular objects, the texts, and also what criteria to use in order to estimate their degree of similarity. We consider that one of these criteria is the topic similarity of their content, in other words, the fact that two documents have to deal with the same topic to form a relevant pair. This problem fall within the field of information retrieval (ir) which is the main strategy called upon in this research. Furthermore, when dealing with news content, the time dimension is of prime importance. To address this aspect, the field of topic detection and tracking (tdt) will also be explored.The pairing system developed in this thesis distinguishes different steps which complement one another. In the first step, the system uses natural language processing (nlp) methods to index both articles and videos, in order to overcome the traditionnal bag-of-words representation of texts. In the second step, two scores are calculated for an article-video pair: the first one reflects their topical similarity and is based on a vector space model; the second one expresses their proximity in time, based on an empirical function. At the end of the algorithm, a classification model learned from manually annotated document pairs is used to rank the results.Evaluation of the system's performances raised some further questions in this doctoral research. The constraints imposed both by the data and the specific need of the partner company led us to adapt the evaluation protocol traditionnal used in ir, namely the cranfield paradigm. We therefore propose an alternative solution for evaluating the system that takes all our constraints into account

To the bibliography