Dissertations / Theses on the topic 'Apprentissage à partir de données d'intéraction'

To see the other types of publications on this topic, follow the link: Apprentissage à partir de données d'intéraction.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage à partir de données d'intéraction.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Sakhi, Otmane. "Offline Contextual Bandit : Theory and Large Scale Applications." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAG011.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse au problème de l'apprentissage à partir d'interactions en utilisant le cadre du bandit contextuel hors ligne. En particulier, nous nous intéressons à deux sujets connexes : (1) l'apprentissage de politiques hors ligne avec des certificats de performance, et (2) l'apprentissage rapide et efficace de politiques, pour le problème de recommandation à grande échelle. Pour (1), nous tirons d'abord parti des résultats du cadre d'optimisation distributionnellement robuste pour construire des bornes asymptotiques, sensibles à la variance, qui permettent l'évaluation des performances des politiques. Ces bornes nous aident à obtenir de nouveaux objectifs d'apprentissage plus pratiques grâce à leur nature composite et à leur calibrage simple. Nous analysons ensuite le problème d'un point de vue PAC-Bayésien et fournissons des bornes, plus étroites, sur les performances des politiques. Nos résultats motivent de nouvelles stratégies, qui offrent des certificats de performance sur nos politiques avant de les déployer en ligne. Les stratégies nouvellement dérivées s'appuient sur des objectifs d'apprentissage composites qui ne nécessitent pas de réglage supplémentaire. Pour (2), nous proposons d'abord un modèle bayésien hiérarchique, qui combine différents signaux, pour estimer efficacement la qualité de la recommandation. Nous fournissons les outils computationnels appropriés pour adapter l'inférence aux problèmes à grande échelle et démontrons empiriquement les avantages de l'approche dans plusieurs scénarios. Nous abordons ensuite la question de l'accélération des approches communes d'optimisation des politiques, en nous concentrant particulièrement sur les problèmes de recommandation avec des catalogues de millions de produits. Nous dérivons des méthodes d'optimisation, basées sur de nouvelles approximations du gradient calculées en temps logarithmique par rapport à la taille du catalogue. Notre approche améliore le temps linéaire des méthodes courantes de calcul de gradient, et permet un apprentissage rapide sans nuire à la qualité des politiques obtenues
This thesis presents contributions to the problem of learning from logged interactions using the offline contextual bandit framework. We are interested in two related topics: (1) offline policy learning with performance certificates, and (2) fast and efficient policy learning applied to large scale, real world recommendation. For (1), we first leverage results from the distributionally robust optimisation framework to construct asymptotic, variance-sensitive bounds to evaluate policies' performances. These bounds lead to new, more practical learning objectives thanks to their composite nature and straightforward calibration. We then analyse the problem from the PAC-Bayesian perspective, and provide tighter, non-asymptotic bounds on the performance of policies. Our results motivate new strategies, that offer performance certificates before deploying the policies online. The newly derived strategies rely on composite learning objectives that do not require additional tuning. For (2), we first propose a hierarchical Bayesian model, that combines different signals, to efficiently estimate the quality of recommendation. We provide proper computational tools to scale the inference to real world problems, and demonstrate empirically the benefits of the approach in multiple scenarios. We then address the question of accelerating common policy optimisation approaches, particularly focusing on recommendation problems with catalogues of millions of items. We derive optimisation routines, based on new gradient approximations, computed in logarithmic time with respect to the catalogue size. Our approach improves on common, linear time gradient computations, yielding fast optimisation with no loss on the quality of the learned policies
2

Ferrandiz, Sylvain. "Apprentissage supervisé à partir de données séquentielles." Caen, 2006. http://www.theses.fr/2006CAEN2030.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En phase de préparation d’un processus de fouille de données, une part importante du travail est consacrée à la construction et à la sélection des variables descriptives. L’approche filtre univariée usuellement adoptée nécessite l’emploi d’une méthode d’évaluation d’une variable. Nous considérons la question de l’évaluation supervisée d’une variable séquentielle. Pour résoudre ce problème, nous montrons qu’il suffit de résoudre un problème plus général : celui de l’évaluation supervisée d’une mesure de similitude. Nous proposons une telle méthode d’évaluation. Pour l’obtenir, nous formulons le problème en un problème de recherche d’une bonne partition de Voronoi. Nous proposons un nouveau critère d’évaluation supervisée de ces partitions et une nouvelle heuristique de recherche optimisée. Le critère prévient automatiquement le risque de sur-apprentissage et l’heuristique trouve rapidement une bonne solution. Au final, la méthode réalise une estimation non paramétrique robuste de la densité d’une variable cible symbolique conditionnellement à une mesure de similitude définie à partir d’une variable. La méthode a été testée sur de nombreux jeux de données. Son utilisation permet de répondre à des questions comme : quel jour de la semaine ou quelle tranche horaire sur la semaine discrimine le mieux le segment auquel appartient un foyer à partir de sa consommation téléphonique fixe ? Quelle série de mesures permet de quantifier au mieux l’appétence à un nouveau service ?
In the data mining process, the main part of the data preparation step is devoted to feature construction and selection. The filter approach usually adopted requires evaluation methods for any kind of feature. We address the problem of the supervised evaluation of a sequential feature. We show that this problem is solved if a more general problem is tackled : that of the supervised evaluation of a similarity measure. We provide such an evaluation method. We first turn the problem into the search of a discriminating Voronoi partition. Then, we define a new supervised criterion evaluating such partitions and design a new optimised algorithm. The criterion automatically prevents from overfitting the data and the algorithm quickly provides a good solution. In the end, the method can be interpreted as a robust non parametric method for estimating the conditional density of a nominal target feature given a similarity measure defined from a descriptive feature. The method is experimented on many datasets. It is useful for answering questions like : which day of the week or which hourly time segment is the most relevant to discriminate customers from their call detailed records ? Which series allows to better estimate the customer need for a new service ?
3

Chevaleyre, Yann. "Apprentissage de règles à partir de données multi-instances." Paris 6, 2001. http://www.theses.fr/2001PA066502.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Dubois, Vincent. "Apprentissage approximatif et extraction de connaissances à partir de données textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La problématique de cette thèse est l'extraction de connaissances à partir de données textuelles (KDT) en se basant sur la théorie des ensembles approximatifs (RST) et l'apprentissage symbolique et numérique. Les contributions sont : (1) l'extension des espaces de versions (espaces de versions approximatifs (RVS)), (2) l'application des RVS au KDT, (3) la découverte et visualisation de graphes à partir de textes. Tout d'abord, nous définissons les espaces de versions approximatifs (RVS), en construisant des opérateurs d'approximation, ce qui aboutit à un cadre général pour l'apprentissage symbolique automatique. L'introduction de la notion de consistance approximative conduit à l'utilisation de concepts presque consistants avec les données. En pratique, cela a pour effet d'étendre l'interprétation des concepts lors de l'apprentissage, et de traiter les données inconsistantes à l'aide de regroupement des exemples. . .
5

Jouve, Pierre-Emmanuel. "Apprentissage non supervisé et extraction de connaissances à partir de données." Lyon 2, 2003. http://theses.univ-lyon2.fr/documents/lyon2/2003/jouve_pe.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les travaux constituant cette dissertation concernent la classification non supervisée. Cette problématique, commune à de multiples domaines (et ainsi connue sous diverses acceptions : apprentissage/classification non supervisé(e) en reconnaissance de formes, taxonomie en sciences de la vie, typologie en sciences humaines. . . ), est ici envisagée selon la perspective Ingénierie des Connaissances et plus spécifiquement dans le cadre de son intégration au sein du processus dExtraction de Connaissances à partir de Données (ECD). D'une part, nos travaux participent à l'amélioration du processus de classification non supervisée, et ce, selon divers axes propres ou non à l'ECD (coût calculatoire et utilisabilité des méthodes, formes et distribution des données traitées, forme des connaissances extraites, sélection de variables pour l'apprentissage non supervisé. . . ) mais aussi à l'évaluation de la qualité d'un processus de classification non supervisée (estimation de la validité des résultats issus du processus). D'autre part ces travaux visent à illustrer le lien très étroit unissant apprentissage non supervisé et apprentissage supervisé et à monter l'intérêt d'une intéraction antre ces deux types de processus. Concrètement, ces divers problèmes sont abordé et présentés au travers d'une nouvelle méthode de classification non supervisée, de deux nouveaux indices et d'une méthodologie dédiés à l'évaluation/comparaison de la validité de classification non superviséé, de méthodes de sélection de variables pour l'apprentissage non supervisé et l'apprentissage supervisé, de plusieurs méthodes pour l'agrégation de classification non supervisée.
6

Guillouet, Brendan. "Apprentissage statistique : application au trafic routier à partir de données structurées et aux données massives." Thesis, Toulouse 3, 2016. http://www.theses.fr/2016TOU30205/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à l'apprentissage pour données massives. On considère en premier lieu, des trajectoires définies par des séquences de géolocalisations. Une nouvelle mesure de distance entre trajectoires (Symmetrized Segment-Path Distance) permet d'identifier par classification hiérarchique des groupes de trajectoires, modélisés ensuite par des mélanges gaussiens décrivant les déplacements par zones. Cette modélisation est utilisée de façon générique pour résoudre plusieurs types de problèmes liés aux trafic routier : prévision de la destination finale d'une trajectoire, temps d'arrivée à destination, prochaine zone de localisation. Les exemples analysés montrent que le modèle proposé s'applique à des environnements routiers différents et, qu'une fois appris, il s'applique à des trajectoires aux propriétés spatiales et temporelles différentes. En deuxième lieu, les environnements technologiques d'apprentissage pour données massives sont comparés sur des cas d'usage industriels
This thesis focuses on machine learning techniques for application to big data. We first consider trajectories defined as sequences of geolocalized data. A hierarchical clustering is then applied on a new distance between trajectories (Symmetrized Segment-Path Distance) producing groups of trajectories which are then modeled with Gaussian mixture in order to describe individual movements. This modeling can be used in a generic way in order to resolve the following problems for road traffic : final destination, trip time or next location predictions. These examples show that our model can be applied to different traffic environments and that, once learned, can be applied to trajectories whose spatial and temporal characteristics are different. We also produce comparisons between different technologies which enable the application of machine learning methods on massive volumes of data
7

Elati, Mohamed. "Apprentissage de réseaux de régulation génétique à partir de données d'expression." Paris 13, 2007. http://www.theses.fr/2007PA132031.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Pradel, Bruno. "Evaluation des systèmes de recommandation à partir d'historiques de données." Paris 6, 2013. http://www.theses.fr/2013PA066263.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse présente différents protocoles d'évaluations permettantune meilleure estimation des erreurs de systèmes de recommandationsconstruits à partir d'historiques de données d'utilisateurs (ie sansinteractions directes avec les utilisateurs du système). Dans un premier chapitre de contribution, nous présentons lesrésultats d'une étude de cas d'un système de recommandation uniquementbasé sur les données d'achats d'un magasin de bricolage. Larecommandation est une tâche complexe qui à été souvent assimiléeuniquement à tache de prédiction de notes. Dans cette étude, nouscherchons à prédire les achats qu'un client va effectuer et non lanote qu'il attribuerait à un produit. Les données de notes étantindisponibles pour bon nombre d'industriels, cela correspond à uneapplication fréquemment rencontrée en pratique mais pourtant rarementtraitée dans la littérature. Dans ce cadre, nous évaluons lesperformances de plusieurs algorithmes de filtrage collaboratif del'état de l'art. Nous montrons comment certaines modifications desprotocoles d'apprentissages et de tests, ainsi que l'apportd'information de contexte, aboutit à de fortes variations desperformances entre algorithmes et à une sélection de modèle différente. Dans les chapitres suivants, nous abordons la problématique del'évaluation d'algorithmes de filtrage collaboratif à partir denotes. Dans un deuxième chapitre, nous détaillons notre participationau challenge de recommandation contextuelle de films CAMRa. Cechallenge propose deux modifications du protocole classique deprédiction de notes: les algorithmes sont évalués en considérant desmesures d'ordonnancement et les notes sont échantillonnées en test demanière temporelle sur deux périodes spécifiques de l'année: lasemaine de Noël et de la cérémonie des Oscars. Nous proposons unalgorithme de recommandations personnalisées qui prend en compte lesvariations temporelles de la popularité des items. La dernière contribution de cette thèse étudie l'influence duprocessus d'observations des notes sur les mesures de performancesTopK (rappel/ précision). Les utilisateurs choisissent les itemsqu'ils veulent noter, ainsi les notes sont obtenues par un processusd'observations non aléatoires. D'une part, certains items reçoiventbeaucoup plus de notes que les autres, et d'autre part, les notes"positives" sont sur-observés car les utilisateurs notent plusfréquemment les items qu'ils aiment. Nous proposons une analysethéorique de ces phénomènes et présentons également des résultatsd'expériences effectuées à l'aide de données Yahoo! réunissant desnotes collectées à la fois de manière classique et de manièrealéatoire. Nous montrons notamment qu'une prise en compte des notesmanquantes comme négatives en apprentissage aboutit à de bonnesperformances sur les mesures TopK, mais que ces performances peuventêtre trompeuses en favorisant des algorithmes modélisant la popularitédes items plus que les réelles préférences des utilisateurs
This thesis presents various experimental protocols leading to abetter offline estimation of errors in recommender systems. As a first contribution, results form a case study of a recommendersystem based on purchased data will be presented. Recommending itemsis a complex task that has been mainly studied considering solelyratings data. In this study, we put the stress on predicting thepurchase a customer will make rather than the rating he will assign toan item. While ratings data are not available for many industries andpurchases data widely used, very few studies considered purchasesdata. In that setting, we compare the performances of variouscollaborative filtering models from the litterature. We notably showthat some changes the training and testing phases, and theintroduction of contextual information lead to major changes of therelative perfomances of algorithms. The following contributions will focus on the study of ratings data. Asecond contribution will present our participation to the Challenge onContext-Aware Movie Recommendation. This challenge provides two majorchanges in the standard ratings prediction protocol: models areevaluated conisdering ratings metrics and tested on two specificsperiod of the year: Christmas and Oscars. We provides personnalizedrecommendation modeling the short-term evolution of the popularitiesof movies. Finally, we study the impact of the observation process of ratings onranking evaluation metrics. Users choose the items they want to rateand, as a result, ratings on items are not observed at random. First,some items receive a lot more ratings than others and secondly, highratings are more likely to be oberved than poor ones because usersmainly rate the items they likes. We propose a formal analysis ofthese effects on evaluation metrics and experiments on the Yahoo!Musicdataset, gathering standard and randomly collected ratings. We showthat considering missing ratings as negative during training phaseleads to good performances on the TopK task, but these performancescan be misleading favoring methods modeling the popularities of itemsmore than the real tastes of users
9

Liquière, Michel. "Apprentissage à partir d'objets structurés : conception et réalisation." Montpellier 2, 1990. http://www.theses.fr/1990MON20038.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail porte sur la mise en evidence par apprentissage de regularites dans la description d'objets complexes. Pour la description des exemples, nous utilisons un formalisme objet base sur le modele des graphes conceptuels de sowa. La recherche de regularites valides est ramenee a la recherche de sous-graphes conceptuels, donc connexes, apparaissant souvent dans les graphes decrivant les exemples et rarement dans ceux decrivant les contre-exemples. Nous proposons un algorithme qui procede en deux etapes: 1) recherche de chemins conceptuels; 2) assemblage de ces chemins pour former des arbres conceptuels. Les regularites extraites par cette methode sont ensuite structurees par l'intermediaire d'un treillis de galois, ce qui permet de batir des methodes tres interessantes de decision et d'explication des resultats. Ces algorithmes ont ete exploites dans le domaine de la biologie sur des problemes de grandes tailles
10

Khiali, Lynda. "Fouille de données à partir de séries temporelles d’images satellites." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS046/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les images satellites représentent de nos jours une source d’information incontournable. Elles sont exploitées dans diverses applications, telles que : la gestion des risques, l’aménagent des territoires, la cartographie du sol ainsi qu’une multitude d’autre taches. Nous exploitons dans cette thèse les Séries Temporelles d’Images Satellites (STIS) pour le suivi des évolutions des habitats naturels et semi-naturels. L’objectif est d’identifier, organiser et mettre en évidence des patrons d’évolution caractéristiques de ces zones.Nous proposons des méthodes d’analyse de STIS orientée objets, en opposition aux approches par pixel, qui exploitent des images satellites segmentées. Nous identifions d’abord les profils d’évolution des objets de la série. Ensuite, nous analysons ces profils en utilisant des méthodes d’apprentissage automatique. Afin d’identifier les profils d’évolution, nous explorons les objets de la série pour déterminer un sous-ensemble d’objets d’intérêt (entités spatio-temporelles/objets de référence). L’évolution de ces entités spatio-temporelles est ensuite illustrée en utilisant des graphes d’évolution.Afin d’analyser les graphes d’évolution, nous avons proposé trois contributions. La première contribution explore des STIS annuelles. Elle permet d’analyser les graphes d’évolution en utilisant des algorithmes de clustering, afin de regrouper les entités spatio-temporelles évoluant similairement. Dans la deuxième contribution, nous proposons une méthode d’analyse pluri-annuelle et multi-site. Nous explorons plusieurs sites d’étude qui sont décrits par des STIS pluri-annuelles. Nous utilisons des algorithmes de clustering afin d’identifier des similarités intra et inter-site. Dans la troisième contribution, nous introduisons une méthode d’analyse semi-supervisée basée sur du clustering par contraintes. Nous proposons une méthode de sélection de contraintes. Ces contraintes sont utilisées pour guider le processus de clustering et adapter le partitionnement aux besoins de l’utilisateur.Nous avons évalué nos travaux sur différents sites d’étude. Les résultats obtenus ont permis d’identifier des profils d’évolution types sur chaque site d’étude. En outre, nous avons aussi identifié des évolutions caractéristiques communes à plusieurs sites. Par ailleurs, la sélection de contraintes pour l’apprentissage semi-supervisé a permis d’identifier des entités profitables à l’algorithme de clustering. Ainsi, les partitionnements obtenus en utilisant l’apprentissage non supervisé ont été améliorés et adaptés aux besoins de l’utilisateur
Nowadays, remotely sensed images constitute a rich source of information that can be leveraged to support several applications including risk prevention, land use planning, land cover classification and many other several tasks. In this thesis, Satellite Image Time Series (SITS) are analysed to depict the dynamic of natural and semi-natural habitats. The objective is to identify, organize and highlight the evolution patterns of these areas.We introduce an object-oriented method to analyse SITS that consider segmented satellites images. Firstly, we identify the evolution profiles of the objects in the time series. Then, we analyse these profiles using machine learning methods. To identify the evolution profiles, we explore all the objects to select a subset of objects (spatio-temporal entities/reference objects) to be tracked. The evolution of the selected spatio-temporal entities is described using evolution graphs.To analyse these evolution graphs, we introduced three contributions. The first contribution explores annual SITS. It analyses the evolution graphs using clustering algorithms, to identify similar evolutions among the spatio-temporal entities. In the second contribution, we perform a multi-annual cross-site analysis. We consider several study areas described by multi-annual SITS. We use the clustering algorithms to identify intra and inter-site similarities. In the third contribution, we introduce à semi-supervised method based on constrained clustering. We propose a method to select the constraints that will be used to guide the clustering and adapt the results to the user needs.Our contributions were evaluated on several study areas. The experimental results allow to pinpoint relevant landscape evolutions in each study sites. We also identify the common evolutions among the different sites. In addition, the constraint selection method proposed in the constrained clustering allows to identify relevant entities. Thus, the results obtained using the unsupervised learning were improved and adapted to meet the user needs
11

Le, Folgoc Loïc. "Apprentissage statistique pour la personnalisation de modèles cardiaques à partir de données d’imagerie." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4098/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur un problème de calibration d'un modèle électromécanique de cœur, personnalisé à partir de données d'imagerie médicale 3D+t ; et sur celui - en amont - de suivi du mouvement cardiaque. A cette fin, nous adoptons une méthodologie fondée sur l'apprentissage statistique. Pour la calibration du modèle mécanique, nous introduisons une méthode efficace mêlant apprentissage automatique et une description statistique originale du mouvement cardiaque utilisant la représentation des courants 3D+t. Notre approche repose sur la construction d'un modèle statistique réduit reliant l'espace des paramètres mécaniques à celui du mouvement cardiaque. L'extraction du mouvement à partir d'images médicales avec quantification d'incertitude apparaît essentielle pour cette calibration, et constitue l'objet de la seconde partie de cette thèse. Plus généralement, nous développons un modèle bayésien parcimonieux pour le problème de recalage d'images médicales. Notre contribution est triple et porte sur un modèle étendu de similarité entre images, sur l'ajustement automatique des paramètres du recalage et sur la quantification de l'incertitude. Nous proposons une technique rapide d'inférence gloutonne, applicable à des données cliniques 4D. Enfin, nous nous intéressons de plus près à la qualité des estimations d'incertitude fournies par le modèle. Nous comparons les prédictions du schéma d'inférence gloutonne avec celles données par une procédure d'inférence fidèle au modèle, que nous développons sur la base de techniques MCMC. Nous approfondissons les propriétés théoriques et empiriques du modèle bayésien parcimonieux et des deux schémas d'inférence
This thesis focuses on the calibration of an electromechanical model of the heart from patient-specific, image-based data; and on the related task of extracting the cardiac motion from 4D images. Long-term perspectives for personalized computer simulation of the cardiac function include aid to the diagnosis, aid to the planning of therapy and prevention of risks. To this end, we explore tools and possibilities offered by statistical learning. To personalize cardiac mechanics, we introduce an efficient framework coupling machine learning and an original statistical representation of shape & motion based on 3D+t currents. The method relies on a reduced mapping between the space of mechanical parameters and the space of cardiac motion. The second focus of the thesis is on cardiac motion tracking, a key processing step in the calibration pipeline, with an emphasis on quantification of uncertainty. We develop a generic sparse Bayesian model of image registration with three main contributions: an extended image similarity term, the automated tuning of registration parameters and uncertainty quantification. We propose an approximate inference scheme that is tractable on 4D clinical data. Finally, we wish to evaluate the quality of uncertainty estimates returned by the approximate inference scheme. We compare the predictions of the approximate scheme with those of an inference scheme developed on the grounds of reversible jump MCMC. We provide more insight into the theoretical properties of the sparse structured Bayesian model and into the empirical behaviour of both inference schemes
12

Renaux, Pierre. "Extraction d'informations à partir de documents juridiques : application à la contrefaçon de marques." Caen, 2006. http://www.theses.fr/2006CAEN2019.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le cadre de nos recherches repose sur l'extraction et l'analyse de connaissances à partir d'une source de données documentaire de type juridique caractérisant les contrefaçons de marques nominatives. Cette discipline reflète parfaitement toutes les contraintes appartenant aux différents domaines intervenant dans le cadre de l'extraction de connaissances à partir de documents : document électronique, bases de données, statistiques, intelligence artificielle et interaction homme/machine. Cependant, les performances de ces méthodes sont étroitement liées à la qualité des données utilisées. Dans notre contexte de recherche, chaque décision est supervisée par un rédacteur (le magistrat) et dépend étroitement du contexte rédactionnel, limitant les procédés d'extraction d'information. Nous nous intéressons donc aux décisions susceptibles de biaiser l'apprentissage des documents. Nous observons les fondements de celles-ci, déterminons leur importance stratégique et le cas échéant nous proposons des solutions adaptées afin de réorienter le biais observé vers une meilleure représentation des documents. Nous proposons une approche exploratoire supervisée pour évaluer la qualité des données impliquées, en déterminant les propriétés biaisant la qualité de la connaissance établie ainsi qu'une plate-forme interactive et collaborative de modélisation des processus conduisant à l'extraction de connaissances afin d'intégrer efficacement le savoir-faire de l'expert
Our research framework focuses on the extraction and analysis of induced knowledge from legal corpus databases describing the nominative trade-mark infringement. This discipline deals with all the constraints arising from the different domains of knowledge discovery from documents: the electronic document, databases, statistics, artificial intelligence and human computer interaction. Meanwhile, the accuracy of these methods are closely linked with the quality of the data used. In our research framework, each decision is supervised by an author (the magistrate) and relies on a contextual writing environment, thus limiting the information extraction process. Here we are interesteding in decisions which direct the document learning process. We observe their surrounding, find their strategic capacity and offer adapted solutions in order to determine a better document representation. We suggest an explorative and supervised approach for calculating the data quality by finding properties which corrupt the knowledge quality. We have developped an interactive and collaborative platform for modelling all the processes concluding to the knowledge extraction in order to efficiently integrate the expert's know-how and practices
13

Pomorski, Denis. "Apprentissage automatique symbolique/numérique : construction et évaluation d'un ensemble de règles à partir des données." Lille 1, 1991. http://www.theses.fr/1991LIL10117.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail s'inscrit dans le cadre du thème : Analyse et Surveillance des Processus Industriels Complexes, développé au Laboratoire d'Automatique et d'Information Industrielle de Lille (LAIL-URA 1440). Nous considérons des systèmes pour lesquels aucun modèle de comportement n'est disponible. Leur surveillance passe alors par l'établissement d'un modèle statistique, élaboré à partir de l'analyse des données relevées sur le processus. Après avoir présenté deux systèmes (ID3 et INDUCE) très utilisés en apprentissage, nous caractérisons les propriétés (cohérence, complétude. . . ) d'un ensemble de règles obtenues par une procédure d'apprentissage, et nous proposons des critères permettant d'évaluer ces règles. Nous distinguons deux procédures de construction de règles plus générales: l'agrégation et le prolongement. Nous donnons, pour ces deux cas, des moyens d'évaluation des résultats obtenus reposant sur différentes hypothèses (monde clos, non contradiction, continuité). Nous proposons dès lors la construction d'un modèle explicatif par généralisation des règles constituant le modèle atomique (représentant le comportement déterministe du processus). Nous développons des méthodes d'induction utilisant une représentation globale (construction de partitions) basées sur un critère entropique (issu de la théorie de l'information), et une représentation locale (prise en compte de parties)
14

Buchet, Samuel. "Vérification formelle et apprentissage logique pour la modélisation qualitative à partir de données single-cell." Thesis, Ecole centrale de Nantes, 2022. http://www.theses.fr/2022ECDN0011.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La compréhension des mécanismes cellulaires à l’œuvre au sein des organismes vivants repose généralement sur l’étude de leur expression génétique. Cependant, les gènes sont impliqués dans des processus de régulation complexes et leur mesureest difficile à réaliser. Dans ce contexte, la modélisation qualitative des réseaux de régulation génétique vise à établir la fonction de chaque gène à partir de la modélisation discrète d’un réseau d’interaction dynamique. Dans cette thèse, nous avons pour objectif de mettre en place cette approche de modélisation à partir des données de séquençage single-cell. Ces données se révèlent en effet intéressantes pour la modélisation qualitative, car elles apportent une grande précision et peuvent être interprétées de manière dynamique. Nous développons ainsi une méthode d’inférence de modèles qualitatifs basée sur l’apprentissage automatique de programmes logiques. Cette méthode est mise en œuvre sur des données single-cell et nous proposons plusieurs approches pour interpréter les modèles résultants en les confrontant avec des connaissances préétablies
The understanding of cellular mechanisms occurring inside human beings usually depends on the study of its gene expression.However, genes are implied in complex regulatory processes and their measurement is difficult to perform. In this context, the qualitative modeling of gene regulatory networks intends to establish the function of each gene from the discrete modeling of a dynamical interaction network. In this thesis, our goal is to implement this modeling approach from single-cell sequencing data. These data prove to be interesting for qualitative modeling since they bring high precision, and they can be interpreted in a dynamical way. Thus, we develop a method for the inference of qualitative models based on the automatic learning of logic programs. This method is applied on a single-cell dataset, and we propose several approaches to interpret the resulting models by comparing them with existing knowledge
15

Bouguelia, Mohamed-Rafik. "Classification et apprentissage actif à partir d'un flux de données évolutif en présence d'étiquetage incertain." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0034/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse traite de l’apprentissage automatique pour la classification de données. Afin de réduire le coût de l’étiquetage, l’apprentissage actif permet de formuler des requêtes pour demander à un opérateur d’étiqueter seulement quelques données choisies selon un critère d’importance. Nous proposons une nouvelle mesure d’incertitude qui permet de caractériser l’importance des données et qui améliore les performances de l’apprentissage actif par rapport aux mesures existantes. Cette mesure détermine le plus petit poids nécessaire à associer à une nouvelle donnée pour que le classifieur change sa prédiction concernant cette donnée. Nous intégrons ensuite le fait que les données à traiter arrivent en continu dans un flux de longueur infinie. Nous proposons alors un seuil d’incertitude adaptatif qui convient pour un apprentissage actif à partir d’un flux de données et qui réalise un compromis entre le nombre d’erreurs de classification et le nombre d’étiquettes de classes demandées. Les méthodes existantes d’apprentissage actif à partir de flux de données, sont initialisées avec quelques données étiquetées qui couvrent toutes les classes possibles. Cependant, dans de nombreuses applications, la nature évolutive du flux fait que de nouvelles classes peuvent apparaître à tout moment. Nous proposons une méthode efficace de détection active de nouvelles classes dans un flux de données multi-classes. Cette méthode détermine de façon incrémentale une zone couverte par les classes connues, et détecte les données qui sont extérieures à cette zone et proches entre elles, comme étant de nouvelles classes. Enfin, il est souvent difficile d’obtenir un étiquetage totalement fiable car l’opérateur humain est sujet à des erreurs d’étiquetage qui réduisent les performances du classifieur appris. Cette problématique a été résolue par l’introduction d’une mesure qui reflète le degré de désaccord entre la classe donnée manuellement et la classe prédite et une nouvelle mesure d’"informativité" permettant d’exprimer la nécessité pour une donnée mal étiquetée d’être réétiquetée par un opérateur alternatif
This thesis focuses on machine learning for data classification. To reduce the labelling cost, active learning allows to query the class label of only some important instances from a human labeller.We propose a new uncertainty measure that characterizes the importance of data and improves the performance of active learning compared to the existing uncertainty measures. This measure determines the smallest instance weight to associate with new data, so that the classifier changes its prediction concerning this data. We then consider a setting where the data arrives continuously from an infinite length stream. We propose an adaptive uncertainty threshold that is suitable for active learning in the streaming setting and achieves a compromise between the number of classification errors and the number of required labels. The existing stream-based active learning methods are initialized with some labelled instances that cover all possible classes. However, in many applications, the evolving nature of the stream implies that new classes can appear at any time. We propose an effective method of active detection of novel classes in a multi-class data stream. This method incrementally maintains a feature space area which is covered by the known classes, and detects those instances that are self-similar and external to that area as novel classes. Finally, it is often difficult to get a completely reliable labelling because the human labeller is subject to labelling errors that reduce the performance of the learned classifier. This problem was solved by introducing a measure that reflects the degree of disagreement between the manually given class and the predicted class, and a new informativeness measure that expresses the necessity for a mislabelled instance to be re-labeled by an alternative labeller
16

Wolley, Chirine. "Apprentissage supervisé à partir des multiples annotateurs incertains." Thesis, Aix-Marseille, 2014. http://www.theses.fr/2014AIXM4070/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature
In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context
17

Labernia, Fabien. "Algorithmes efficaces pour l’apprentissage de réseaux de préférences conditionnelles à partir de données bruitées." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLED018/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La croissance exponentielle des données personnelles, et leur mise à disposition sur la toile, a motivé l’émergence d’algorithmes d’apprentissage de préférences à des fins de recommandation, ou d’aide à la décision. Les réseaux de préférences conditionnelles (CP-nets) fournissent une structure compacte et intuitive pour la représentation de telles préférences. Cependant, leur nature combinatoire rend leur apprentissage difficile : comment apprendre efficacement un CP-net au sein d’un milieu bruité, tout en supportant le passage à l’échelle ?Notre réponse prend la forme de deux algorithmes d’apprentissage dont l’efficacité est soutenue par de multiples expériences effectuées sur des données réelles et synthétiques.Le premier algorithme se base sur des requêtes posées à des utilisateurs, tout en prenant en compte leurs divergences d’opinions. Le deuxième algorithme, composé d’une version hors ligne et en ligne, effectue une analyse statistique des préférences reçues et potentiellement bruitées. La borne de McDiarmid est en outre utilisée afin de garantir un apprentissage en ligne efficace
The rapid growth of personal web data has motivated the emergence of learning algorithms well suited to capture users’ preferences. Among preference representation formalisms, conditional preference networks (CP-nets) have proven to be effective due to their compact and explainable structure. However, their learning is difficult due to their combinatorial nature.In this thesis, we tackle the problem of learning CP-nets from corrupted large datasets. Three new algorithms are introduced and studied on both synthetic and real datasets.The first algorithm is based on query learning and considers the contradictions between multiple users’ preferences by searching in a principled way the variables that affect the preferences. The second algorithm relies on information-theoretic measures defined over the induced preference rules, which allow us to deal with corrupted data. An online version of this algorithm is also provided, by exploiting the McDiarmid's bound to define an asymptotically optimal decision criterion for selecting the best conditioned variable and hence allowing to deal with possibly infinite data streams
18

Velcin, Julien. "Extraction automatique de stéréotypes à partir de données symboliques et lacunaires." Paris 6, 2005. http://www.theses.fr/2005PA066465.

Full text
APA, Harvard, Vancouver, ISO, and other styles
19

Bourgeais, Victoria. "Interprétation de l'apprentissage profond pour la prédiction de phénotypes à partir de données d'expression de gènes." Electronic Thesis or Diss., université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG069.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'apprentissage profond est une avancée majeure de l'intelligence artificielle de ces dernières années. Ses domaines de prédilection sont principalement l'analyse d'image et le traitement du langage naturel. Un des futurs enjeux majeurs de cette approche est son application à la médecine de précision. Cette nouvelle forme de médecine permettra de personnaliser chaque étape du parcours de soin d'un patient en fonction de ses caractéristiques, notamment moléculaires telles que les données d'expression de gènes qui informent de l'état cellulaire d'un patient. Les modèles d'apprentissage profond sont néanmoins considérés comme des boîtes noires où aucune explication n'est fournie à la prédiction calculée. L'Union Européenne a adopté récemment un texte imposant aux algorithmes d'apprentissage automatique d'être capables d'expliquer leurs décisions aux utilisateurs. Il y a donc un réel besoin de rendre les réseaux de neurones plus interprétables et cela est particulièrement vrai dans le domaine médical pour différentes raisons. D'une part, pour s'assurer que le modèle se base sur des représentations fiables des patients et ne se concentre pas sur des artefacts non pertinents présents dans les données d'apprentissage. Ensuite, cela permettrait de rendre les différents utilisateurs (médecins, patients, chercheurs…) confiants dans leur utilisation de ce modèle. Enfin, un réseau de neurones performant pour la prédiction d'un certain phénotype peut avoir identifié une signature dans les données qui pourrait ouvrir sur de nouvelles pistes de recherche. Dans l'état de l'art actuel, il existe deux approches pour interpréter les réseaux neurones : en créant des modèles qui sont par essence interprétables, ou en ayant recours a posteriori à une méthode tierce dédiée à l'interprétation du réseau de neurones déjà appris. Quelle que soit la méthode choisie, l'explication fournie consiste généralement en l'identification des variables d'entrée et des neurones importants pour la prédiction. Or, dans le cas d'une application sur les données d'expression de gènes, cela n'est pas suffisant, car ces données sont difficilement compréhensibles par l'homme. Nous proposons ainsi de nouvelles méthodes originales d'apprentissage profond, interprétables par construction. L'architecture de ces méthodes est définie à partir d'une ou plusieurs bases de connaissances. Un neurone y représente un objet biologique et les connexions entre les neurones correspondent aux relations entre les objets biologiques. Trois méthodes ont été développées, listées ci-dessous dans l'ordre chronologique. La méthode Deep GONet se base sur un perceptron multicouche contraint par une base de connaissance biologique, la Gene Ontology (GO), par l'intermédiaire d'un terme de régularisation adapté. Les explications des prédictions sont fournies par une méthode d'interprétation a posteriori. La méthode GraphGONet tire parti à la fois d'un perceptron multicouche et d'un réseau de neurones de graphes afin d'exploiter au maximum la richesse sémantique de la connaissance GO. Ce modèle a la capacité de rendre automatiquement des explications. La méthode BioHAN ne se base plus que sur un réseau de neurones de graphes et peut facilement intégrer différentes bases de connaissances et leur sémantique. L'interprétation est facilitée par le recours aux mécanismes d'attention orientant le modèle à se concentrer sur les neurones les plus informatifs. Ces méthodes ont été évaluées sur des tâches de diagnostic à partir de jeux de données d'expression de gènes réelles et ont montré leur compétitivité par rapport aux méthodes d'apprentissage automatique de l'état de l'art. Nos modèles fournissent des explications intelligibles composées des neurones les plus importants et des concepts biologiques qui leur sont associés. Cette caractéristique permet aux experts d'utiliser nos outils dans un cadre médical
Deep learning has been a significant advance in artificial intelligence in recent years. Its main domains of interest are image analysis and natural language processing. One of the major future challenges of this approach is its application to precision medicine. This new form of medicine will make it possible to personalize each stage of a patient's care pathway according to his or her characteristics, in particular molecular characteristics such as gene expression data that inform about the cellular state of a patient. However, deep learning models are considered black boxes as their predictions are not accompanied by an explanation, limiting their use in clinics. The General Data Protection Regulation (GDPR), adopted recently by the European Union, imposes that the machine learning algorithms must be able to explain their decisions to the users. Thus, there is a real need to make neural networks more interpretable, and this is particularly true in the medical field for several reasons. Understanding why a phenotype has been predicted is necessary to ensure that the prediction is based on reliable representations of the patients rather than on irrelevant artifacts present in the training data. Regardless of the model's effectiveness, this will affect any end user's decisions and confidence in the model. Finally, a neural network performing well for the prediction of a certain phenotype may have identified a signature in the data that could open up new research avenues.In the current state of the art, two general approaches exist for interpreting these black-boxes: creating inherently interpretable models or using a third-party method dedicated to the interpretation of the trained neural network. Whatever approach is chosen, the explanation provided generally consists of identifying the important input variables and neurons for the prediction. However, in the context of phenotype prediction from gene expression, these approaches generally do not provide an understandable explanation, as these data are not directly comprehensible by humans. Therefore, we propose novel and original deep learning methods, interpretable by design. The architecture of these methods is defined from one or several knowledge databases. A neuron represents a biological object, and the connections between neurons correspond to the relations between biological objects. Three methods have been developed, listed below in chronological order.Deep GONet is based on a multilayer perceptron constrained by a biological knowledge database, the Gene Ontology (GO), through an adapted regularization term. The explanations of the predictions are provided by a posteriori interpretation method.GraphGONet takes advantage of both a multilayer perceptron and a graph neural network to deal with the semantic richness of GO knowledge. This model has the capacity to generate explanations automatically.BioHAN is only established on a graph neural network and can easily integrate different knowledge databases and their semantics. Interpretation is facilitated by the use of an attention mechanism, enabling the model to focus on the most informative neurons.These methods have been evaluated on diagnostic tasks using real gene expression datasets and have shown competitiveness with state-of-the-art machine learning methods. Our models provide intelligible explanations composed of the most contributive neurons and their associated biological concepts. This feature allows experts to use our tools in a medical setting
20

Braud, Chloé. "Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes." Sorbonne Paris Cité, 2015. https://hal.inria.fr/tel-01256884.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le développement de systèmes d'analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l'étape d'identification des relations (comme Explication, Contraste. . . ) liant les segments constituant le document. En particulier, l'identification des relations dites implicites, c'est-à-dire non marquées par un connecteur discursif (comme mais, parce que. . . ), est réputée difficile car elle nécessite la prise en compte d'indices variés et correspond à des difficultés particulières dans le cadre d'un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d'identification automatique des relations implicites. Nous proposons d'abord d'utiliser les connecteurs pour annoter automatiquement de nouvelles données. Nous mettons en place des stratégies issues de l'adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank Ensuite, nous proposons d'utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues
Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast. . . ) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because. . . ), is known as an hard tank sine it requires to take into account varions factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations. First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages
21

Sutton-Charani, Nicolas. "Apprentissage à partir de données et de connaissances incertaines : application à la prédiction de la qualité du caoutchouc." Thesis, Compiègne, 2014. http://www.theses.fr/2014COMP1835/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Pour l’apprentissage de modèles prédictifs, la qualité des données disponibles joue un rôle important quant à la fiabilité des prédictions obtenues. Ces données d’apprentissage ont, en pratique, l’inconvénient d’être très souvent imparfaites ou incertaines (imprécises, bruitées, etc). Ce travail de doctorat s’inscrit dans ce cadre où la théorie des fonctions de croyance est utilisée de manière à adapter des outils statistiques classiques aux données incertaines.Le modèle prédictif choisi est l’arbre de décision qui est un classifieur basique de l’intelligence artificielle mais qui est habituellement construit à partir de données précises. Le but de la méthodologie principale développée dans cette thèse est de généraliser les arbres de décision aux données incertaines (floues, probabilistes,manquantes, etc) en entrée et en sortie. L’outil central d’extension des arbres de décision aux données incertaines est une vraisemblance adaptée aux fonctions de croyance récemment proposée dans la littérature dont certaines propriétés sont ici étudiées de manière approfondie. De manière à estimer les différents paramètres d’un arbre de décision, cette vraisemblance est maximisée via l’algorithme E2M qui étend l’algorithme EM aux fonctions de croyance. La nouvelle méthodologie ainsi présentée, les arbres de décision E2M, est ensuite appliquée à un cas réel : la prédiction de la qualité du caoutchouc naturel. Les données d’apprentissage, essentiellement culturales et climatiques, présentent de nombreuses incertitudes qui sont modélisées par des fonctions de croyance adaptées à ces imperfections. Après une étude statistique standard de ces données, des arbres de décision E2M sont construits et évalués en comparaison d’arbres de décision classiques. Cette prise en compte des incertitudes des données permet ainsi d’améliorer très légèrement la qualité de prédiction mais apporte surtout des informations concernant certaines variables peu prises en compte jusqu’ici par les experts du caoutchouc
During the learning of predictive models, the quality of available data is essential for the reliability of obtained predictions. These learning data are, in practice very often imperfect or uncertain (imprecise, noised, etc). This PhD thesis is focused on this context where the theory of belief functions is used in order to adapt standard statistical tools to uncertain data.The chosen predictive model is decision trees which are basic classifiers in Artificial Intelligence initially conceived to be built from precise data. The aim of the main methodology developed in this thesis is to generalise decision trees to uncertain data (fuzzy, probabilistic, missing, etc) in input and in output. To realise this extension to uncertain data, the main tool is a likelihood adapted to belief functions,recently presented in the literature, whose behaviour is here studied. The maximisation of this likelihood provide estimators of the trees’ parameters. This maximisation is obtained via the E2M algorithm which is an extension of the EM algorithm to belief functions.The presented methodology, the E2M decision trees, is applied to a real case : the natural rubber quality prediction. The learning data, mainly cultural and climatic,contains many uncertainties which are modelled by belief functions adapted to those imperfections. After a simple descriptiv statistic study of the data, E2M decision trees are built, evaluated and compared to standard decision trees. The taken into account of the data uncertainty slightly improves the predictive accuracy but moreover, the importance of some variables, sparsely studied until now, is highlighted
22

Cerda, Reyes Patricio. "Apprentissage statistique à partir de variables catégorielles non-uniformisées Similarity encoding for learning with dirty categorical variables Encoding high-cardinality string categorical variables." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS470.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les données de type tabulaire contiennent souvent des variables catégorielles, considérées comme des entrées non numériques avec un nombre fixe et limité d'éléments uniques, appelés catégories. De nombreux algorithmes d’apprentissage statistique nécessitent une représentation numérique des variables catégorielles. Une étape d'encodage est donc nécessaire pour transformer ces entrées en vecteurs. Pour cela, plusieurs stratégies existent, dont la plus courante est celle de l'encodage one-hot, qui fonctionne bien dans le cadre de l'analyse statistique classique (en termes de puissance de prédiction et d'interprétation) lorsque le nombre de catégories reste faible. Cependant, les données catégorielles non-uniformisées présentent le risque d'avoir une grande cardinalité et des redondances. En effet, les entrées peuvent partager des informations sémantiques et/ou morphologiques, et par conséquent, plusieurs entrées peuvent refléter la même entité. Sans une étape de nettoyage ou d'agrégation au préalable, les méthodes d'encodage courantes peuvent perdre en efficacité du fait d'une représentation vectorielle erronée. En outre, le risque d'obtenir des vecteurs de très grandes dimensions croit avec la quantité de données, ce qui empêche leur utilisation dans l'analyse de données volumineuses. Dans ce document, nous étudions une série de méthodes d’encodage qui permettent de travailler directement sur des variables catégorielles à grande cardinalité, sans qu'il soit nécessaire de les traiter en amont. A l'aide d'expériences menées sur des données réelles et simulées, nous démontrons que les méthodes proposées dans le cadre de cette thèse améliorent l'apprentissage supervisé et ce, en autre, du fait de leur capacité à capturer correctement l'information morphologique des entrées. Même avec des données volumineuses, ces méthodes s'avèrent être performantes, et dans certains cas, elles génèrent des vecteurs facilement interprétables. Par conséquent, nos méthodes peuvent être appliquées à l'apprentissage statistique automatique (AutoML) sans aucune intervention humaine
Tabular data often contain columns with categorical variables, usually considered as non-numerical entries with a fixed and limited number of unique elements or categories. As many statistical learning algorithms require numerical representations of features, an encoding step is necessary to transform categorical entries into feature vectors, using for instance one-hot encoding. This and other similar strategies work well, in terms of prediction performance and interpretability, in standard statistical analysis when the number of categories is small. However, non-curated data give rise to string categorical variables with a very high cardinality and redundancy: the string entries share semantic and/or morphological information, and several entries can reflect the same entity. Without any data cleaning or feature engineering step, common encoding methods break down, as they tend to lose information in their vectorial representation. Also, they can create high-dimensional feature vectors, which prevent their usage in large scale settings. In this work, we study a series of categorical encodings that remove the need for preprocessing steps on high-cardinality string categorical variables. An ideal encoder should be: scalable to many categories; interpretable to end users; and capture the morphological information contained in the string entries. Experiments on real and simulated data show that the methods we propose improve supervised learning, are adapted to large-scale settings, and, in some cases, create feature vectors that are easily interpretable. Hence, they can be applied in Automated Machine Learning (AutoML) pipelines in the original string entries without any human intervention
23

El, Ahdab Ahmad. "Contribution à l'apprentissage de réseaux bayésiens à partir de données datées pour le dignostic des processus dynamiques continus." Aix-Marseille 3, 2010. http://www.theses.fr/2010AIX30018.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse aborde le problème de l'apprentissage de réseaux bayésiens à partir de données datées, sans connaissances a priori du processus dynamique à l'origine des données. Une des principales difficultés de l'apprentissage d'un réseau bayésien est la construction et l'orientation des arcs du réseau tout en évitant les boucles. Cette difficulté augmente significativement lorsque les données sont datées. Ce mémoire propose un algorithme, appelé BJT4BN, basé sur une représentation adéquate d'un ensemble de séquences d'observations datées et utilise la BJ-mesure, une mesure de la théorie de l'information adaptée aux données datées, pour évaluer le flux d'information circulant le long d'un arc. Cet algorithme et cette mesure ont été conçus dans le cadre du processus TOM4L (Timed Observations Mining for Leaming), fondé sur la théorie des observations datées. Les travaux présentés dans ce mémoire sont illustrés sur l'exemple pédagogique du diagnostic d'un véhicule automobile. Le caractère opérationnel des travaux sont décrit à partir des résultats obtenus à partir des données du système Apache, le système à bases de connaissances développé par le groupe Arcelor Mittal Steel Group pour piloter ses bains de galvanisation
This thesis addresses the problem of learning a Dynamic Bayesian network from timed data without prior knowledge to the dynamic process that generated the data. One of the main difficulties of learning a Dynamic Bayesian network is building and orienting the edges of the network avoiding loops. This problem is more difficult when data are timed. The thesis proposes an algorithm, called BJT4BN, based on an adequate representation of a set of sequences of timed observations and uses the BJ-Measure, an information based measure adapted to timed data to evaluates the quantity of information flowing along an edge. This algorithm and this measure have been designed in the framework of the TOM4L process (Timed Observation Mining for Learning process) that is based on the Theory of the Timed Observations. The thesis illustrates the algorithm with an application on a pedagogical example of the diagnosis of a vehicle. The operational flavor of the works are described with the results obtained with the data provided by the Apache system, a real world knowledge based system developed by the Arcelor-Mittal Steel Group to diagnose its galvanization bathes
24

Temanni, Mohamed-Ramzi. "Combinaison de sources de données pour l'amélioration de la prédiction en apprentissage : une application à la prédiction de la perte de poids chez l'obèse à partir de données transcriptomiques et cliniques." Paris 6, 2009. https://tel.archives-ouvertes.fr/tel-00814513.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les maladies complexes comme l'obésité sont des maladies multifactorielles. Peu de travaux existent pour essayer de prédire les effets des différents traitements et ainsi mieux adapter les traitements aux patients. L'utilisation de modèles prédictifs pour mieux guider le choix des traitements de l'obésité reste un champ de recherche peu exploré malgré le fort impact qu'elle pourrait avoir vu la prévalence de cette maladie. Dans d'autres domaines de la médecine, comme la cancérologie par exemple, de telles méthodes sont déjà utilisées pour l'aide au diagnostic se basant notamment sur des données issues de puces à ADN. Cette technologie s'avère adaptée et son utilisation a donné lieu à des résultats intéressants pour dépister les maladies ou aider les médecins dans leur choix thérapeutique. Cependant si celle‐ci s'avère suffisante pour prédire d'une manière satisfaisante dans le domaine du cancer, en revanche elle s'avère d'un apport limité dans le cadre d'une application aux données de l'obésité. Cela suggère l'utilisation d'autres données patients pour améliorer les performances en prédiction. Les travaux de recherche présentés dans ce mémoire abordent les problèmes de la prédiction de la perte de poids suite à un régime ou une chirurgie bariatrique. Nous avons analysé le problème de la prédiction de la perte de poids à partir des données transcriptomique dans le cadre de deux projets européens et aussi à partir des données biocliniques dans le cadre de la chirurgie de l’obésité. Nous avons ensuite proposé trois concepts de combinaisons de modèles : combinaison de données, combinaison de méthodes et combinaison avec abstention. Nous avons analysé empiriquement ces trois approches et les expérimentations ont montré une amélioration des résultats pour les données de l'obésité même si ceux‐ci restent bien en deça de ce qu'on observe avec les données cancers
25

Dzogang, Fabon. "Représentation et apprentissage à partir de textes pour des informations émotionnelles et pour des informations dynamiques." Paris 6, 2013. http://www.theses.fr/2013PA066253.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'extraction de connaissances automatique à partir de textes consiste àmettre en correspondance une information bas niveau, extraite desdocuments au travers des mots et des groupes de mots, avec uneinformation de plus haut niveau. Les choix de représentation pourdécrire les documents sont alors essentiels et leurs particularitéscontraignent la définition de l'algorithme d'apprentissage mis enoeuvre. Les travaux de cette thèse considèrent ces deux problématiquesd'une part pour des informations émotionnelles, d'autre part pour desinformations dynamiques. Dans une première partie, nous considérons une tâche d'extraction desémotions pour laquelle le fossé sémantique est plus important que pourdes informations traditionnellement thématiques. Aussi, nous étudionsdes représentations destinées à capturer les nuances du langage pourdécrire une information subjective puisque émotionnelle. Nous étudionsde plus l'intégration de connaissances sémantiques qui permettent, dans unetâche de caractérisation, d'extraire la charge émotionnelle desdocuments, dans une tâche de prédiction de guider l'apprentissageréalisé. Dans une seconde partie, nous étudions la dynamique de l'information :à tout corpus de documents publié sur Internet peut être associé dessources en perpétuelle activité qui échangent des informations dansun mouvement continu. Nous explorons trois axes d'étude : les sourcesidentifiées, les communautés qu'elles forment dans un espace dynamiquetrès parcimonieux, et les thématiques remarquables qu'ellesdéveloppent. Pour chacun nous proposons des méthodes d'extractionoriginales que nous mettons en oeuvre sur un corpus réel collecté encontinu sur Internet
Automatic knowledge extraction from texts consists in mapping lowlevel information, as carried by the words and phrases extracted fromdocuments, to higher level information. The choice of datarepresentation for describing documents is, thus, essential and thedefinition of a learning algorithm is subject to theirspecifics. This thesis addresses these two issues in the context ofemotional information on the one hand and dynamic information on theother. In the first part, we consider the task of emotion extraction forwhich the semantic gap is wider than it is with more traditionalthematic information. Therefore, we propose to study representationsaimed at modeling the many nuances of natural language used fordescribing emotional, hence subjective, information. Furthermore, wepropose to study the integration of semantic knowledge which provides,from a characterization perspective, support for extracting theemotional content of documents and, from a prediction perspective,assistance to the learning algorithm. In the second part, we study information dynamics: any corpus ofdocuments published over the Internet can be associated to sources inperpetual activity which exchange information in a continuousmovement. We explore three main lines of work: automaticallyidentified sources; the communities they form in a dynamic and verysparse description space; and the noteworthy themes they develop. Foreach we propose original extraction methods which we apply to a corpusof real data we have collected from information streams over the Internet
26

Bayoudh, Meriam. "Apprentissage de connaissances structurelles à partir d’images satellitaires et de données exogènes pour la cartographie dynamique de l’environnement amazonien." Thesis, Antilles-Guyane, 2013. http://www.theses.fr/2013AGUY0671/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les méthodes classiques d'analyse d'images satellites sont inadaptées au volume actuel du flux de données. L'automatisation de l'interprétation de ces images devient donc cruciale pour l'analyse et la gestion des phénomènes observables par satellite et évoluant dans le temps et l'espace. Ce travail vise à automatiser la cartographie dynamique de l'occupation du sol à partir d'images satellites, par des mécanismes expressifs, facilement interprétables en prenant en compte les aspects structurels de l'information géographique. Il s'inscrit dans le cadre de l'analyse d'images basée objet. Ainsi, un paramétrage supervisé d'un algorithme de segmentation d'images est proposé. Dans un deuxième temps, une méthode de classification supervisée d'objets géographiques est présentée combinant apprentissage automatique par programmation logique inductive et classement par l'approche multi-class rule set intersection. Ces approches sont appliquées à la cartographie de la bande côtière Guyanaise. Les résultats démontrent la faisabilité du paramétrage de la segmentation, mais également sa variabilité en fonction des classes de la carte de référence et des données d'entrée. Les résultats de la classification supervisée montrent qu'il est possible d'induire des règles de classification expressives, véhiculant des informations cohérentes et structurelles dans un contexte applicatif donnée et conduisant à des valeurs satisfaisantes de précision et de KAPPA (respectivement 84,6% et 0,7). Ce travail de thèse contribue ainsi à l'automatisation de la cartographie dynamique à partir d'images de télédétection et propose des perspectives originales et prometteuses
Classical methods for satellite image analysis are inadequate for the current bulky data flow. Thus, automate the interpretation of such images becomes crucial for the analysis and management of phenomena changing in time and space, observable by satellite. Thus, this work aims at automating land cover cartography from satellite images, by expressive and easily interpretable mechanism, and by explicitly taking into account structural aspects of geographic information. It is part of the object-based image analysis framework, and assumes that it is possible to extract useful contextual knowledge from maps. Thus, a supervised parameterization methods of a segmentation algorithm is proposed. Secondly, a supervised classification of geographical objects is presented. It combines machine learning by inductive logic programming and the multi-class rule set intersection approach. These approaches are applied to the French Guiana coastline cartography. The results demonstrate the feasibility of the segmentation parameterization, but also its variability as a function of the reference map classes and of the input data. Yet, methodological developments allow to consider an operational implementation of such an approach. The results of the object supervised classification show that it is possible to induce expressive classification rules that convey consistent and structural information in a given application context and lead to reliable predictions, with overall accuracy and Kappa values equal to, respectively, 84,6% and 0,7. In conclusion, this work contributes to the automation of the dynamic cartography from remotely sensed images and proposes original and promising perpectives
27

Fournier, Dominique. "Etude de la qualité de données à partir de l'apprentissage automatique : application aux arbres d'induction." Caen, 2001. http://www.theses.fr/2001CAEN2048.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Thèse entrant dans le domaine d'activité de la découverte de connaissances à partir des données. En classification, la plupart des stratégies d'évaluation se focalisent sur la précision du modèle prédictif construit. L'objectif est de mettre en relief l'apport des explications fournies par les classifieurs à l'aide de leurs capacités prédictives afin d'étudier la qualité de données. Une approche générale est proposée, appropriée à toute méthode procédant par restructuration de l'ensemble d'apprentissage en une hiérarchie de partitions. A partir de cette dernière, nous proposons à l'utilisateur une quantification de la qualité du modèle, élaborée en fonction de l'explication fournie. Nous mettons en oeuvre une approche avec les arbres de décision. Nous avons ainsi mis au point IQN, IQA et IQR, des indices de qualité qui résument la valeur spécifique et globale des arbres. Ces indices estiment la généralité, la complexité et la précision du résultat. IQN évalue la qualité des noeuds alors que IQA et IQR synthétisent la qualité des arbres et sous-arbres à partir de celles de leurs feuilles. Ainsi, nous sommes en mesure de déterminer les éléments qui influencent le plus la qualité des arbres. Nous montrons l'intérêt de ces techniques d'évaluation de la qualité appliquées à l'explication et àla restructuration des données en les illustrant sur deux problèmes médicaux pour lesquels les performances en classification sont opposées. Dans un cas, l'explication des données est satisfaisante alors que dans l'autre elle demeure incertaine.
28

Deschamps, Sébastien. "Apprentissage actif profond pour la reconnaissance visuelle à partir de peu d’exemples." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS199.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’analyse automatique d’images a permis d’améliorer l’exploitation des capteurs d’image, avec des données qui proviennent de différents capteurs tels que des caméras de téléphone, des caméras de surveillance, des imageurs satellites ou encore des drones. L’apprentissage profond obtient d’excellents résultats dans les applications d’analyse d’images où de grandes quantités de données annotées sont disponibles, mais apprendre un nouveau classifieur d’images à partir de zéro est une tâche difficile. La plupart des méthodes de classification d’images sont supervisées, nécessitant des annotations, ce qui représente un investissement important. Différentes solutions d’apprentissage frugal (avec peu d’exemples annotés) existent, notamment l’apprentissage par transfert, l’apprentissage actif, l’apprentissage semi-supervisé ou bien le méta-apprentissage. L’objectif de cette thèse est d’étudier ces solutions d’apprentissage frugal pour des tâches de reconnaissance visuelle, notamment la classification d’images et la détection des changements dans des images satellites. Ainsi, le classifieur est entraîné de façon itérative en commençant avec très peu de données, et en demandant à l’utilisateur d’annoter le moins possible de données pour obtenir des performances satisfaisantes. L’apprentissage actif profond a été étudié initialement avec d’autres méthodes et nous a semblé le plus adapté à notre problématique métier, nous avons donc privilégié cette solution. Nous avons développé dans cette thèse une première approche interactive, où nous posons les questions les plus informatives sur la pertinence des données à un oracle (annotateur). En fonction de ses réponses, une fonction de décision est mise à jour itérativement. Nous modélisons la probabilité que les échantillons soient pertinents, en minimisant une fonction objectif capturant la représentativité, la diversité et l’ambiguïté des données. Les données avec une probabilité élevée sont ensuite sélectionnées pour annotation. Nous avons fait évoluer cette approche, en utilisant l’apprentissage par renforcement pour pondérer dynamiquement et précisément l’importance de la représentativité, l’ambiguïté et la diversité des données à chaque cycle d’apprentissage actif. Finalement, notre dernière approche consiste en un modèle d’affichage qui sélectionne des exemples virtuels les plus représentatifs et divers, qui remettent en question le modèle appris, de sorte à obtenir un modèle très discriminatoire dans les itérations suivantes de l’apprentissage actif. Les bons résultats obtenus face aux différentes baselines et l’état de l’art, en détection de changements dans des images satellites et en classification d’images, ont permis de démontrer la pertinence des modèles d'apprentissage frugal proposés, et ont donné lieu à diverses publications (Sahbi et al. 2021 ; Deschamps et Sahbi 2022b ; Deschamps et Sahbi 2022a ; Sahbi et Deschamps 2022)
Automatic image analysis has improved the exploitation of image sensors, with data coming from different sensors such as phone cameras, surveillance cameras, satellite imagers or even drones. Deep learning achieves excellent results in image analysis applications where large amounts of annotated data are available, but learning a new image classifier from scratch is a difficult task. Most image classification methods are supervised, requiring annotations, which is a significant investment. Different frugal learning solutions (with few annotated examples) exist, including transfer learning, active learning, semi-supervised learning or meta-learning. The goal of this thesis is to study these frugal learning solutions for visual recognition tasks, namely image classification and change detection in satellite images. The classifier is trained iteratively by starting with only a few annotated samples, and asking the user to annotate as little data as possible to obtain satisfactory performance. Deep active learning was initially studied with other methods and suited our operational problem the most, so we chose this solution. In this thesis, we have developed an interactive approach, where we ask the most informative questions about the relevance of the data to an oracle (annotator). Based on its answers, a decision function is iteratively updated. We model the probability that the samples are relevant, by minimizing an objective function capturing the representativeness, diversity and ambiguity of the data. Data with high probability are then selected for annotation. We have improved this approach, using reinforcement learning to dynamically and accurately weight the importance of representativeness, diversity and ambiguity of the data in each active learning cycle. Finally, our last approach consists of a display model that selects the most representative and diverse virtual examples, which adversely challenge the learned model, in order to obtain a highly discriminative model in subsequent iterations of active learning. The good results obtained against the different baselines and the state of the art in the tasks of satellite image change detection and image classification have demonstrated the relevance of the proposed frugal learning models, and have led to various publications (Sahbi et al. 2021; Deschamps and Sahbi 2022b; Deschamps and Sahbi 2022a; Sahbi and Deschamps2022)
29

Durand, Maëva. "Alimentation sur mesure et estimation du bien-être des truies gestantes à partir de données hétérogènes." Electronic Thesis or Diss., Rennes, Agrocampus Ouest, 2023. http://www.theses.fr/2023NSARC169.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les nouvelles technologies se développent en élevage porcin, afin d’aider le travail des agriculteurs. Elles permettent la distribution d’une alimentation sur mesure pour des truies gestantes et une meilleure surveillance du comportement des animaux. La problématique de cette thèse est d’améliorer l’estimation des besoins nutritionnels journaliers et d’identifier l’état de bien-être individuel des truies gestantes, à l’aide de données comportementales et environnementales. Le premier objectif s’est intéressé à l’évaluation des effets des perturbations environnementales sur le comportement et les besoins nutritionnels. Pour cela, deux bandes de truies ont été suivies lors de deux gestations consécutives durant lesquelles différents évènements ont étéprovoqués. Les résultats ont permis de mettre en évidence l’influence des conditions environnementales sur le comportement et les besoins nutritionnels des truies au cours de leur gestation, et ont permis d’identifier une forte variabilité individuelle. Dans une deuxième partie, il s’agissait d’estimer individuellement les besoins journaliers et le bien-être, à partir des données comportementales et environnementales enregistrées par des capteurs. Les résultats ont montré que cette estimation peut être réalisée de façon précise grâce à différents algorithmes de machine learning sur des données produites par l’automate d’alimentation. Cette thèse propose donc des méthodes innovantes pour la conception d’un outil d’aide à la décision visant à améliorer l’alimentation sur mesure et le bien-être des truies gestantes
New technologies are developing increasingly in pig farming, to help farmers in their labour tasks. They allow the distribution of tailored diets for gestating sows and better animal behaviour monitoring. The issue of this thesis is to improve the estimation of daily nutritional requirements and estimate the individual welfare status of gestating sows using behavioural and environmental data collected automatically. The first aim was to evaluate experimentally the effects of environmental disturbances on behaviour and nutritional requirements. To achieve this, two groups of sows were followed during two consecutive gestations during which several events were induced. A database containing a variety ofsows’ behavioural data was built from these experiments. The results of the thesis highlighted the influence of environmental conditions on the behaviour and nutritional requirements of sows during gestation, as well as an important individual variability. The second part involved estimating individual daily requirements and welfare based on behavioural and environmental data recorded by sensors. The individual estimation of nutritional requirements and state of welfare can be carried out accurately using machine learning algorithms and data produced by the automatic feeder. Using these innovative methods, this thesis opens potential for the design of a decision-support tool aiming at adjusting feeding and improving the welfare of gestating sows
30

Mouillet, Laure. "Modélisation, reconnaissance et apprentissage de scénarios de conflits ethno-politiques." Paris 6, 2005. http://www.theses.fr/2005PA066031.

Full text
APA, Harvard, Vancouver, ISO, and other styles
31

Magnan, Christophe Nicolas. "Apprentissage à partir de données diversement étiquetées pour l'étude du rôle de l'environnement local dans les interactions entre acides aminés." Aix-Marseille 1, 2007. http://www.theses.fr/2007AIX11022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous étudions le problème bioinformatique de la prédiction de contacts ponctuels entre résidus distants sur la séquence d'une protéine. L'étude de l'état de l'art sur ce problème a fait ressortir des questions sur la modélisation de ce problème ainsi que sur le rôle de l'environnement local des acides aminés appariés dans la formation de ces contacts. Plusieurs considérations biologiques d'une part, et des expérimentations d'autre part, montrent la nécessité d'étudier deux contextes d'apprentissage jusqu'ici peu connus et peu étudiés pour répondre à ces questions. Nous montrons que ces deux contextes d'apprentissage sont mal posés dans le cadre général de l'apprentissage statistique, mais que certaines hypothèses sur les distributions sous-jacentes permettent de les rendre bien posés. Des adaptations de méthodes connues de l'apprentissage à ces contextes sont proposées puis utilisées pour tenter de répondre aux questions biologiques initialement posées
The 3D structure of proteins is constrained by some interactions between distant amino acids in the primary sequences. An accurate prediction of these bonds may be a step forward for the prediction of the 3D structure from sequences. A review of the literature raises questions about the role of the neighbourhood of bonded amino acids in the formation of these bonds. We show that we have to investigate uncommon learning frameworks to answer these questions. The first one is a particular case of semi-supervised learning, in which the only labelled data to learn from belong to one class, and the second one considers that the data are subject to class-conditional classification noise. We show that learning in these frameworks leads to ill-posed problems. We give some assumptions that make these problems well-posed. We propose adaptations of well-known methods to these learning frameworks. We apply them to try to answer the questions on the biological problem considered in this study
32

Fahlaoui, Tarik. "Réduction de modèles et apprentissage de solutions spatio-temporelles paramétrées à partir de données : application à des couplages EDP-EDO." Thesis, Compiègne, 2020. http://www.theses.fr/2020COMP2535.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
On s’intéresse dans cette thèse à l’apprentissage d’un modèle réduit précis et stable, à partir de données correspondant à la solution d’une équation aux dérivées partielles (EDP), et générées par un solveur haute fidélité (HF). Pour ce faire, on utilise la méthode Dynamic Mode Decomposition (DMD) ainsi que la méthode de réduction Proper Orthogonal Decomposition (POD). Le modèle réduit appris est facilement interprétable, et par une analyse spectrale a posteriori de ce modèle on peut détecter les anomalies lors de la phase d’apprentissage. Les extensions au cas de couplage EDP-EDO, ainsi qu’au cas d’EDP d’ordre deux en temps sont présentées. L’apprentissage d’un modèle réduit dans le cas d’un système dynamique contrôlé par commutation, où la règle de contrôle est apprise à l’aide d’un réseau de neurones artificiel (ANN), est également traité. Un inconvénient de la réduction POD, est la difficile interprétation de la représentation basse dimension. On proposera alors l’utilisation de la méthode Empirical Interpolation Method (EIM). La représentation basse dimension est alors intelligible, et consiste en une restriction de la solution en des points sélectionnés. Cette approche sera ensuite étendue au cas d’EDP dépendant d’un paramètre, et où l’algorithme Kernel Ridge Regression (KRR) nous permettra d’apprendre la variété solution. Ainsi, on présentera l’apprentissage d’un modèle réduit paramétré. L’extension au cas de données bruitées ou bien au cas d’EDP d’évolution non linéaire est présentée en ouverture
In this thesis, an algorithm for learning an accurate reduced order model from data generated by a high fidelity solver (HF solver) is proposed. To achieve this goal, we use both Dynamic Mode Decomposition (DMD) and Proper Orthogonal Decomposition (POD). Anomaly detection, during the learning process, can be easily done by performing an a posteriori spectral analysis on the reduced order model learnt. Several extensions are presented to make the method as general as possible. Thus, we handle the case of coupled ODE/PDE systems or the case of second order hyperbolic equations. The method is also extended to the case of switched control systems, where the switching rule is learnt by using an Artificial Neural Network (ANN). The reduced order model learnt allows to predict time evolution of the POD coefficients. However, the POD coefficients have no interpretable meaning. To tackle this issue, we propose an interpretable reduction method using the Empirical Interpolation Method (EIM). This reduction method is then adapted to the case of third-order tensors, and combining with the Kernel Ridge Regression (KRR) we can learn the solution manifold in the case of parametrized PDEs. In this way, we can learn a parametrized reduced order model. The case of non-linear PDEs or disturbed data is finally presented in the opening
33

Gauthier, Luc-Aurélien. "Inférence de liens signés dans les réseaux sociaux, par apprentissage à partir d'interactions utilisateur." Electronic Thesis or Diss., Paris 6, 2015. http://www.theses.fr/2015PA066639.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous étudions la sémantique des relations entre les utilisateurs et des forces antagonistes que nous observons naturellement dans diverses relations sociales, comme hostilité ou méfiance. L'étude de ces relations soulève de nombreux problèmes à la fois techniques, puisque l'arsenal mathématique n'est souvent pas adapté aux liens négatifs, mais aussi pratiques à cause de la difficulté rencontrée pour collecter de telles données (expliciter une relation négative est perçu comme malvenu pour de nombreux utilisateurs). Nous nous intéressons alors aux solutions alternatives de collecte afin d'inférer ces relations négatives à partir d'autres contenus. En particulier, nous allons utiliser les jugements communs que les utilisateurs partagent à propos d'items (données des systèmes de recommandation). Nous apportons trois contributions. Dans la première, nous allons aborder le cas des accords sur les items qui peuvent ne pas avoir la même sémantique selon qu'ils concernent des items appréciés ou non par les utilisateurs. Nous verrons que le fait de ne pas aimer un même produit n'est pas synonyme de similarité. Ensuite, nous allons prendre en compte dans notre seconde contribution les distributions de notes des utilisateurs et des items afin de mesurer si les accords ou les désaccords arrivent par hasard ou non, afin notamment d'éviter les conséquences des différents biais utilisateurs et items présents dans ce type de données. Enfin, notre troisième contribution consistera à exploiter ces différents résultats afin de prédire le signe des liens entre utilisateurs à partir des seuls jugements communs à propos des items et sans aucune information sociale négative
In this thesis, we study the semantic of relations between users and, in particular, the antagonistic forces we naturally observe in various social relationships, such as hostility or suspicion. The study of these relationships raises many problems both techniques - because the mathematical arsenal is not really adapted to the negative ties - and practical, due to the difficulty of collecting such data (explaining a negative relationship is perceived as intrusive and inappropriate for many users). That’s why we focus on the alternative solutions consisting in inferring these negative relationships from more widespread content. We use the common judgments about items the users share, which are the data used in recommender systems. We provide three contributions, described in three distinct chapters. In the first one, we discuss the case of agreements about items that may not have the same semantics if they involve appreciated items or not by two users. We will see that disliking the same product does not mean similarity. Afterward, we consider in our second contribution the distributions of user ratings and items ratings in order to measure whether the agreements or disagreements may happen by chance or not, in particular to avoid the user and item biases observed in this type of data. Our third contribution consists in using these results to predict the sign of the links between users from the only positive ties and the common judgments about items, and then without any negative social information
34

Drago, Laetitia. "Analyse globale de la pompe à carbone biologique à partir de données en imagerie quantitative." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS562.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La pompe à carbone biologique (PCB) joue un rôle central dans le cycle global du carbone océanique, en transportant le carbone de la surface vers les profondeurs et en le séquestrant pendant de longues périodes. Ce travail vise à analyser deux acteurs clés de la PCB : le zooplancton et les particules. Pour cela, nous utilisons les données d'imagerie in situ de l'Underwater Vision Profiler (UVP5) pour étudier deux axes principaux : 1) la distribution globale de la biomasse du zooplancton et 2) l'exportation de carbone dans le contexte d'une efflorescence printanière dans l'Atlantique Nord. À l'aide de l'UVP5 et de l'apprentissage automatique par le biais de modèles d'habitat utilisant des arbres de régression boostés, nous étudions la distribution mondiale de la biomasse du zooplancton et ses implications écologiques. Les résultats montrent des valeurs maximales de biomasse autour de 60°N et 55°S et des valeurs minimales au niveau des gyres océaniques, avec une biomasse globale dominée par les crustacés et les rhizaires. En utilisant des techniques d'apprentissage automatique sur des données globalement homogènes, cette étude fournit des informations sur la distribution de 19 grands groupes de zooplancton (1-50 mm de diamètre sphérique équivalent). Ce premier protocole permet d'estimer la biomasse du zooplancton et la composition de la communauté à l'échelle globale à partir d'observations d'imagerie in situ d'organismes individuels. Dans le contexte unique de la campagne EXPORTS 2021, nous analysons les données UVP5 obtenues par le déploiement de trois instruments dans un tourbillon à forte rétention. Après avoir regroupé les 1 720 914 images à l'aide de Morphocluster, un logiciel de classification semi-autonome, nous nous intéressons aux caractéristiques des particules marines, en étudiant leur morphologie à travers un cadre oblique qui suit un panache de particules entre la surface et 800 m. Les résultats montrent que, contrairement aux attentes, les agrégats deviennent de manière inattendue plus grands, plus denses, plus circulaires et plus complexes avec la profondeur. En revanche, l'évolution des pelottes fécales est plus hétérogène et façonnée par l'activité du zooplancton. Ces résultats remettent en question les attentes antérieures et appellent à une réévaluation de notre vision des agrégats et des pelottes fécales. Nous avons également étudié la dynamique des concentrations et des flux de carbone à l'aide d'un cadre 1D plus traditionnel dans lequel nous explorons les trois éléments clés de l'estimation des flux à partir d'imagerie in situ en comparant les estimations de l'UVP5 et des pièges à sédiments: la gamme de tailles couvertes, la vitesse de sédimentation et le contenu en carbone. Selon la littérature, les pièges à sédiments à flottabilité neutre (NBST) et les pièges attachés à la surface (STT) couvrent généralement une gamme de tailles allant de 10 µm à environ 2 mm. Dans notre étude, nous avons constaté qu'en élargissant la gamme de tailles de l'UVP5 à 10 µm et en la limitant à 2 mm, une comparaison plus consistante peut être faite entre le flux issu de l'UVP5 et celui des pièges à sédiments (obtenus par des collègues). Toutefois, il reste une contribution importante du flux au-dessus de ce seuil de taille qui nécessite une étude plus approfondie de ses implications par l'utilisation d'approches complémentaires telles que des pièges à sédiments avec des ouvertures plus grandes. Ce manuscrit ne fait pas seulement progresser nos connaissances, mais il aborde également des défis critiques dans l'estimation de la biomasse du zooplancton et de la dynamique des particules pendant les événements d'export. Les résultats de cette étude ouvrent de nouvelles voies pour la recherche future sur la PCB et approfondissent notre compréhension des écosystèmes marins
The biological carbon pump (BCP) plays a central role in the global ocean carbon cycle, transporting carbon from the surface to the deep ocean and sequestering it for long periods. This work aims to analyse two key players of the BCP: zooplankton and particles. To this end, we use in situ imaging data from the Underwater Vision Profiler (UVP5) to investigate two primary axes: 1) the global distribution of zooplankton biomass and 2) carbon export in the context of a North Atlantic spring bloom. Our objectives includes a quantification of global zooplankton biomass, enhancing our comprehension of the BCP via morphological analysis of particles, and assessing and comparing the gravitational flux of detrital particles during a the North Atlantic spring bloom using high-resolution UVP5 data. With the help of UVP5 imagery and machine learning through habitat models using boosted regression trees, we investigate the global distribution of zooplankton biomass and its ecological implications. The results show maximum zooplankton biomass values around 60°N and 55°S and minimum values within the oceanic gyres, with a global biomass dominated by crustaceans and rhizarians. By employing machine learning techniques on globally homogeneous data, this study provides taxonomical insights into the distribution of 19 large zooplankton groups (1-50 mm equivalent spherical diameter). This first protocol estimates global, spatially resolved zooplankton biomass and community composition from in situ imaging observations of individual organisms. In addition, within the unique context of the EXPORTS 2021 campaign, we analyse UVP5 data obtained by deploying three instruments in a highly retentive eddy. After clustering the 1,720,914 images using Morphocluster, a semi-autonomous classification software, we delve into the characteristics of the marine particles, studying their morphology through an oblique framework that follows a plume of detrital particles between the surface and 800 m depth. The results of the plume following approach show that, contrary to expectations, aggregates become unexpectedly larger, denser, more circular and more complex with depth. In contrast, the evolution of fecal pellets is more heterogeneous and shaped by zooplankton activity. Such results challenge previous expectations and may require a reassessment of our view of sinking aggregates and fecal pellets. We also studied concentration and carbon flux dynamics using a more traditional 1D framework where we explore the three key elements in flux estimation from in situ imaging data by comparing UVP5 and sediment trap flux estimates: size range covered, sinking rate and carbon content. According to the current literature, neutrally buoyant sediment traps (NBST) and surface-tethered traps (STT) usually cover a size range from 10 µm to approximately 2 mm. In our study, we have found that by expanding the UVP size range to 10 µm and limiting it to 2 mm, a more consistent comparison can be made between UVP5-generated flux and sediment trap fluxes (obtained by colleagues). However, it is worth noting that there remains a large flux contribution above this size threshold, necessitating further investigation of its implications through the use of complementary approaches such as the use of sediment traps with larger openings. This manuscript not only advances our knowledge, but also addresses critical challenges in estimating zooplankton biomass and particle dynamics during export events. The findings of this study open up new avenues for future research on the biological carbon pump and deepen our understanding of marine ecosystems
35

Armand, Stéphane. "Analyse quantifiée de la marche : extraction de connaissances à partir de données pour l'aide à l'interprétation clinique de la marche digitigrade." Valenciennes, 2005. http://ged.univ-valenciennes.fr/nuxeo/site/esupversions/6cfbb62f-d5e4-4bd3-b7b3-96618bf3ceea.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'Analyse Quantifiée de la Marche (AQM) est un examen permettant d'identifier et de quantifier les défauts de marche d'un patient à partir de données biomécaniques. L'interprétation de cet examen, conduisant à l'explication des défauts de marche, est ardue. Parmi ces défauts, la marche digitigrade est un des plus courants et pour lequel l'identification des causes demeure difficile. Ce travail propose de fournir une aide à l'interprétation des données de l'AQM pour la marche digitigrade. Afin d'atteindre cet objectif, une méthode d'Extraction de Connaissances à partir de Données (ECD) est utilisée en combinant un apprentissage automatique non-supervisé et supervisé, pour extraire objectivement des connaissances intrinsèques et discrimantes des données de l'AQM. L'apprentissage non-supervisé (c-moyennes floues) a permis d'identifier trois patrons de marche digitigrade à partir de la cinématique de la cheville provenant d'une base de données de plus de 2500 AQM (Institut Saint-Pierre, Palavas, 34). L'apprentissage supervisé est utilisé pour expliquer ces trois patrons de marche par des mesures cliniques sous la forme de règles induites à partir d'arbres de décision flous. Les règles les plus significatives et interprétables (12) sont sélectionnées pour créer une base de connaissances qui est validée au regard de la littérature et des experts. Ces règles peuvent servir d'aide à l'interprétation des données de l'AQM pour la marche digitigrade. Ce travail ouvre différentes perspectives de recherche allant de la généralisation de la méthode utilisée à la création d'un simulateur de marche pathologique
Clinical Gait Analysis (CGA) is used to identify and quantify gait deviations from biomechanical data. Interpreting CGA, which provides the explanations for the identified gait deviations, is a complex task. Toe-walking is one of the most common gait deviations, and identifying its causes is difficult. This research had for objective to provide a support tool for interpreting toe-walker CGAs. To reach this objective, a Knowledge Discovery in Databases (KDD) method combining unsupervised and supervised machine learning is used to extract objectively intrinsic and discriminant knowledge from CGA data. The unsupervised learning (fuzzy c-means) allowed three toe-walking patterns to be identified from ankle kinematics extracted from a database of more than 2500 CGA (Institut Saint-Pierre, Palavas, 34). The supervised learning was employed to explain these three gait patterns through clinical measurement using induced rules from fuzzy decision trees. The most significant and interpretable rules (12) were selected to create a knowledge base that has been validated in terms of the literature and experts. These rules can be used to facilitate the interpretation of toe-walker CGA data. This research opens several prospective paths of investigation, ranging from the development of a generic method based on the proposed method for studying movement to the creation of a pathologic gait simulator
36

Moscu, Mircea. "Inférence distribuée de topologie de graphe à partir de flots de données." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4081.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La deuxième décennie du millénaire actuel peut être résumée en une courte phrase : l'essor des données. Le nombre de sources de données s'est multiplié : du streaming audio-vidéo aux réseaux sociaux et à l'Internet des Objets, en passant par les montres intelligentes, les équipements industriels et les véhicules personnels, pour n'en citer que quelques-unes. Le plus souvent, ces sources forment des réseaux afin d'échanger des informations. En conséquence directe, le domaine du Traitement de Signal sur Graphe a prospéré et a évolué. Son but : traiter et donner un sens à tout le déluge de données environnant. Dans ce contexte, le but principal de cette thèse est de développer des méthodes et des algorithmes capables d'utiliser des flots de données, de manière distribuée, afin d'inférer les réseaux sous-jacents qui relient ces flots. Ensuite, ces topologies de réseau estimées peuvent être utilisées avec des outils développés pour le Traitement de Signal sur Graphe afin de traiter et d'analyser les données supportées par des graphes. Après une brève introduction suivie d'exemples motivants, nous développons et proposons d'abord un algorithme en ligne, distribué et adaptatif pour l'inférence de topologies de graphes pour les flots de données qui sont linéairement dépendants. Une analyse de la méthode s'ensuit, afin d'établir des relations entre les performances et les paramètres nécessaires à l'algorithme. Nous menons ensuite une série d'expériences afin de valider l'analyse et de comparer ses performances avec celles d'une autre méthode proposée dans la littérature. La contribution suivante est un algorithme doté des mêmes capacités en ligne, distribuées et adaptatives, mais adapté à l'inférence de liens entre des données qui interagissent de manière non-linéaire. À ce titre, nous proposons un modèle additif simple mais efficace qui utilise l'usine du noyau reproduisant afin de modéliser lesdites non-linéarités. Les résultats de son analyse sont convaincants, tandis que les expériences menées sur des données biomédicales donnent des réseaux estimés qui présentent un comportement prédit par la littérature médicale. Enfin, une troisième proposition d'algorithme est faite, qui vise à améliorer le modèle non-linéaire en lui permettant d'échapper aux contraintes induites par l'additivité. Ainsi, le nouveau modèle proposé est aussi général que possible, et utilise une manière naturelle et intuitive d'imposer la parcimonie des liens, basée sur le concept de dérivés partiels. Nous analysons également l'algorithme proposé, afin d'établir les conditions de stabilité et les relations entre ses paramètres et ses performances. Une série d'expériences est menée, montrant comment le modèle général est capable de mieux saisir les liens non-linéaires entre les données, tandis que les réseaux estimés se comportent de manière cohérente avec les estimations précédentes
The second decade of the current millennium can be summarized in one short phrase: the advent of data. There has been a surge in the number of data sources: from audio-video streaming, social networks and the Internet of Things, to smartwatches, industrial equipment and personal vehicles, just to name a few. More often than not, these sources form networks in order to exchange information. As a direct consequence, the field of Graph Signal Processing has been thriving and evolving. Its aim: process and make sense of all the surrounding data deluge.In this context, the main goal of this thesis is developing methods and algorithms capable of using data streams, in a distributed fashion, in order to infer the underlying networks that link these streams. Then, these estimated network topologies can be used with tools developed for Graph Signal Processing in order to process and analyze data supported by graphs. After a brief introduction followed by motivating examples, we first develop and propose an online, distributed and adaptive algorithm for graph topology inference for data streams which are linearly dependent. An analysis of the method ensues, in order to establish relations between performance and the input parameters of the algorithm. We then run a set of experiments in order to validate the analysis, as well as compare its performance with that of another proposed method of the literature.The next contribution is in the shape of an algorithm endowed with the same online, distributed and adaptive capacities, but adapted to inferring links between data that interact non-linearly. As such, we propose a simple yet effective additive model which makes use of the reproducing kernel machinery in order to model said nonlinearities. The results if its analysis are convincing, while experiments ran on biomedical data yield estimated networks which exhibit behavior predicted by medical literature.Finally, a third algorithm proposition is made, which aims to improve the nonlinear model by allowing it to escape the constraints induced by additivity. As such, the newly proposed model is as general as possible, and makes use of a natural and intuitive manner of imposing link sparsity, based on the concept of partial derivatives. We analyze this proposed algorithm as well, in order to establish stability conditions and relations between its parameters and its performance. A set of experiments are ran, showcasing how the general model is able to better capture nonlinear links in the data, while the estimated networks behave coherently with previous estimates
37

Nguyen, Dang Tuan. "Extraction d'information à partir de documents Web multilingues : une approche d'analyses structurelles." Caen, 2006. http://www.theses.fr/2006CAEN2023.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. L'ignorance des structures multilingues pourrait être à l’origine de divers problèmes de performance tels que : i) la redondance, si le site propose simultanément des traductions en plusieurs langues, ii) les parcours bruités lors d’un passage d’une langue à une autre via les vignettes (génération de graphes, conceptuellement, non signifiant), iii) la perte de l’information par la négligence de la spécificité structurelle (même implicite) de chaque langue. Le cadre de cette thèse s’insère dans le cadre des travaux de recherche sur l'extraction semi-automatique (interactive) d'information à partir d’un grand nombre de documents électroniques (essentiellement des documents web) hétérogènes structurées ou semi-structurées. Extraire une information dans ce contexte est défini comme un processus de repérage, formalisation et de traitements des structures de données pouvant comporter d’information pertinente. Dans notre approche nous observons que la structure d’un document Web incorpore des informations qui sont indispensables pour toute démarche d’optimisation de la recherche d’information ou des fouilles de sites web. Pour expérimenter et valider notre propos nous avons développé une méthode d’analyses structurelles concrétisée par le réalisation du système Hyperling. L’objectif direct de ce dernier étant de déterminer, sans aucune connaissance linguistique préalable et explicite, les langues dominantes sur un site Web multilingues. Dans cette thèse, nous abordons l’aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances « expérimentales » - issues des travaux de développement et d’expérimentation - portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d’information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques
Multilingual Web Document (MWD) processing has become one of the major interests of research and development in the area of information retrieval. Therefore, we observed that the structure of the multilingual resources has not been enough explored in most of the research works in this area. We consider that links structure embed crucial information for both hyperdocument retrieving and mining process. Discarding the multilingual information structures could affect the processing performance and generate various problems : i)°Redundancy : if the site proposes simultaneously translations in several languages, ii)° Noisy information: by using labels to shift from language to another, iii)° Loosing information: if the process does not consider the structure specificity of each language. In this context, we wonder to remind that each Web site is considered as a hyper-document that contains a set of Web documents (pages, screen, messages) which can be explored through the links paths. Therefore, detecting the dominant languages, in a Web Site, could be done in a different ways. The framework of this experimental research thesis is structures analysis for information extraction from a great number of heterogeneous structured or semi-structured electronic documents (essentially the Web document). It covers the following aspects : Enumerating the dominants languages, Setting-up (virtual) frontiers between those languages, enabling further processing, Recognizing the dominants languages. To experiment and validate our aim we have developed Hyperling which is a formal, language independent, system dealing with Web Documents. Hyperling proposes a Multilingual Structural Analysis approach to cluster and retrieve Web Document. Hyperling’s fundamental hypothesis is based on the notion of relation-density : The Monolingual relation density: i. E. Links between Web Documents written in the same language, The Interlingual relation density: i. E. Links between Web Documents written in different languages. In a Web document representation we can encounter a high level of monolingual relation density and low level of inter-lingual relation density. Therefore, we can consider a MWD to be represented by a set of clusters. Regarding the density level of each cluster, it may represent a dominant language. This hypothesis has been the core of Hyperling and has been experimented and approved on a real multilingual web documents (IMF, UNDP, UNFPA, UNICEF, WTO)
38

Temanni, Mohamed Ramzi. "Combinaison de sources de données pour l'amélioration de la prédiction en apprentissage : une application à la prédiction de la perte de poids chez l'obèse à partir de données transcriptomiques et cliniques." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00814513.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les maladies complexes comme l'obésité sont des maladies multifactorielles. Peu de travaux existent pour essayer de prédire les effets des différents traitements et ainsi mieux adapter les traitements aux patients. L'utilisation de modèles prédictifs pour mieux guider le choix des traitements de l'obésité reste un champ de recherche peu exploré malgré le fort impact qu'elle pourrait avoir vu la prévalence de cette maladie. Dans d'autres domaines de la médecine, comme la cancérologie par exemple, de telles méthodes sont déjà utilisées pour l'aide au diagnostic se basant notamment sur des données issues de puces à ADN. Cette technologie s'avère adaptée et son utilisation a donné lieu à des résultats intéressants pour dépister les maladies ou aider les médecins dans leur choix thérapeutique. Cependant si celle‐ci s'avère suffisante pour prédire d'une manière satisfaisante dans le domaine du cancer, en revanche elle s'avère d'un apport limité dans le cadre d'une application aux données de l'obésité. Cela suggère l'utilisation d'autres données patients pour améliorer les performances en prédiction. Les travaux de recherche présentés dans ce mémoire abordent les problèmes de la prédiction de la perte de poids suite à un régime ou une chirurgie bariatrique. Nous avons analysé le problème de la prédiction de la perte de poids à partir des données transcriptomique dans le cadre de deux projets européens et aussi à partir des données biocliniques dans le cadre de la chirurgie de l'obésité. Nous avons ensuite proposé trois concepts de combinaisons de modèles : combinaison de données, combinaison de méthodes et combinaison avec abstention. Nous avons analysé empiriquement ces trois approches et les expérimentations ont montré une amélioration des résultats pour les données de l'obésité même si ceux‐ci restent bien en deça de ce qu'on observe avec les données cancers
39

Asvatourian, Vahé. "Apports de la modélisation causale dans l’évaluation des immunothérapies à partir de données observationnelles." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS427/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De nouveaux traitements comme l’immunothérapie ont été proposés en oncologie. Ils sont basés sur les mécanismes de régulation du système immunitaire. Cependant tous les patients ne répondent pas à ces nouveaux traitements. Afin de pouvoir les identifier, on mesure l’association des marqueurs immunologiques exprimés à la réponse au traitement ainsi qu’à la toxicité à l’instaurationdu traitement et leur évolution sous traitement. En situation observationnelle, l’absence de tirage au sort empêche la comparabilité des groupes et l'effet mesuré est juste une mesure d'association. Les méthodes d’inférence causalepermettent dans certains cas, après avoir identifié les sources de biais de par la construction de diagrammes acycliques dirigés (DAG), d'atteindre l’interchangeabilité conditionnelle entre exposés et non exposés etpermettent l’estimation d’effets causaux. Dans les cas les plus simples où le nombre de variables est faible, il est possible de dessiner leDAG à partir d’expertise. Dans les situations où le nombre de variables explosent, des algorithmes d’apprentissage ont été proposés pour retrouver la structure de ces graphes. Néanmoins ces algorithmes font d’une part l’hypothèse qu’aucune information n’est connue et n’ont été développés que dans les cas où les covariables sont mesurés à un seul temps. L’objectif de cette thèse est donc de développer ces méthodes d’apprentissages de graphes à des données répétées, puis d’intégrer des connaissances a priori pour améliorer l’estimation de ceux-ci. Une fois les graphes appris les modèles causaux peuvent être appliqués sur les biomarkers immunologiques répétés pour détecter ceux qui sont associés à laréponse et/ou la toxicité
In oncology, new treatments such as immunotherapy have been proposed, which are based on regulation of the immune system. However, not all treated patient have a long-term benefit of the treatment. To identify those patients who benefit most, we measured markers of the immune system expressed at treatment initiation and across time. In an observational study, the lack of randomization makes the groups not comparable and the effect measured is just an association. In this context, causal inference methods allow in some cases, after having identified all biases by constructing a directed acyclic graph (DAG), to get close to the case of conditional exchangeability between exposed and non-exposed subjects and thus estimating causal effects.In the most simple cases, where the number of variables is low, it is possible to draw the DAG with experts’ beliefs. Whereas in the situation where the number of variables rises, learning algorithms have been proposed in order to estimate the structure of the graphs. Nevertheless, these algorithms make the assumptions that any a priori information between the markers is known and have mainly been developed in the setting in which covariates are measured only once. The objective of this thesis is to develop learning methods of graphs for taking repeated measures into account, and reduce the space search by using a priori expert knowledge. Based on these graphs, we estimate causal effects of the repeated immune markers on treatment response and/or toxicity
40

Haury, Anne-Claire. "Sélection de variables à partir de données d'expression : signatures moléculaires pour le pronostic du cancer du sein et inférence de réseaux de régulation génique." Phd thesis, Ecole Nationale Supérieure des Mines de Paris, 2012. http://pastel.archives-ouvertes.fr/pastel-00818345.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De considérables développements dans le domaine des biotechnologies ont modifié notre approche de l'analyse de l'expression génique. En particulier, les puces à ADN permettent de mesurer l'expression des gènes à l'échelle du génome, dont l'analyse est confiée au statisticien.A partir de ces données dites en grande dimension, nous contribuons, dans cette thèse, à l'étude de deux problèmes biologiques. Nous traitons ces questions comme des problèmes d'apprentissage statistique supervisé et, en particulier, de sélection de variables, où il s'agit d'extraire, parmi toutes les variables - gènes - à disposition, celles qui sont nécessaires et suffisantes pour prédire la réponse à une question donnée.D'une part, nous travaillons à repérer des listes de gènes, connues sous le nom de signatures moléculaires et supposées contenir l'information nécessaire à la prédiction de l'issue du cancer du sein. La prédiction des événements métastatiques est en effet cruciale afin d'évaluer, dès l'apparition de la tumeur primaire, la nécessité d'un traitement par chimio-thérapie adjuvante, connue pour son agressivité. Nous présentons dans cette thèse trois contributions à ce problème. Dans la première, nous proposons une comparaison systématique des méthodes de sélection de variables, en termes de performance prédictive, de stabilité et d'interprétabilité biologique de la solution. Les deux autres contributions portent sur l'application de méthodes dites de parcimonie structurée (graph Lasso et k-support norm) au problème de sélection de signatures. Ces trois travaux discutent également l'impact de l'utilisation de méthodes d'ensemble (bootstrap et ré-échantillonnage).D'autre part, nous nous intéressons au problème d'inférence de réseau génique, consistant à déterminer la structure des interactions entre facteurs de transcription et gènes cibles. Les premiers sont des protéines ayant la faculté de réguler la transcription des gènes cibles, c'est-à-dire de l'activer ou de la réprimer. Ces régulations peuvent être représentées sous la forme d'un graphe dirigé, où les noeuds symbolisent les gènes et les arêtes leurs interactions. Nous proposons un nouvel algorithme, TIGRESS, classé troisième lors du challenge d'inférence de réseaux DREAM5 en 2010. Basé sur l'algorithme LARS couplé à une stratégie de ré-échantillonnage, TIGRESS traite chaque gène cible séparément, en sélectionnant ses régulateurs, puis assemble ces sous-problèmes pour prédire l'ensemble du réseau.Enfin, nous consacrons le dernier chapitre à une discussion ayant pour objectif de replacer les travaux de cette thèse dans un contexte bibliographique et épistémologique plus large.
41

Gauthier, Luc-Aurélien. "Inférence de liens signés dans les réseaux sociaux, par apprentissage à partir d'interactions utilisateur." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066639/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous étudions la sémantique des relations entre les utilisateurs et des forces antagonistes que nous observons naturellement dans diverses relations sociales, comme hostilité ou méfiance. L'étude de ces relations soulève de nombreux problèmes à la fois techniques, puisque l'arsenal mathématique n'est souvent pas adapté aux liens négatifs, mais aussi pratiques à cause de la difficulté rencontrée pour collecter de telles données (expliciter une relation négative est perçu comme malvenu pour de nombreux utilisateurs). Nous nous intéressons alors aux solutions alternatives de collecte afin d'inférer ces relations négatives à partir d'autres contenus. En particulier, nous allons utiliser les jugements communs que les utilisateurs partagent à propos d'items (données des systèmes de recommandation). Nous apportons trois contributions. Dans la première, nous allons aborder le cas des accords sur les items qui peuvent ne pas avoir la même sémantique selon qu'ils concernent des items appréciés ou non par les utilisateurs. Nous verrons que le fait de ne pas aimer un même produit n'est pas synonyme de similarité. Ensuite, nous allons prendre en compte dans notre seconde contribution les distributions de notes des utilisateurs et des items afin de mesurer si les accords ou les désaccords arrivent par hasard ou non, afin notamment d'éviter les conséquences des différents biais utilisateurs et items présents dans ce type de données. Enfin, notre troisième contribution consistera à exploiter ces différents résultats afin de prédire le signe des liens entre utilisateurs à partir des seuls jugements communs à propos des items et sans aucune information sociale négative
In this thesis, we study the semantic of relations between users and, in particular, the antagonistic forces we naturally observe in various social relationships, such as hostility or suspicion. The study of these relationships raises many problems both techniques - because the mathematical arsenal is not really adapted to the negative ties - and practical, due to the difficulty of collecting such data (explaining a negative relationship is perceived as intrusive and inappropriate for many users). That’s why we focus on the alternative solutions consisting in inferring these negative relationships from more widespread content. We use the common judgments about items the users share, which are the data used in recommender systems. We provide three contributions, described in three distinct chapters. In the first one, we discuss the case of agreements about items that may not have the same semantics if they involve appreciated items or not by two users. We will see that disliking the same product does not mean similarity. Afterward, we consider in our second contribution the distributions of user ratings and items ratings in order to measure whether the agreements or disagreements may happen by chance or not, in particular to avoid the user and item biases observed in this type of data. Our third contribution consists in using these results to predict the sign of the links between users from the only positive ties and the common judgments about items, and then without any negative social information
42

Hedjazi, Lyamine. "Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces." Phd thesis, Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1391/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé l1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, puces à ADN,. . . ) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes
Cancer is one of the most common causes of death in the world. Currently, breast cancer is the most frequent in female cancers. Although the significant improvement made last decades in cancer management, an accurate cancer management is still needed to help physicians take the necessary treatment decisions and thereby reducing its related adverse effects as well as its expensive medical costs. This work addresses the use of machine learning techniques to develop such tools of breast cancer management. Clinical factors, such as patient age and histo-pathological variables, are still the basis of day-to-day decision for cancer management. However, with the emergence of high throughput technology, gene expression profiling is gaining increasing attention to build more accurate predictive tools for breast cancer. Nevertheless, several challenges have to be faced for the development of such tools mainly (1) high dimensionality of data issued from microarray technology; (2) low signal-to-noise ratio in microarray measurement; (3) membership uncertainty of patients to cancer groups; and (4) heterogeneous (or mixed-type) data present usually in clinical datasets. In this work we propose some approaches to deal appropriately with such challenges. A first approach addresses the problem of high data dimensionality by taking use of l1 learning capabilities to design an embedded feature selection algorithm for SVM (l1 SVM) based on a gradient descent technique. The main idea is to transform the initial constrained convex optimization problem into an unconstrained one through the use of an approximated loss function. A second approach handles simultaneously all challenges and therefore allows the integration of several data sources (clinical, microarray. . . ) to build more accurate predictive tools. In this order a unified principle to deal with the data heterogeneity problem is proposed. This principle is based on the mapping of different types of data from initially heterogeneous spaces into a common space through an adequacy measure. To take into account membership uncertainty and increase model interpretability, this principle is proposed within a fuzzy logic framework. Besides, in order to alleviate the problem of high level noise, a symbolic approach is proposed suggesting the use of interval representation to model the noisy measurements. Since all data are mapped into a common space, they can be processed in a unified way whatever its initial type for different data analysis purposes. We particularly designed, based on this principle, a supervised fuzzy feature weighting approach. The weighting process is mainly based on the definition of a membership margin for each sample. It optimizes then a membership-margin based objective function using classical optimization approach to avoid combinatorial search. An extension of this approach to the unsupervised case is performed to develop a weighted fuzzy rule-based clustering algorithm. The effectiveness of all approaches has been assessed through extensive experimental studies and compared with well-know state-of-the-art methods. Finally, some breast cancer applications have been performed based on the proposed approaches. In particular, predictive and prognostic models were derived based on microarray and/or clinical data and compared with genetic and clinical based approaches
43

Hedjazi, Lyamine. "Outil d'aide au diagnostic du cancer à partir d'extraction d'informations issues de bases de données et d'analyses par biopuces." Phd thesis, Université Paul Sabatier - Toulouse III, 2011. http://tel.archives-ouvertes.fr/tel-00657959.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le cancer est l'une des causes les plus fréquentes de décès dans le monde. Actuellement, le cancer du sein est le plus répandu dans les cancers féminins. Malgré les avancées significatives faites ces dernières décennies en vue d'améliorer la gestion du cancer, des outils plus précis sont toujours nécessaires pour aider les oncologues à choisir le traitement nécessaire à des fins de guérison ou de prévention de récidive tout en réduisant les effets néfastes des ces traitements ainsi que leurs coûts élevés. Ce travail porte sur l'utilisation de techniques d'apprentissage automatique pour développer de tels outils de gestion du cancer du sein. Les facteurs cliniques, tels que l'âge du patient et les variables histo-pathologiques, constituent encore la base quotidienne de prise de décision pour la gestion du cancer du sein. Cependant, avec l'émergence de la technologie à haut débit, le profil d'expression génique suscite un intérêt croissant pour construire des outils plus précis de prédiction du cancer du sein. Néanmoins, plusieurs challenges doivent être relevés pour le développement de tels outils, principalement: (1) la dimensionnalité des données issues de la technologie des puces, (2) le faible rapport signal sur bruit dans la mesure de biopuces, (3) l'incertitude d'appartenance des patients aux différents groupes du cancer, et (4) l'hétérogénéité des données présentes habituellement dans les bases de données cliniques. Dans ce travail, nous proposons quelques approches pour surmonter de manière appropriée de tels challenges. Une première approche aborde le problème de haute dimensionnalité des données en utilisant les capacités d'apprentissage dit normé ℓ1 pour la conception d'un algorithme de sélection de variables intégré à la méthode SVM (machines à vecteurs supports), algorithme basé sur une technique de gradient. Une deuxième approche permet de gérer simultanément tous les problèmes, en particulier l'intégration de plusieurs sources de données (cliniques, pu ces à ADN, ...) pour construire des outils prédictifs plus précis. Pour cela, un principe unifié est proposé pour surmonter le problème de l'hétérogénéité des données. Pour tenir compte de l'incertitude d'appartenance et augmenter l'interprétabilité du modèle, ce principe est proposé dans le cadre de la logique floue. Par ailleurs, afin d'atténuer le problème du bruit de niveau élevé, une approche symbolique est proposée suggérant l'utilisation de la représentation par intervalle pour modéliser les mesures bruitées. Nous avons conçu en particulier, basée sur ce principe, une approche floue supervisée de pondération de variables. Le processus de pondération repose essentiellement sur la définition d'une marge d'appartenance pour chaque échantillon. Il optimise une fonction objective basée sur la marge d'appartenance afin d'éviter la recherche combinatoire. Une extension de cette approche au cas non supervisé est effectuée pour développer un algorithme de regroupement automatique basé sur la pondération des règles floues. L'efficacité de toutes les approches a été évaluée par des études expérimentales extensives, et comparée avec des méthodes bien connues de l'état de l'art. Enfin, un dernier travail est consacré à des applications des approches proposées dans le domaine du cancer du sein. En particulier, des modèles prédictifs et pronostiques ont été extraits à partir des données de puces à ADN et/ou des données cliniques, et leurs performances comparées avec celles d'approches génétiques et cliniques existantes.
44

Trépos, Ronan. "Apprentissage symbolique à partir de données issues de simulation pour l’aide à la décision : gestion d’un bassin versant pour une meilleure qualité de l’eau." Rennes 1, 2008. http://www.theses.fr/2008REN1S004.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'analyse des résultats de simulation d'un modèle représentant le fonctionnement d'un système environnemental est souvent difficile en raison du grand nombre de variables d'entrées. Nous proposons d'analyser les résultats par des techniques d'apprentissage symbolique afin de produire des règles de classification utilisables pour l'aide à la décision. Dans notre contexte, les objets à analyser sont des arbres dont les noeuds sont décrits par des attributs. Deux approches pour l'apprentissage de règles sont proposées et comparées. Nous avons développé également un système d'aide à la décision qui suggère, à partir des règles induites, des actions permettant d'améliorer une situation proposée par l'utilisateur. Ces contributions sont motivées par le projet SACADEAU qui a pour objectif de développer un système d'aide à la gestion des activités agricoles et des aménagements sur un bassin versant. Ce système s'appuie sur un modèle de simulation du transfert de pesticides
One often finds it difficult to analyze the results of a simulation model that represents the behavior of an environmental system. This is due to the large number of input variables and the complexity of interactions between the simulated processes. We have proposed to use symbolic learning techniques in order to perform this analyze, the goal of which is to learn classification rules for decision support. Two rule-learning methods have been developed and compared. In our context, the objects to be analyzed are tree structures, the nodes of which are labelled by attributes. Afterwards, we have developed a system which, from induced rules, suggests actions so that a situation proposed by a user can be improved. These contributions have been motivated by the SACADEAU project, devoted to develop a decision support system for the management of catchment areas. The project relies on a model that combines a model of farming practices with a model of pesticides transfer
45

Ekhteraei, Toussi Mohammad Massoud. "Analyse et reconstitution des décisions thérapeutiques des médecins et des patients à partir des données enregistrées dans les dossiers patient informatisés." Paris 13, 2009. http://www.theses.fr/2009PA132029.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse a trait à l’étude de la décision thérapeutique et de sa conformité aux recommandations contenues dans les guides de bonnes pratiques. Nous proposons trois méthodes pour l’analyse et la reconstitution des décisions des médecins et des patients à partir des données enregistrées dans les dossiers patients. Notre première méthode porte sur l’analyse de la conformité des prescriptions vis-à-vis des recommandations de bonnes pratiques. Cette analyse s’appuie sur une typologie des traitements qui permet de formaliser les prescriptions et les recommandations et de les comparer à trois niveaux de détails : le type de traitement, la classe pharmaco-thérapeutique, et la dose. Notre deuxième méthode porte sur l’extraction des décisions thérapeutiques des médecins à partir des dossiers patients quand les guides de bonnes pratiques ne proposent pas de recommandations. Nous présentons d’abord une méthode de découverte des lacunes de connaissances d’un guide de bonnes pratiques. Ensuite, nous appliquons un algorithme d’apprentissage automatique (C5. 0 de Quinlan) à une base de données des dossiers patients pour extraire de nouvelles règles que nous greffons à l’arbre de décision original du guide. Notre troisième méthode porte sur l’analyse de la conformité des décisions thérapeutiques des patients vis-à-vis des recommandations des médecins concernant l’ajustement des doses d’insuline. Nous présentons cinq indicateurs qui permettent de vérifier le niveau de l’observance des patients : l’accord absolu (AA) et l’accord relatif (RA) montrent une observance acceptable, le désaccord extrême (ED) montre un comportement dangereux, le sur-traitement (OT) et le sous-traitement (UT) montrent respectivement l’administration d’une dose trop forte ou trop faible de médicament
This thesis deals with the study of the agreement between the therapeutic decisions and the recommendations of best practice. We propose three methods for the analysis and the reconstruction of physicians’ and patients’ therapeutic decisions through the information available in patient records. Our first method involves the analysis of the agreement between physicians’ prescriptions and the recommendations of best practice. We present a typology of drug therapy, applicable to chronic disease, allowing to formalize both prescriptions and recommendations and to compare them in three levels of detail: the type of treatment, pharmaco-therapeutic class, and the dose of each medication. Our second method involves the extraction of physicians’ therapeutic decisions through patient records when the guidelines do not offer recommendations. We first present a method for discovering knowledge gaps in clinical practice guidelines. Then we apply a machine learning algorithm (C5. 0 Quinlan) to a database of patient records to extract new rules that we graft to the decision tree of the original guideline. Our third method involves the analysis of compliance of patients’ therapeutic decisions with regard to the physicians’ recommendations concerning insulin dose adjustment. We present five indicators useful for the verification of the level of patient compliance: absolute agreement (AA) and the relative agreement (RA) show an acceptable compliance, extreme disagreement (ED) shows a dangerous behavior, over-treatment (OT) and under-treatment (UT) show that the administered dose was respectively too high or too low
46

Giffard-Roisin, Sophie. "Personnalisation non-invasive de modèles électrophysiologiques cardiaques à partir d'électrogrammes surfaciques." Thesis, Université Côte d'Azur (ComUE), 2017. http://www.theses.fr/2017AZUR4092/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de cette thèse est d'utiliser des données non-invasives (électrocardiogrammes, ECG) pour personnaliser les principaux paramètres d'un modèle électrophysiologique (EP) cardiaque pour prédire la réponse à la thérapie de resynchronisation cardiaque. La TRC est un traitement utilisé en routine clinique pour certaines insuffisances cardiaques mais reste inefficace chez 30% des patients traités impliquant une morbidité et un coût importants. Une compréhension précise de la fonction cardiaque propre au patient peut aider à prédire la réponse à la thérapie. Les méthodes actuelles se basent sur un examen invasif au moyen d’un cathéter qui peut être dangereux pour le patient. Nous avons développé une personnalisation non-invasive du modèle EP fondée sur une base de données simulée et un apprentissage automatique. Nous avons estimé l'emplacement de l'activation initiale et un paramètre de conduction global. Nous avons étendu cette approche à plusieurs activations initiales et aux ischémies au moyen d'une régression bayésienne parcimonieuse. De plus, nous avons développé une anatomie de référence afin d'effectuer une régression hors ligne unique et nous avons prédit la réponse à différentes stimulations à partir du modèle personnalisé. Dans une seconde partie, nous avons étudié l'adaptation aux données ECG à 12 dérivations et l'intégration dans un modèle électromécanique à usage clinique. L'évaluation de notre travail a été réalisée sur un ensemble de données important (25 patients, 150 cycles cardiaques). En plus d'avoir des résultats comparables avec les dernières méthodes d'imagerie ECG, les signaux ECG prédits présentent une bonne corrélation avec les signaux réels
The objective of this thesis is to use non-invasive data (body surface potential mapping, BSPM) to personalise the main parameters of a cardiac electrophysiological (EP) model for predicting the response to cardiac resynchronization therapy (CRT). CRT is a clinically proven treatment option for some heart failures. However, these therapies are ineffective in 30% of the treated patients and involve significant morbidity and substantial cost. The precise understanding of the patient-specific cardiac function can help to predict the response to therapy. Until now, such methods required to measure intra-cardiac electrical potentials through an invasive endovascular procedure which can be at risk for the patient. We developed a non-invasive EP model personalisation based on a patient-specific simulated database and machine learning regressions. First, we estimated the onset activation location and a global conduction parameter. We extended this approach to multiple onsets and to ischemic patients by means of a sparse Bayesian regression. Moreover, we developed a reference ventricle-torso anatomy in order to perform an common offline regression and we predicted the response to different pacing conditions from the personalised model. In a second part, we studied the adaptation of the proposed method to the input of 12-lead electrocardiograms (ECG) and the integration in an electro-mechanical model for a clinical use. The evaluation of our work was performed on an important dataset (more than 25 patients and 150 cardiac cycles). Besides having comparable results with state-of-the-art ECG imaging methods, the predicted BSPMs show good correlation coefficients with the real BSPMs
47

Ribeiro, Swen. "Induction non-supervisée de schémas d’évènements à partir de textes journalistiques." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS059.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'événement est un concept central dans plusieurs tâches du Traitement Automatique des Langues, en dépit de l'absence d'une définition unifiée de ce que recouvre cette notion. Le traitement des événements s'est structuré sous l'égide des campagnes d'évaluation MUC (Message Understanding Conference), qui fournissaient des structures de référence appelées schémas (templates), se présentant sous la forme d'un titre et d'une collection d'arguments (slots), chacun représentant un élément caractéristique de l'événement décrit (par exemple l'épicentre d'un séisme). La création de ces schémas requiert une connaissance experte et est donc longue, coûteuse et difficile à étendre à un large ensemble de domaines de spécialité.En parallèle de ces travaux, la quantité de données produites par les individus et les organisations a crû de manière exponentielle, ouvrant des perspectives applicatives inédites. Cette croissance a notamment favorisé l'essor d'un nouveau paradigme journalistique appelé journalisme de données (data-journalism).Le présent travail se propose d'induire, à partir d'un grand volume de texte journalistique et sans supervision, des représentations synthétiques d'événements journalistiques comparables aux templates des campagnes MUC, dans l'objectif de faciliter l'exploitation de grandes masses de données par des journalistes des données. Pour ce faire, nous suivons une approche ascendante divisée en trois grandes étapes. Dans la première étape, nous groupons ensemble les nombreuses mentions textuelles relatant la même réalisation d'un événement, identifiée dans le temps et l'espace et appelée instance. La deuxième étape vise à s'abstraire des caractéristiques spatio-temporelles de chaque instance pour les grouper en grands types d'événements. Enfin, la dernière étape de cette contribution vise à extraire les éléments caractéristiques de chaque type d'événement induit afin d'en proposer une représentation synthétique assimilable à un schéma d'événement
Events are central in many Natural Language Processing tasks, despite the lack of a unified definition for the concept. The field of event processing took off with the MUC evaluation campaigns that provided participants with reference structures called templates. These templates were composed of a title (the name of the event) and several slots, i.e specific and atomic pieces of data about the event. Creating these templates is an expert task and therefore costly, painstaking and hard to extend to new domains.Meanwhile, the amount of data produced by individuals and organizations has grown exponentially, opening unprecedented perspectives of applications. In the journalistic domain, it fueled the development of a new paradigm called data-journalism.In this work, we aim at inducing synthetic representations of events from large textual journalistic corpora. These representations would be comparable to MUC templates and used by data-journalists to explore large textual news datasets. To this end, we propose a bottom-up approach composed of three main steps. The first step clusters several textual mentions of a same particular event (i.e tied to a time and place) to identify distinct instances. The second step groups these instances together based on more abstract features to infer event types. Finally, the third and last step extracts the most salient elements of each type to produce the synthetic, template-like structure we are looking for
48

Boulfani, Fériel. "Caractérisation du comportement de systèmes électriques aéronautiques à partir d'analyses statistiques." Thesis, Toulouse 1, 2021. http://publications.ut-capitole.fr/43780/.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La caractérisation des systèmes électriques est une tâche essentielle dans la conception aéronautique. Elle consiste notamment à dimensionner les composants des systèmes, définir les exigences à respecter par les charges électriques, définir les intervalles de maintenance et identifier les causes racines des pannes sur avions. Aujourd'hui, les calculs sont basés sur la théorie du génie électrique ou des modèles physiques simulés. L'objectif de cette thèse est d'utiliser une approche statistique basée sur les données observées durant les vols et des modèles d'apprentissage automatique pour caractériser le comportement du système électrique aéronautique. La première partie de cette thèse traite de l'estimation de la consommation électrique maximale que fournit un système électrique, dans le but d'optimiser le dimensionnement des générateurs et de mieux connaître les marges réelles. La théorie des valeurs extrêmes a été utilisée pour estimer des quantiles qui sont comparés aux valeurs théoriques calculées par les ingénieurs. Dans la deuxième partie, différents modèles régularisés sont considérés pour prédire la température de l'huile du générateur électrique dans un contexte de données fonctionnelles. Cette étude permet notamment de comprendre le comportement du générateur dans des conditions extrêmes qui ne peuvent pas être réalisées physiquement. Enfin, dans la dernière partie, un modèle de maintenance prédictive est proposé afin de détecter des anomalies dans le fonctionnement du générateur électrique pour anticiper les pannes. Le modèle proposé utilise des variantes de la méthode "Invariant Coordinate Selection" pour des données fonctionnelles
The characterization of electrical systems is an essential task in aeronautic conception. It consists in particular of sizing the electrical components, defining maintenance frequency and finding the root cause of aircraft failures. Nowadays, the computations are made using electrical engineering theory and simulated physical models. The aim of this thesis is to use statistical approaches based on flight data and machine learning models to characterize the behavior of aeronautic electrical systems. In the first part, we estimate the maximal electrical consumption that the generator should deliver to optimize the generator size and to better understand its real margin. Using the extreme value theory we estimate quantiles that we compare to the theoretical values computed by the electrical engineers. In the second part, we compare different regularized procedures to predict the oil temperature of a generator in a functional data framework. In particular, this study makes it possible to understand the generator behavior under extreme conditions that could not be reproduced physically. Finally, in the last part, we develop a predictive maintenance model that detects the abnormal behavior of a generator to anticipate failures. This model is based on variants of "Invariant Coordinate Selection" adapted to functional data
49

Madra, Anna. "Analyse et visualisation de la géométrie des matériaux composites à partir de données d’imagerie 3D." Thesis, Compiègne, 2017. http://www.theses.fr/2017COMP2387/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le sujet du projet de thèse réalisée en cotutelle entre Laboratoire Roberval à l'Université de Technologie de Compiègne et le Centre de Composites à Haute Performance d'École Polytechnique de Montréal porté sur une proposition de l'architecture du deep learning avec sémantique pour la création automatisée des modèles de la microstructure de matériaux composites à partir d'imagerie de la micrographie aux rayons X. La thèse consiste de trois parties principales : d'abord les méthodes du prétraitement de données microtomographiques sont relevées, avec l'accent sur la segmentation de phases à partir d'images 2D. Ensuite, les propriétés géométriques des éléments de phases sont extraites et utilisées pour classifier et identifier de nouvelles morphologies. Cela est démontré pour le cas de composites chargés par les fibres courtes naturelles. L'approche de classification à l'aide des algorithmes d'apprentissage est reprise pour étudier les défauts dans un composite, mais en ajoutant les aspects spatiaux. En plus, un descripteur de haut niveau "génome de défauts" est introduit, qui permet de comparer l'état de défauts dans les différents échantillons. La deuxième partie introduit la segmentation structurelle sur l'exemple du renfort tissé du composite. La méthode repose sur un modèle du krigeage dual, calibré par l'erreur de segmentation provenant d'algorithme d'apprentissage. Finalement, le modèle krigé est repris pour construire une formulation stochastique du renfort à travers de processus gaussien et la distribution des propriétés physiques de la microstructure est extraite et prête pour la simulation numérique de la fabrication ou du comportement mécanique
The subject of the thesis project between Laboratoire Roberval at Université de Technologie Compiègne and Center for High-Performance Composites at Ecole Polytechnique de Montréal considered the design of a deep learning architecture with semantics for automatic generation of models of composite materials microstructure based on X-ray microtomographic imagery. The thesis consists of three major parts. Firstly, the methods of microtomographic image processing are presented, with an emphasis on phase segmentation. Then, the geometric features of phase elements are extracted and used to classify and identify new morphologies. The method is presented for composites filled with short natural fibers. The classification approach is also demonstrated for the study of defects in composites, but with spatial features added to the process. A high-level descriptor "defect genome" is proposed, that permits comparison of the state o defects between specimens. The second part of the thesis introduces structural segmentation on the example of woven reinforcement in a composite. The method relies on dual kriging, calibrated by the segmentation error from learning algorithms. In the final part, a stochastic formulation of the kriging model is presented based on Gaussian Processes, and distribution of physical properties of a composite microstructure is retrieved, ready for numerical simulation of the manufacturing process or of mechanical behavior
50

Cherfi, Hacène. "Etude et réalisation d'un système d'extraction de connaissances à partir de textes." Phd thesis, Université Henri Poincaré - Nancy I, 2004. http://tel.archives-ouvertes.fr/tel-00011195.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail de thèse porte sur la problématique d'extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de textes proprement dite, et l'interprétation des éléments de connaissances extraits. Dans ce cadre, un système d'extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l'algorithme Close) et l'extraction de règles d'association. Le mémoire s'attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s'appuyant sur l'extraction de motifs fréquents et de règles d'association. En outre, une étude minutieuse d'un ensemble donné de mesures de qualité qu'il est possible d'attacher aux règles d'association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l'interprétation des règles extraites ; comment peuvent-elles influer sur la qualité globale du processus de fouille de textes.
L'utilisation d'un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d'association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi. La thèse inclut la réalisation d'un système appelé TAMIS : "Text Analysis by Mining Interesting ruleS" ainsi qu'une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire.

To the bibliography