Log in

Relevant bibliographies by topics / Représentation de données de réseau / Dissertations / Theses

To see the other types of publications on this topic, follow the link: Représentation de données de réseau.

Dissertations / Theses on the topic 'Représentation de données de réseau'

Author: Grafiati

Published: 7 September 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Représentation de données de réseau.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Petit, Laurent. "Etude de la qualité des données pour la représentation des réseaux techniques urbains : applications au réseau d'assainissement." Artois, 1999. http://www.theses.fr/1999ARTO0203.

Full text

Abstract:

La mise en place de la BDU ou de SIG nécessite de nombreuses données d'un coût très conséquent. La cause essentielle de ce coût important est l'énorme masse d'informations à emmagasiner, mais également la précision de ces données. Nous nous sommes alors demandés si l'acquisition de données précises était nécessaire vis-à-vis de leur utilité. Nous avons donc décidé de tester l'influence de la précision des données sur un domaine porteur qui est l'assainissement. Nous allons plus particulièrement nous intéresser aux simulations hydrauliques par le modèle Muskingum, des réseaux d'assainissement. Notre choix s'est fixé sur les coordonnées planimétriques et altimétriques décrivant les réseaux, mais nous avons également voulu tester un paramètre qui était très souvent inconnu : la rugosité des conduites. Nous avons tout d'abord mis au point une méthode de comparaison entre un réseau comportant des données correctes, et un réseau composé de données imprécises. Cette méthode nous a permis de montrer que de fortes imprécisions en planimétrie n'influençaient guère les débits. Par contre des imprécisions en altimétrie ou une rugosité engendraient de plus ou moins grosses fluctuations. Nous avons également déterminé que l'évolution des écarts obtenus dépendait essentiellement de la pente des réseaux et de l'intensité de la pluie utilisée : plus la pente ou la pluie étaient faibles, plus les écarts étaient importants. Nous avons ensuite comparé les écarts obtenus en introduisant des imprécisions à ceux obtenus en comparant les modèles BSV et Muskingum, et nous avons montré que le choix du modèle n'était pas forcément prioritaire vis-à-vis de la qualité des données, lorsque nous avions des valeurs faibles pour les pentes ou la ramification des réseaux, le taux de remplissage ou le taux de parcours. Nous terminons notre étude sur différentes perspectives envisageables : généralisation des réseaux types à des réseaux réels, étude de sensibilité des imprécisions des données pour un autre modèle

APA, Harvard, Vancouver, ISO, and other styles

2

Poussevin, Mickael. "Apprentissage de représentation pour des données générées par des utilisateurs." Electronic Thesis or Diss., Paris 6, 2015. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2015PA066040.pdf.

Full text

Abstract:

Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles
In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles

APA, Harvard, Vancouver, ISO, and other styles

3

Poussevin, Mickael. "Apprentissage de représentation pour des données générées par des utilisateurs." Thesis, Paris 6, 2015. http://www.theses.fr/2015PA066040/document.

Full text

Abstract:

Dans cette thèse, nous étudions comment les méthodes d'apprentissage de représentations peuvent être appliquées à des données générées par l'utilisateur. Nos contributions couvrent trois applications différentes, mais partagent un dénominateur commun: l'extraction des représentations d'utilisateurs concernés. Notre première application est la tâche de recommandation de produits, où les systèmes existant créent des profils utilisateurs et objets qui reflètent les préférences des premiers et les caractéristiques des derniers, en utilisant l'historique. De nos jours, un texte accompagne souvent cette note et nous proposons de l'utiliser pour enrichir les profils extraits. Notre espoir est d'en extraire une connaissance plus fine des goûts des utilisateurs. Nous pouvons, en utilisant ces modèles, prédire le texte qu'un utilisateur va écrire sur un objet. Notre deuxième application est l'analyse des sentiments et, en particulier, la classification de polarité. Notre idée est que les systèmes de recommandation peuvent être utilisés pour une telle tâche. Les systèmes de recommandation et classificateurs de polarité traditionnels fonctionnent sur différentes échelles de temps. Nous proposons deux hybridations de ces modèles: la première a de meilleures performances en classification, la seconde exhibe un vocabulaire de surprise. La troisième et dernière application que nous considérons est la mobilité urbaine. Elle a lieu au-delà des frontières d'Internet, dans le monde physique. Nous utilisons les journaux d'authentification des usagers du métro, enregistrant l'heure et la station d'origine des trajets, pour caractériser les utilisateurs par ses usages et habitudes temporelles
In this thesis, we study how representation learning methods can be applied to user-generated data. Our contributions cover three different applications but share a common denominator: the extraction of relevant user representations. Our first application is the item recommendation task, where recommender systems build user and item profiles out of past ratings reflecting user preferences and item characteristics. Nowadays, textual information is often together with ratings available and we propose to use it to enrich the profiles extracted from the ratings. Our hope is to extract from the textual content shared opinions and preferences. The models we propose provide another opportunity: predicting the text a user would write on an item. Our second application is sentiment analysis and, in particular, polarity classification. Our idea is that recommender systems can be used for such a task. Recommender systems and traditional polarity classifiers operate on different time scales. We propose two hybridizations of these models: the former has better classification performance, the latter highlights a vocabulary of surprise in the texts of the reviews. The third and final application we consider is urban mobility. It takes place beyond the frontiers of the Internet, in the physical world. Using authentication logs of the subway users, logging the time and station at which users take the subway, we show that it is possible to extract robust temporal profiles

APA, Harvard, Vancouver, ISO, and other styles

4

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066324/document.

Full text

Abstract:

Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted

APA, Harvard, Vancouver, ISO, and other styles

5

Ziat, Ali Yazid. "Apprentissage de représentation pour la prédiction et la classification de séries temporelles." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066324.

Full text

Abstract:

Nous nous intéressons au développement de méthodes qui répondent aux difficultés posées par l’analyse des séries temporelles. Nos contributions se focalisent sur deux tâches : la prédiction de séries temporelles et la classification de séries temporelles. Notre première contribution présente une méthode de prédiction et de complétion de séries temporelles multivariées et relationnelles. Le but est d’être capable de prédire simultanément l’évolution d’un ensemble de séries temporelles reliées entre elles selon un graphe, ainsi que de compléter les valeurs manquantes dans ces séries (pouvant correspondre par exemple à une panne d’un capteur pendant un intervalle de temps donné). On se propose d’utiliser des techniques d’apprentissage de représentation pour prédire l’évolution des séries considérées tout en complétant les valeurs manquantes et prenant en compte les relations qu’il peut exister entre elles. Des extensions de ce modèle sont proposées et décrites : d’abord dans le cadre de la prédiction de séries temporelles hétérogènes puis dans le cas de la prédiction de séries temporelles avec une incertitude exprimée. Un modèle de prédiction de séries spatio-temporelles est ensuiteproposé, avec lequel les relations entre les différentes séries peuvent être exprimées de manière plus générale, et où ces dernières peuvent être apprises.Enfin, nous nous intéressons à la classification de séries temporelles. Un modèle d’apprentissage joint de métrique et de classification de séries est proposé et une comparaison expérimentale est menée
This thesis deals with the development of time series analysis methods. Our contributions focus on two tasks: time series forecasting and classification. Our first contribution presents a method of prediction and completion of multivariate and relational time series. The aim is to be able to simultaneously predict the evolution of a group of time series connected to each other according to a graph, as well as to complete the missing values in these series (which may correspond for example to a failure of a sensor during a given time interval). We propose to use representation learning techniques to forecast the evolution of the series while completing the missing values and taking into account the relationships that may exist between them. Extensions of this model are proposed and described: first in the context of the prediction of heterogeneous time series and then in the case of the prediction of time series with an expressed uncertainty. A prediction model of spatio-temporal series is then proposed, in which the relations between the different series can be expressed more generally, and where these can be learned.Finally, we are interested in the classification of time series. A joint model of metric learning and time-series classification is proposed and an experimental comparison is conducted

APA, Harvard, Vancouver, ISO, and other styles

6

Castagliola, Carole. "Héritage et valuation dans les réseaux sémantiques pour les bases de données objets." Compiègne, 1991. http://www.theses.fr/1991COMPD363.

Full text

Abstract:

Les bases de données objets s'articulent autour de trois pôles : les langages à objets, l'intelligence artificielle et les techniques de bases de données. Dans les produits ou systèmes existants, ces pôles sont réunis deux à deux. G-BASE TM, la base de données objets de GRAPHAEL TM, regroupe à la fois les techniques d'IA et celles des bases de données. Nous décrivons la solution adoptée afin d'y intégrer les mécanismes des langages à objets, faisant ainsi cohabiter les trois aspects dans un même environnement. L'extension des mécanismes de représentation de la connaissance dans le modèle de G-BASE est étudiée. Une solution est notamment proposée pour l'implantation des prototypes dans le modèle de G-BASE. Une étude portant sur les assertions et sur leur représentation par des méthodes déclaratives ou procédurales est menée. Toutefois, aucune solution satisfaisante n'a pu être dégagée. Il apparaît que la logique soit beaucoup plus adaptée au traitement des assertions que ne le sont les réseaux sémantiques. La dernière partie du travail est consacrée à la valuation des réseaux sémantiques. Les applications sont passées en revue et certains problèmes non résolus sont mis en lumière. La valuation des réseaux sémantiques est une solution élégante à un certain nombre de difficultés. Citons, par exemple, la représentation d'informations complexes et nuancées, la détermination de la granularité, le traitement des exceptions ou encore la réorganisation d'un réseau en fonction des contextes etc. Une telle notion est cependant source de problèmes non résolus. A savoir l'attribution initiale des distances et leur ajustement par des techniques d'apprentissage, la non-transitivité des arcs qui est un obstacle a la généralisation de la valuation et enfin la sémantique des valeurs attribuées.

APA, Harvard, Vancouver, ISO, and other styles

7

Bouzeghoub, Mokrane. "Secsi : un système expert en conception de systèmes d'informations, modélisation conceptuelle de schémas de bases de données." Paris 6, 1986. http://www.theses.fr/1986PA066046.

Full text

Abstract:

Les principaux objectifs du système sont d'une part la constitution d'une base de connaissances regroupant à la fois des acquis théoriques sur les modèles et une expérience pratique en conception de bases de données, et d'autre part la réalisation d'un système d'outils ouvert, capable aussi bien de données, et d'autre part la réalisation d'un système d'outils ouvert, capable aussi bien d'expliquer et de justifier ses choix et ses résultats que d'intégrer de nouveaux concepts et de nouvelles règles de conception. Outre l'architecture générale et les fonctionnalités du système, cette thèse décrit le modèle de représentation de connaissances base sur les réseaux sémantiques, les règles d'inférence et la méthodologie de conception adoptée.

APA, Harvard, Vancouver, ISO, and other styles

8

Azorin, Raphael. "Traffic representations for network measurements." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS141.

Full text

Abstract:

Mesurer l'activité d'un réseau de télécommunications est essentiel à son opération et sa gestion. Ces mesures sont primordiales pour analyser la performance du réseau et établir son diagnostic. En particulier, effectuer des mesures détaillées sur les flux consiste à calculer des métriques caractérisant les flots de données individuels qui traversent le réseau. Afin de développer des représentations pertinentes de leur trafic, les opérateurs réseau doivent en sélectionner les caractéristiques appropriées et doivent attentivement relier leur coût d'extraction à leur expressivité pour les tâches considérées. Dans cette thèse, nous proposons de nouvelles méthodologies pour extraire des représentations pertinentes du trafic. Particulièrement, nous postulons que l'apprentissage automatique (Machine Learning) peut améliorer les systèmes de mesures, grâce à sa capacité à apprendre des motifs adéquats issus des données, ce afin de fournir des prédictions sur des caractéristiques du trafic.La première contribution de cette thèse est un cadre de développement permettant aux systèmes de mesures basés sur des sketches d'exploiter la nature biaisée du trafic réseau. Spécifiquement, nous proposons une nouvelle représentation de ces structures de données, qui tire profit de de la sous-utilisation des sketches, réduisant ainsi l'empreinte mémoire des mesures par flux en n'enregistrant que les compteurs utiles. La deuxième contribution est un système de surveillance réseau assisté par un modèle d'apprentissage automatique, en intégrant un classificateur de trafic. En particulier, nous isolons les flux les plus larges dans le plan de données (data plane), avant de les traiter séparément avec des structures de données dédiées pour différents cas d'usage. Les dernières contributions de cette thèse abordent la conception d'un pipeline d'apprentissage profond (Deep Learning) pour les mesures de réseau, afin d'extraire de riches représentations des données de trafic permettant l'analyse du réseau. Nous puisons dans les récentes avancées en modélisation de séquences afin d'apprendre ces représentations depuis des données de trafic catégorielles et numériques. Ces représentations alimentent la résolution de tâches complexes telles que la réconciliation de données issues d'un flux de clics enregistré par un fournisseur d'accès à internet, ou la prédiction du mouvement d'un terminal dans un réseau Wi-Fi. Enfin, nous présentons une étude empirique des affinités entre tâches candidates à l'apprentissage multitâches, afin d'évaluer lorsque deux tâches bénéficieraient d'un apprentissage conjoint
Measurements are essential to operate and manage computer networks, as they are critical to analyze performance and establish diagnosis. In particular, per-flow monitoring consists in computing metrics that characterize the individual data streams traversing the network. To develop relevant traffic representations, operators need to select suitable flow characteristics and carefully relate their cost of extraction with their expressiveness for the downstream tasks considered. In this thesis, we propose novel methodologies to extract appropriate traffic representations. In particular, we posit that Machine Learning can enhance measurement systems, thanks to its ability to learn patterns from data, in order to provide predictions of pertinent traffic characteristics.The first contribution of this thesis is a framework for sketch-based measurements systems to exploit the skewed nature of network traffic. Specifically, we propose a novel data structure representation that leverages sketches' under-utilization, reducing per-flow measurements memory footprint by storing only relevant counters. The second contribution is a Machine Learning-assisted monitoring system that integrates a lightweight traffic classifier. In particular, we segregate large and small flows in the data plane, before processing them separately with dedicated data structures for various use cases. The last contributions address the design of a unified Deep Learning measurement pipeline that extracts rich representations from traffic data for network analysis. We first draw from recent advances in sequence modeling to learn representations from both numerical and categorical traffic data. These representations serve as input to solve complex networking tasks such as clickstream identification and mobile terminal movement prediction in WLAN. Finally, we present an empirical study of task affinity to assess when two tasks would benefit from being learned together

APA, Harvard, Vancouver, ISO, and other styles

9

Rabaute, Alain. "Obtenir une représentation en continu de la lithologie et de la minéralogie. Exemples d'application du traitement statistique de données de diagraphie aux structures sédimentaires en régime de convergence de plaques (Leg ODP 134, 156 et 160)." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 1998. http://tel.archives-ouvertes.fr/tel-00425334.

Full text

Abstract:

Les techniques de diagraphies sont un moyen privilégié pour étudier les formations géologiques profondes, inaccessibles à l'observation directe. Elles mesurent en continu et in situ de nombreux paramètres pétrophysiques, ainsi que les concentrations en 7 éléments majeurs (Si, Ca, Fe, Al, S, K, Ti) et 3 éléments traces (U, Th et Gd). Une connaissance préalable des différents modes de fonctionnement des outils et de leur calibration permet d'évaluer la précision de la mesure. Celle-ci est surtout fonction des conditions de mesure (diamètre et rugosité du puits, vitesse de mesure). Lorsque les données sont de bonne qualité, les méthodes de classification multivariée, comme la méthode des nuées dynamiques ou le k-means, sont employées comme premier outil de visualisation des grandeurs mesurées par diagraphie. En parallèle ou en complément, à l'aide de méthodes d'inversion linéaire ou non-linéaire, il est possible de calculer une minéralogie en continu avec une précision suffisante pour être utilisée dans des modèles pétrophysiques et géologiques. Les zones de convergence de plaques lithosphériques sont des environnements géologiques instables, dans lesquels les techniques de diagraphie par cable, classiquement utilisée dans les forages scientifiques océaniques ou continentaux, ne permettent pas d'obtenir des données de bonne qualité. La nouvelle méthode de Logging-While-Drilling, ne laisse pas à l'environnement de mesure le temps de se déteriorer et donne une mesure utilisable. L'interprétation géologique, minéralogique et faciologique des données de diagraphies apportent des indications précieuses sur la dynamique sédimentaire, ainsi que sur les éventuelles transformations minéralogiques. Le caractère in situ de la mesure rend possible la modélisation de la dynamique des fluides ou de la variation et de l'orientation des champs de contrainte, dont les environnements étudiés sont souvent le siège.

APA, Harvard, Vancouver, ISO, and other styles

10

Machens, Anna. "Processus épidémiques sur réseaux dynamiques." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4066/document.

Full text

Abstract:

Dans cette thèse nous contribuons à répondre aux questions sur les processus dynamiques sur réseaux temporels. En particulier, nous etudions l'influence des représentations de données sur les simulations des processus épidémiques, le niveau de détail nécessaire pour la représentation des données et sa dépendance des paramètres de la propagation de l'épidémie. Avec l'introduction de la matrice de distributions du temps de contacts nous espérons pouvoir améliorer dans le futur la précision des prédictions des épidémies et des stratégies d'immunisation en intégrant cette représentation des données aux modèles d'épidémies multi-échelles. De plus nous montrons comment les processus épidémiques dynamiques sont influencés par les propriétés temporelles des données
In this thesis we contribute to provide insights into questions concerning dynamic epidemic processes on data-driven, temporal networks. In particular, we investigate the influence of data representations on the outcome of epidemic processes, shedding some light on the question how much detail is necessary for the data representation and its dependence on the spreading parameters. By introducing an improvement to the contact matrix representation we provide a data representation that could in the future be integrated into multi-scale epidemic models in order to improve the accuracy of predictions and corresponding immunization strategies. We also point out some of the ways dynamic processes are influenced by temporal properties of the data

APA, Harvard, Vancouver, ISO, and other styles

11

Jagtap, Surabhi. "Multilayer Graph Embeddings for Omics Data Integration in Bioinformatics." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPAST014.

Full text

Abstract:

Les systèmes biologiques sont composés de biomolécules en interaction à différents niveaux moléculaires. D’un côté, les avancées technologiques ont facilité l’obtention des données omiques à ces divers niveaux. De l’autre, de nombreuses questions se posent, pour donner du sens et élucider les interactions importantes dans le flux d’informations complexes porté par cette énorme variété et quantité des données multi-omiques. Les réponses les plus satisfaisantes seront celles qui permettront de dévoiler les mécanismes sous-jacents à la condition biologique d’intérêt. On s’attend souvent à ce que l’intégration de différents types de données omiques permette de mettre en lumière les changements causaux potentiels qui conduisent à un phénotype spécifique ou à des traitements ciblés. Avec les avancées récentes de la science des réseaux, nous avons choisi de traiter ce problème d’intégration en représentant les données omiques à travers les graphes. Dans cette thèse, nous avons développé trois modèles à savoir BraneExp, BraneNet et BraneMF pour l’apprentissage d’intégrations de noeuds à partir de réseaux biologiques multicouches générés à partir de données omiques. Notre objectif est de résoudre divers problèmes complexes liés à l’intégration de données multiomiques, en développant des méthodes expressives et évolutives capables de tirer parti de la riche sémantique structurelle latente des réseaux du monde réel
Biological systems are composed of interacting bio-molecules at different molecular levels. With the advent of high-throughput technologies, omics data at their respective molecular level can be easily obtained. These huge, complex multi-omics data can be useful to provide insights into the flow of information at multiple levels, unraveling the mechanisms underlying the biological condition of interest. Integration of different omics data types is often expected to elucidate potential causative changes that lead to specific phenotypes, or targeted treatments. With the recent advances in network science, we choose to handle this integration issue by representing omics data through networks. In this thesis, we have developed three models, namely BraneExp, BraneNet, and BraneMF, for learning node embeddings from multilayer biological networks generated with omics data. We aim to tackle various challenging problems arising in multi-omics data integration, developing expressive and scalable methods capable of leveraging rich structural semantics of realworld networks

APA, Harvard, Vancouver, ISO, and other styles

12

Mohammadi, Samin. "Analysis of user popularity pattern and engagement prediction in online social networks." Thesis, Evry, Institut national des télécommunications, 2018. http://www.theses.fr/2018TELE0019/document.

Full text

Abstract:

De nos jours, les médias sociaux ont largement affecté tous les aspects de la vie humaine. Le changement le plus significatif dans le comportement des gens après l'émergence des réseaux sociaux en ligne (OSNs) est leur méthode de communication et sa portée. Avoir plus de connexions sur les OSNs apporte plus d'attention et de visibilité aux gens, où cela s'appelle la popularité sur les médias sociaux. Selon le type de réseau social, la popularité se mesure par le nombre d'adeptes, d'amis, de retweets, de goûts et toutes les autres mesures qui servaient à calculer l'engagement. L'étude du comportement de popularité des utilisateurs et des contenus publiés sur les médias sociaux et la prédiction de leur statut futur sont des axes de recherche importants qui bénéficient à différentes applications telles que les systèmes de recommandation, les réseaux de diffusion de contenu, les campagnes publicitaires, la prévision des résultats des élections, etc. Cette thèse porte sur l'analyse du comportement de popularité des utilisateurs d'OSN et de leurs messages publiés afin, d'une part, d'identifier les tendances de popularité des utilisateurs et des messages et, d'autre part, de prévoir leur popularité future et leur niveau d'engagement pour les messages publiés par les utilisateurs. A cette fin, i) l'évolution de la popularité des utilisateurs de l'ONS est étudiée à l'aide d'un ensemble de données d'utilisateurs professionnels 8K Facebook collectées par un crawler avancé. L'ensemble de données collectées comprend environ 38 millions d'instantanés des valeurs de popularité des utilisateurs et 64 millions de messages publiés sur une période de 4 ans. Le regroupement des séquences temporelles des valeurs de popularité des utilisateurs a permis d'identifier des modèles d'évolution de popularité différents et intéressants. Les grappes identifiées sont caractérisées par l'analyse du secteur d'activité des utilisateurs, appelé catégorie, leur niveau d'activité, ainsi que l'effet des événements externes. Ensuite ii) la thèse porte sur la prédiction de l'engagement des utilisateurs sur les messages publiés par les utilisateurs sur les OSNs. Un nouveau modèle de prédiction est proposé qui tire parti de l'information mutuelle par points (PMI) et prédit la réaction future des utilisateurs aux messages nouvellement publiés. Enfin, iii) le modèle proposé est élargi pour tirer profit de l'apprentissage de la représentation et prévoir l'engagement futur des utilisateurs sur leurs postes respectifs. L'approche de prédiction proposée extrait l'intégration de l'utilisateur de son historique de réaction au lieu d'utiliser les méthodes conventionnelles d'extraction de caractéristiques. La performance du modèle proposé prouve qu'il surpasse les méthodes d'apprentissage conventionnelles disponibles dans la littérature. Les modèles proposés dans cette thèse, non seulement déplacent les modèles de prédiction de réaction vers le haut pour exploiter les fonctions d'apprentissage de la représentation au lieu de celles qui sont faites à la main, mais pourraient également aider les nouvelles agences, les campagnes publicitaires, les fournisseurs de contenu dans les CDN et les systèmes de recommandation à tirer parti de résultats de prédiction plus précis afin d'améliorer leurs services aux utilisateurs
Nowadays, social media has widely affected every aspect of human life. The most significant change in people's behavior after emerging Online Social Networks (OSNs) is their communication method and its range. Having more connections on OSNs brings more attention and visibility to people, where it is called popularity on social media. Depending on the type of social network, popularity is measured by the number of followers, friends, retweets, likes, and all those other metrics that is used to calculate engagement. Studying the popularity behavior of users and published contents on social media and predicting its future status are the important research directions which benefit different applications such as recommender systems, content delivery networks, advertising campaign, election results prediction and so on. This thesis addresses the analysis of popularity behavior of OSN users and their published posts in order to first, identify the popularity trends of users and posts and second, predict their future popularity and engagement level for published posts by users. To this end, i) the popularity evolution of ONS users is studied using a dataset of 8K Facebook professional users collected by an advanced crawler. The collected dataset includes around 38 million snapshots of users' popularity values and 64 million published posts over a period of 4 years. Clustering temporal sequences of users' popularity values led to identifying different and interesting popularity evolution patterns. The identified clusters are characterized by analyzing the users' business sector, called category, their activity level, and also the effect of external events. Then ii) the thesis focuses on the prediction of user engagement on the posts published by users on OSNs. A novel prediction model is proposed which takes advantage of Point-wise Mutual Information (PMI) and predicts users' future reaction to newly published posts. Finally, iii) the proposed model is extended to get benefits of representation learning and predict users' future engagement on each other's posts. The proposed prediction approach extracts user embedding from their reaction history instead of using conventional feature extraction methods. The performance of the proposed model proves that it outperforms conventional learning methods available in the literature. The models proposed in this thesis, not only improves the reaction prediction models to exploit representation learning features instead of hand-crafted features but also could help news agencies, advertising campaigns, content providers in CDNs, and recommender systems to take advantage of more accurate prediction results in order to improve their user services

APA, Harvard, Vancouver, ISO, and other styles

13

Prudhomme, Elie. "Représentation et fouille de données volumineuses." Thesis, Lyon 2, 2009. http://www.theses.fr/2009LYO20048/document.

Full text

Abstract:

Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...)
/

APA, Harvard, Vancouver, ISO, and other styles

14

Bougrain, Laurent. "Étude de la construction par réseaux neuromimétiques de représentations interprétables : application à la prédiction dans le domaine des télécommunications." Nancy 1, 2000. http://www.theses.fr/2000NAN10241.

Full text

Abstract:

Les réseaux de neurones artificiels sont de bons outils de modélisation ( efficaces, facilement adaptables et rapides) mais ils ont la réputation d'être difficiles à interpréter et sont généralement comparés à des boîtes noires dont il n'est pas facile de comprendre l'organisation interne, pourtant responsable de leurs bonnes performances. Pour obtenir une meilleure compréhension du fonctionnement des réseaux connexionnistes et une validation de leur utilisation en tant qu'outils d'acquisition de connaissances, nous avons, dans un premier temps, réuni divers travaux théoriques pour montrer les points communs existant entre certaisn réseaux de neurones classiques et des méthodes statistiques de régression et d'analyses de données. Dans un deuxième temps et à la lumière de ce qui précède, nous avons expliqué les particularités de réseaux connexionnistes plus complexes, tels que des réseaux dynamiques ou modulaires, afin d'exploiter leurs avantages respectifs en concevant un nouveau modèle d'extraction de connaissances adapté à la complexité du phénomène à modéliser. Les réseaux connexionnistes que nous avons réunis et interprétés et le modèle que nous avons développé peuvent, à partir des données, enrichir la compréhension du phénomène en analysant et en organisant les informations par rapport à la tâche à accomplir comme nous l'illustrons à travers une application de prédiction dans le domaine des télécommunications où la connaissance du domaine ne suffit pas à modéliser correctement le phénomène. Les possibilités d'application de notre travail sont donc larges et s'inscrivent dans le cadre de la fouille de données et dans le domaine des sciences cognitives
Artificial neural networks constitute good tools for certain types of computational modelling (being potentially efficient, easy to adapt and fast). However, they are often considered difficult to interpret, and are sometimes treated as black boxes. However, whilst this complexity implies that it is difficult to understand the internal organization that develops through learning, it usually encapsulates one of the key factors for obtaining good results. First, to yield a better understanding of how artificial neural networks behave and to validate their use as knowledge discovery tools, we have examined various theoretical works in order to demonstrate the common principles underlying both certain classical artificial neural network, and statistical methods for regression and data analysis. Second, in light of these studies, we have explained the specificities of some more complex artificial neural networks, such as dynamical and modular networks, in order to exploit their respective advantages in constructing a revised model for knowledge extraction, adjusted to the complexity of the phenomena we want to model. The artificial neural networks we have combined (and the subsequent model we developed) can, starting from task data, enhance the understanding of the phenomena modelled through analysing and organising the information for the task. We demonstrate this in a practical prediction task for telecommunication, where the general domain knowledge alone is insufficient to model the phenomena satisfactorily. This leads us to conclude that the possibility for practical application of out work is broad, and that our methods can combine with those already existing in the data mining and the cognitive sciences

APA, Harvard, Vancouver, ISO, and other styles

15

Mohammadi, Samin. "Analysis of user popularity pattern and engagement prediction in online social networks." Electronic Thesis or Diss., Evry, Institut national des télécommunications, 2018. http://www.theses.fr/2018TELE0019.

Full text

Abstract:

De nos jours, les médias sociaux ont largement affecté tous les aspects de la vie humaine. Le changement le plus significatif dans le comportement des gens après l'émergence des réseaux sociaux en ligne (OSNs) est leur méthode de communication et sa portée. Avoir plus de connexions sur les OSNs apporte plus d'attention et de visibilité aux gens, où cela s'appelle la popularité sur les médias sociaux. Selon le type de réseau social, la popularité se mesure par le nombre d'adeptes, d'amis, de retweets, de goûts et toutes les autres mesures qui servaient à calculer l'engagement. L'étude du comportement de popularité des utilisateurs et des contenus publiés sur les médias sociaux et la prédiction de leur statut futur sont des axes de recherche importants qui bénéficient à différentes applications telles que les systèmes de recommandation, les réseaux de diffusion de contenu, les campagnes publicitaires, la prévision des résultats des élections, etc. Cette thèse porte sur l'analyse du comportement de popularité des utilisateurs d'OSN et de leurs messages publiés afin, d'une part, d'identifier les tendances de popularité des utilisateurs et des messages et, d'autre part, de prévoir leur popularité future et leur niveau d'engagement pour les messages publiés par les utilisateurs. A cette fin, i) l'évolution de la popularité des utilisateurs de l'ONS est étudiée à l'aide d'un ensemble de données d'utilisateurs professionnels 8K Facebook collectées par un crawler avancé. L'ensemble de données collectées comprend environ 38 millions d'instantanés des valeurs de popularité des utilisateurs et 64 millions de messages publiés sur une période de 4 ans. Le regroupement des séquences temporelles des valeurs de popularité des utilisateurs a permis d'identifier des modèles d'évolution de popularité différents et intéressants. Les grappes identifiées sont caractérisées par l'analyse du secteur d'activité des utilisateurs, appelé catégorie, leur niveau d'activité, ainsi que l'effet des événements externes. Ensuite ii) la thèse porte sur la prédiction de l'engagement des utilisateurs sur les messages publiés par les utilisateurs sur les OSNs. Un nouveau modèle de prédiction est proposé qui tire parti de l'information mutuelle par points (PMI) et prédit la réaction future des utilisateurs aux messages nouvellement publiés. Enfin, iii) le modèle proposé est élargi pour tirer profit de l'apprentissage de la représentation et prévoir l'engagement futur des utilisateurs sur leurs postes respectifs. L'approche de prédiction proposée extrait l'intégration de l'utilisateur de son historique de réaction au lieu d'utiliser les méthodes conventionnelles d'extraction de caractéristiques. La performance du modèle proposé prouve qu'il surpasse les méthodes d'apprentissage conventionnelles disponibles dans la littérature. Les modèles proposés dans cette thèse, non seulement déplacent les modèles de prédiction de réaction vers le haut pour exploiter les fonctions d'apprentissage de la représentation au lieu de celles qui sont faites à la main, mais pourraient également aider les nouvelles agences, les campagnes publicitaires, les fournisseurs de contenu dans les CDN et les systèmes de recommandation à tirer parti de résultats de prédiction plus précis afin d'améliorer leurs services aux utilisateurs
Nowadays, social media has widely affected every aspect of human life. The most significant change in people's behavior after emerging Online Social Networks (OSNs) is their communication method and its range. Having more connections on OSNs brings more attention and visibility to people, where it is called popularity on social media. Depending on the type of social network, popularity is measured by the number of followers, friends, retweets, likes, and all those other metrics that is used to calculate engagement. Studying the popularity behavior of users and published contents on social media and predicting its future status are the important research directions which benefit different applications such as recommender systems, content delivery networks, advertising campaign, election results prediction and so on. This thesis addresses the analysis of popularity behavior of OSN users and their published posts in order to first, identify the popularity trends of users and posts and second, predict their future popularity and engagement level for published posts by users. To this end, i) the popularity evolution of ONS users is studied using a dataset of 8K Facebook professional users collected by an advanced crawler. The collected dataset includes around 38 million snapshots of users' popularity values and 64 million published posts over a period of 4 years. Clustering temporal sequences of users' popularity values led to identifying different and interesting popularity evolution patterns. The identified clusters are characterized by analyzing the users' business sector, called category, their activity level, and also the effect of external events. Then ii) the thesis focuses on the prediction of user engagement on the posts published by users on OSNs. A novel prediction model is proposed which takes advantage of Point-wise Mutual Information (PMI) and predicts users' future reaction to newly published posts. Finally, iii) the proposed model is extended to get benefits of representation learning and predict users' future engagement on each other's posts. The proposed prediction approach extracts user embedding from their reaction history instead of using conventional feature extraction methods. The performance of the proposed model proves that it outperforms conventional learning methods available in the literature. The models proposed in this thesis, not only improves the reaction prediction models to exploit representation learning features instead of hand-crafted features but also could help news agencies, advertising campaigns, content providers in CDNs, and recommender systems to take advantage of more accurate prediction results in order to improve their user services

APA, Harvard, Vancouver, ISO, and other styles

16

Bounar, Boualem. "Génération automatique de programmes sur une base de données en réseau : couplage PROLOG-Base de données en réseau." Lyon 1, 1986. http://www.theses.fr/1986LYO11703.

Full text

APA, Harvard, Vancouver, ISO, and other styles

17

Brossier, Gildas. "Problèmes de représentation de données par des arbres." Rennes 2, 1986. http://www.theses.fr/1986REN20014.

Full text

Abstract:

Dans un premier temps, on étudie les propriétés des tableaux de distance associés, aux différentes représentations arborées et les relations entre ces distances. Ensuite, on définit les représentations ordonnées, on construit une classe d'algorithmes d'ordonnancement et on étudie leurs propriétés d'optimalité dans différentes conditions. Les propriétés de décomposition des tableaux de distances quadrangulaires nous permettent alors de construire des algorithmes rapides de représentations, possédant certaines propriétés d'optimalité. On étend ces résultats au cas où la donnée est une matrice non symétrique. Enfin dans le cas où la matrice de données est rectangulaire, on dégage les conditions nécessaires et suffisantes à une représentation simultanée de deux ensembles de données. Quand les conditions ne sont pas satisfaites on propose des algorithmes d'approximation
First, we begin by studying the properties of distance tables associated with tree-representations, and the relation between these distances. Then we define ordered representations, construct a class of ordering algorithms and study their optimal properties under different conditions. The decomposition properties of distance tables allow us to construct fast algorithms for representations with some optimal properties we extend results when data are asymmetry matrices. Last of all we show in the case of rectangular matrices the necessary and sufficient conditions for the simultaneous representations of two sets of data. When conditions are not satisfied we propose some approximation algorithms

APA, Harvard, Vancouver, ISO, and other styles

18

Le, Morvan Marine. "Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEM041/document.

Full text

Abstract:

Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l'émergence de la médecine de précision, dont le but est d'intégrer aux dossiers médicaux conventionnels les spécificités génétiques d'un individu, afin de mieux adapter les traitements et les stratégies de prévention. La traduction des variations et des altérations de l'ADN en prédictions phénotypiques constitue toutefois un problème difficile. Les séquenceurs ou puces à ADN mesurent plus de variables qu'il n'y a d'échantillons, posant ainsi des problèmes statistiques. Les données brutes sont aussi sujettes aux biais techniques et au bruit inhérent à ces technologies. Enfin, les vastes réseaux d'interactions à l'échelle des protéines obscurcissent l'impact des variations génétiques sur le comportement de la cellule, et incitent au développement de modèles prédictifs capables de capturer un certain degré de complexité.Cette thèse présente de nouvelles contributions méthodologiques pour répondre à ces défis.Tout d'abord, nous définissons une nouvelle représentation des profils de mutations tumorales, qui exploite leur position dans les réseaux d'interaction protéine-protéine. Pour certains cancers, cette représentation permet d'améliorer les prédictions de survie à partir des données de mutations, et de stratifier les cohortes de patients en sous-groupes informatifs. Nous présentons ensuite une nouvelle méthode d'apprentissage permettant de gérer conjointement la normalisation des données et l'estimation d'un modèle linéaire. Nos expériences montrent que cette méthode améliore les performances prédictives par rapport à une gestion séquentielle de la normalisation puis de l'estimation. Pour finir, nous accélérons l'estimation de modèles linéaires parcimonieux, prenant en compte des interactions deux à deux, grâce à un nouvel algorithme. L'accélération obtenue rend cette estimation possible et efficace sur des jeux de données comportant plusieurs centaines de milliers de variables originales, permettant ainsi d'étendre la portée de ces modèles aux données des études d'associations pangénomiques
Since the first sequencing of the human genome in the early 2000s, large endeavours have set out to map the genetic variability among individuals, or DNA alterations in cancer cells. They have laid foundations for the emergence of precision medicine, which aims at integrating the genetic specificities of an individual with its conventional medical record to adapt treatment, or prevention strategies.Translating DNA variations and alterations into phenotypic predictions is however a difficult problem. DNA sequencers and microarrays measure more variables than there are samples, which poses statistical issues. The data is also subject to technical biases and noise inherent in these technologies. Finally, the vast and intricate networks of interactions among proteins obscure the impact of DNA variations on the cell behaviour, prompting the need for predictive models that are able to capture a certain degree of complexity. This thesis presents novel methodological contributions to address these challenges. First, we define a novel representation for tumour mutation profiles that exploits prior knowledge on protein-protein interaction networks. For certain cancers, this representation allows improving survival predictions from mutation data as well as stratifying patients into meaningful subgroups. Second, we present a new learning framework to jointly handle data normalisation with the estimation of a linear model. Our experiments show that it improves prediction performances compared to handling these tasks sequentially. Finally, we propose a new algorithm to scale up sparse linear models estimation with two-way interactions. The obtained speed-up makes this estimation possible and efficient for datasets with hundreds of thousands of main effects, thereby extending the scope of such models to the data from genome-wide association studies

APA, Harvard, Vancouver, ISO, and other styles

19

Ali, Soulafa. "Agrégation des données spatiales sur un réseau régulier." Université Joseph Fourier (Grenoble), 2004. http://www.theses.fr/2004GRE10093.

Full text

Abstract:

Cette thèse considère le problème de l'agrégation des données spatiales issues d'un processus spatial unilatéral de type ARM A sur une grille régulière Z2. Nous étendons la définition de l'agrégation aléatoire dans le cadre spatial puis nous nous limitons au cas particulier de l'agrégation déterministe et sans recouvrement. Nous montrons alors que ce type d'agrégation préserve la structure ARM A dans le cas de processus spatiaux unilatéraux, lorsque Z2 est muni de l'ordre quart de plan. Si le processus initial, noté X, est un ARM (p,q) où p = (p1,p2), q=(q1, q2) et pi, qi≥1 pour i=1. 2, alors que le processus agrégé Y est aussi un ARM A (p*,q*). Les ordres p* et q* sont de plus explicités. Ensuite nous montrons que l'agrégation spatiale préserve aussi la structure du processus agrégés de type ARM A. Pour un processus initial de type AR l'agrégation conduit à des processus initial de type AR du premier ordre. De plus, une estimation des paramètres du processus initial X sont déduits des estimateurs des paramètres du processus agrégé Y. Ces derniers sont obtenus à l'aide d'une extension au cadre spatial de l'algorithme d'innovation applicable à des processus de carré intégrable non nécessairement stationnaires
This thesis considers the problem of aggregation of spatial data resulting from a unilateral spatial ARM A model on a regular grid in Z2. We extend the definition of random aggregation to spatial cas then we limit ourselves to the particular case of deterministic aggregation without overlapping. We show that this type of aggregation preserves the ARM A structure in the case of unilateral spatial processes when Z2 is provided with the quarter-plan order. If the initial process X, is an ARM A (p,q) where p= (p1,p2), q= (q1,q2) and pi, qi≥1 pour i=1. 2,then the aggregated process Y is also an ARM A (p*, q*). We also give the expression of the orders p* and q*. We show that spatial aggregation preserves also the structure of the unilateral spatial M A process. We prove that the aggregation processus of an AR is an ARM A one. In particular we treat the simple case of aggregation of an 1-ordre AR model. We derive the expression of the estimates of the initial process parameters in terms of aggregated process ones. These latter ones are obtained from an extension of the innovation algorithm to the spatial framework which can be applied to square-integrable, and not necessarily stationary processes

APA, Harvard, Vancouver, ISO, and other styles

20

Boullé, Marc. "Recherche d'une représentation des données efficace pour la fouille des grandes bases de données." Phd thesis, Télécom ParisTech, 2007. http://pastel.archives-ouvertes.fr/pastel-00003023.

Full text

Abstract:

La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données. A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille. Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus. Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.

APA, Harvard, Vancouver, ISO, and other styles

21

Khalife, Sammy. "Graphes, géométrie et représentations pour le langage et les réseaux d'entités." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX055.

Full text

Abstract:

Le traitement informatique des objets qui nous entourent, naturels ou créés par l'homme, demande toujours de passer par une phase de traduction en entités traitables par des programmes. Le choix de ces représentations abstraites est toujours crucial pour l'efficacité des traitements et est le terrain d'améliorations constantes. Mais il est un autre aspect émergeant : le lien entre l'objet à représenter et "sa" représentation n'est pas forcément bijectif ! Ainsi la nature ambiguë de certaines structures discrètes pose problème pour la modélisation ainsi que le traitement et l'analyse à l'aide d'un programme informatique. Le langage dit ``naturel'', et sous sa forme en particulier de représentation textuelle, en est un exemple. Le sujet de cette thèse consiste à explorer cette question, que nous étudions à l'aide de méthodes combinatoires et géométriques. Ces méthodes nous permettent de formaliser le problème d'extraction d'information dans des grands réseaux d'entités ainsi que de construire des représentations géométriques utiles pour le traitement du langage naturel. Dans un premier temps, nous commençons par démontrer des propriétés combinatoires des graphes de séquences intervenant de manière implicite dans les modèles séquentiels. Ces propriétés concernent essentiellement le problème inverse de trouver une séquence représentant un graphe donné. Les algorithmes qui en découlent nous permettent d'effectuer une comparaison expérimentale de différents modèles séquentiels utilisés en modélisation du langage. Dans un second temps, nous considérons une application pour le problème d'identification d'entités nommées. A la suite d'une revue de solutions récentes, nous proposons une méthode compétitive basée sur la comparaison de structures de graphes de connaissances et moins coûteuse en annotations d'exemples dédiés au problème. Nous établissons également une analyse expérimentale d'influence d'entités à partir de relations capitalistiques. Cette analyse suggère l'élargissement du cadre d'application de l'identification d'entités à des bases de connaissances de natures différentes. Ces solutions sont aujourd'hui utilisées au sein d'une librairie logicielle dans le secteur bancaire. Ensuite, nous développons une étude géométrique de représentations de mots récemment proposées, au cours de laquelle nous discutons une conjecture géométrique théoriquement et expérimentalement. Cette étude suggère que les analogies du langage sont difficilement transposables en propriétés géométriques, et nous amène a considérer le paradigme de la géométrie des distances afin de construire de nouvelles représentations. Enfin, nous proposons une méthodologie basée sur le paradigme de la géométrie des distances afin de construire de nouvelles représentations de mots ou d'entités. Nous proposons des algorithmes de résolution de ce problème à grande échelle, qui nous permettent de construire des représentations interprétables et compétitives en performance pour des tâches extrinsèques. Plus généralement, nous proposons à travers ce paradigme un nouveau cadre et piste d'explorations pour la construction de représentations en apprentissage machine
The automated treatment of familiar objects, either natural or artifacts, always relies on a translation into entities manageable by computer programs. The choice of these abstract representations is always crucial for the efficiency of the treatments and receives the utmost attention from computer scientists and developers. However, another problem rises: the correspondence between the object to be treated and "its" representation is not necessarily one-to-one! Therefore, the ambiguous nature of certain discrete structures is problematic for their modeling as well as their processing and analysis with a program. Natural language, and in particular its textual representation, is an example. The subject of this thesis is to explore this question, which we approach using combinatorial and geometric methods. These methods allow us to address the problem of extracting information from large networks of entities and to construct representations useful for natural language processing.Firstly, we start by showing combinatorial properties of a family of graphs implicitly involved in sequential models. These properties essentially concern the inverse problem of finding a sequence representing a given graph. The resulting algorithms allow us to carry out an experimental comparison of different sequential models used in language modeling.Secondly, we consider an application for the problem of identifying named entities. Following a review of recent solutions, we propose a competitive method based on the comparison of knowledge graph structures which is less costly in annotating examples dedicated to the problem. We also establish an experimental analysis of the influence of entities from capital relations. This analysis suggests to broaden the framework for applying the identification of entities to knowledge bases of different natures. These solutions are used today in a software library in the banking sector.Then, we perform a geometric study of recently proposed representations of words, during which we discuss a geometric conjecture theoretically and experimentally. This study suggests that language analogies are difficult to transpose into geometric properties, and leads us to consider the paradigm of distance geometry in order to construct new representations.Finally, we propose a methodology based on the paradigm of distance geometry in order to build new representations of words or entities. We propose algorithms for solving this problem on some large scale instances, which allow us to build interpretable and competitive representations in performance for extrinsic tasks. More generally, we propose through this paradigm a new framework and research leadsfor the construction of representations in machine learning

APA, Harvard, Vancouver, ISO, and other styles

22

Sassi, Salma. "Le système ICOP : représentation, visualisation et communication de l'information à partir d'une représentation iconique des données." Lyon, INSA, 2009. http://theses.insa-lyon.fr/publication/2009ISAL0064/these.pdf.

Full text

Abstract:

Les systèmes d'informations connaissent un essor constant depuis leur création. Leur usage laisse de nouvelles possibilités d'accès et de traitement des informations, en appui à l'action. Or, le constat général est toujours le même : accumulation de données non décrites, non référencées, sans origine, difficultés d'accès à des données mises à jour. . . On ne sait plus qui fait quoi ni où se trouve l'information que l'on cherche. Le temps et le nombre de personnes intermédiaires, nécessaires à la recherche d'une donnée sont un frein à la circulation de l'information. Ceci se vérifie dans tous les domaines, y compris le domaine médical. La mise en partage d'une information communiquée et temporalisée constitue un enjeu primordial. Notre étude des systèmes existants a permis de révéler trois limites principales qui accroissent la dispersion des informations d’un même domaine. L’un des tout premiers freins réside dans le fait que les interfaces existantes ne correspondent ni à l’attente ni au fonctionnement des utilisateurs. Le deuxième problème réside dans le fait que certains systèmes ne sont pas communicants ce qui rend impossible une vue globale des informations reliées à un projet bien déterminé et finalement le troisième problème concerne l’accès à l’information qui nécessite l’accès à diverses sources d’informations. Ces dernières sont généralement hétérogènes, que ce soit au niveau syntaxique ou sémantique. Des ontologies complexes contenant des milliers de termes sont créées pour résoudre les conflits sémantiques alors que le problème de la syntaxe et de la structure unique des données restent un problème difficile à résoudre. Notre contribution consiste principalement à faire coopérer les systèmes d’information hétérogènes. Nous proposons pour cela une architecture de médiation sémantique
Information systems are in continuous development since their creation. Using these systems offers the possibility to information access and treatment. Although, the general operation is always the same: gathering non-described, unreferenced, and unoriginal data, as well as the difficulty in accessing updated data. . . We do not know where the searched information is, or who created it. The time and the number of intermediate persons that are necessary for data search, reduce the circulation of information. This is true in all domains including the medical domain. The communication of shared and temporal information remains an important problem. Our study on current systems showed three main limitations that increase the information dispersal on the same domain. The first problem is that the current interfaces do not correspond to user needs and work. The second problem is that some of information systems do not communicate. This makes impossible to generate an overall view of the information which are connected to the same project. Finally the third problem concerns the information access that requires the access to diverse resources. These last ones are generally heterogeneous within the syntax or semantic level. Complex ontologies containing thousands of terms are created to resolve the semantic conflicts. Nevertheless, the syntax and the unique data structure remain a difficult problem to be resolved. Essentially, our contribution consists in cooperating heterogeneous information systems. For this reason, we propose semantic mediation architecture. Domain meta-ontology and task meta-ontology are associated to assure the information sources convergence. We also use annotations and metadata that facilitate the information resources description in order to make correspondences between them, to resolve conflicts and finally to exploit the data themselves. The second part of our contribution concerns a new tool of graphic and chronological visualization. This system allows to represent on a temporal component the information related to a given domain, and also to show the needed and the authorized information to the user. We develop these proposals by illustrating them in an application domain that presents many complexity factors: medical information systems. Our proposals were validated throughout two prototypes development: the OR (Object Reconstruction) prototype and the Travel’In prototype

APA, Harvard, Vancouver, ISO, and other styles

23

Muhlenbach, Fabrice. "Evaluation de la qualité de la représentation en fouille de données." Lyon 2, 2002. http://demeter.univ-lyon2.fr:8080/sdx/theses/lyon2/2002/muhlenbach_f.

Full text

Abstract:

L'extraction de connaissances à partir de données (ECD) cherche à produire de nouvelles connaissances utilisables en tirant parti des grandes bases de données. Avant de procéder à la phase de fouille de données, étapes phare de l'ECD, pour pouvoir opérer un apprentissage automatique, un ensemble de questions et de problèmes se posent : comment avoir a priori une idée de la manière dont les étiquettes de la variable à apprendre peuvent être séparées en fonction des variables prédictives ? comment traiter les bases pour lesquelles nous savons que des étiquettes sont fausses ? comment transformer des variables prédictives continues en variables discrètes en tenant compte globalement des informations de la variable à prédire ? Nous proposons diverses réponses à ces problèmes. Ces solutions exploitent les propriétés d'outils géométriques : les graphes de voisinage. Le voisinage entre des individus projetés dans un espace à p dimensions nous fournit un moyen de caractériser la ressemblance entre les exemples à apprendre. A partir de ceci, nous élaborons un test statistique basé sur le poids des arêtes qu'il faut retirer dans un graphe de voisinage pour n'avoir que des sous-graphes d'une seul étiquette, ce qui nous informe de la séparabilité a priori des classes. Nous prolongeons ces réflexions dans le cadre de la détection d'individus dont l'étiquette est douteuse : nous proposons une stratégie de suppression et de réétiquetage d'exemples douteux dans l'échantillon d'apprentissage afin d'augmenter la qualité des modèles prédictifs exploitant cet échantillon de données. Ces travaux sont étendus au cas particulier où la variable à prédire est numérique : nous présentons un test de structure pour la prédiction d'une telle variable. Enfin, nous présenton une méthode de discrétisation supervisée polythétique qui repose sur les graphes de voisinage et montrons ses performances en l'employant avec une méthode d'apprentissage supervisé que nous avons développée
Knowledge discovery tries to produce novel and usable knowledge from the databases. In this whole process, data mining is the crucial machine learning step but we must asked some questions first: how can we have an a priori idea of the way of the labels of the class attribute are separable or not? How can we deal with databases where some examples are mislabeled? How can we transform continuous predictive attributes in discrete ones in a supervised way by taking into account the global information of the data ? We propose some responses to these problems. Our solutions take advantage of the properties of geometrical tools: the neighbourhood graphs. The neighbourhood between examples projected in a multidimensional space gives us a way of characterising the likeness between the examples to learn. We develop a statistical test based on the weight of edges that we must suppress from a neighbourhood graph for having only subgraphs of a unique class. This gives information about the a priori class separability. This work is carried on in the context of the detection of examples from a database that have doubtful labels: we propose a strategy for removing and relabeling these doubtful examples from the learning set to improve the quality of the resulting predictive model. These researches are extended in the special case of a continuous class to learn: we present a structure test to predict this kind of variable. Finally, we present a supervised polythetic discretization method based on the neighbourhood graphs and we show its performances by using it with a new supervised machine learning algorithm

APA, Harvard, Vancouver, ISO, and other styles

24

Magaud, Nicolas. "Changements de Représentation des Données dans le Calcul des Constructions." Phd thesis, Université de Nice Sophia-Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-00005903.

Full text

Abstract:

Nous étudions comment faciliter la réutilisation des
preuves formelles en théorie des types. Nous traitons cette question
lors de l'étude
de la correction du programme de calcul de la racine carrée de GMP.
A partir d'une description formelle, nous construisons
un programme impératif avec l'outil Correctness. Cette description
prend en compte tous les détails de l'implantation, y compris
l'arithmétique de pointeurs utilisée et la gestion de la mémoire.
Nous étudions aussi comment réutiliser des preuves formelles lorsque
l'on change la représentation concrète des données.
Nous proposons un outil qui permet d'abstraire
les propriétés calculatoires associées à un type inductif dans
les termes de preuve.
Nous proposons également des outils pour simuler ces propriétés
dans un type isomorphe. Nous pouvons ainsi passer, systématiquement,
d'une représentation des données à une autre dans un développement
formel.

APA, Harvard, Vancouver, ISO, and other styles

25

Thomopoulos, Rallou. "Représentation et interrogation élargie de données imprécises et faiblement structurées." Paris, Institut national d'agronomie de Paris Grignon, 2003. http://www.theses.fr/2003INAP0018.

Full text

Abstract:

Ce travail de thèse se situe dans le cadre d'un projet appliqué à la microbiologie prévisionnelle, s'appuyant sur une base de données et sur son système d'interrogation. Les données du projet sont faiblement structurées, elles peuvent être imprécises et ne permettent pas de répondre à toute requête de façon exacte, de sorte qu'un système d'interrogation souple de la base de données est nécessaire. Nous nous appuyons sur le modèle des graphes conceptuels pour prendre en compte les données faiblement structurées et sur la théorie des sous-ensembles flous pour représenter les données imprécises et les requêtes floues. L'objet de cette thèse est la combinaison de ces deux formalismes
This work is part of a project applied to predictive microbiology, which is built on a database and on its querying system. The data used in the project are weakly structured, they may be imprecise, and cannot provide exact answers to every query, so that a flexible querying system is necessary for the querying of the database. We use the conceptual graph model in order to take into account weakly structured data, and fuzzy set theory, in order to represent imprecise data and fuzzy queries. The purpose of this work is to provide a combination of these two formalisms

APA, Harvard, Vancouver, ISO, and other styles

26

Gaillard, Jeremy. "Représentation et échange de données tridimensionnelles géolocalisées de la ville." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSE2023/document.

Full text

Abstract:

Le perfectionnement des modes d’acquisition 3D (relevés laser, photographiques, etc.) a conduit à la multiplication des données 3D géolocalisées disponibles. De plus en plus de villes mettent leur modèle numérique 3D à disposition en libre accès. Pour garantir l’interopérabilité des différentes sources de données, des travaux ont été effectués sur la standardisation des protocoles d’échange et des formats de fichier. En outre, grâce aux nouveaux standards du Web et à l’augmentation de la puissance des machines, il est devenu possible ces dernières années d’intégrer des contenus riches, comme des applications 3D, directement dans une page web. Ces deux facteurs rendent aujourd’hui possible la diffusion et l’exploitation des données tridimensionnelles de la ville dans un navigateur web. Ma thèse, dotée d’un financement de type CIFRE avec la société Oslandia, s’intéresse à la représentation tridimensionnelle de la ville sur le Web. Plus précisément, il s’agit de récupérer et de visualiser, à partir d’un client léger, de grandes quantités de données de la ville sur un ou plusieurs serveurs distants. Ces données sont hétérogènes : il peut s’agir de la représentations 3D des bâtiments (maillages) et du terrain (carte de hauteur), mais aussi d’informations sémantiques telles que des taux de pollution (volumes), la localisation de stations de vélos (points) et le nombre de vélos disponibles, etc. Durant ma thèse, j’ai exploré différentes manières d’organiser ces données dans des structures génériques afin de permettre une transmission progressive de fortes volumétries de données 3D. La prise en compte de l’aspect multi-échelle de la ville est un élément clef de la conception de ces structures.L’adaptation de la visualisation des données à l’utilisateur est un autre grand axe de ma thèse. Du fait du grand nombre de cas d’utilisations existants pour la ville numérique, les besoins de l’utilisateur varient grandement : des zones d’intérêts se dégagent, les données doivent être représentées d’une manière spécifique... J’explore différentes manières de satisfaire ces besoins, soit par la priorisation de données par rapport à d’autres lors de leur chargement, soit par la génération de scènes personnalisés selon les préférences indiquées par l’utilisateur
Advances in 3D data acquisition techniques (laser scanning, photography, etc.) has led to a sharp increase in the quantity of available 3D geolocated data. More and more cities provide the scanned data on open access platforms. To ensure the intercompatibility of different data sources, standards have been developed for exchange protocols and file formats. Moreover, thanks to new web standards and the increase in processing power of personal devices, it is now possible to integrate rich content, such as 3D applications, directly in a web page. These two elements make it possible to share and exploit 3D city data into a web browser.The subject of my thesis, co-financed by the Oslandia company, is the 3D representation of city data on the Web. More precisely, the goal is to retrieve and visualize a great quantity of city data from one or several distant servers in a thin client. This data is heterogenous: it can be 3D representations of buildings (meshes) or terrain (height maps), but also semantic information such as pollution levels (volume data), the position of bike stations (points) and their availability, etc. During my thesis, I explored various ways of organising this data in generic structures in order to allow the progressive transmission of high volumes of 3D data. Taking into account the multiscale nature of the city is a key element in the design of these structures. Adapting the visualisation of the data to the user is another important objective of my thesis. Because of the high number of uses of 3D city models, the user’s needs vary greatly: some specific areas are of higher interest, data has to be represented in a certain way... I explore different methods to satisfy these needs, either by priroritising some data over others during the loading stage, or by generating personalised scenesbased on a set of preferences defined by the user

APA, Harvard, Vancouver, ISO, and other styles

27

Duroselle, Raphaël. "Robustesse au canal des systèmes de reconnaissance de la langue." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0250.

Full text

Abstract:

La tâche de reconnaissance de la langue consiste à prédire la langue utilisée dans un énoncé audio contenant de la parole. Depuis 2017, les systèmes atteignant les meilleures performances reposent sur un réseau de neurones profond, entraîné à identifier la langue pour l’ensemble du segment. Ces systèmes subissent une perte de performance lorsqu’ils sont exposés à une variation des canaux de transmission entre les données d’entraînement et d’évaluation. L’objet de cette thèse est l’exploration d’approches permettant de limiter cette perte de performance dans le cadre de ces nouveaux systèmes. Nos travaux peuvent être regroupés en trois directions : l’étude d’une méthode d’amélioration de la robustesse au canal des systèmes, l’analyse de leur robustesse et la simplification de la recette d’apprentissage. Une augmentation de l’invariance, par rapport au canal de transmission, des représentations utilisées par le réseau de neurones peut augmenter la robustesse du système. Nous montrons que la régularisation de la fonction de coût utilisée lors de l’entraînement du réseau de neurones est un outil efficace pour augmenter cette invariance. Deux types de fonction de régularisation sont analysés. Les mesures de divergence entre les domaines réduisent efficacement la variabilité entre des canaux identifiés, elles peuvent également être utilisées pour valoriser des données non annotées dans le cadre d’un apprentissage semi-supervisé. Les fonctions de coût de metric learning permettent de réduire des variabilités inconnues dans l’ensemble d’apprentissage. Nous montrons comment cette méthode peut être mise en œuvre dans trois scénarios d’apprentissage d’intérêt pratique : l’adaptation de domaine non supervisée, l’apprentissage multi-domaines et la généralisation à un domaine inconnu. Au cours de l’étude de cette approche, nous développons des méthodes d’analyse de la qualité des représentations. Elles visent à mesurer la variabilité des représentations due au canal de transmission et à la comparer à la variabilité due à la langue. Deux outils sont introduits : le calcul de rapports entre les covariance inter-classes et intra-classes et la mesure de divergences entre groupes de représentations. Ceux-ci nous permettent d’évaluer quantitativement la robustesse des représentations au changement de canal et donc de comprendre l’effet des fonctions de régularisation sur l’espace des représentations. En particulier, ces méthodes révèlent que l’augmentation de l’invariance entre les canaux peut mener à des représentations plus discriminantes entre les langues et donc à une amélioration de la performance sur chacun des canaux de transmission.Enfin, nous contribuons à l’amélioration de la recette d’entraînement d’un autre module du système, l’extracteur de bottleneck features. Nous montrons qu’un réseau de neurones de reconnaissance de la parole de bout en bout multilingue permet de réaliser cette extraction, avec une meilleure performance et une recette d’apprentissage simplifiée. L’utilisation d’augmentations de données et de méthodes de régularisation améliore la performance de ce module. D’autre part nous montrons qu’un gain de performance peut être obtenu en réalisant un entraînement conjoint de ce module avec le réseau d’identification de la langue. Cela ouvre la voie à l’application simultanée des fonctions de régularisation étudiées aux deux modules
Language recognition is the task of predicting the language used in a test speech utterance. Since 2017, the best performing systems have been based on a deep neural network which is trained to predict language labels for the whole utterance. These systems suffer from a drop in performance when they are exposed to a change of the transmission channel between train and test data. The goal of this thesis is to investigate approaches to limit this performance drop, for these new systems.An increase in the invariance, with respect to the transmission channel, of the representations used by the neural network can increase the robustness of the system. We show that the regularization of the loss function used to train the neural network is an efficient approach to increase invariance. Two kinds of regularization functions are analysed. Divergence measures between domains reduce effectively the variability between known domains, they can also be used to incorporate unlabeled data into the training set in a semi-supervised learning framework. Metric learning cost functions are able to reduce unknown variabilities within the training set. We show how this regularization method can be enforced for three practical learning settings: unsupervised domain adaptation, multi-domain learning and domain generalization.During this work, we have designed methods for analyzing the quality of the representations. They aim at evaluating the variability of the representations induced by the transmission channel and to compare it to the variability that caused the language. Two tools are proposed: ratio between inter class and intra class covariance matrices and divergence measures between groups of representations. With these tools, we quantitatively evaluate the robustness to a change of transmission channel of the representations and analyse the effect of the regularization functions over the space of representations. We understand that an increase in invariance between channels can lead to more discriminative representations between languages and consequently to an increase in performance over each transmission channel.Finally, we contribute to the improvement of the training recipe of another module of the system, the bottleneck feature extractor. We replace it with a multilingual end-to-end automatic speech recognition neural network. It achieves a simiar performance as a traditional bottleneck feature extractor with a simplified training recipe. The use of data augmentation and regularization methods improves further this module. Moreover we show that a performance gain can be achieved with a joint training of the bottleneck feature extractor along with the language identification neural network. This paves the way to the application of the proposed regularization loss functions to the two modules jointly

APA, Harvard, Vancouver, ISO, and other styles

28

Mokrane, Abdenour. "Représentation de collections de documents textuels : application à la caractérisation thématique." Montpellier 2, 2006. http://www.theses.fr/2006MON20162.

Full text

APA, Harvard, Vancouver, ISO, and other styles

29

Wagner, Frédéric. "Redistribution de données à travers un réseau à haut débit." Phd thesis, Université Henri Poincaré - Nancy I, 2005. http://tel.archives-ouvertes.fr/tel-00011705.

Full text

Abstract:

Nous considérons ici le problème où deux programmes différents situés sur deux grappes d'ordinateurs distantes, reliées par un réseau à haut débit, forment un couplage de code et échangent
régulièrement des données. Un tel échange s'effectue par une redistribution de données. Nous étudions comment effectuer une telle redistribution le plus efficacement possible en minimisant temps de communication et congestion du réseau.

Nous utilisons pour ce faire, une modélisation du problème à l'aide de graphes bipartis. Le modèle choisi permet une prise en compte du délai d'initialisation des communications, des différentes bandes passantes et impose une limite d'une communication simultanée par interface réseau (modèle 1-port) et de k communications simultanées sur la dorsale.

Nous effectuons une validation expérimentale du modèle puis l'utilisons pour développer deux algorithmes d'ordonnancement
des communications. Nous montrons que chacun d'entre eux
est un algorithme d'approximation garantissant un temps d'exécution dans le pire des cas 8/3 fois plus élevé que le temps optimal.
Nous concluons l'étude de ces algorithmes par une série d'expériences démontrant de bonnes performances en pratique.

Enfin, nous étendons le problème initial au cas de grappes hétérogènes :
ce cas imposant de sortir du modèle 1-port, nous montrons comment modifier nos algorithmes pour en tirer parti.
Nous étudions également le cas de redistributions exécutées en régime permanent sur un réseau d'une topologie plus complexe autorisant les communications locales.

APA, Harvard, Vancouver, ISO, and other styles

30

El, Zoghby Nicole. "Fusion distribuée de données échangées dans un réseau de véhicules." Phd thesis, Université de Technologie de Compiègne, 2014. http://tel.archives-ouvertes.fr/tel-01070896.

Full text

Abstract:

Cette thèse porte sur l'étude des techniques de fusion de données réparties et incertaines au sein d'un réseau de véhicules pour gérer la confiance dans les autres véhicules ou dans les données reçues. L'algorithme de fusion distribuée proposé est basé sur les fonctions de croyance et est appliqué par chaque nœud à la réception des messages. In se base sur la gestion d'une connaissance directe, locale à chaque nœud et d'une connaissance distribuée diffusée dans le réseau. Cette dernière résulte de la fusion des messages par un opérateur adapté prenant en compte les cycles éventuels et limitant l'effet de "data incest". Chaque nœud peut être autonome pour estimer la confiance mais la coopération entre les véhicules permet d'améliorer et de rendre plus robuste cette estimation. L'algorithme peut être adapté au cas d'étude en considérant un ou plusieurs éléments d'observation et en prenant en compte l'obsolescence des données. Lorsqu'il y a plusieurs éléments d'observation, se pose le problème de l'association de données nécessaire avant l'étape de combinaison. Un nouvel algorithme d'association a été formalisé dans le cadre des fonctions de croyance. Il a été démontré que ce problème est équivalent à un problème d'affectation linéaire, qui peut être résolu en temps polynomial. Cette solution est à la fois optimale et beaucoup plus efficace que d'autres approches développées dans ce formalisme. La gestion de la confiance dans les nœuds et dans les données échangées ont été illustrées par la mise en œuvre de deux applications : la détection de faux nœuds dans une attaque Sybil et la gestion de la confiance dans les cartes dynamiques pour la perception augmentée.

APA, Harvard, Vancouver, ISO, and other styles

31

Khraibani, Hussein. "Modélisation statistique de données longitudinales sur un réseau routier entretenu." Ecole centrale de Nantes, 2010. http://www.theses.fr/2010ECDN0040.

Full text

Abstract:

Nous nous intéressons à la modélisation des lois d’évolutions des dégradations de chaussées entretenues. Pour cela, cette thèse fait une revue des modèles et outils de modélisation, notamment l’analyse des données de survie (MADS) qui a fait l’objet développements importants au LCPC. Pour tirer parti du fait que les bases de données comportent, aujourd’hui, des séries d’observations sur chaque section routière, elle propose une autre approche fondée sur la mise en œuvre de modèles non linéaires mixtes. En procédant à une comparaison des capacités d’ajustement et de prédiction de ces modèles, d’abord sur des bases de données artificielles, non bruitées et bruitées, puis sur une base de données provenant d’un programme de suivi de section test, et enfin sur une base de données issue du suivi périodique d’un réseau routier réel, la thèse permet de tirer des conclusions claires sur les conditions et le domaine d’application des modèles
Road transportation has a direct impact on a country's economy. Infrastructures, particularly pavements, deteriorate under the effect of traffic and climate. As a result, they most constantly undergo maintenance which often requires expensive works. The optimization of maintenance strategies and the scheduling of works necessarily pass by a study that makes use of deterioration evolution laws and accounts for the effect of maintenance on these laws. In this respect, numerous theoretical and experimental works ranging linear and nonlinear regressions to more sophisticated methods such as Markov chain have been conducted. The thesis presents a survey of models and methods and focuses on the analysis of survival data (MADS), an analysis which constituted the objective of important works at LCPC. In order to acount for the fact that current databases contain repeated measurements of each pavement section, the thesis proposes a different approach based on the use of nonlinear mixed-effects models (NLME). First, it carries out a comparison between the NLME and MADS models on different databases in terms of the goodness of fit and prediction capability. The comparison then allows to draw conclusions about the applicability of the two models

APA, Harvard, Vancouver, ISO, and other styles

32

Allani, Sabri. "Agrégation et dissémination de données dans un réseau véhiculaire VANET." Thesis, Pau, 2018. http://www.theses.fr/2018PAUU3013/document.

Full text

Abstract:

Cette thèse traite la problématique de la dissémination et l’agrégation des données dans un contexte de réseaux VANET (Vehicle Ad-Hoc Networks). Cette problématique est fort intéressante, toujours d’actualité dans un monde de plus en plus urbanisé. En effet, d’un côté la dissémination permet d’informer les véhicules mobiles des principaux événements en temps utile, et de l’autre côté l’agrégation permet de résumer plusieurs données émanant de sources différentes concernant le même événement. Le challenge de la dissémination consiste à calculer la zone de relevance d’un événement, de délivrer les messages aux véhicules de cette zone, et de continuer à délivrer les messages en continu aux véhicules de cette zone. Le challenge de l’agrégation consiste essentiellement à sélectionner les messages à agréger et à qualifier les messages provenant de véhicules lointains. Pour résoudre le problème de dissémination nous proposons un nouveau protocole de dissémination des données dans les réseaux VANET. La principale idée de ce protocole est basée sur la définition de zones de relevance ZOR (zone of relevance of a région) pour la mesure de l’intérêt d’une zone par rapport à un évènement donné, et la définition de split Map permettant de décomposer une grande région en un ensemble de ZORs. L’approche de calcul des ZORs est formalisée, elle est basée sur les techniques de greedy pour l’extraction de la couverture pertinente. Le protocole de dissémination présenté sous forme de diagramme Flowchart qui résumé les activités lorsque qu’un véhicule est en mouvement, un événement est détecté. La performance du protocole proposé est évaluée et comparé au protocole Slotted1-Persistence à travers un environnement de simulations et une topologie réelle de routes de la ville de Bizerte en Tunisie. Les résultats de simulation sont présentés et discutés.D’autre part, certaines applications VANET, par exemple le système d’information de trafic (TIS), nécessitent une agrégation de données pour informer les véhicules des conditions de circulation, ce qui réduit les embouteillages et par conséquent les émissions de CO2 Par conséquent, la conception d'un protocole d'agrégation efficace combinant des informations de trafic corrélées telles que l'emplacement, la vitesse et la direction, appelées données flottantes sur les voitures (FCD), pose un problème complexe. Dans cette thèse, nous introduisons un nouveau protocole d’agrégation de données dans un réseau VANET appelé SDDA (Smart Directional Data Aggregation). Ce protocole est dédié aussi bien à l’échange de données dans un contexte urbain et autoroutier. Le protocole proposé est basé sur une sélection des messages à agréger. Trois principaux filtres ont été utilisés : filtrage basé sur la direction des véhicules, filtrage basé sur la limitation de vitesse, et filtrage basé sur l’élimination des messages dupliqués. Trois algorithmes d’agrégation sont proposés, ils visent à optimiser l’algorithme de SOTIS. Les trois algorithmes traitent des cas de routes unidirectionnelles, bidirectionnelles et les réseaux urbains. A l’image du chapitre précédent, la performance des algorithmes proposés sont évaluées à travail un travail de simulation et différents résultats sont présentés et discutés
Since the last decade, the emergence of affordable wireless devices in vehicle ad-hoc networks has been a key step towards improving road safety as well as transport efficiency. Informing vehicles about interesting safety and non-safety events is of key interest. Thus, the design of an efficient data dissemination protocol has been of paramount importance. A careful scrutiny of the pioneering vehicle-to-vehicle data dissemination approaches highlights that geocasting is the most feasible approach for VANET applications, more especially in safety applications, since safety events are of interest mainly to vehicles located within a specific area, commonly called ZOR or Zone Of Relevance, close to the event. Indeed, the most challenging issue in geocast protocols is the definition of the ZOR for a given event dissemination. In this thesis, our first contribution introduces a new geocast approach, called Data Dissemination Protocol based on Map Splitting(DPMS). The main thrust of DPMS consists of building the zones of relevance through the mining of correlations between vehicles’ trajectories and crossed regions. To do so, we rely on the Formal Concept Analysis (FCA), which is a method of extracting interesting clusters from relational data. The performed experiments show that DPMS outperforms its competitors in terms of effectiveness and efficiency. In another hand, some VANET applications, e.g., Traffic Information System (TIS), require data aggregation in order to inform vehicles about road traffic conditions, which leads to reduce traffic jams and consequently CO2 emission while increasing the user comfort. Therefore, the design of an efficient aggregation protocol that combines correlated traffic information like location, speed and direction known as Floating Car Data (FCD) is a challenging issue. In this thesis, we introduce a new TIS data aggregation protocol called Smart Directional Data Aggregation (SDDA) able to decrease the network overload while obtaining high accurate information on traffic conditions for large road sections. To this end, we introduce three levels of messages filtering: (i) filtering all FCD messages before the aggregation process based on vehicle directions and road speed limitations, (ii) integrating a suppression technique in the phase of information gathering in order to eliminate the duplicate data, and (iii) aggregating the filtered FCD data and then disseminating it to other vehicles. The performed experiments show that the SDDA outperforms existing approaches in terms of effectiveness and efficiency

APA, Harvard, Vancouver, ISO, and other styles

33

Khoumeri, El-Hadi. "Représentation des données spatiales à différents niveaux d'abstraction : application à l'archéoastronomie." Phd thesis, Université Pascal Paoli, 2007. http://tel.archives-ouvertes.fr/tel-00188500.

Full text

Abstract:

La carte est le moyen le plus naturel de transmission de l'information géographique. Elle est aussi un excellent support pour la visualisation des données analytiques sur des phénomènes à référence spatiale. Ceci inclut les cartes topographiques, aussi bien que les cartes schématiques (ex : réseau de transport urbain). Pour des considérations liées à des contraintes technologiques, la représentation du monde réel a été discrétisée, en cartographie classique, en tenant compte des projets et applications souhaitées, en représentations à différentes échelles correspondant à plusieurs niveaux d'abstraction.
Les producteurs de cartes maintiennent de façon identique une base de donnée par gamme d'échelle sans aucune inter-relation. De ce fait, outre les problèmes classiques de la redondance des données, et l'impossibilité de la propagation des mises à jour, le contrôle des cohérences est rendu très difficile. Pour maintenir la cohérence et éviter les redondances, la solution idéale serait une base de donnée où l'information géométrique est saisie à l'échelle la plus précise, et toutes les visualisations à des échelles moins précises seraient dérivées automatiquement à travers des processus de généralisation cartographique. Malheureusement cette dérivation ne peut être complètement automatisée. Par conséquent, le stockage explicite de plusieurs représentations de la géométrie des objets (une par échelle) s'impose. Néanmoins plusieurs solutions ont été mises en oeuvre pour parer aux inconvénients induits, dont la mise en oeuvre d'une base de donnée multi-échelle : une base de données où toutes les représentations requises coexistent et sont inter-reliées.
Nous présentons les besoins et les problèmes rencontrés par les spécialistes en SHS, en particulier nous mettons en évidence les problèmes soulevés dans le cadre d'une utilisation des SIG pour l'archéoastronomie, puis nous présentons les approches de résolution des problèmes ainsi que la présentation des concepts de base utilisés pour résoudre les problèmes mis en évidence. Les concepts précédents sont traités dans le cadre d'une conception orientée objets (COO). L'approche COO de la multi-représentation est basé sur une modélisation objet en UML. La validation des concepts précédents, est présenté à travers un exemple concret.
L'approche est illustrée par la réalisation du prototype logiciel GIS-3A sous Visual Basic ce qui permet d'une part d'implémenter les différentes notions en utilisant une conception orientée objets et d'autre part de faciliter l'intégration des ces notions dans un SIG (Arcview).

APA, Harvard, Vancouver, ISO, and other styles

34

Khoumeri, El-Hadi. "Représentation de données spatiales à différents niveaux d'abstraction : application à l'archéoastronomie." Corte, 2006. http://www.theses.fr/2006CORT3095.

Full text

Abstract:

Les producteurs de cartes maintiennent de façon identique une base de données par gamme d’échelle sans aucune inter-relation. Pour maintenir la cohérence et éviter les redondances, la solution idéale serait une base de données où l’information géométrique est saisie à l’échelle la plus précise, et toutes les visualisations à des échelles moins précises seraient dérivées automatiquement à travers des processus de généralisation cartographique. Malheureusement cette dérivation ne peut être complètement automatisée. Néanmoins plusieurs solutions ont été mises en oeuvre pour parer aux inconvénients induits, dont la mise en oeuvre d’une base de donnée multi-échelle : une base de données où toutes les représentations requises coexistent et sont inter-reliées. Nous présentons les besoins et les problèmes rencontrés par les spécialistes en Sciences Humaines et Sociale, en particulier nous mettons en évidence les problèmes soulevés dans le cadre d’une utilisation des SIG pour l’archéoastronomie, puis nous présentons les approches de résolution des problèmes ainsi que la présentation des concepts de base utilisés pour résoudre les problèmes mis en évidence. Les concepts précédents sont traités dans le cadre d’une conception orientée objets (COO). L’approche COO de la multi-représentation est basée sur une modélisation objet en UML. La validation des concepts précédents, est présentée à travers un exemple concret. L’approche est illustrée par la réalisation du prototype logiciel GIS-3A sous Visual Basic ce qui permet d’une part d’implémenter les différentes notions en utilisant une conception orientée objets et d’autre part de faciliter l’intégration des ces notions dans un SIG
The producers of maps maintain in an identical way a base of data by range of scale without any interrelationship. To maintain coherence and to avoid the redundancies, the ideal solution would be a base of data where geometrical information is seized on the most precise scale, and all visualizations on less precise scales would be derived automatically through processes of cartographic generalization. Unfortunately this derivation cannot be completely automated. Nevertheless several solutions were implemented to avoid the induced disadvantages, of which the implementation of a base of data multi-scale: a data base where all the necessary representations coexist and are interrelated. We present the needs and the problems encountered by the specialists in social sciences, in particular we highlight the problems raised within the framework of a use of the GIS for the archeaostronomy, and then we present the approaches of resolution of the problems as well as the presentation of the basic concepts used to solve the problems highlighted. The preceding concepts are treated in the framework of a object oriented design (OOD). Approach OOD of the multi-representation is based on a modelling object in UML. The validation of the preceding concepts is presented through a concrete example. The approach is illustrated by the realization of software prototype GIS-3A under Visual BASIC what makes it possible on the one hand to implement the various concepts by using a directed design objects and on the other hand to facilitate the integration of these concepts in a GIS

APA, Harvard, Vancouver, ISO, and other styles

35

Daniel-Vatonne, Marie-Christine. "Les termes : un modèle de représentation et structuration de données symboliques." Montpellier 2, 1993. http://www.theses.fr/1993MON20031.

Full text

Abstract:

Nos travaux se situent dans le cadre de l'analyse conceptuelle des donnees. Notre objectif est de generaliser les representations par variables binaires ou nominales en y adjoignant la modelisation de structures internes. Le probleme est de ne pas perdre en complexite algorithmique ce qui est gagne en puissance de representation. Selon ces considerations, decrire les donnees et les classes de donnees par des structures arborescentes est un bon compromis. Le systeme de representation que nous proposons s'appuie sur un modele algebrique: les magmas. Il permet de construire des termes assimilables a des arborescences finies, etiquetees et typees. Leur interpretation est intuitive et ils autorisent les descriptions recursives. Une relation d'ordre naturel, la generalisation, induit un treillis sur les termes. Nous etudions ce treillis et montrons qu'il possede des proprietes proches de celles d'un treillis booleen. En particulier, nous montrons que l'on peut construire un treillis de galois mettant en correspondance des ensembles d'objets et leur description par des termes

APA, Harvard, Vancouver, ISO, and other styles

36

Rigaux, Philippe. "Interfaces visuelles et multi-représentation dans les bases de données spatiales." Paris, CNAM, 1995. http://www.theses.fr/1995CNAM0207.

Full text

Abstract:

La thèse comporte deux parties. La première partie est consacrée à la conception d'interfaces graphiques dans un contexte de bases de données gérant des informations localisées (ou plus simplement: bases de données géographiques). La problématique spécifique à ce type d'application est tout d'abord mise en valeur: distance importante entre la représentation logique dans la base de données et la représentation graphique à l'écran, nécessite d'intégration forte entre le langage de requêtes et les procédures d'affichage, enfin complexité des paramètres de visualisation de l'information spatiale (attributs graphiques, échelle, etc). Dans ce contexte, des spécifications sont proposées, d'une part pour l'expression de requêtes spatiales, d'autre part pour le contrôle du mode de composition de la représentation graphique et l'interaction avec la carte. Ces spécifications mènent à un modèle d'architecture comprenant plusieurs niveaux de représentation successifs entre la base de données et l'interface. Ce modèle a été implémenté avec le SGBD orienté-objet o#2, et des outils de générations d'interfaces graphiques (xfacemaker et ilog views). La deuxième partie de la thèse est consacrée à un problème apparu au cours de la conception des interfaces: la représentation multiple. Dans une représentation cartographique, on utilise l'échelle comme paramètre pour éliminer d'une carte des entités de trop petite taille. D’autres facteurs que l'échelle interviennent également (diversité des objectifs et des points de vues) qui permettent de généraliser la notion de représentation multiple. Nous proposons une étude du problème aboutissant à un modèle base sur des hiérarchies de partitions spatiales. Des opérateurs d'agrégation et de généralisation sont définis pour passer d'un niveau à un autre. Nous montrons que les structures obtenues présentent un intérêt dans plusieurs types d'applications: interrogation imprécise, bases de données statistiques, optimisation de requêtes par définition d'index logiques

APA, Harvard, Vancouver, ISO, and other styles

37

Lerat, Nadine. "Représentation et traitement des valeurs nulles dans les bases de données." Paris 11, 1986. http://www.theses.fr/1986PA112383.

Full text

Abstract:

Cette thèse étudie la représentation et le traitement de deux types d'informations incomplètes dans le contexte des bases de données : les valeurs nulles non applicables et les valeurs nulles représentant des objets inconnus. Dans une première partie, les requêtes portant sur une table unique contenant des valeurs non applicables sont traduites par un ensemble de requêtes sur des multitables conventionnelles. Dans une seconde partie, les valeurs nulles inconnues sont représentées par des constantes de Skolem et une méthode adaptant à ce contexte un algorithme de "chasse" permet d'évaluer des requêtes en présence de dépendances fonctionnelles ou d'inclusion. Des techniques efficaces d'évaluation sont proposées. On montre, en conclusion, que les deux types de valeurs nulles ci-dessus peuvent être pris en compte simultanément
This thesis deals with the representation and treatment of two cases of information incompleteness in the field of databases: non applicable null values and null values representing unknown objects. In the first part, queries on a unique table containing non applicable nulls are translated into a set of queries on conventional multitables. In the second part, unknown null values are represented by Skolem constants and a method adapting to this context a "chase" algorithm allows evaluating queries when functional or inclusion dependencies are satisfied. Eventually, it is shown that these two types of null values can be taken into account simultaneously

APA, Harvard, Vancouver, ISO, and other styles

38

Madani, Nacéra. "Etude de l'héritage des propriétés dans les réseaux sémantiques : Notion de réseau d'héritage légal." Paris 13, 1994. http://www.theses.fr/1994PA132016.

Full text

Abstract:

Dans cette étude, nous nous intéressons particulièrement au problème d'héritage dans les réseaux sémantiques et le traitement des exceptions dans ces derniers. Nous définissons une nouvelle approche d'héritage multiple avec exceptions dite "théorie d'héritage légal", inspirée notamment de [Fahlman et al. 81]. Cette théorie permet l'expression syntaxique des réseaux d'héritage non ambigus et est purement décrite en termes de liens IS-A et liens exception. Nous optons pour un traitement semi-automatique de l'ambiguïté comme celle connue sous le nom de "Nixon Diamond", par l'introduction de lien exception qui inhibe l'inférence sur un des deux chemins en conflit. Après une opération de mise à jour, la légalité du réseau est maintenue en dégageant l'ensemble des cycles "ancêtres responsables" de ces ambiguïtés. Ces cycles sont dits cycles ambigus ancêtres positifs ou négatifs (caa+ ou caa-). La résolution de l'ambiguïté au niveau d'un caa+ (ou caa-) induit la résolution systématique de l'ambiguïté au niveau des cycles ambigus ayant le caa+ (caa-) comme "ancêtre". La construction d'une extension d'un réseau d'héritage légal est basée sur la notion de marquage admissible qui est un formalisme définissant l'héritage que l'on peut opérer à partir de la représentation. Une correspondance entre un réseau d'héritage légal avec une théorie des défauts taxonomiques ainsi qu'avec une théorie des défauts libres est établie.

APA, Harvard, Vancouver, ISO, and other styles

39

El, Zant Manal. "Contribution à une représentation spatio-temporelle des dépêches épidémiologiques." Aix-Marseille 2, 2008. http://www.theses.fr/2008AIX20666.

Full text

Abstract:

Une représentation spatio-temporelle des évènements est d’une grande importance pour une compréhension détaillée du sens des dépêches épidémiologiques. La dissémination des composants d’une telle représentation dans les dépêches rend difficile l’accès à leurs contenus. Notre travail consiste en une extraction automatique d’une représentation évènementielle de ce type de dépêches. Nous avons implanté un système d’extraction d’information en utilisant les cascades de transducteurs à nombre d’états fini qui a permis la réalisation de trois tâches : la reconnaissance des entités nommées, l’annotation et la représentation des arguments ainsi que la représentation des structures des évènements. Par cette méthode, nous avons obtenu une valeur de rappel comprise entre 74. 24% et 100% pour la reconnaissance des entités nommées et pour la représentation des arguments, nous avons obtenu un rappel compris entre 97. 18% et 99. 54%. Ensuite, nous avons effectué un travail de normalisation de cette représentation par une résolution de certaines coréférences et de certaines inférences dans les cas où les arguments cause pathologique, personne concernée, localisation spatiale et localisation temporelle sont omises ou partiellement reconnues. Nous avons obtenu une valeur de précision comprise entre 70. 83% et 100% pour les résolution de certaines anaphores pronominales. L’évaluation de la résolution des inférences est faite par une recherche des contre-exemples des sorties des règles proposées
A spatio-temporal representation of event structures is important for an automatic comprehension of disease outbreak reports. The dispersion of components in this type of reports makes it difficult to have such a representation. This work describes an automatic extraction of event structures representation of these texts. We built an information extraction system by using cascaded finite state transducers which allowed the realization of three tasks : the named entity recognition, the arguments annotation and representation and the event structure representation. We obtained with this method a recall between 74. 24% and 100% for the named entity recognition task and a recall between 97. 18% and 99. 54% for argument representation task. Thereafter, we contributed to a normalization task in anaphoric pronouns resolution and in some inferences resolution concerning disease causation, concerned person, spatial and temporal location. We obtained a precision between 70. 83% and 100% for anaphoric pronouns resolution. The evaluation of inferences rules resolutions consisted in finding some counterexamples in the corpora for evaluation

APA, Harvard, Vancouver, ISO, and other styles

40

Kharrat, Ahmed. "Fouille de données spatio-temporelles appliquée aux trajectoires dans un réseau." Versailles-St Quentin en Yvelines, 2013. http://www.theses.fr/2013VERS0042.

Full text

Abstract:

Ces dernières années ont vu le développement des techniques de fouille de données dans de nombreux domaines d’applications dans le but d’analyser des données volumineuses et complexes. Parallèlement, le déploiement croissant de systèmes de localisation, tels que le GPS, amène à produire des masses de données relatives aux traces de géolocalisation. C’est dans ce contexte que se situent nos travaux. Nous sommes partis du constat que le grand volume des données de géolocalisation rend leur exploitation et leur analyse fastidieuse pour les utilisateurs et les analystes. Nous nous sommes intéressés à la fouille de trajectoires d’objets mobiles et plus particulièrement ceux évoluant dans un réseau, comme les véhicules dans un réseau routier. Cette thèse a abouti aux contributions suivantes : une méthode originale de clustering de trajectoires dans un contexte contraint par le réseau, une méthode de caractérisation de l'évolution de la densité sur le réseau routier, la définition et la découverte de patrons de trajectoires et une méthode de généralisation de trajectoires basée sur ces patrons
Recent years have seen the development of data mining techniques for many application areas in order to analyze large and complex data. At the same time, the increasing deployment of location-acquisition technologies such as GPS, leads to produce a large datasets of geolocation traces. In this thesis, we are interested in mining trajectories of moving objects, such as vehicles in the road network. We propose a method for discovering dense routes by clustering similar road sections according to both traffic and location in each time period. The traffic estimation is based on the collected spatio-temporal trajectories. We also propose a characterization approach of the temporal evolution of dense routes by a graph connecting dense routes over consecutive time periods. This graph is labelled by a degree of evolution. Our last proposal concerns the discovery of mobility patterns and using these patterns to define a new representation of generalised trajectories

APA, Harvard, Vancouver, ISO, and other styles

41

Souty, Cécile. "Méthodes d'analyse de données de surveillance épidémiologique : application au réseau Sentinelles." Thesis, Paris 6, 2016. http://www.theses.fr/2016PA066183.

Full text

Abstract:

Les réseaux de surveillance en santé humaine reposent souvent sur des professionnels de santé (fournisseurs) volontaires organisés en réseau, qui rapportent les cas de maladie observés dans leur patientèle. Les caractéristiques de ces fournisseurs, leur répartition spatiale et leur participation ne peut pas être contrôlée: ils ne constituent pas un échantillon aléatoire. La représentativité est un point important lorsque l'information collectée n'est pas exhaustive, elle assure que le réseau fournit une représentation précise de la population touchée. Dans cette thèse, on s'intéresse aux méthodes de réduction du biais des estimations produites par un réseau de surveillance reposant sur des données fournies par un échantillon de professionnels de santé volontaires. Les travaux reposent sur l'expérience en France du réseau de médecin généralistes Sentinelles. L'estimateur de Horvitz-Thompson a été utilisé pour réduire le biais des estimations grâce à la définition des probabilités d'inclusion reposant sur la différence d'activité des médecins participants et non-participants. Nous avons également étudié l'impact de l'échantillonnage spatial des médecins grâce à des données simulées. Nous montrons l'utilisation de poids de sondage incluant la densité médicale locale permet de s'affranchir des variations temporelle et spatiale des fournisseurs. Enfin, les différentes méthodes de redressement proposées ont été appliquées pour l'estimation annuelle de l'efficacité du vaccin anti-grippal. Les différents travaux montrent l'apport de méthodes statistiques appropriées à l'utilisation de données collectées en médecine générale pour informer précisément les acteurs de santé publique
Disease surveillance networks are usually based on a group of health professionals or institutions which monitor one or more diseases. These data providers report cases seen among their patients. The characteristics of these providers, their spatial distribution and their participation to the network cannot be controlled: they are not a random sample of health professionals. Representativeness must be considered in networks where collected information are not exhaustive. It ensures that the network could provide an accurate representation of the population affected by the disease. In this thesis, we are interested in estimation methods for data produced by a surveillance network based on voluntary participation. The different works are based on the experience of the French practice-based Sentinelles network.The Horvitz-Thompson estimator was used to reduce the bias of incidence estimates. Inclusion probabilities were based on the difference in activity of participating and non-participating general practitioners in surveillance. We also study the impact of the spatial sampling of professionals participating to a surveillance network. By a simulation study, we show that sample weights based on local medical density eliminates the temporal and spatial variations of the providers. We ultimately applied these adjustments to estimate influenza vaccine effectiveness using data provided by GPs participating to the French Sentinelles network.These works show the contribution of appropriate statistical methods for epidemiological data collected in primary care to accurately inform public health authorities

APA, Harvard, Vancouver, ISO, and other styles

42

Royan, Jérôme. "Visualisation interactive de scènes urbaines vastes et complexes à travers un réseau." Rennes 1, 2005. http://www.theses.fr/2005REN1S013.

Full text

Abstract:

Ces travaux de thèse portent sur la visualisation de scènes urbaines tridimensionnellestrès vastes et très complexes à travers un réseau. L'objectif majeur est d'obtenir une eprésentation adaptée à la transmission et visualisation d'un ensemble de bâtiments constituant un modèle 3D urbain. Cette représentation multi-résolution des bâtimentsd'une ville, appelée PBTree, se base sur une représentation 2D1/2 modélisant les bâtimentsà l'aide de prismes (représentation 2D1/2 issue des méthodes fiables et robustes de modélisation non-assitée de villes). Cette représentation multi-résolution a été conçue pour optimiser la transmission (compression, progressivité) et la visualisation (niveaux de détails, adaptabilité au point de vue) de modèles urbains. La multi-résolution est très bien adaptée au survol des villes. Cependant, une solution est proposée dans le cas d'une navigation au niveau du sol, et est basée sur un calcul de visibilité permettant de sélectionner le niveau de résolution transmis et visualisé

APA, Harvard, Vancouver, ISO, and other styles

43

Ouellet, Etienne. "Représentation et manipulation de données de simulation dans un environnement virtuel immersif." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/28502/28502.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

44

Abdessalem, Talel. "Approche des versions de base de données : représentation et interrogation des versions." Paris 9, 1997. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1997PA090024.

Full text

Abstract:

De nombreuses applications des bases de données, dans des domaines aussi variés que la CAO, le génie logiciel et la bureautique, nécessitent une gestion de versions. La plupart des modèles de versions proposés dans la littérature se sont concentrés sur la représentation des versions, principalement dans les bases de données orientées-objet. Très peu de travaux traitent de l'interrogation des versions dans les bases de données et seules les approches temporelles proposent des solutions à la représentation des versions dans le cas relationnel. Cette thèse apporte une solution au problème de l'interrogation des versions dans les bases de données et propose une mise en œuvre de l'approche des versions de bases de données (VBD) dans le cas relationnel. Pour les systèmes orientés-objet, un langage de requêtes, VQL, est proposé. Ce langage permet à l'utilisateur d'interroger aussi bien les versions d'objet, que les contextes dans lesquels ces versions apparaissent dans le monde réel. VQL ne s'appuie sur aucune sémantique particulière de versionnement. Celle-ci est définie par l'utilisateur et peut varier d'une application à l'autre. L'approche des VBD est un modèle de versions proposé à l'origine pour les systèmes orientés-objet. Sa mise en œuvre, dans le cas relationnel, est une réponse au besoin de représentation de versions de nombreuses applications relationnelles, pour lesquelles les approches temporelles ne sont pas appropriées. Une extension du langage SQL est proposée pour permettre l'interrogation de versions. Cette extension, nommée VSQL, reprend les idées développées pour le langage VQL. Enfin, une implantation de ces travaux a été réalisée au-dessus d'un système de gestion de base de données relationnel standard, Ingres. Cette implantation a été menée dans le cadre d'un projet de recherche en collaboration avec la RATP. L'objectif de ce projet était de prendre en compte l'approche des VBD dans la base de données du système Suroit (système unifie de renseignement sur l'offre et les itinéraires de transport), qui gère l'organisation et le fonctionnement des réseaux de transport en région parisienne.

APA, Harvard, Vancouver, ISO, and other styles

45

Cori, Marcel. "Modèles pour la représentation et l'interrogation de données textuelles et de connaissances." Paris 7, 1987. http://www.theses.fr/1987PA077047.

Full text

Abstract:

Ces modèles combinent à des réseaux sémantiques des bases de connaissances formées de règles. Les données sont représentées par des graphes sans circuit, ordonnés ou semi-ordonnés, ainsi que par des grammaires de graphes. La recherche de la réponse à une question se ramène à la recherche de morphismes entre structures. Les réprésentations sont construites automatiquement par l'appel à des règles de réécriture de graphes

APA, Harvard, Vancouver, ISO, and other styles

46

Chihab, Najat. "Représentation des données irrégulièrement espacées par des fonctions B-splines non-uniformes." Paris 13, 2005. http://www.theses.fr/2005PA132043.

Full text

Abstract:

L'étude menée dans cette thèse s'inscrit dans le cadre de la modélisation des données irrégulièrement espacées par des fonctions B-splines non-uniformes. La reconstruction des données manquantes est basée sur l'interpolation du signal. Notre travail a consisté, tout d'abord, à rechercher des bases de l'espace des fonctions splines non-uniformes afin de modéliser le signal représenté par ses échantillons prélevés à des instants irréguliers. La base de l'espace des fonctions splines est construite sur une séquence de noeuds prédéfinie. A partir d'une suite de noeuds donnée, il est possible d'agir sur la multiplicité de chaque noeud de cette suite. Ainsi une multitude de séquences de noeuds sont engendrées. Parmi ces différentes séquences de noeuds, nous avons retenu un modèle de séquence, qui permet d'une part une construction facile de la base spline correspondante et d'autre part engendre la plus plus petite erreur de reconstruction comparée aux erreurs introduites par les autres modèles de séquences. . .

APA, Harvard, Vancouver, ISO, and other styles

47

Claramunt, Christophe. "Un modèle de vue spatiale pour une représentation flexible de données géographiques." Dijon, 1998. https://hal.archives-ouvertes.fr/tel-01275819.

Full text

Abstract:

Cette thèse propose la définition d'un modèle de vue spatiale dynamique adapte aux systèmes d'information géographiques. La notion de vue spatiale proposée permet une relative indépendance dans l'interprétation d'un schéma de bases de données spatiales. Les mécanismes classiques de vue, dans le domaine des bases de données, n'intégrant pas la composante spatiale, cette recherche propose la définition d'un formalisme de vue adapté aux bases de données spatiales. Le modèle proposé est défini comme une extension de la vue classique telle qu'elle est identifiée par les bases de données. Le modèle de vue spatiale intègre la représentation de données spatiales et non spatiales. Une vue spatiale est un ensemble ordonné d'atomes de vue spatiale. Chaque atome de vue spatiale est construit à partir de relations et d'opérateurs spatiaux et non spatiaux. Un ensemble d'opérateurs de manipulation de vues spatiales est défini. Ces operateurs permettent la manipulation et la dérivation de nouvelles vues spatiales. La vue spatiale autorise la représentation de modèles spatiaux structurés et cognitifs. La proposition définit un modèle et les opérations qui permettent la décomposition et la représentation d'un processus de déplacement. Le modèle de vue spatiale permet de situer la représentation d'un déplacement dans son contexte géographique à partir de niveaux d'abstraction complémentaires qui intègrent des connaissances partielles. Il associe la description d'un processus de déplacement dans un contexte d'espaces multidimensionnels. La continuité de la représentation d'un déplacement est assurée par l'application de constructeurs de graphes appliqués au cadre de la vue spatiale à travers des concepts de collages et de connexions de vues spatiales. L'application d'opérateurs de graphe permet des changements de niveau d'abstraction dans la représentation des processus navigationnels. La vue spatiale apporte une flexibilité aux utilisateurs dans la représentation de données géographiques. Du point de vue de la modélisation, la vue spatiale permet la représentation de différentes interprétations utilisateurs d'une base de données spatiales. Elle facilite l'évolution du schéma des bases de données spatiales. Elle constitue une forme originale de manipulation et de consultation d'applications géographiques.

APA, Harvard, Vancouver, ISO, and other styles

48

Courtine, Mélanie. "Changements de représentation pour la classification conceptuelle non supervisée de données complexes." Paris 6, 2002. http://www.theses.fr/2002PA066404.

Full text

APA, Harvard, Vancouver, ISO, and other styles

49

Aldea, Emanuel. "Apprentissage de données structurées pour l'interprétation d'images." Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0053.

Full text

Abstract:

La plupart des méthodes de classification d’images s'appuient en premier lieu sur les attributs des objets d'intérêt. Cependant, les informations spatiales liées aux relations entre ces objets sont également utiles, comme cela a été montré en segmentation et reconnaissance de structures dans les images, et leur intégration dans des méthodes d'apprentissage et de classification commence à apparaître et évoluer. Les modélisations floues permettent de représenter à la fois l'imprécision de la relation et le passage graduel de la satisfaction à la non satisfaction de cette relation. L'objectif de ce travail est d'explorer les techniques de représentation de l’information spatiale et leur intégration dans les classifieurs d'images qui utilisent les noyaux de graphes. Nous justifions le choix de graphes étiquetés pour représenter les images dans le contexte de l'apprentissage SVM, ainsi que les adaptations nécessaires par rapport aux domaines connexes. A partir des mesures d’adjacence floues entre les objets d'intérêt, nous définissons une famille de représentations de graphes déterminés par des seuils différents appliqués à ces mesures spatiales. Enfin, nous employons plusieurs noyaux dans un apprentissage multiple afin de mettre en place des classifieurs qui peuvent tenir compte des différentes représentations graphiques de la même image à la fois. Les résultats montrent que l'information spatiale complète les caractéristiques visuelles des éléments distinctifs dans les images et que l'adaptation des fonctions noyau pour les représentations spatiales floues est bénéfique en termes de performances
Image interpretation methods use primarily the visual features of low-level or high-level interest elements. However, spatial information concerning the relative positioning of these elements is equally beneficial, as it has been shown previously in segmentation and structure recognition. Fuzzy representations permit to assess at the same time the imprecision degree of a relation and the gradual transition between the satisfiability and the non-satisfiability of a relation. The objective of this work is to explore techniques of spatial information representation and their integration in the learning process, within the context of image classifiers that make use of graph kernels. We motivate our choice of labeled graphs for representing images, in the context of learning with SVM classifiers. Graph kernels have been studied intensively in computational chemistry and biology, but an adaptation for image related graphs is necessary, since image structures and properties of the information encoded in the labeling are fundamentally different. We illustrate the integration of spatial information within the graphical model by considering fuzzy adjacency measures between interest elements, and we define a family of graph representations determined by different thresholds applied to these spatial measures. Finally, we employ multiple kernel learning in order to build up classifiers that can take into account different graphical representations of the same image at once. Results show that spatial information complements the visual features of distinctive elements in images and that adapting the discriminative kernel functions for the fuzzy spatial representations is beneficial in terms of performance

APA, Harvard, Vancouver, ISO, and other styles

50

Meddeb, Hamrouni Boubaker. "Méthodes et algorithmes de représentation et de compression de grands dictionnaires de formes." Université Joseph Fourier (Grenoble), 1996. http://www.theses.fr/1996GRE10278.

Full text

Abstract:

Cette these concerne l'etude de differentes techniques qui peuvent etre mises en oeuvre pour representer et comprimer de tres grands dictionnaires de formes multilingues utilisables dans certaines applications de taln (detection/correction orthographique, reconnaissance de la parole, etc. ). La premiere partie de la these situe d'abord l'objet de cette etude et montre pourquoi les approches par dictionnaires de formes sont parfois plus adaptees que les approches par grammaires lors de la construction de certaines applications multilingues en taln. Nous faisons ensuite le point sur les methodes de rangement et de compression de dictionnaires et nous montrons, experiences a l'appui, que a part les methodes utilisant les automates d'etats finis deterministes, la plupart des methodes classiques sont peu efficace pour comprimer de grands dictionnaires. La seconde partie introduit la compression paradigmatique, une nouvelle approche de compression de dictionnaire de formes qui procede par factorisation d'un ensemble d'affixes appeles paradigmes. Dans une premiere section theorique, nous discutons les problemes poses par cette approche. Dans une seconde section, nous proposons de nouveaux algorithmes de compression qui n'utilise que des connaissances morphologiques elementaires. L'experimentation de la methode sur de grands dictionnaires de formes multilingues a montre que l'on peut se ramener, a partir d'un dictionnaire de formes initial et pour certaines langues, a un dictionnaire comprime ayant pratiquement la meme taille que le dictionnaire de lemmes, et cela sans l'intervention d'un linguiste. La methode a permis en outre d'ameliorer les resultats de compression des approches existantes, quelles que soient les structures internes utilisees. La troisieme partie presente une approche orthogonale a la seconde methode. Elle consiste a chercher l'automate ndet minimal qui reconnait l'ensemble des chaines d'un dictionnaire de

APA, Harvard, Vancouver, ISO, and other styles

We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!