Dissertations / Theses on the topic 'Grands Jeux de Données'

To see the other types of publications on this topic, follow the link: Grands Jeux de Données.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Grands Jeux de Données.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Thesis, Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
2

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations
3

Schertzer, Jérémie. "Exploiting modern GPUs architecture for real-time rendering of massive line sets." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAT037.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous considérons des grands ensembles de lignes générés à partir de tractogrammes cérébraux. Ils décrivent des connexions neuronales représentées par des millions de fibres poly-lignes, comptant des milliards de segments. Grâce au mesh shader pipeline, nous construisons un moteur de rendu de tractogrammes aux performances surpassant l'état de l'art de deux ordres de grandeur.Nos performances proviennent des fiblets : une représentation compressée de blocs de segments. En combinant cohérence temporelle et dilatation morphologique du z-buffer, nous définissons un test d'occlusion rapide pour l'élimination de fiblets. Grâce à notre algorithme de décompression parallèle fortement optimisé, les fiblets survivants sont efficacement synthétisés en poly-lignes. Nous montrons également comment notre pipeline de fiblets accélère des fonctionnalités d'interactions avancées avec les tractogrammes.Pour le cas général du rendu des lignes, nous proposons la marche morphologique : une technique en espace écran qui rend des tubes d'épaisseur modifiable à partir des lignes fines rastérisées du G-buffer. En approximant un tube comme l'union de sphères densément réparties le long de ses axes, chaque sphère occupant chaque pixel est récupérée au moyen d'un filtre multi-passes de propagation de voisinage. Accéléré par le compute pipeline, nous atteignons des performances temps réel pour le rendu de lignes épaisses.Pour conclure notre travail, nous implémentons un prototype de réalité virtuelle combinant fiblets et marche morphologique. Il permet pour la première fois la visualisation immersive de grands tractogrammes constitués de fibres épaisses, ouvrant ainsi la voie à des perspectives diverses
In this thesis, we consider massive line sets generated from brain tractograms. They describe neural connections that are represented with millions of poly-line fibers, summing up to billions of segments. Thanks to the two-staged mesh shader pipeline, we build a tractogram renderer surpassing state-of-the-art performances by two orders of magnitude.Our performances come from fiblets: a compressed representation of segment blocks. By combining temporal coherence and morphological dilation on the z-buffer, we define a fast occlusion culling test for fiblets. Thanks to our heavily-optimized parallel decompression algorithm, surviving fiblets are swiftly synthesized to poly-lines. We also showcase how our fiblet pipeline speeds-up advanced tractogram interaction features.For the general case of line rendering, we propose morphological marching: a screen-space technique rendering custom-width tubes from the thin rasterized lines of the G-buffer. By approximating a tube as the union of spheres densely distributed along its axes, each sphere shading each pixel is retrieved relying on a multi-pass neighborhood propagation filter. Accelerated by the compute pipeline, we reach real-time performances for the rendering of depth-dependant wide lines.To conclude our work, we implement a virtual reality prototype combining fiblets and morphological marching. It makes possible for the first time the immersive visualization of huge tractograms with fast shading of thick fibers, thus paving the way for diverse perspectives
4

Mansiaux, Yohann. "Analyse d'un grand jeu de données en épidémiologie : problématiques et perspectives méthodologiques." Thesis, Paris 6, 2014. http://www.theses.fr/2014PA066272/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'augmentation de la taille des jeux de données est une problématique croissante en épidémiologie. La cohorte CoPanFlu-France (1450 sujets), proposant une étude du risque d'infection par la grippe H1N1pdm comme une combinaison de facteurs très divers en est un exemple. Les méthodes statistiques usuelles (e.g. les régressions) pour explorer des associations sont limitées dans ce contexte. Nous comparons l'apport de méthodes exploratoires data-driven à celui de méthodes hypothesis-driven.Une première approche data-driven a été utilisée, évaluant la capacité à détecter des facteurs de l'infection de deux méthodes de data mining, les forêts aléatoires et les arbres de régression boostés, de la méthodologie " régressions univariées/régression multivariée" et de la régression logistique LASSO, effectuant une sélection des variables importantes. Une approche par simulation a permis d'évaluer les taux de vrais et de faux positifs de ces méthodes. Nous avons ensuite réalisé une étude causale hypothesis-driven du risque d'infection, avec un modèle d'équations structurelles (SEM) à variables latentes, pour étudier des facteurs très divers, leur impact relatif sur l'infection ainsi que leurs relations éventuelles. Cette thèse montre la nécessité de considérer de nouvelles approches statistiques pour l'analyse des grands jeux de données en épidémiologie. Le data mining et le LASSO sont des alternatives crédibles aux outils conventionnels pour la recherche d'associations. Les SEM permettent l'intégration de variables décrivant différentes dimensions et la modélisation explicite de leurs relations, et sont dès lors d'un intérêt majeur dans une étude multidisciplinaire comme CoPanFlu
The increasing size of datasets is a growing issue in epidemiology. The CoPanFlu-France cohort(1450 subjects), intended to study H1N1 pandemic influenza infection risk as a combination of biolo-gical, environmental, socio-demographic and behavioral factors, and in which hundreds of covariatesare collected for each patient, is a good example. The statistical methods usually employed to exploreassociations have many limits in this context. We compare the contribution of data-driven exploratorymethods, assuming the absence of a priori hypotheses, to hypothesis-driven methods, requiring thedevelopment of preliminary hypotheses.Firstly a data-driven study is presented, assessing the ability to detect influenza infection determi-nants of two data mining methods, the random forests (RF) and the boosted regression trees (BRT), ofthe conventional logistic regression framework (Univariate Followed by Multivariate Logistic Regres-sion - UFMLR) and of the Least Absolute Shrinkage and Selection Operator (LASSO), with penaltyin multivariate logistic regression to achieve a sparse selection of covariates. A simulation approachwas used to estimate the True (TPR) and False (FPR) Positive Rates associated with these methods.Between three and twenty-four determinants of infection were identified, the pre-epidemic antibodytiter being the unique covariate selected with all methods. The mean TPR were the highest for RF(85%) and BRT (80%), followed by the LASSO (up to 78%), while the UFMLR methodology wasinefficient (below 50%). A slight increase of alpha risk (mean FPR up to 9%) was observed for logisticregression-based models, LASSO included, while the mean FPR was 4% for the data-mining methods.Secondly, we propose a hypothesis-driven causal analysis of the infection risk, with a structural-equation model (SEM). We exploited the SEM specificity of modeling latent variables to study verydiverse factors, their relative impact on the infection, as well as their eventual relationships. Only thelatent variables describing host susceptibility (modeled by the pre-epidemic antibody titer) and com-pliance with preventive behaviors were directly associated with infection. The behavioral factors des-cribing risk perception and preventive measures perception positively influenced compliance with pre-ventive behaviors. The intensity (number and duration) of social contacts was not associated with theinfection.This thesis shows the necessity of considering novel statistical approaches for the analysis of largedatasets in epidemiology. Data mining and LASSO are credible alternatives to the tools generally usedto explore associations with a high number of variables. SEM allows the integration of variables des-cribing diverse dimensions and the explicit modeling of their relationships ; these models are thereforeof major interest in a multidisciplinary study as CoPanFlu
5

Barbier, Sébastien. "Visualisation distance temps-réel de grands volumes de données." Grenoble 1, 2009. http://www.theses.fr/2009GRE10155.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La simulation numérique génère des maillages de plus en plus gros pouvant atteindre plusieurs dizaines de millions de tétraèdres. Ces ensembles doivent être visuellement analysés afin d'acquérir des connaissances relatives aux données physiques simulées pour l'élaboration de conclusions. Les capacités de calcul utilisées pour la visualisation scientifique de telles données sont souvent inférieures à celles mises en oeuvre pour les simulations numériques. L'exploration visuelle de ces ensembles massifs est ainsi difficilement interactive sur les stations de travail usuelles. Au sein de ce mémoire, nous proposons une nouvelle approche interactive pour l'exploration visuelle de maillages tétraédriques massifs pouvant atteindre plus de quarante millions de cellules. Elle s'inscrit pleinement dans le procédé de génération des simulations numériques, reposant sur deux maillages à résolution différente , un fin et un grossier , d'une même simulation. Une partition des sommets fins est extraite guidée par le maillage grossier permettant la reconstruction à la volée d'un maillage dit birésolution, mélange des deux résolutions initiales, à l'instar des méthodes multirésolution usuelles. L'implantation de cette extraction est détaillée au sein d'un processeur central, des nouvelles générations de cartes graphiques et en mémoire externe. Elles permettent d'obtenir des taux d'extraction inégalés par les précédentes approches. Afin de visualiser ce maillage, un nouvel algorithme de rendu volumique direct implanté entièrement sur carte graphique est proposé. Un certain nombre d'approximations sont réalisées et évaluées afin de garantir un affichage interactif des maillages birésolution
Numerical simulations produce huger and huger meshes that can reach dozens of million tetrahedra. These datasets must be visually analyzed to understand the physical simulated phenomenon and draw conclusions. The computational power for scientific visualization of such datasets is often smaller than for numerical simulation. As a consequence, interactive exploration of massive meshes is barely achieved. In this document, we propose a new interactive method to interactively explore massive tetrahedral meshes with over forty million tetrahedra. This method is fully integrated into the simulation process, based on two meshes at different resolutions , one fine mesh and one coarse mesh , of the same simulation. A partition of the fine vertices is computed guided by the coarse mesh. It allows the on-the-fly extraction of a mesh, called \textit{biresolution}, mixed of the two initial resolutions as in usual multiresolution approaches. The extraction of such meshes is carried out into the main memory (CPU), the last generation of graphics cards (GPU) and with an out-of-core algorithm. They guarantee extraction rates never reached in previous work. To visualize the biresolution meshes, a new direct volume rendering (DVR) algorithm is fully implemented into graphics cards. Approximations can be performed and are evaluated in order to guarantee an interactive rendering of any biresolution meshes
6

Mbimbe, Dean. "L'abus de droit dans les grands évènements sportifs : l'exemple des Jeux Olympiques." Master's thesis, Université Laval, 2017. http://hdl.handle.net/20.500.11794/28341.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La protection juridique des grands évènements sportifs, l’abus de droit ou encore l’ambush marketing ont fait l’objet de plusieurs réflexions proposées aussi bien par des juristes, des sociologues ou des journalistes ces dernières années. Toutefois, pénétrer dans le champ de ces conceptions par la porte du droit de la propriété intellectuelle, en tentant de s’affranchir de la tonalité négativement orientée d’une terminologie telle que l’ambush n’est pas chose aisée. Et ce d’autant plus lorsque cette pratique est présentée au monde comme le plus grand tourment de son évènement sportif favori : les Jeux Olympiques.--Mots clefs : Abus de droit, Ambush Marketing, Monopole d’exploitation, Lois spéciales, CIO, Droit des Marques, Droits fondamentaux. Cependant, en s’intéressant aussi bien aux racines de la pratique décriée, qu’à l’histoire du Mouvement olympique, on finit par prendre conscience que la bienveillance dont bénéficie autant l’institution dirigée par le CIO, que la FIFA ou l’UEFA de la part du droit dépasse actuellement le cadre de l’acceptable. De telle sorte qu’il convient aujourd’hui de rappeler à ces entités qu’en raison de leur champ d’activité et du type de droit qu’elles ont sollicité pour leur protection, ces ONG sont investies d’une mission à caractère sociale qu’il convient de leur remémorer. Pour ce faire, nous nous sommes soumis à un véritable « vagabondage juridique » des plus restreints, corollaire d’une étude portant sur des évènements réfractaires à la sédentarisation.--Mots clefs : Abus de droit, Ambush Marketing, Monopole d’exploitation, Lois spéciales, CIO, Droit des Marques, Droits fondamentaux.
Since 1984, legal protection for mega sports events, abuse of privilege or ambush marketing have been investigated by jurists, journalists, or sociologists. Notwithstanding, exploring those areas through intellectual property without being influenced by the negative aspects of “ambush” terminology is not that easy. It’s even harder when it is shown to the public as the main harm caused to the World’s main beloved sports events: The Olympics. However, digging back successively to the roots of the disparaged practical and the Movement enable a certain kind of understanding. It unveils the kind of goodwill shown by law toward the mega events’ NGOs such as IOC, FIFA or UEFA, a kind of benevolence that nowadays has to stop. So that we found necessary to recall those organisations the type of mission they assigned to themselves when they chose to rule in sports events with the protection of intellectual property. It was a social mission they must remind. In order to do so, we subjected ourselves to what may be described as a “vagrancy study”, commanded by a study about an event unyielding to the settlement.--Key words : Abuse of Process, Ambush Marketing, Monopoly, Special Legislation, IOC, Trademark Law, Fundamental Rights.
7

Coveliers, Alexandre. "Sensibilité aux jeux de données de la compilation itérative." Paris 11, 2007. http://www.theses.fr/2007PA112255.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans le cadre de la conception d’architecture de processeurs, la recherche de performances a entraîné une augmentation continue de la complexité de ces architectures. Cette augmentation de la complexité des architectures a rendu de plus en plus difficile l’exploitation de leurs performances potentielles. Afin d’améliorer l’exploitation des performances des architectures, de nouvelles stratégies d’optimisation intégrant des informations sur le comportement dynamique –i. E. Lors de l’exécution – du code ont été proposées, comme le principe de la compilation itérative. Ces approches permettent de déterminer des transformations plus pertinentes que celles obtenues par une analyse statique. Le principal écueil de ces méthodes de transformation de code réside dans le fait que les transformations du code sont déterminées à partir d’informations issues de l’exécution de l’application avec un jeu de données particulier. L’optimisation obtenue est donc dépendante du jeu de données utilisé pendant le processus d’optimisation. Dans cette thèse, nous étudions, pour deux méthodes de transformation de code itératives différentes, la variation des performances des applications optimisées en fonction des jeux de données utilisés. Nous introduisons différentes métriques afin de quantifier cette sensibilité. Nous proposons également des méthodes de sélection des jeux de données à utiliser pendant le processus de transformation de code afin d’obtenir un code optimisé exhibant de bonnes performances avec l’ensemble des jeux de données
In the context of architecture processor conception, the performance research leads to a constant growth of architecture complexity. This growth of architecture complexity made more difficult the exploitation of their potential performance. To improve architecture performance exploitation, new optimization techniques based on dynamic behavior –i. E. Run time behavior- has been proposed Iterative compilation is a such an optimization approach. This approach allows to determine more relevant transformation than those obtained by static analysis. The main drawback of this optimization method is based on the fact that the information that lead to the code transformation are specific to a particular data set. Thus the determined optimizations are dependent on the data set used during the optimization process. In this thesis, we study the optimized application performance variations according to the data set used for two iterative code transformation techniques. We introduce different metrics to quantify this sensitivity. Also, we propose data set selection methods for choosing which data set to use during code transformation process. Selected data sets enable to obtain an optimized code with good performance with all other available data sets
8

Rougui, Jamal. "Indexation de documents audio : Cas des grands volumes de données." Phd thesis, Université de Nantes, 2008. http://tel.archives-ouvertes.fr/tel-00450812.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est consacrée à l’'élaboration et l’'évaluation des techniques visant à renforcer la robustesse des systèmes d’'indexation de documents audio au sens du locuteur. L’'indexation audio au sens du locuteur consiste à reconnaître l’'identité des locuteurs ainsi que leurs interventions dans un ux continu audio ou dans une base de données d’'archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classication en locuteurs. La technique utilisée repose sur l’'extraction des coefficients mel-cepstrales, suivi par l’'apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’'hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’'indexation permet d’'effectuer la mise à jour des modèles MMG de locuteur à l’'aide de l’'algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enn, à travers de deux études utilisant des structures arborescentes binaire ou n’'aire, une réexion est conduite an de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réexions sur l’'apport de l’'analyse vidéo sont discutées et les besoins futurs sont explorés.
9

Rougui, Jamal-Eddine. "Indexation de documents audio : cas des grands volumes de données." Nantes, 2008. http://www.theses.fr/2008NANT2031.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse est consacrée à l’élaboration et l’évaluation des techniques visant à renforcer la robustesse des systèmes d’indexation de documents audio au sens du locuteur. L’indexation audio au sens du locuteur consiste à reconnaître l’identité des locuteurs ainsi que leurs interventions dans un flux continu audio ou dans une base de données d’archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classification en locuteurs. La technique utilisée repose sur l’extraction des coefficients mel-cepstrales, suivi par l’apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’indexation permet d’effectuer la mise à jour des modèles MMG de locuteur à l’aide de l’algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enfin, à travers de deux études utilisant des structures arborescentes binaire ou n’aire, une réflexion est conduite afin de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réflexions sur l’apport de l’analyse vidéo sont discutées et les besoins futurs sont explorés
This thesis is devoted to techniques for speaker-based recognition systems to scale up to large amounts of data and speaker models. We have chosen to partition audio documents (news broadcast) according to speakers. The mel-cepstral acoustic characteristics of each speaker are model through a probabilistic Gaussian mixture model. First, speaker change detection in the stream is carried out by Bayesian hypothesis testing. The scheme is incremental : as new speakers are detected, they are either identified in the database or new entries are created in the database. First, we have examined some issues related to building a tree structure exploiting a similarity between speaker models. Several contributions were made. First, a proposal for organising a set of speaker models, based on an elementary model grouping. Then, we used an approximation of Kullback-Leibler divergence for this purpose. Finally, through two studies using binary of nary tree structures, we discuss the way of a version suitable for incremental processing. Finally, perspectives are drawn regarding joint audio/video analysis and future needs are analyzed
10

Buron, Maxime. "Raisonnement efficace sur des grands graphes hétérogènes." Thesis, Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAX061.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le Web sémantique propose des représentations de connaissances, qui permettent d'intégrer facilement des données hétérogènes issues de plusieurs sources en une base de connaissances unifiée. Dans cette thèse, nous étudions des techniques d'interrogation de telles bases de connaissances.La première partie est dédiée à des techniques de réponse à des requêtes sur une base de connaissances représentée par un graphe RDF sous des contraintes ontologiques. Les connaissances implicites produites par le raisonnement, à partir des règles de déduction RDFS, doivent être prises en compte pour répondre correctement à de telles requêtes.Pour commencer, nous présentons un algorithme de reformulation de requêtes dites Basic Graph Pattern (BGP), qui exploite une partition des règles de déduction en des règles sur les assertions et sur les contraintes. Puis nous introduisons une nouvelle disposition du stockage des graphes RDF, qui combine deux dispositions connues. Pour ces deux contributions, des expérimentations permettent de valider nos résultats théoriques et algorithmiques.Dans la deuxième partie, nous considérons le problème d'interrogation, par des requêtes BGP, de sources de données hétérogènes intégrées en un graphe RDF. Nous introduisons un cadre d'intégration de données sous des contraintes ontologiques RDFS, utilisant une spécification d'intégration basée sur des mappings Global-Local-As-View, rarement considérée jusqu'ici dans la littérature. Nous présentons plusieurs stratégies de réponse à des requêtes, qui, soit matérialisent les données en un graphe RDF, soit laissent ce graphe virtuel. Ces stratégies diffèrent sur quand et comment le raisonnement RDFS est supporté. Nous avons implémenté ces stratégies dans une plate-forme et mené des expérimentations qui démontrent l'intérêt particulier d'une des stratégies basée sur la saturation des mappings. Finalement, nous montrons que cette dernière technique peut être étendue au delà des règles de déduction RDFS au raisonnement défini par un sous-ensemble des règles existentielles
The Semantic Web offers knowledge representations, which allow to integrate heterogeneous data from several sources into a unified knowledge base. In this thesis, we investigate techniques for querying such knowledge bases.The first part is devoted to query answering techniques on a knowledge base, represented by an RDF graph subject to ontological constraints. Implicit information entailed by the reasoning, enabled by the set of RDFS entailment rules, has to be taken into account to correctly answer such queries. First, we present a sound and complete query reformulation algorithm for Basic Graph Pattern queries, which exploits a partition of RDFS entailment rules into assertion and constraint rules. Second, we introduce a novel RDF storage layout, which combines two well-known layouts. For both contributions, our experiments assess our theoretical and algorithmic results.The second part considers the issue of querying heterogeneous data sources integrated into an RDF graph, using BGP queries. Following the Ontology-Based Data Access paradigm, we introduce a framework of data integration under an RDFS ontology, using the Global-Local-As-View mappings, rarely considered in the literature.We present several query answering strategies, which may materialize the integrated RDF graph or leave it virtual, and differ on how and when RDFS reasoning is handled. We implement these strategies in a platform, in order to conduct experiments, which demonstrate the particular interest of one of the strategies based on mapping saturation. Finally, we show that mapping saturation can be extended to reasoning defined by a subset of existential rules
11

Caron, Maxime. "Données confidentielles : génération de jeux de données synthétisés par forêts aléatoires pour des variables catégoriques." Master's thesis, Université Laval, 2015. http://hdl.handle.net/20.500.11794/25935.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthétiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur les forêts aléatoires pour traiter les variables catégoriques. On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estimateurs. On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa variance. On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles. On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables latentes et les variables mesurées.
Confidential data are very common in statistics nowadays. One way to treat them is to create partially synthetic datasets for data sharing. We will present an algorithm based on random forest to generate such datasets for categorical variables. We are interested by the formula used to make inference from multiple synthetic dataset. We show that the order of the synthesis has an impact on the estimation of the variance with the formula. We propose a variant of the algorithm inspired by differential privacy, and show that we are then not able to estimate a regression coefficient nor its variance. We show the impact of synthetic datasets on structural equations modeling. One conclusion is that the synthetic dataset does not really affect the coefficients between latent variables and measured variables.
12

Bletery, Quentin. "Analyse probabiliste et multi-données de la source de grands séismes." Thesis, Nice, 2015. http://www.theses.fr/2015NICE4092/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les séismes sont le résultat de glissements rapides le long de failles actives chargées en contraintes par le mouvement des plaques tectoniques. Il est aujourd'hui établi, au moins pour les grands séismes, que la distribution de ce glissement rapide le long des failles pendant les séismes est hétérogène. Imager la complexité de ces distributions de glissement constitue un enjeu majeur de la sismologie en raison des implications potentielles dans la compréhension de la genèse des séismes et la possibilité associée de mieux anticiper le risque sismique et les tsunamis. Pour améliorer l'imagerie de ces distributions de glissement co-sismique, trois axes peuvent être suivis: augmenter les contraintes sur les modèles en incluant plus d'observations dans les inversions, améliorer la modélisation physique du problème direct et progresser dans le formalisme de résolution du problème inverse. Dans ce travail de thèse, nous explorons ces trois axes à travers l'étude de deux séismes majeurs: les séisme de Tohoku-Oki (Mw 9.0) et de Sumatra-Andaman (Mw 9.1-9.3) survenus en 2011 et 2004, respectivement
Earthquakes are the results of rapid slip on active faults loaded in stress by the tectonic plates motion. It is now establish - at least for large earthquakes - that the distribution of this rapid slip along the rupturing faults is heterogeneous. Imaging the complexity of such slip distributions is one the main challenges in seismology because of the potential implications on understanding earthquake genesis and the associated possibility to better anticipate devastating shaking and tsunami. To improve the imaging of such co-seismic slip distributions, three axes may be followed: increase the constraints on the source models by including more observations into the inversions, improve the physical modeling of the forward problem and improve the formalism to solve the inverse problem. In this PhD thesis, we explore these three axes by studying two recent major earthquakes: the Tohoku-Oki (Mw 9.0) and Sumatra-Andaman (Mw 9.1-9.3) earthquakes, which occured in 2011 and 2004 respectively
13

Ben, Ellefi Mohamed. "La recommandation des jeux de données basée sur le profilage pour le liage des données RDF." Thesis, Montpellier, 2016. http://www.theses.fr/2016MONTT276/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Avec l’émergence du Web de données, notamment les données ouvertes liées, une abondance de données est devenue disponible sur le web. Cependant, les ensembles de données LOD et leurs sous-graphes inhérents varient fortement par rapport a leur taille, le thème et le domaine, les schémas et leur dynamicité dans le temps au niveau des données. Dans ce contexte, l'identification des jeux de données appropriés, qui répondent a des critères spécifiques, est devenue une tâche majeure, mais difficile a soutenir, surtout pour répondre a des besoins spécifiques tels que la recherche d'entités centriques et la recherche des liens sémantique des données liées. Notamment, en ce qui concerne le problème de liage des données, le besoin d'une méthode efficace pour la recommandation des jeux de données est devenu un défi majeur, surtout avec l'état actuel de la topologie du LOD, dont la concentration des liens est très forte au niveau des graphes populaires multi-domaines tels que DBpedia et YAGO, alors qu'une grande liste d'autre jeux de données considérés comme candidats potentiels pour le liage est encore ignorée. Ce problème est dû a la tradition du web sémantique dans le traitement du problème de "identification des jeux de données candidats pour le liage". Bien que la compréhension de la nature du contenu d'un jeu de données spécifique est une condition cruciale pour les cas d'usage mentionnées, nous adoptons dans cette thèse la notion de "profil de jeu de données"- un ensemble de caractéristiques représentatives pour un jeu de données spécifique, notamment dans le cadre de la comparaison avec d'autres jeux de données. Notre première direction de recherche était de mettre en œuvre une approche de recommandation basée sur le filtrage collaboratif, qui exploite à la fois les prols thématiques des jeux de données, ainsi que les mesures de connectivité traditionnelles, afin d'obtenir un graphe englobant les jeux de données du LOD et leurs thèmes. Cette approche a besoin d'apprendre le comportement de la connectivité des jeux de données dans le LOD graphe. Cependant, les expérimentations ont montré que la topologie actuelle de ce nuage LOD est loin d'être complète pour être considéré comme des données d'apprentissage.Face aux limites de la topologie actuelle du graphe LOD, notre recherche a conduit a rompre avec cette représentation de profil thématique et notamment du concept "apprendre pour classer" pour adopter une nouvelle approche pour l'identification des jeux de données candidats basée sur le chevauchement des profils intensionnels entre les différents jeux de données. Par profil intensionnel, nous entendons la représentation formelle d'un ensemble d'étiquettes extraites du schéma du jeu de données, et qui peut être potentiellement enrichi par les descriptions textuelles correspondantes. Cette représentation fournit l'information contextuelle qui permet de calculer la similarité entre les différents profils d'une manière efficace. Nous identifions le chevauchement de différentes profils à l'aide d'une mesure de similarité semantico-fréquentielle qui se base sur un classement calcule par le tf*idf et la mesure cosinus. Les expériences, menées sur tous les jeux de données lies disponibles sur le LOD, montrent que notre méthode permet d'obtenir une précision moyenne de 53% pour un rappel de 100%.Afin d'assurer des profils intensionnels de haute qualité, nous introduisons Datavore- un outil oriente vers les concepteurs de métadonnées qui recommande des termes de vocabulaire a réutiliser dans le processus de modélisation des données. Datavore fournit également les métadonnées correspondant aux termes recommandés ainsi que des propositions des triples utilisant ces termes. L'outil repose sur l’écosystème des Vocabulaires Ouverts Lies (LOV) pour l'acquisition des vocabulaires existants et leurs métadonnées
With the emergence of the Web of Data, most notably Linked Open Data (LOD), an abundance of data has become available on the web. However, LOD datasets and their inherent subgraphs vary heavily with respect to their size, topic and domain coverage, the schemas and their data dynamicity (respectively schemas and metadata) over the time. To this extent, identifying suitable datasets, which meet specific criteria, has become an increasingly important, yet challenging task to supportissues such as entity retrieval or semantic search and data linking. Particularlywith respect to the interlinking issue, the current topology of the LOD cloud underlines the need for practical and efficient means to recommend suitable datasets: currently, only well-known reference graphs such as DBpedia (the most obvious target), YAGO or Freebase show a high amount of in-links, while there exists a long tail of potentially suitable yet under-recognized datasets. This problem is due to the semantic web tradition in dealing with "finding candidate datasets to link to", where data publishers are used to identify target datasets for interlinking.While an understanding of the nature of the content of specific datasets is a crucial prerequisite for the mentioned issues, we adopt in this dissertation the notion of "dataset profile" - a set of features that describe a dataset and allow the comparison of different datasets with regard to their represented characteristics. Our first research direction was to implement a collaborative filtering-like dataset recommendation approach, which exploits both existing dataset topic proles, as well as traditional dataset connectivity measures, in order to link LOD datasets into a global dataset-topic-graph. This approach relies on the LOD graph in order to learn the connectivity behaviour between LOD datasets. However, experiments have shown that the current topology of the LOD cloud group is far from being complete to be considered as a ground truth and consequently as learning data.Facing the limits the current topology of LOD (as learning data), our research has led to break away from the topic proles representation of "learn to rank" approach and to adopt a new approach for candidate datasets identication where the recommendation is based on the intensional profiles overlap between differentdatasets. By intensional profile, we understand the formal representation of a set of schema concept labels that best describe a dataset and can be potentially enriched by retrieving the corresponding textual descriptions. This representation provides richer contextual and semantic information and allows to compute efficiently and inexpensively similarities between proles. We identify schema overlap by the help of a semantico-frequential concept similarity measure and a ranking criterion based on the tf*idf cosine similarity. The experiments, conducted over all available linked datasets on the LOD cloud, show that our method achieves an average precision of up to 53% for a recall of 100%. Furthermore, our method returns the mappings between the schema concepts across datasets, a particularly useful input for the data linking step.In order to ensure a high quality representative datasets schema profiles, we introduce Datavore| a tool oriented towards metadata designers that provides rankedlists of vocabulary terms to reuse in data modeling process, together with additional metadata and cross-terms relations. The tool relies on the Linked Open Vocabulary (LOV) ecosystem for acquiring vocabularies and metadata and is made available for the community
14

Courjault-Rade, Vincent. "Ballstering : un algorithme de clustering dédié à de grands échantillons." Thesis, Toulouse 3, 2018. http://www.theses.fr/2018TOU30126/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ballstering appartient à la famille des méthodes de machine learning qui ont pour but de regrouper en classes les éléments formant la base de données étudiée et ce sans connaissance au préalable des classes qu'elle contient. Ce type de méthodes, dont le représentant le plus connu est k-means, se rassemblent sous le terme de "partitionnement de données" ou "clustering". Récemment un algorithme de partitionnement "Fast Density Peak Clustering" (FDPC) paru dans le journal Science a suscité un intérêt certain au sein de la communauté scientifique pour son aspect innovant et son efficacité sur des données distribuées en groupes non-concentriques. Seulement cet algorithme présente une complexité telle qu'il ne peut être aisément appliqué à des données volumineuses. De plus nous avons pu identifier plusieurs faiblesses pouvant nuire très fortement à la qualité de ses résultats, dont en particulier la présence d'un paramètre général dc difficile à choisir et ayant malheureusement un impact non-négligeable. Compte tenu de ces limites, nous avons repris l'idée principale de FDPC sous un nouvel angle puis apporté successivement des modifications en vue d'améliorer ses points faibles. Modifications sur modifications ont finalement donné naissance à un algorithme bien distinct que nous avons nommé Ballstering. Le fruit de ces 3 années de thèse se résume principalement en la conception de ce dernier, un algorithme de partitionnement dérivé de FDPC spécialement conçu pour être efficient sur de grands volumes de données. Tout comme son précurseur, Ballstering fonctionne en deux phases: une phase d'estimation de densité suivie d'une phase de partitionnement. Son élaboration est principalement fondée sur la construction d'une sous-procédure permettant d'effectuer la première phase de FDPC avec une complexité nettement amoindrie tout évitant le choix de dc qui devient dynamique, déterminé suivant la densité locale. Nous appelons ICMDW cette sous-procédure qui représente une partie conséquente de nos contributions. Nous avons également remanié certaines des définitions au cœur de FDPC et revu entièrement la phase 2 en s'appuyant sur la structure arborescente des résultats fournis par ICDMW pour finalement produire un algorithme outrepassant toutes les limitations que nous avons identifié chez FDPC
Ballstering belongs to the machine learning methods that aim to group in classes a set of objects that form the studied dataset, without any knowledge of true classes within it. This type of methods, of which k-means is one of the most famous representative, are named clustering methods. Recently, a new clustering algorithm "Fast Density Peak Clustering" (FDPC) has aroused great interest from the scientific community for its innovating aspect and its efficiency on non-concentric distributions. However this algorithm showed a such complexity that it can't be applied with ease on large datasets. Moreover, we have identified several weaknesses that impact the quality results and the presence of a general parameter dc difficult to choose while having a significant impact on the results. In view of those limitations, we reworked the principal idea of FDPC in a new light and modified it successively to finally create a distinct algorithm that we called Ballstering. The work carried out during those three years can be summarised by the conception of this clustering algorithm especially designed to be effective on large datasets. As its Precursor, Ballstering works in two phases: An estimation density phase followed by a clustering step. Its conception is mainly based on a procedure that handle the first step with a lower complexity while avoiding at the same time the difficult choice of dc, which becomes automatically defined according to local density. We name ICMDW this procedure which represent a consistent part of our contributions. We also overhauled cores definitions of FDPC and entirely reworked the second phase (relying on the graph structure of ICMDW's intermediate results), to finally produce an algorithm that overcome all the limitations that we have identified
15

Coninx, Alexandre. "Visualisation interactive de grands volumes de données incertaines : pour une approche perceptive." Phd thesis, Université de Grenoble, 2012. http://tel.archives-ouvertes.fr/tel-00749885.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les études scientifiques et d'ingénierie actuelles font de plus en plus souvent appel à des techniques de simulation numérique pour étudier des phénomènes physiques complexes. La visualisation du résultat de ces simulations sur leur support spatial, souvent nécessaire à leur bonne compréhension, demande la mise en place d'outils adaptés, permettant une restitution fidèle et complète de l'information présente dans un jeu de données. Une telle visualisation doit donc prendre en compte les informations disponibles sur la qualité du jeu de données et l'incertitude présente. Cette thèse a pour but d'améliorer les méthodes de visualisation des champs de données scalaires de façon à intégrer une telle information d'incertitude. Les travaux présentés adoptent une approche perceptive, et utilisent les méthodes expérimentales et les connaissances préalables obtenues par la recherche sur la perception visuelle pour proposer, étudier et finalement mettre en oeuvre des nouvelles techniques de visualisation. Une revue de l'état de l'art sur la visualisation de données incertaines nous fait envisager l'utilisation d'un bruit procédural animé comme primitive pour la représentation de l'incertitude. Une expérience de psychophysique nous permet d'évaluer des seuils de sensibilité au contraste pour des stimuli de luminance générés par l'algorithme de bruit de Perlin, et de déterminer ainsi dans quelles conditions ces stimuli seront perçus. Ces résultats sont validés et étendus par l'utilisation d'un modèle computationnel de sensibilité au contraste, que nous avons réimplémenté et exécuté sur nos stimuli. Les informations obtenues nous permettent de proposer une technique de visualisation des données scalaires incertaines utilisant un bruit procédural animé et des échelles de couleur, intuitive et efficace même sur des géométries tridimensionnelles complexes. Cette technique est appliquée à deux jeux de données industriels, et présentée à des utilisateurs experts. Les commentaires de ces utilisateurs confirment l'efficacité et l'intérêt de notre technique et nous permettent de lui apporter quelques améliorations, ainsi que d'envisager des axes de recherche pour des travaux futurs.
16

Boudjeloud-Assala, Baya Lydia. "Visualisation et algorithmes génétiques pour la fouille de grands ensembles de données." Nantes, 2005. http://www.theses.fr/2005NANT2065.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous présentons des approches coopératives combinant des méthodes interactives de visualisation et des méthodes automatiques de sélection de dimensions pour l'extraction de connaissances à partir de données. La plupart des méthodes actuelles de fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Nous souhaitons impliquer de manière plus significative l'utilisateur dans le processus de fouille pour améliorer sa confiance et sa compréhension des modèles ou résultats obtenus. Par ailleurs ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous cherchons aussi à améliorer les performances des algorithmes de fouille pour pouvoir traiter des ensembles de données de grandes dimensions. Nous avons développé un algorithme génétique de sélection de dimensions avec une fonction d'évaluation à base de distance pour la détection d'individu atypique (ou outlier) dans les ensembles de données ayant un grand nombre de dimensions. Cet algorithme recherche les outliers en n'utilisant qu'un petit sous-ensemble de dimensions et permet de retrouver les mêmes individus outliers que dans l'ensemble total des données. On peut ainsi traiter plus facilement de grands ensembles de données. De plus, comme le nombre de dimensions utilisées est faible, nous pouvons utiliser des méthodes de visualisation pour expliquer et interpréter les résultats de l'algorithme de détection d'outlier. Nous pouvons ainsi construire un modèle de l'expertise de l'expert des données pour qualifier les éléments détectés par exemple en tant qu'erreurs ou simplement individus atypiques (outliers). Nous avons ensuite développé une mesure pour la sélection de dimensions en classification non supervisée (clustering) et détection d'outlier. Cette mesure nous permet à la fois de retrouver les mêmes clusters que dans l'ensemble de données avec toutes ses dimensions et des clusters pouvant contenir très peu d'éléments (des outliers). L'interprétation visuelle des résultats obtenus nous indique les dimensions impliquées, ce sont les dimensions pertinentes et intéressantes pour le clustering ou la détection d'outlier. Enfin nous présentons un algorithme génétique semi-interactif permettant d'impliquer l'utilisateur dans le processus de sélection et d'évaluation du sous-ensemble de dimensions à utiliser
We present cooperative approaches using interactive visualization methods and automatic dimension selection methods for knowledge discovery in databases. Most existing data mining methods work in an automatic way, the user is not implied in the process. We try to involve more significantly the user role in the data mining process in order to improve his confidence and comprehensibility of the obtained models or results. Furthermore, the size of data sets is constantly increasing, these methods must be able to deal with large data sets. We try to improve the performances of the algorithms to deal with these high dimensional data sets. We developed a genetic algorithm for dimension selection with a distance-based fitness function for outlier detection in high dimensional data sets. This algorithm uses only a few dimensions to find the same outliers as in the whole data sets and can easily treat high dimensional data sets. The number of dimensions used being low enough, it is also possible to use visualization methods to explain and interpret outlier detection algorithm results. It is then possible to create a model from the data expert for example to qualify the detected element as an outlier or simply an error. We have also developed an evaluation measure for dimension selection in unsupervised classification and outlier detection. This measure enables us to find the same clusters as in the data set with its whole dimensions as well as clusters containing very few elements (outliers). Visual interpretation of the results shows the dimensions implied, they are considered as relevant and interesting for the clustering and outlier detection. Finally we present a semi-interactive genetic algorithm involving more significantly the user in the selection and evaluation process of the algorithm
17

Boucheny, Christian. "Visualisation scientifique interactive de grands volumes de données : pour une approche perceptive." Grenoble 1, 2009. http://www.theses.fr/2009GRE10021.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’explosion de la puissance de calcul permet actuellement de réaliser des simulations physiques comportant jusqu’à plusieurs milliards d´éléments. Pour extraire l’information importante de tels volumes de données, les ingénieurs doivent disposer d’outils de visualisation permettant d’explorer et d’analyser interactivement les champs calculés. Cette thèse vise à améliorer les visualisations réalisées en prenant en compte les caractéristiques de la perception visuelle chez l’homme, notamment en ce qui concerne la perception de l’espace et du volume au cours de visualisations 3D denses. D��abord, trois expériences de psychophysique ont montré que les rendus volumiques, reposant sur l’accumulation ordonnée de transparences, génèrent des difficultés importantes de perception de la profondeur. Cela est particulièrement vrai lors de visualisations statiques, mais l’ajout de mouvement dans la scène ainsi que l’amplification de la projection perspective permettent de lever en partie ces ambigüités. Ensuite, deux algorithmes améliorant la perception de l’espace lors de la visualisation de structures tridimensionnelles complexes ont été développés. Leur implémentation sur GPU permet des rendus interactifs indépendamment de la nature géomérique des données visualisées. L’EyeDome Lighting, un nouvel ombrage non photoréaliste basé sur l’image de profondeur, améliore la perception des formes et des profondeurs dans des scènes 3D complexes. Par ailleurs, une nouvelle technique d'écorché dépendant du point de vue a été implémentée. Elle autorise la visualisation d’objets normalement occultés tout en rendant compte de la structure des surfaces masquantes
With the fast increase in computing power, numerical simulations of physical phenomena can nowadays rely on up to billions of elements. To extract relevant information in the huge resulting data sets, engineers need visualization tools permitting an interactive exploration and analysis of the computed fields. The goal of this thesis is to improve the visualizations performed by engineers by taking into account the characteristics of the human visual perception, with a particular focus on the perception of space and volume during the visualization of dense 3D data. Firstly, three psychophysics experiments have shown that direct volume rendering, a technique relying on the ordered accumulation of transparencies, provide very ambiguous cues to depth. This is particularly true for static presentations, while the addition of motion and exaggerated perspective cues help to solve part of these difficulties. Then, two algorithms have been developed to improve depth perception during the visualization of complex 3D structures. They have been implemented on the GPU, to achieve interactive renderings independently of the geometric nature of the analysed data. EyeDome Lighting is a new non-photorealistic shading technique that relies on the projected depth image of the scene. This algorithm enhances the perception of shapes and relative depths in complex 3D scenes. Also, a new fast view-dependent cutaway technique has been implemented, which permits to access otherwise occluded objects while providing cues to understand the structure in depth of masking objects
18

Meddeb, Hamrouni Boubaker. "Méthodes et algorithmes de représentation et de compression de grands dictionnaires de formes." Université Joseph Fourier (Grenoble), 1996. http://www.theses.fr/1996GRE10278.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette these concerne l'etude de differentes techniques qui peuvent etre mises en oeuvre pour representer et comprimer de tres grands dictionnaires de formes multilingues utilisables dans certaines applications de taln (detection/correction orthographique, reconnaissance de la parole, etc. ). La premiere partie de la these situe d'abord l'objet de cette etude et montre pourquoi les approches par dictionnaires de formes sont parfois plus adaptees que les approches par grammaires lors de la construction de certaines applications multilingues en taln. Nous faisons ensuite le point sur les methodes de rangement et de compression de dictionnaires et nous montrons, experiences a l'appui, que a part les methodes utilisant les automates d'etats finis deterministes, la plupart des methodes classiques sont peu efficace pour comprimer de grands dictionnaires. La seconde partie introduit la compression paradigmatique, une nouvelle approche de compression de dictionnaire de formes qui procede par factorisation d'un ensemble d'affixes appeles paradigmes. Dans une premiere section theorique, nous discutons les problemes poses par cette approche. Dans une seconde section, nous proposons de nouveaux algorithmes de compression qui n'utilise que des connaissances morphologiques elementaires. L'experimentation de la methode sur de grands dictionnaires de formes multilingues a montre que l'on peut se ramener, a partir d'un dictionnaire de formes initial et pour certaines langues, a un dictionnaire comprime ayant pratiquement la meme taille que le dictionnaire de lemmes, et cela sans l'intervention d'un linguiste. La methode a permis en outre d'ameliorer les resultats de compression des approches existantes, quelles que soient les structures internes utilisees. La troisieme partie presente une approche orthogonale a la seconde methode. Elle consiste a chercher l'automate ndet minimal qui reconnait l'ensemble des chaines d'un dictionnaire de
19

Ndiaye, Marie. "Exploration de grands ensembles de motifs." Thesis, Tours, 2010. http://www.theses.fr/2010TOUR4029/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'abondance des motifs générés par les algorithmes d'extraction de connaissances représente un grand problème dans le domaine de fouille de données. Afin de faciliter l'exploration de ces motifs,deux approches sont souvent utilisées : la première consiste à résumer les ensembles de motifs extraits et la seconde approche repose sur la construction de représentations visuelles de ces motifs. Cependant, les résumés ne sont pas structurés et ils sont proposés sans méthode d'exploration. D'autre part, les représentations visuelles n'offrent pas une vue globale des ensembles de motifs. Nous définissons un cadre générique qui combine les avantages des ces deux approches.Il permet de construire des résumés d'ensembles de motifs à plusieurs niveaux de détail. Ces résumés donnent une vue globale des ensembles de motifs. De plus, ils sont structurés sous forme de cubes sur lesquels des opérateurs de navigation OLAP peuvent être appliqués pour explorer les ensembles de motifs. Par ailleurs, nous proposons un algorithme qui fournit un résumé de bonne qualité dont la taille est inférieure à un seuil donné. Enfin, nous instancions notre cadre avec les règles d'association
The abundance of patterns generated by knowledge extraction algorithms is a major problem in data mining. Ta facilitate the exploration of these patterns, two approaches are often used: the first is to summarize the sets of extracted patterns and the second approach relies on the construction of visual representations of the patterns. However, the summaries are not structured and they are proposed without exploration method. Furthermore, visualizations do not provide an overview of the pattern .sets. We define a generic framework that combines the advantages of bath approaches. It allows building summaries of patterns sets at different levels of detail. These summaries provide an overview of the pattern sets and they are structured in the form of cubes on which OLAP navigational operators can be applied in order to explore the pattern sets. Moreover, we propose an algorithm which provides a summary of good quality whose size is below a given threshold. Finally, we instantiate our framework with association rules
20

Ducoffe, Guillaume. "Propriétés métriques des grands graphes." Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4134/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les grands réseaux de communication sont partout, des centres de données avec des millions de serveurs jusqu’aux réseaux sociaux avec plusieurs milliards d’utilisateurs.Cette thèse est dédiée à l’étude fine de la complexité de différents problèmes combinatoires sur ces réseaux. Dans la première partie, nous nous intéressons aux propriétés des plongements des réseaux de communication dans les arbres. Ces propriétés aident à mieux comprendre divers aspects du trafic dans les réseaux (tels que la congestion). Plus précisément, nous étudions la complexité du calcul de l’hyperbolicité au sens de Gromov et de paramètres des décompositions arborescentes dans les graphes. Ces paramètres incluent la longueur arborescente (treelength) et l’épaisseur arborescente (treebreadth). Au passage, nous démontrons de nouvelles bornes sur ces paramètres dans de nombreuses classes de graphes, certaines d’entre elles ayant été utilisées dans la conception de réseaux d’interconnexion des centres de données. Le résultat principal dans cette partie est une relation entre longueur et largeur arborescentes (treewidth), qui est un autre paramètre très étudié des graphes. De ce résultat, nous obtenons une vision unifiée de la ressemblance des graphes avec un arbre, ainsi que différentes applications algorithmiques. Nous utilisons dans cette partie divers outils de la théorie des graphes et des techniques récentes de la théorie de la complexité
Large scale communication networks are everywhere, ranging from data centers withmillions of servers to social networks with billions of users. This thesis is devoted tothe fine-grained complexity analysis of combinatorial problems on these networks.In the first part, we focus on the embeddability of communication networks totree topologies. This property has been shown to be crucial in the understandingof some aspects of network traffic (such as congestion). More precisely, we studythe computational complexity of Gromov hyperbolicity and of tree decompositionparameters in graphs – including treelength and treebreadth. On the way, we givenew bounds on these parameters in several graph classes of interest, some of thembeing used in the design of data center interconnection networks. The main resultin this part is a relationship between treelength and treewidth: another well-studiedgraph parameter, that gives a unifying view of treelikeness in graphs and has algorithmicapplications. This part borrows from graph theory and recent techniques incomplexity theory. The second part of the thesis is on the modeling of two privacy concerns with social networking services. We aim at analysing information flows in these networks,represented as dynamical processes on graphs. First, a coloring game on graphs isstudied as a solution concept for the dynamic of online communities. We give afine-grained complexity analysis for computing Nash and strong Nash equilibria inthis game, thereby answering open questions from the literature. On the way, wepropose new directions in algorithmic game theory and parallel complexity, usingcoloring games as a case example
21

Sirgue, Laurentf1975. "Inversion de la forme d'onde dans le domaine fréquentiel de données sismiques grands offsets." Paris 11, 2003. http://www.theses.fr/2003PA112088.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'approche standard en imagerie sismique repose sur une décomposition par échelle du modèle de vitesse: la détermination des bas nombres d'ondes est suivie par une reconstruction des hauts nombres d'ondes. Cependant, pour des modèles présentant une structure complexe, la détermination des hauts nombres d'ondes peut être améliorée de manière significative par l'apport des nombres d'ondes intermédiaires. Ces derniers peuvent être déterminés par l'inversion non-linéaire de la forme d'onde de données sismiques grands angles qui est, par ailleurs, limitée par la non-linéarité du problème inverse. La non-linéarité est gouvernée par la fréquence minimum dans les données et le modèle de vitesse initial. Pour les très basses fréquences, inférieures à 7 Hz, le problème est raisonnablement linéaire pour appliquer l'inversion de la forme d'onde à partir d'un modèle de départ déterminé par inversion tomographique des temps de trajets. Le domaine fréquentiel est alors très efficace pour inverser des basses vers les hautes fréquences. De plus, il est possible de discrétiser les fréquences avec un pas d'échantillonnage plus grand que celui dicté par le théorème d'échantillonnage. Une stratégie pour sélectionner les fréquences est développée qui réduit le nombre de fréquences nécessaire en imagerie lorsqu'une gamme d'offset est disponible: le nombre de fréquences diminue lorsque l'offset maximum augmente. Les donnés sismiques réelles ne contiennent malheureusement pas de très basses fréquences. Des techniques de pré-conditionnement doivent alors être appliquées afin d'améliorer l'efficacité de l'inversion à partir de fréquences réalistes. Le lissage du vecteur gradient ainsi que l'inversion des premières arrivées augmente les chances de convergence au minimum global. L'efficacité des méthodes de pré-conditionnement est tout de même limitée par le degré d'information contenu dans le modèle de départ
The standard imaging approach in exploration seismology relies on a decomposition of the velocity model by spatial scales: the determination of the low wavenumbers of the velocity field is followed by the reconstruction of the high wavenumbers. However, for models presenting a complex structure, the recovery of the high wavenumbers may be significantly improved by the determination of intermediate wavenumbers. These, can potentially be recovered by local, non-linear waveform inversion of wide-angle data. However, waveform inversion is limited by the non-linearity of the inverse problem, which is in turn governed by the minimum frequency in the data and the starting model. For very low frequencies, below 7 Hz, the problem is reasonably linear so that waveform inversion may be applied using a starting model obtained from traveltime tomography. The frequency domain is then particularly advantageous as the inversion from the low to the high frequencies is very efficient. Moreover, it is possible to discretise the frequencies with a much larger sampling interval than dictated by the sampling theorem and still obtain a good imaging result. A strategy for selecting frequencies is developed where the number of input frequencies can be reduced when a range of offsets is available: the larger the maximum offset is, the fewer frequencies are required. Real seismic data unfortunatly do not contain very low frequencies and waveform inversion at higher frequencies are likely to fail due to convergence into a local minimum. Preconditioning techniques must hence be applied on the gradient vector and the data residuals in order to enhance the efficacy of waveform inversion starting from realistic frequencies. The smoothing of the gradient vector and inversion of early arrivals significantly improve the chance of convergence into the global minimum. The efficacy of preconditioning methods are however limited by the accuracy of the starting model
22

Dumonceaux, Frédéric. "Approches algébriques pour la gestion et l’exploitation de partitions sur des jeux de données." Nantes, 2015. http://archive.bu.univ-nantes.fr/pollux/show.action?id=c655f585-5cf3-4554-bea2-8e488315a2b9.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’essor des méthodes d’analyse de données dans des contextes toujours plus variés nécessite la conception de nouveaux outils permettant la gestion et la manipulation des données extraites. La construction de résumés est alors couramment structurée sous la forme de partitions d’ensembles dont la manipulation dépend à la fois du contexte applicatif et de leurs propriétés algébriques. Dans un premier temps, nous proposons de modéliser la gestion des résultats de requêtes d’agrégation dans un cube OLAP à l’aide d’un calcul algébrique sur des partitions. Nous mettons en évidence l’intérêt d’une telle démarche par le gain de temps et d’espace observé pour produire ces résultats. Nous traitons par la suite le cas de la modélisation du consensus de partitions où nous soulignons les difficultés propres à sa construction en l’absence de propriétés qui régissent la combinaison des partitions. Nous proposons donc d’approfondir l’étude des propriétés algébriques de la structure du treillis des partitions, en vue d’en améliorer la compréhension et par conséquent de produire de nouvelles procédures pour l’élaboration du consensus. En guise de conclusion, nous proposons la modélisation et une mise en œuvre concrète d’opérateurs sur des partitions génériques et nous livrons diverses expériences, propres à souligner l’intérêt de leur usage conceptuel et opérationnel
The rise of data analysis methods in many growing contexts requires the design of new tools, enabling management and handling of extracted data. Summarization process is then often formalized through the use of set partitions whose handling depends on applicative context and inherent properties. Firstly, we suggest to model the management of aggregation query results over a data cube within the algebraic framework of the partition lattice. We highlight the value of such an approach with a view to minimize both required space and time to generate those results. We then deal with the consensus of partitions issue in which we emphasize challenges related to the lack of properties that rule partitions combination. The idea put forward is to deepen algebraic properties of the partition lattice for the purpose of strengthening its understanding and generating new consensus functions. As a conclusion, we propose the modelling and implementation of operators defined over generic partitions and we carry out some experiences allowing to assert the benefit of their conceptual and operational use
23

Fan, Qingfeng. "Stratégie de transfert de données dans les grilles de capteurs." Versailles-St Quentin en Yvelines, 2014. http://www.theses.fr/2014VERS0012.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse se concentre principalement sur la stratégie de transmission de masses de données et l'optimisation des requêtes dans les infrastructures de type grille. Dans un premier temps, elle se focalise sur la transmission au niveau fichier, avec une stratégie de réplication en anneau ou en thread, puis celle au niveau de parties de fichier permettant d'améliorer l'efficacité de la grille de données. Ensuite, la thèse adresse le transfert de paquets de données dans des grilles de capteurs, en utilisant un arbre multicast, largement utilisés dans les réseaux de capteurs. Cette partie explique comment générer une architecture multicast dans le contexte de grilles. Elle propose un modèle d'optimisation qui combine les facteurs de localisation et de données, en un vecteur pondéré. La troisième partie de cette thèse propose une extension du modèle afin de prendre en compte un troisième facteur correspondant à l'énergie pour la grille de capteurs sans fil, ce qui amène à un problème de corrélation entre 3 vecteurs (localisation, données et énergie). La dernière partie de la thèse considère le contexte mobile: les requête d'utilisateurs mobiles sur des sources mobiles. Dans ce contexte, l'optimisation de la requête dépend non seulement de la taille du cache et de sa fraicheur, mais aussi de la mobilité. Nous avons proposé une extension des techniques d'optimisation par cache sémantique pour des requêtes distribuées mobiles
Big data era is coming, and the amount of data increases dramatically in many application fields every day. This thesis mostly focuses on the big data transmission strategy for query optimization in Grid infrastructure. Firstly, we discuss over file degree: the ring and thread replication strategy, and under file degree: the file-parted replication strategy to improve the efficiency of Data Grid. We also tackle the data packets degree using multicast data transfer within a Sensor Grid, which is widely utilized in the in-network query operation. The system comprehensively considers the location factor and data factor, and combines them in a general weighted vector. In a third stage, we extended our model to account for the energy factor to deal with wireless sensor grids, which corresponds to a 3 vectors correlation problem. We show that our approach can be extended further to any finite-dimensional factors. The last part deals with the mobile context, i. E. When users and the queried resources are mobile. We proposed an extension of the semantic cache based optimization for such mobile distributed queries. In this context, the query optimization depends, not only on the cache size and its freshness, but also on the mobility of the user
24

Chebbo, Manal. "Simulation fine d'optique adaptative à très grand champ pour des grands et futurs très grands télescopes." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM4733/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La simulation fine de systèmes d'OA à grand champ de type MOAO ou LTAO pour l'ELT se heurte à deux problématiques: l'augmentation du nombre de degrés de liberté du système. Cette augmentation rend les codes de simulation classiques peu utilisables, en particulier en ce qui concerne les processus d'inversion et de calcul matriciel. La complexité des systèmes, combinant EGL et EGN, grands miroirs déformables couvrant tout le champs et des miroirs dédiés dans les instruments eux mêmes, des rotations différentielles de pupille et ou de champs. Cette complexité conduit aux développements de procédures nouvelles d'étalonnage, de filtrage et fusion de données, de commande distribuée ou globale. Ces procédures doivent être simulées finement, comparées et quantifiées en termes de performances, avant d'être implantées dans de futurs systèmes. Pour répondre à ces deux besoins, le LAM développe en collaboration avec l'ONERA un code de simulation complet, basé sur une approche de résolution itérative de systèmes linéaires à grand nombre de paramètres (matrices creuses). Sur cette base, il incorpore de nouveaux concepts de filtrage et de fusion de données pour gérer efficacement les modes de tip/tilt/defocus dans le processus complet de reconstruction tomographique. Il permettra aussi, de développer et tester des lois de commandes complexes ayant à gérer un la combinaison du télescope adaptatif et d'instrument post-focaux comportant eux aussi des miroirs déformables dédiés.La première application de cet outil se fait naturellement dans le cadre du projet EAGLE, un des instruments phares du futur E-ELT, qui, du point de vue de l'OA combinera l'ensemble de ces problématiques
Refined simulation tools for wide field AO systems on ELTs present new challenges. Increasing the number of degrees of freedom makes the standard simulation's codes useless due to the huge number of operations to be performed at each step of the AO loop process. The classical matrix inversion and the VMM have to be replaced by a cleverer iterative resolution of the Least Square or Minimum Mean Square Error criterion. For this new generation of AO systems, concepts themselves will become more complex: data fusion coming from multiple LGS and NGS will have to be optimized, mirrors covering all the field of view associated to dedicated mirrors inside the scientific instrument itself will have to be coupled using split or integrated tomography schemes, differential pupil or/and field rotations will have to be considered.All these new entries should be carefully simulated, analysed and quantified in terms of performance before any implementation in AO systems. For those reasons i developed, in collaboration with the ONERA, a full simulation code, based on iterative solution of linear systems with many parameters (sparse matrices). On this basis, I introduced new concepts of filtering and data fusion to effectively manage modes such as tip, tilt and defoc in the entire process of tomographic reconstruction. The code will also eventually help to develop and test complex control laws who have to manage a combination of adaptive telescope and post-focal instrument including dedicated DM
25

Grassot, Lény. "Mobilités évènementielles et espace urbain : Exploitation des donnés de téléphonie mobile pour la modélisation des grands évènements urbains." Rouen, 2016. http://www.theses.fr/2016ROUEL015.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce travail de recherche s’intéresse à l’appréhension, la détection, la compréhension et l’analyse des grands évènements urbains grâce à l’exploitation des données de téléphonie mobile. L’utilisation d’approches complémentaires – méthodes statistiques, analyse spatiale – appliquées à trois terrains – l’Armada de Rouen 2008, la Braderie de Lille 2011 et l’Armada de Rouen 2013 – ont permis de mettre en évidence les formes de spatialités (attractivité, concentration) et de temporalités (rythmes, pulsations) des espaces urbains lors du déroulement d’un grand évènement populaire. Ce type d’évènement soulève des problèmes d’évaluation et d’appréhension de leurs impacts sur les villes qui les accueillent. Ce travail de thèse tente de résoudre ces questions en utilisant des méthodologies de modélisation et de simulation. Les résultats obtenus soulignent la pertinence de la géolocalisation anonyme des données de téléphonie mobile pour comprendre le fonctionnement éphémère de la ville en contexte évènementiel et en percevoir les impacts en termes de mobilité et de comportement
This research is devoted to the apprehension, the detection, the understanding and the analysis of large urban planned events through mobile phone data, provided by French telecom operator Orange. The three cases studied are the Armada de Rouen 2008, the Braderie de Lille 2011 and the Armada de Rouen 2013. The aim of this thesis is to study and evaluate the impacts on urban spatial patterns thanks to modelling and simulation methodologies. To tackle the huge amount of data statistical methods, spatial analysis, and a new agent based model (GAMA) have been used. The achievement of this research lead us to highlight the role of spatial (attractiveness, concentration, etc. ) and temporal patterns (rhythms, urban pulses, etc. ) of urban spaces during the ongoing agenda of a popular large planned event. The outcomes of this research underline the relevance of the mobile phone data to understand the short-lived functioning as well as the routine of the city during major events. Moreover impacts in terms of mobility and social behavior must be taken into account
26

Abdelmoula, Mariem. "Génération automatique de jeux de tests avec analyse symbolique des données pour les systèmes embarqués." Thesis, Nice, 2014. http://www.theses.fr/2014NICE4149/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Un des plus grands défis dans la conception matérielle et logicielle est de s’assurer que le système soit exempt d’erreurs. La moindre erreur dans les systèmes embarqués réactifs peut avoir des conséquences désastreuses et coûteuses pour certains projets critiques, nécessitant parfois de gros investissements pour les corriger, ou même conduire à un échec spectaculaire et inattendu du système. Prévenir de tels phénomènes en identifiant tous les comportements critiques du système est une tâche assez délicate. Les tests en industrie sont globalement non exhaustifs, tandis que la vérification formelle souffre souvent du problème d’explosion combinatoire. Nous présentons dans ce contexte une nouvelle approche de génération exhaustive de jeux de test qui combine les principes du test industriel et de la vérification formelle académique. Notre approche construit un modèle générique du système étudié à partir de l’approche synchrone. Le principe est de se limiter à l’analyse locale des sous-espaces significatifs du modèle. L’objectif de notre approche est d’identifier et extraire les conditions préalables à l’exécution de chaque chemin du sous-espace étudie. Il s’agit ensuite de générer tout les cas de tests possibles à partir de ces pré-conditions. Notre approche présente un algorithme de quasi-aplatissement plus simple et efficace que les techniques existantes ainsi qu’une compilation avantageuse favorisant une réduction considérable du problème de l’explosion de l’espace d’états. Elle présente également une manipulation symbolique des données numériques permettant un test plus expressif et concret du système étudié
One of the biggest challenges in hardware and software design is to ensure that a system is error-free. Small errors in reactive embedded systems can have disastrous and costly consequences for a project. Preventing such errors by identifying the most probable cases of erratic system behavior is quite challenging. Indeed, tests in industry are overall non-exhaustive, while formal verification in scientific research often suffers from combinatorial explosion problem. We present in this context a new approach for generating exhaustive test sets that combines the underlying principles of the industrial test technique and the academic-based formal verification approach. Our approach builds a generic model of the system under test according to the synchronous approach. The goal is to identify the optimal preconditions for restricting the state space of the model such that test generation can take place on significant subspaces only. So, all the possible test sets are generated from the extracted subspace preconditions. Our approach exhibits a simpler and efficient quasi-flattening algorithm compared with existing techniques and a useful compiled internal description to check security properties and reduce the state space combinatorial explosion problem. It also provides a symbolic processing technique of numeric data that provides a more expressive and concrete test of the system. We have implemented our approach on a tool called GAJE. To illustrate our work, this tool was applied to verify an industrial project on contactless smart cards security
27

Modrzejewski, Richard. "Recalage déformable, jeux de données et protocoles d'évaluation pour la chirurgie mini-invasive abdominale augmentée." Thesis, Université Clermont Auvergne‎ (2017-2020), 2020. http://www.theses.fr/2020CLFAC044.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse concerne les techniques de recalage déformable de données pré-opératoires dans la scène peropératoire en tant qu’étape indispensable à la réalisation de réalité augmentée pour la chirurgie abdominale. De telles techniques sont ainsi discutées, de même que les méthodologies d’évaluation associées à ces dernières.Deux contextes sont considérés : le recalage pour la chirurgie coelioscopique assistée par ordinateur et le recalage postural de patient sur la table d’opération. Pour ces deux contextes, les besoins auxquels doivent répondre les algorithmes de recalage considérés sont discutés, ainsi que les principales limitations des solutions existantes.Des algorithmes réalisés au cours de cette thèse, permettant de répondre à ces besoins sont ainsi proposés et discutés. Une attention toute particulière est alors accordée à leur évaluation. Différents jeux de données permettant une évaluation quantitative de la précision des algorithmes de recalage, créés eux aussi durant cette thèse, et rendu publics, sont ainsi présentés. De telles données sont extrêmement importantes car elles répondent à un manque de données standardisées permettant d’évaluer l’erreur de recalage de façon quantitative, et ainsi de comparer les différents algorithmes. La modélisation de l’éclairage de la scène coelioscopique, permettant d’extraire des contraintes fortes sur les données à recaler et la surface de l’organe observé, et ainsi d’être utilisée pour contraindre ces problématiques de recalage, est aussi discutée. Ce manuscrit est séparé en sept parties. La première traite du contexte de la thèse. La chirurgie mini-invasive est présentée ainsi que différents problèmes de vision par ordinateur généraux qui, une fois appliqués au contexte médical permettent de définir la chirurgie assistée par ordinateur. La seconde partie traite des prérequis à la lecture de la thèse. Le prétraitement des données pré-opératoires et per-opératoires, avant utilisation par les algorithmes de recalage présentés,est ainsi discuté. La troisième partie correspond au recalage de données hépatiques en coelioscopie, et de l’évaluation associée à cette méthode. La quatrième partie correspond quant à elle à la problématique du recalage postural. La cinquième partie propose une modélisation de l’éclairage en coelioscopie pouvant être utilisée pour obtenir des contraintes fortes entre la surface observée et les images coelioscopiques. La sixièmepartie propose une utilisation des modèles de lumière discutés dans la partie précédente afin de raffiner et densifier des reconstructions de la scène coelioscopique. Enfin, la septième et dernière partie correspond à nos conclusions vis-à-vis des problématiques abordées au cours de la thèse, et aux travaux futurs
This thesis deals with deformable registration techniques of preoperative data to the intra-operative sceneas an indispensable step in the realisation of augmented reality for abdominal surgery. Such techniques arethus discussed as well as evaluation methodologies associated with them. Two contexts are considered : theregistration for computer-assisted laparoscopic surgery and the postural registration of the patient on theoperating table. For these two contexts, the needs to be met by the registration algorithms considered arediscussed, as well as the main limitations of the existing solutions. Algorithms developped during this thesis,allowing to meet these needs are thus proposed and discussed. Special attention is given to their evaluation.Different datasets allowing a quantitative evaluation of the accuracy of the registration algorithms, also realizedduring this thesis, and made public, are also discussed. Such data are extremely important because they respondto a lack of evaluation data needed in order to evaluate the registration error in a quantitative way, and thus tocompare the different algorithms. The modeling of the illumination of the laparoscopic scene, allowing one toextract strong constraints between the data to be registered and the surface of the observed organ, and thus tobe used to constrain these registration problems, is also discussed. This manuscript has seven parts. The firstdeals with the context surrounding this thesis. Minimally invasive surgery is presented as well as various generalcomputer vision problems which, when applied to the medical context, allow the definition of computer-assistedsurgery. The second part deals with the prerequisites for reading the thesis. The pre-processing of pre-operativeand per-operative data, before their use by the presented registration algorithms, is thus discussed. The thirdpart corresponds to the registration of hepatic data in laparoscopy, and the evaluation associated with thisproblems. The fourth part deals with the problem of postural registration. The fifth part proposes a modellingof the lighting in laparoscopy which can be used to obtain strong constraints between the observed surfaceand the laparoscopic images. The sixth part proposes a use of the light models discussed in the previous partin order to refine and densify reconstructions of the laparoscopic scene. Finally, the seventh and last partcorresponds to our conclusions regarding the issues addressed during this thesis, and to future work
28

Simon, Franck. "Découverte causale sur des jeux de données classiques et temporels. Application à des modèles biologiques." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS528.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse porte sur le domaine de la découverte causale, c’est-à-dire la construction de graphes causaux à partir de données observées, et en particulier, la découverte causale temporelle et la reconstruction de larges réseaux de régulation de gènes. Après un bref historique, ce mémoire introduit les principaux concepts, hypothèses et théorèmes aux fondements des graphes causaux ainsi que les deux grandes approches : à base de scores et à base de contraintes. La méthode MIIC (Multivariate Information-based Inductive Causation), développée au sein de notre laboratoire est ensuite décrite avec ses dernières améliorations : Interpretable MIIC. Les problématiques et solutions mises en œuvre pour construire une version temporelle (tMIIC) sont exposées ainsi que les benchmarks traduisant les avantages de tMIIC sur d’autres méthodes de l’état de l’art. L’application à des séquences d’images prises au microscope d’un environnement tumoral reconstitué sur des micro-puces permet d’illustrer les capacités de tMIIC à retrouver, uniquement à partir des données, des relations connues et nouvelles. Enfin, cette thèse introduit l’utilisation d’un a priori de conséquence pour appliquer la découverte causale à la reconstruction de réseaux de régulation de gènes. En posant l’hypothèse que tous les gènes, hormis les facteurs de transcription, sont des conséquences, il devient possible de reconstruire des graphes avec des milliers de gènes. La capacité à identifier des facteurs de transcription clés de novo est illustrée par une application à des données de séquençage d’ARN en cellules uniques avec identification de deux facteurs de transcription susceptibles d’être impliqués dans le processus biologique d’intérêt
This thesis focuses on the field of causal discovery : the construction of causal graphs from observational data, and in particular, temporal causal discovery and the reconstruction of large gene regulatory networks. After a brief history, this thesis introduces the main concepts, hypotheses and theorems underlying causal graphs as well as the two main approaches: score-based and constraint-based methods. The MIIC (Multivariate Information-based Inductive Causation) method, developed in our laboratory, is then described with its latest improvements: Interpretable MIIC. The issues and solutions implemented to construct a temporal version (tMIIC) are presented as well as benchmarks reflecting the advantages of tMIIC compared to other state-of-the-art methods. The application to sequences of images taken with a microscope of a tumor environment reconstituted on microchips illustrates the capabilities of tMIIC to recover, solely from data, known and new relationships. Finally, this thesis introduces the use of a consequence a priori to apply causal discovery to the reconstruction of gene regulatory networks. By assuming that all genes, except transcription factors, are only consequence genes, it becomes possible to reconstruct graphs with thousands of genes. The ability to identify key transcription factors de novo is illustrated by an application to single cell RNA sequencing data with the discovery of two transcription factors likely to be involved in the biological process of interest
29

Soler, Maxime. "Réduction et comparaison de structures d'intérêt dans des jeux de données massifs par analyse topologique." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS364.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Dans cette thèse, nous proposons différentes méthodes, basées sur l'analyse topologique de données, afin de répondre aux problématiques modernes concernant l'analyse de données scientifiques. Dans le cas de données scalaires, extraire un savoir pertinent à partir de données statiques, de données qui varient dans le temps, ou données d'ensembles s'avère de plus en plus difficile. Nos approches pour la réduction et l'analyse de telles données reposent sur l'idée de définir des structures d'intérêt dans les champs scalaires à l’aide d’abstractions topologiques. Dans un premier temps, nous proposons un nouvel algorithme de compression avec pertes offrant de fortes garanties topologiques, afin de préserver les structures topologiques tout au long de la compression. Des extensions sont proposées pour offrir un contrôle supplémentaire sur l'erreur géométrique. Nous ciblons ensuite les données variables dans le temps en proposant une nouvelle méthode de suivi des structures topologiques, basée sur des métriques topologiques. Ces métriques sont étendues pour être plus robustes. Nous proposons un nouvel algorithme efficace pour les calculer, obtenant des accélérations de plusieurs ordres de grandeur par rapport aux approches de pointe. Enfin, nous appliquons et adaptons nos méthodes aux données d'ensemble relatives à la simulation de réservoir, dans un cas de digitation visqueuse en milieu poreux. Nous adaptons les métriques topologiques pour quantifier l’écart entre les simulations et la vérité terrain, évaluons les métriques proposées avec le retour d’experts, puis implémentons une méthode de classement in-situ pour évaluer la fidélité des simulations
In this thesis, we propose different methods, based on topological data analysis, in order to address modern problematics concerning the increasing difficulty in the analysis of scientific data. In the case of scalar data defined on geometrical domains, extracting meaningful knowledge from static data, then time-varying data, then ensembles of time-varying data proves increasingly challenging. Our approaches for the reduction and analysis of such data are based on the idea of defining structures of interest in scalar fields as topological features. In a first effort to address data volume growth, we propose a new lossy compression scheme which offers strong topological guarantees, allowing topological features to be preserved throughout compression. The approach is shown to yield high compression factors in practice. Extensions are proposed to offer additional control over the geometrical error. We then target time-varying data by designing a new method for tracking topological features over time, based on topological metrics. We extend the metrics in order to overcome robustness and performance limitations. We propose a new efficient way to compute them, gaining orders of magnitude speedups over state-of-the-art approaches. Finally, we apply and adapt our methods to ensemble data related to reservoir simulation, for modeling viscous fingering in porous media. We show how to capture viscous fingers with topological features, adapt topological metrics for capturing discrepancies between simulation runs and a ground truth, evaluate the proposed metrics with feedback from experts, then implement an in-situ ranking framework for rating the fidelity of simulation runs
30

Hollocou, Alexandre. "Nouvelles approches pour le partitionnement de grands graphes." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEE063.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les graphes sont omniprésents dans de nombreux domaines de recherche, allant de la biologie à la sociologie. Un graphe est une structure mathématique très simple constituée d’un ensemble d’éléments, appelés nœuds, reliés entre eux par des liens, appelés arêtes. Malgré cette simplicité, les graphes sont capables de représenter des systèmes extrêmement complexes, comme les interactions entre protéines ou les collaborations scientifiques. Le partitionnement ou clustering de graphe est un problème central en analyse de graphe dont l’objectif est d’identifier des groupes de nœuds densément interconnectés et peu connectés avec le reste du graphe. Ces groupes de nœuds, appelés clusters, sont fondamentaux pour une compréhension fine de la structure des graphes. Il n’existe pas de définition universelle de ce qu’est un bon cluster, et différentes approches peuvent s’avérer mieux adaptées dans différentes situations. Alors que les méthodes classiques s’attachent à trouver des partitions des nœuds de graphe, c’est-à-dire à colorer ces nœuds de manière à ce qu’un nœud donné n’ait qu’une et une seule couleur, des approches plus élaborées se révèlent nécessaires pour modéliser la structure complexe des graphes que l’on rencontre en situation réelle. En particulier, dans de nombreux cas, il est nécessaire de considérer qu’un nœud donné peut appartenir à plus d’un cluster. Par ailleurs, de nombreux systèmes que l’on rencontre en pratique présentent une structure multi-échelle pour laquelle il est nécessaire de partir à la recherche de hiérarchies de clusters plutôt que d’effectuer un partitionnement à plat. De plus, les graphes que l’on rencontre en pratique évoluent souvent avec le temps et sont trop massifs pour être traités en un seul lot. Pour ces raisons, il est souvent nécessaire d’adopter des approches dites de streaming qui traitent les arêtes au fil de l’eau. Enfin, dans de nombreuses applications, traiter des graphes entiers n’est pas nécessaire ou est trop coûteux, et il est plus approprié de retrouver des clusters locaux dans un voisinage de nœuds d’intérêt plutôt que de colorer tous les nœuds. Dans ce travail, nous étudions des approches alternatives de partitionnement de graphe et mettons au point de nouveaux algorithmes afin de résoudre les différents problèmes évoqués ci-dessus
Graphs are ubiquitous in many fields of research ranging from sociology to biology. A graph is a very simple mathematical structure that consists of a set of elements, called nodes, connected to each other by edges. It is yet able to represent complex systems such as protein-protein interaction or scientific collaborations. Graph clustering is a central problem in the analysis of graphs whose objective is to identify dense groups of nodes that are sparsely connected to the rest of the graph. These groups of nodes, called clusters, are fundamental to an in-depth understanding of graph structures. There is no universal definition of what a good cluster is, and different approaches might be best suited for different applications. Whereas most of classic methods focus on finding node partitions, i.e. on coloring graph nodes so that each node has one and only one color, more elaborate approaches are often necessary to model the complex structure of real-life graphs and to address sophisticated applications. In particular, in many cases, we must consider that a given node can belong to more than one cluster. Besides, many real-world systems exhibit multi-scale structures and one much seek for hierarchies of clusters rather than flat clusterings. Furthermore, graphs often evolve over time and are too massive to be handled in one batch so that one must be able to process stream of edges. Finally, in many applications, processing entire graphs is irrelevant or expensive, and it can be more appropriate to recover local clusters in the neighborhood of nodes of interest rather than color all graph nodes. In this work, we study alternative approaches and design novel algorithms to tackle these different problems. The novel methods that we propose to address these different problems are mostly inspired by variants of modularity, a classic measure that accesses the quality of a node partition, and by random walks, stochastic processes whose properties are closely related to the graph structure. We provide analyses that give theoretical guarantees for the different proposed techniques, and endeavour to evaluate these algorithms on real-world datasets and use cases
31

Osty, Guillaume. "Extraction de particularités sur données discrètes issues de numérisation 3D : partitionnement de grands nuages de points." Cachan, Ecole normale supérieure, 2002. http://www.theses.fr/2002DENS0003.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les systèmes de numérisation 3D permettent l'acquisition, en un temps relativement court de la peau d'un objet sous forme de grands nuages de points. Quelle que soit son exploitation, il se pose le problème du traitement de cette grande quantité de données discrètes : rapidité de traitement, non structuration des données, perte de continuité,. . . Ainsi pour être directement exploitable en rétro-conception, métrologie ou encore copiage de forme, le nuage de points doit subir une opération de partitionnement divisant l'ensemble de points issus d'une numérisation 3D en sous-ensembles de points cohérents. Ce travail doctoral présente des méthodes et outils associés au partitionnement de grands nuages de points basés sur l'extraction à partir des données discrètes et bruitées des contours 3D caractéristiques de singularités géométriques. L'approche développée s'appuie sur une représentation par espace -voxels permettant d'identifier les points caractéristiques des contours et d'en assurer la continuité. Une fois les contours fermés, ils délimitent des sous-ensembles de points pouvant être traités indépendamment.
32

Chamekh, Rabeb. "Stratégies de jeux pour quelques problèmes inverses." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4103.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’objectif de ce travail de thèse est la résolution du problème de couplage de complétion des données et identification des paramètres. Le problème de Cauchy est un problème de détermination des mesures sur une partie inaccessible du bord d’un solide à partir des données surabondantes sur le bord. L’identification des paramètres est un problème de détermination du paramètre de système. Ces deux problèmes sont connus pour être mal posés au sens d’Hadamard. Le mémoire de thèse se divise en quatre parties. La première partie est consacrée à une étude bibliographique. Dans le deuxième chapitre, nous avons appliqué la théorie des jeux pour la résolution du problème de couplage de complétion des données et identification de conductivité en électrocardiographie. On a évoqué la question d ’identifiabilité de la conductivité. On a montré l’unicité de ce paramètre en utilisant seulement les données de Cauchy sur une partie du bord. Nos expériences numériques ciblent les applications médicales en électrocardiographie. Nous avons appliqué notre procédure dans un thorax bidimensionnel et tridimensionnel. La troisième partie est consacré à la résolution du problème de couplage en élasticité linéaire en appliquant la stratégie des jeux. Une étude numérique a été effectué où on a considéré une configuration particulière pour assurer l’identifiabilité des paramètres. Dans la dernière partie, on s’intéresse à un problème de thermoélasticité. Il s’agit de coupler deux disciplines différentes, la thermique et l’élasticité. Le problème de l’identification de fissure est une application naturelle dans ce cas
In this PHD-Thesis, we focused on solving the coupling problem of data completion and parameter identification. The Cauchy problem is a problem of identification of boundary condition on a part of the boundary from overabundant data on the remaining part. Parameter identification is a problem of the system parameter. These two problems are known to be ill-posed in the sense of Hadamard. This Thesis is divided into four parts. The first part is dedicated to a bibliography study. In the second chapter, we applied the game theory on the resolution of the coupling problem of data completion and the conductivity identification in electrocardiography. We talked about the identifiability of the conductivity. We have shown the uniqueness of this parameter using only the Cauchy data on a part of the edge. Our numerical experiments target medical applications in electrocardiography. We applied our procedure in a two-dimensional and three-dimensional thorax. The third part is dedicated to the resolution of the coupling problem in linear elasticity applying the game theory. A numerical study has been done where we considered a particular configuration to ensure the parameters identifiability. In the last part, we are interested in a problem of thermoelasticity. It’s about coupling two different disciplines : thermal and elasticity. The problem of crack identification is a natural application in this case
33

Lamarche-Perrin, Robin. "Analyse macroscopique des grands systèmes : émergence épistémique et agrégation spatio-temporelle." Phd thesis, Université de Grenoble, 2013. http://tel.archives-ouvertes.fr/tel-00933186.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'analyse des systèmes de grande taille est confrontée à des difficultés d'ordre syntaxique et sémantique : comment observer un million d'entités distribuées et asynchrones ? Comment interpréter le désordre résultant de l'observation microscopique de ces entités ? Comment produire et manipuler des abstractions pertinentes pour l'analyse macroscopique des systèmes ? Face à l'échec de l'approche analytique, le concept d'émergence épistémique - relatif à la nature de la connaissance - nous permet de définir une stratégie d'analyse alternative, motivée par le constat suivant : l'activité scientifique repose sur des processus d'abstraction fournissant des éléments de description macroscopique pour aborder la complexité des systèmes. Cette thèse s'intéresse plus particulièrement à la production d'abstractions spatiales et temporelles par agrégation de données. Afin d'engendrer des représentations exploitables lors du passage à l'échelle, il apparaît nécessaire de contrôler deux aspects essentiels du processus d'abstraction. Premièrement, la complexité et le contenu informationnel des représentations macroscopiques doivent être conjointement optimisés afin de préserver les détails pertinents pour l'observateur, tout en minimisant le coût de l'analyse. Nous proposons des mesures de qualité (critères internes) permettant d'évaluer, de comparer et de sélectionner les représentations en fonction du contexte et des objectifs de l'analyse. Deuxièmement, afin de conserver leur pouvoir explicatif, les abstractions engendrées doivent être cohérentes avec les connaissances mobilisées par l'observateur lors de l'analyse. Nous proposons d'utiliser les propriétés organisationnelles, structurelles et topologiques du système (critères externes) pour contraindre le processus d'agrégation et pour engendrer des représentations viables sur les plans syntaxique et sémantique. Par conséquent, l'automatisation du processus d'agrégation nécessite de résoudre un problème d'optimisation sous contraintes. Nous proposons dans cette thèse un algorithme de résolution générique, s'adaptant aux critères formulés par l'observateur. De plus, nous montrons que la complexité de ce problème d'optimisation dépend directement de ces critères. L'approche macroscopique défendue dans cette thèse est évaluée sur deux classes de systèmes. Premièrement, le processus d'agrégation est appliqué à la visualisation d'applications parallèles de grande taille pour l'analyse de performance. Il permet de détecter les anomalies présentes à plusieurs niveaux de granularité dans les traces d'exécution et d'expliquer ces anomalies à partir des propriétés syntaxiques du système. Deuxièmement, le processus est appliqué à l'agrégation de données médiatiques pour l'analyse des relations internationales. L'agrégation géographique et temporelle de l'attention médiatique permet de définir des évènements macroscopiques pertinents sur le plan sémantique pour l'analyse du système international. Pour autant, nous pensons que l'approche et les outils présentés dans cette thèse peuvent être généralisés à de nombreux autres domaines d'application.
34

Chebbo, Manal. "SIMULATION FINE D'OPTIQUE ADAPTATIVE A TRES GRAND CHAMP POUR DES GRANDS ET FUTURS TRES GRANDS TELESCOPES." Phd thesis, Aix-Marseille Université, 2012. http://tel.archives-ouvertes.fr/tel-00742873.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La simulation fine de systèmes d'OA a grand champ de type MOAO, MCAO ou LTAO pour l'ELT se heurte a deux problématiques: L'augmentation du nombre de degrés de liberté du système (au carre du diamètre du télescope). Cette augmentation rend les codes de simulation classiques peu (ou pas) utilisables, en particulier en ce qui concerne les processus d'inversion et de calcul matriciel. Il faut donc envisager des approches d'inversion itératives d'un modèle direct y = A * x en s'appuyant sur les théories d'optimisation a base de matrices creuses. La complexite des systèmes, combinant des étoiles naturelles et laser, de grands miroirs déformables couvrant tous le champs et des miroirs dédiés dans les instruments eux memes, des rotations différentielles de pupille et ou de champs. Cette complexité conduit aux développements de procédures nouvelles d'étalonnages, de filtrages et fusion de données, de commandes distribuée ou globale. Ces procédures doivent être simulées finement, comparées et quantifiées en termes de performances, avant d'être implantées dans de futurs systèmes. Pour répondre a ces deux besoins. J'ai développé en, collaboration avec l'ONERA, un code de simulation complet base sur une approche de résolution itérative de systèmes linéaires a grand nombre de paramètres (utilisation de matrices creuses). Sur cette base, j'ai introduit de nouveaux concepts de filtrage et de fusion de données (étoiles laser et étoiles naturelles) pour gérer efficacement les modes de tip/tilt/defoc dans le processus complet de reconstruction tomographique. Ce code permettra aussi, a terme, de développer et tester des lois de commandes complexes (multi-DM et multi-champs) ayant a gérer la combinaison du télescope adaptatif et d'instrument post-focaux comportant eux aussi des miroirs déformables dédiés. La première application de cet outil s'est faite naturellement dans le cadre du projet de spectrographe multi-objets EAGLE, un des instruments phares du futur E-ELT, qui, du point de vue de l'optique adaptative combinera l'ensemble de ces problématiques.
35

Longueville, Véronique. "Modélisation, calcul et évaluation de liens pour la navigation dans les grands ensembles d'images fixes." Toulouse 3, 1993. http://www.theses.fr/1993TOU30149.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La conception et l'etude d'un systeme de recherche d'images peut se resumer a une double interrogation: comment optimiser l'acces a l'information pour repondre au mieux aux attentes des utilisateurs et comment evaluer les performances du systeme par rapport a ces attentes? dans ce contexte, cette these traite a la fois de la construction et de l'evaluation des graphes de connexion pour la navigation visuelle dans les grands ensembles d'images fixes. Pour un ensemble donne d'images, chaque sommet du graphe represente une image et les arcs reliant les sommets dans le graphe definissent l'ensemble des liens existants entre les images. Via une interface de parcours visuel dans le graphe adaptee, ce sont ces liens que les utilisateurs suivent lors de leurs recherches en naviguant d'image en image. Au-dela des outils de construction d'un graphe de liens dans un grand ensemble d'images, les apports principaux de cette these se situent: sur le plan des interfaces utilisateur: la notion de vues differentes sur un meme ensemble de liens permet a l'utilisateur de mettre en uvre differents types de parcours visuels; sur le plan de l'evaluation: plusieurs modeles d'utilisation d'un systeme de recherche de documents sont proposes et des protocoles et mesures d'evaluation leur sont associes. Les protocoles de test ont ete mis en uvre lors d'experimentations reelles par des utilisateurs, et les resultats correspondants sont presentes et discutes. On y trouve la confirmation de l'efficacite de la navigation visuelle pour l'exploration d'un ensemble d'images et la generalisation de selections preexistantes, mais aussi une meilleure quantification de ses limites pour la recherche finalisee d'une image ou d'un petit nombre d'images
36

Derriere, Sébastien. "Gestion de grands catalogues et application de relevés infrarouges à l'étude de la structure galactique." Université Louis Pasteur (Strasbourg) (1971-2008), 2001. http://www.theses.fr/2001STR13112.

Full text
APA, Harvard, Vancouver, ISO, and other styles
37

Legtchenko, Sergey. "Adaptation dynamique des architectures réparties pour jeux massivement multijoueurs." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00931865.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Durant la dernière décennie, Les jeux massivement multijoueurs (MMOGs) sont devenus extrêmement populaires et comptent désormais plus de 20 millions d'utilisateurs actifs à travers le monde. Les MMOGs sont des systèmes distribués ayant des contraintes applicatives fortes en terme de cohérence de données, persistance, réactivité et passage à l'échelle. L'évolution des besoins applicatifs du MMOG au cours du temps est difficilement prévisible car dépendante du comportement des joueurs dans le monde virtuel. C'est pourquoi, malgré un important effort de recherche dans le domaine, aucune des architectures proposées ne satisfait pleinement toutes les contraintes requises. Cette thèse explore les capacités des architectures distribuées à s'adapter à la charge applicative grâce à une prise en compte du comportement des joueurs lors de l'exécution. Le système est alors capable de détecter des évolutions qui sont difficiles à prévoir à priori, et dynamiquement allouer les ressources nécessaires à l'application. Nous décrivons différentes techniques de surveillance des joueurs et proposons des moyens de prendre en compte ces informations au niveau de l'architecture. Nos expériences, effectuées dans des conditions réalistes, montrent que nos mécanismes ont un surcoût limité et permettent d'améliorer les performances globales du système.
38

Roy-Pomerleau, Xavier. "Inférence d'interactions d'ordre supérieur et de complexes simpliciaux à partir de données de présence/absence." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/66994.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Malgré l’efficacité des réseaux pour représenter les systèmes complexes, de récents travaux ont montré que leur structure limite parfois le pouvoir explicatif des modèles théoriques, puisqu’elle n’encode que des relations par paire. Si une interaction plus complexe existe dans le système représenté, elle est automatiquement réduite à un groupe d’interactions par paire, c’est-à-dire d’ordre un. Il faut alors utiliser des structures qui prennent en compte les interactions d’ordre supérieur. Cependant, qu’elles soient ou non d’ordre supérieur, les interactions entre les éléments d’un système sont rarement explicites dans les jeux de données. C’est notamment le cas des données de présence/absence qui indiquent quelles espèces (animales, végétales ou autres) se retrouvent (ou non) sur un site d’observation sans indiquer les relations entre elles. L’objectif de ce mémoire est alors de développer une technique d’inférence pour dénicher les interactions d’ordre supérieur au sein de données de présence/absence. Ici, deux cadres théoriques sont explorés. Le premier est basé sur la comparaison entre la topologie des données, obtenue grâce à une hypothèse souple, et celle d’un ensemble aléatoire. Le second utilise plutôt les modèles log-linéaire et les tests d’hypothèses pour inférer les interactions une à une jusqu’à l’ordre désiré. Ce cadre a permis d’élaborer plusieurs méthodes d’inférence qui génèrent des complexes simpliciaux (ou des hypergraphes) qui peut être analysés grâce aux outils standards de la science des réseaux en plus de l’homologie. Afin de valider ces méthodes, nous avons développé un modèle génératif de données de présence/absence dans lesquelles les véritables interactions sont connues. Des résultats concrets ont également été obtenus pour des jeux de données réelles. Notamment, à partir de données de présence/absence d’oiseaux nicheurs du Québec, nous avons réussi à inférer des cooccurrences d’ordre deux.
Despite the effectiveness of networks to represent complex systems, recent work has shownthat their structure sometimes limits the explanatory power of the theoretical models, sinceit only encodes dyadic interactions. If a more complex interaction exists in the system, it isautomatically reduced to a group of pairwise interactions that are of the first order. We thusneed to use structures that can take higher-order interactions into account. However, whetherrelationships are of higher order or not is rarely explicit in real data sets. This is the case ofpresence/absence data, that only indicate which species (of animals, plants or others) can befound (or not) on a site without showing the interactions between them.The goal of this project is to develop an inference method to find higher-order interactionswithin presence/absence data. Here, two frameworks are examined. The first one is based onthe comparison of the topology of the data, obtained with a non-restrictive hypothesis, andthe topology of a random ensemble. The second one uses log-linear models and hypothesistesting to infer interactions one by one until the desired order. From this framework, we havedevelopped several inference methods to generate simplicial complexes (or hypergraphs) thatcan be studied with regular tools of network science as well as homology. In order to validatethese methods, we have developed a generative model of presence/absence data in which thetrue interactions are known. Results have also been obtained on real data sets. For instance,from presence/absence data of nesting birds in Québec, we were able to infer co-occurrencesof order two
39

Maillet, Nicolas. "Comparaison de novo de données de séquençage issues de très grands échantillons métagénomiques : application sur le projet Tara Oceans." Phd thesis, Université Rennes 1, 2013. http://tel.archives-ouvertes.fr/tel-00941922.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La métagénomique vise à étudier le contenu génétique et génomique d'un échantillon provenant d'un environnement naturel. Cette discipline récente s'attache à étudier les génomes de différents organismes provenant d'un même milieu. La métagénomique pose de nouvelles questions, tant d'un point de vue biologique qu'informatique. Les masses de données générées par les études métagénomiques et la complexité des milieux étudiés, nécessitent de développer de nouvelles structures de données et de nouveaux algorithmes dédiés. Parmi les différentes approches existantes en métagénomique, la métagénomique comparative consiste à comparer plusieurs métagénomes afin d'en connaître les divers degrés de similarité. Lorsque cette comparaison se base uniquement sur le contenu brut des échantillons, sans faire appel à des connaissances externes, on parle de métagénomique comparative de novo. L'objectif des travaux que nous proposons est de développer une méthode permettant d'extraire les séquences similaires de deux jeux de données métagénomiques, où chaque jeu peut être composé de centaines de millions de courtes séquences. La comparaison proposée consiste à identifier les séquences d'un premier jeu similaires à au moins une séquence d'un second jeu. Afin d'être rapide et économe en mémoire, l'implémentation de notre méthode a nécessité la conception d'une nouvelle structure d'indexation, basée sur le filtre de bloom. Le logiciel final, nommé Compareads, a une consommation mémoire faible (de l'ordre de quelques go) et peut calculer l'intersection de deux échantillons de 100 millions de séquences chacun en une dizaine d'heures. Notre méthode est une heuristique qui génère un faible taux de faux positifs. Le logiciel Compareads est dédié à l'analyse de grands jeux de données métagénomiques. À l'heure actuelle, il est le seul outil capable de comparer de tels jeux. Compareads a été appliqué sur plusieurs projets métagénomiques. Notre outil produit des résultats robustes, biologiquement exploitables et en accord avec diverses méthodes fondamentalement différentes. Il est actuellement utilisé de manière intensive sur les échantillons provenant de l'expédition tara oceans. Sur ce projet, notre méthode à permis de mettre en évidence que les grands systèmes océaniques influent sur la répartition globale des micro-organismes marins.
40

Stoica, Beck Alina. "Analyse de la structure locale des grands réseaux sociaux." Phd thesis, Université Paris-Diderot - Paris VII, 2010. http://tel.archives-ouvertes.fr/tel-00987880.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le principal but de notre recherche a été de caractériser les individus connectés dans un réseau social en analysant la structure locale du réseau. Pour cela, nous avons proposé une méthode qui décrit la façon dont un noeud (correspondant à un individu) est intégré dans le réseau. Notre méthode est liée à l'analyse de réseaux égocentrés en sociologie et à l'approche locale dans l'étude des grands graphes de terrain. Elle peut être appliquée à des petits réseaux, à des fractions de réseaux et aussi à des grands réseaux, grâce à sa petite complexité. Nous avons appliqué la méthode proposée à deux grands réseaux sociaux, un modélisant des activités enligne sur MySpace, l'autre modélisant des communications par téléphone mobile. Dans le premier cas nous nous sommes intéressés à l'analyse de la popularité enligne des artistes sur MySpace. Dans le deuxième cas, nous avons proposé et avons utilisé une méthode pour regrouper les noeuds qui sont connectés au réseau de façon similaire. Nous avons constaté que la distribution des utilisateurs de téléphone mobile dans des groupes était corrélée à d'autres caractéristiques des individus (intensité de communication et 'âge). Bien que dans cette thèse nous ayons appliqué les deux méthodes seulement aux réseaux sociaux, elles peuvent être appliquées de la même manière à tout autre graphe, peu importe son origine.
41

Semboloni, Elisabetta. "Mesure et interprétation du cisaillement cosmologique." Paris 6, 2006. https://tel.archives-ouvertes.fr/tel-00114489.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’analyse du cisaillement cosmologique est aujourd’hui un puissant moyen d’étude des propriétés du spectre de la matière noire. On a aussi montré que l’approche tomographique permet de contraindre l’équation d’état de l’énergie sombre. Aujourd’hui, des relevés de galaxies de plus en plus vastes et profonds permettent d’analyser le cisaillement et de contraindre les paramètres cosmologiques avec une précision encore jamais atteinte. Parallèlement, il est nécessaire d’affiner les méthodes d’extraction du signal tout en contrôlant le biais qui pourrait conduire à une interprétation erronée. Le sujet de cette thèse s’inscrit dans ce contexte scientifique. On y décrit la méthode d’extraction du signal, ensuite appliquée aux données des relevés CFHTLS Wide et Deep. Les résultats de l’analyse montrent le potentiel prometteur de cette génération de relevés. D’autres aspects liés à l’interprétation du signal mesuré et aux différents types de biais susceptibles de l’affecter sont abordés.
42

Conde, Cespedes Patricia. "Modélisations et extensions du formalisme de l'analyse relationnelle mathématique à la modularisation des grands graphes." Paris 6, 2013. http://www.theses.fr/2013PA066654.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Un graphe étant un ensemble d'objets liés par une certaine relation typée, le problème de "modularisation" des grands graphes (qui revient à leur partitionnement en classes) peut, alors, être modélisé mathématiquement en utilisant l'Analyse Relationnelle. Cette modélisation permet de comparer sur les mêmes bases un certain nombre de critères de découpage de graphe c'est-à-dire de modularisation. Nous proposons une réécriture Relationnelle des critères de modularisation connus tels le critère de Newman-Girvan, Zahn-Condorcet, Owsinski-Zadrozny, Condorcet pondéré, Demaine-Immorlica, Wei-Cheng, la Différence de profils et Michalski-Goldberg. Nous introduisons trois critères : la Modularité équilibrée, l'écart à l'Indétermination et l'écart à l'Uniformité. Nous identifions les propriétés vérifiées par ces critères et pour certains critères, notamment les critères linéaires, nous caractérisons les partitions obtenues via leur optimisation dans le but de faciliter leur compréhension et d'interpréter plus clairement leurs finalités en y associant la preuve de leur utilité dans certains contextes pratiques. Les résultats trouvés sont testés sur des graphes réels de tailles différentes avec l'algorithme de Louvain générique
Graphs are the mathematical representation of networks. Since a graph is a special type of binary relation, graph clustering (or modularization), can be mathematically modelled using the Mathematical Relational analysis. This modelling allows to compare numerous graph clustering criteria on the same type of formal representation. We give through a relational coding, the way of comparing different modularization criteria such as: Newman-Girvan, Zahn-Condorcet, Owsinski-Zadrozny, Demaine-Immorlica, Wei-Cheng, Profile Difference et Michalski-Goldberg. We introduce three modularization criteria: the Balanced Modularity, the deviation to Indetermination and the deviation to Uniformity. We identify the properties verified by those criteria and for some of those criteria, specially linear criteria, we characterize the partitions obtained by the optimization of these criteria. The final goal is to facilitate their understanding and their usefulness in some practical contexts, where their purposes become easily interpretable and understandable. Our results are tested by modularizing real networks of different sizes with the generalized Louvain algorithm
43

Sridhar, Srivatsan. "Analyse statistique de la distribution des amas de galaxies à partir des grands relevés de la nouvelle génération." Thesis, Université Côte d'Azur (ComUE), 2016. http://www.theses.fr/2016AZUR4152/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objectif de cette thèse est d'étudier la possibilité de construire la fonction de corrélation à 2 points des amas de galaxies détectés dans les grands relevés optiques de galaxies. En particulier j’étudie l’impact de décalages vers le rouge dégradés car dérivés de données photométriques seules comme cela sera le cas pour les grands relevés à venir. J’ai utilisé des sous-échantillons d’amas sélectionnés dans les catalogues simulés. Les décalages vers le rouge des amas sont modélisés à partir des décalages exacts auxquels sont rajoutés un brui gaussien d’écart type σ (z=0) = 0.005 à 0.050. La fonction de corrélation dans l’espace direct est calculées par une méthode de déprojection. L’étude a été menée sur 4 intervalles de masse et 6 de redshift couvrant le domaine 0N200) est similaire à Σ(>masse), ainsi que la fonction de biais qui peut être reproduite à 1σ près
I aim to study to which accuracy it is actually possible to recover the real-space to-point correlation function from cluster catalogues based on photometric redshifts. I make use of cluster sub-samples selected from a light-cone simulated catalogue. Photometric redshifts are assigned to each cluster by randomly extracting from a Gaussian distribution having a dispersion varied in the range σ (z=0) = 0.005 à 0.050. The correlation function in real-space is computed through deprojection method. Four masse ranges and six redshifts slices covering the redshift range 0
44

Lavallard, Anne. "Exploration interactive d'archives de forums : Le cas des jeux de rôle en ligne." Phd thesis, Université de Caen, 2008. http://tel.archives-ouvertes.fr/tel-00292617.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les forums sont des espaces de communication très utilisés sur Internet : publicset asynchrones, ils offrent une place pour exposer différents points de vue et alimenter les dé-bats ; permanents, ils gardent trace des activités passées. Leurs archives constituent une mined'informations pour la communauté qui a animé le forum ou pour des chercheurs. Elles sontsous-exploitées car la lecture à posteriori en est fastidieuse. La cohérence temporelle perdue, lecontexte de lecture est dificile à reconstituer sans une bonne connaissance préalable de l'his-toire du forum. Face au constat que les interfaces de lecture actuelles des forums, bien adaptéesà l'usage en temps réel, sont inadaptées à l'exploration des archives, nous proposons d'autresmodes de présentation. Le premier mode fait appel à des analyses statistiques sur la participa-tion au forum. Le deuxième mode propose des analyses textuelles sur le contenu des messages.La comparaison interne du lexique sans ressources externes permet des analyses robustes. L'in-teractivité avec le lecteur lui permet d'ajuster progressivement les paramètres de présentationet les ressources spécifiques pour mieux appréhender le contexte de lecture. La plate-forme Fo-rumExplor nous a permis de mettre en oeuvre ces nouvelles présentations, et de les évaluer enfonction de divers objectifs de lecture dans le contexte des jeux de rôle en ligne. D'autres expé-rimentations dans le cadre d'études de listes de diffusion d'enseignants montrent la portée et lecaractère générique d'un tel outil.
45

Campigotto, Romain. "Algorithmes d'approximation à mémoire limitée pour le traitement de grands graphes : le problème du Vertex Cover." Phd thesis, Université d'Evry-Val d'Essonne, 2011. http://tel.archives-ouvertes.fr/tel-00677774.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous nous sommes intéressés à un problème d'optimisation sur des graphes (le Vertex Cover) dans un contexte de traitement bien particulier : celui des grandes instances de données. Nous avons défini pour cela un modèle de traitement basé sur des contraintes liées principalement à la quantité de mémoire limitée, modèle qui reprenait des propriétés issues de plusieurs modèles existants dans la littérature (online, streaming...). Nous avons étudié plusieurs algorithmes adaptés à ce modèle : nous avons analysé, tout d'abord de façon théorique, la qualité de leurs solutions ainsi que leurs complexités (en pire cas et en moyenne). Nous avons ensuite mené une étude expérimentale sur de très gros graphes.
46

Fender, Alexandre. "Solutions parallèles pour les grands problèmes de valeurs propres issus de l'analyse de graphe." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV069/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les graphes, ou réseaux, sont des structures mathématiques représentant des relations entre des éléments. Ces systèmes peuvent être analysés dans le but d’extraire des informations sur la structure globale ou sur des composants individuels. L'analyse de graphe conduit souvent à des problèmes hautement complexes à résoudre. À grande échelle, le coût de calcul de la solution exacte est prohibitif. Heureusement, il est possible d’utiliser des méthodes d’approximations itératives pour parvenir à des estimations précises. Lesméthodes historiques adaptées à un petit nombre de variables ne conviennent pas aux matrices creuses de grande taille provenant des graphes. Par conséquent, la conception de solveurs fiables, évolutifs, et efficaces demeure un problème essentiel. L’émergence d'architectures parallèles telles que le GPU ouvre également de nouvelles perspectives avec des progrès concernant à la fois la puissance de calcul et l'efficacité énergétique. Nos travaux ciblent la résolution de problèmes de valeurs propres de grande taille provenant des méthodes d’analyse de graphe dans le but d'utiliser efficacement les architectures parallèles. Nous présentons le domaine de l'analyse spectrale de grands réseaux puis proposons de nouveaux algorithmes et implémentations parallèles. Les résultats expérimentaux indiquent des améliorations conséquentes dans des applications réelles comme la détection de communautés et les indicateurs de popularité
Graphs, or networks, are mathematical structures to represent relations between elements. These systems can be analyzed to extract information upon the comprehensive structure or the nature of individual components. The analysis of networks often results in problems of high complexity. At large scale, the exact solution is prohibitively expensive to compute. Fortunately, this is an area where iterative approximation methods can be employed to find accurate estimations. Historical methods suitable for a small number of variables could not scale to large and sparse matrices arising in graph applications. Therefore, the design of scalable and efficient solvers remains an essential problem. Simultaneously, the emergence of parallel architecture such as GPU revealed remarkable ameliorations regarding performances and power efficiency. In this dissertation, we focus on solving large eigenvalue problems a rising in network analytics with the goal of efficiently utilizing parallel architectures. We revisit the spectral graph analysis theory and propose novel parallel algorithms and implementations. Experimental results indicate improvements on real and large applications in the context of ranking and clustering problems
47

Lelu, Alain. "Modeles neuronaux pour l'analyse de donnees documentaires et textuelles : organiser de très grands tableaux de données qualitatives en pôles et zones d'influence." Paris 6, 1993. http://www.theses.fr/1993PA066148.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Nous exposons une nouvelle representation graphique de tres grands ensembles de donnees documentaires (et textuelles, apres normalisation), ainsi que deux algorithmes pour l'extraire automatiquement des donnees. Nous presentons en premier lieu des arguments en faveur de cette representation par poles et zones d'influences floues et recouvrantes: elle permet d'abord de realiser une interface de navigation dans les bases documentaires, c'est-a-dire un hypertexte avec generation automatique des liens (constitue d'une carte globale des themes presents dans les donnees, et d'axes locaux de defilement pour les documents et termes caracteristiques de chaque theme). Cette approche peut aussi servir de base a des analyses scientometriques et bibliometriques, et ouvre des perspectives sur les processus cognitifs de categorisation. Nous presentons ensuite notre algorithme des k-means axiales, derive de l'algorithme de classification automatique k-means, puis notre algorithme d'analyse en composantes locales, consistant a reperer l'ensemble des optimas d'une fonction locale de densite. Ces algorithmes de suivi de gradient peuvent s'interpreter comme des lois d'apprentissage de reseaux neuronaux. Des ponts sont etablis avec l'analyse des correspondances. Un exemple de traitement d'une base documentaire reelle est detaille, ainsi qu'une maquette d'interface utilisateur sous hypercard. Enfin nous passons en revue un ensemble de methodes voisines dans les domaines de l'analyse des donnees et des reseaux neuronaux, que ce soit du point de vue de la representation obtenue, du processus d'optimisation utilise, ou de la prise en compte de la notion de localite
48

Hénon, Pascal. "Distribution des données et régulation statique des calculs et des communications pour la résolution de grands systèmes linéaires creux par méthode directe." Bordeaux 1, 2001. http://www.theses.fr/2001BOR12432.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La résolution par méthode directe de grands systèmes linéaires creux symétriques définis positifs est une étape cruciale très coûteuse en temps et en mémoire pour beaucoup d'applications scientifiques et industrielles. Dans cette thèse, nous considérons le problème du partitionnement en blocs et de l'ordonnancement des calculs pour un algorithme de factorisation parallèle sans pivotage dynamique. Nous nous intéressons plus particulièrement à l'extensibilité du solveur parallèle et au compromis entre le coût mémoire et l'efficacité en temps. Nous validons cette étude par des expérimentations parallèles sur un nombre important de problèmes industriels irréguliers de grande taille.
49

Bereau, Philippe. "Traitements informatiques de l'information formelle et informelle pour l'aide à la veille technologique et à la planification stratégique des petites et moyennes entreprises et des grands groupes industriels." Aix-Marseille 3, 1999. http://www.theses.fr/1999AIX3A001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'environnement concurrentiel de la fin du xx eme siecle entraine la necessite pour les entreprises modernes de realiser une veille systematique. L'hypercompetition impose aux etats de contribuer a l'information des entreprises. Une veille technologique bien organisee et une bonne strategie d'innovation peuvent donner un avantage competitif a des petites et moyennes entreprises. Ces memes strategies associees a l'intelligence economique peuvent renforcer egalement les plus grands groupes industriels. Dans un environnement industriel de plus en plus competitif, les entreprises doivent constamment innover pour gagner. Les mutations se font plus rapides. Une societe ayant un nouveau produit qui se vend tres bien se trouvera face a un marche stagnant au bout de trois ans si elle ne continue pas d'alimenter le marche avec de nouveaux produits. La plupart des nouvelles inventions d'aujourd'hui sont creees par des societes jeunes de petite et moyenne taille, innovantes et aggressives avec un management de type entrepreneurial. Et le resultat est que ces organisations croissent plus vite et creent la plupart des nouveaux emplois. C'est la ou se situe la future croissance de la france. Beaucoup de ces societes seront au service des industries technologiques. Pour stimuler l'innovation, l'importance de la communication se revele alors primordiale. De meme, un traitement systematique des informations scientifiques et techniques se revele crucial. Pour cela, nous avons mis en place une nouvelle methode de traitement des informations informelles, appelee analyse statistique synergetique. Cette methodologie nouvelle de collecte, de stockage, de traitement et d'analyse de l'information a pour but d'apporter un avantage competitif supplementaire aux entreprises les plus innovantes.
50

Teyssière, Gilles. "Processus d'appariements sur le marché du travail : une étude à partir de données d'une agence locale de l'ANPE." Aix-Marseille 2, 1991. http://www.theses.fr/1991AIX24001.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'objet de cette thèse est la détermination des éléments explicatifs de la décision d'un employeur d'embaucher un travailleur rencontré par le biais de l'agence nationale pour l'emploi. Le cadre théorique utilisé pour cette étude est constitué par les modèles d'appariement. Ces modèles expliquent le salaire reçu par le demandeur d'emploi en fonction de sa productivité (ou de son niveau d'études) et des possibilités de rencontres alternatives des deux agents. Nous adaptons ce cadre théorique aux observations de rencontre dont nous disposons, et nous expliquons la probabilité qu'un demandeur soit embauché à l'aide d'un modèle Logit emboîté. Les variables explicatives de ce modèle sont constituées par les caractéristiques individuelles du demandeur d'emploi (telles l'âge, le sexe, la situation de famille, le niveau d'études, son passé sur le marché du travail. . . ) Et les caractéristiques du poste de travail offert (telles le type de contrat offert, le salaire proposé. . . ) Et les possibilités de rencontres alternatives de l'employeur. Parallèlement, nous expliquons, à l'aide de modèle de survie, le comportement d'embauche de l'employeur. Ces résultats d'estimation nous permettent d'observer l'existence d'une segmentation du marché du travail sur la base du niveau d'études des demandeurs d'emploi. Un demandeur d'emploi est embauché si son niveau d'études est supérieur à un niveau fixé par l'employeur
The purpose of this thesis is to determine the explicative elements of employer's hiring decision when he meets a worker through the national agency for employment. We use for this study a theoretical framework constituted by matching models. These models explain the level of wage that receive the worker by this labour productivity (or his level of education) and the alternative meeting opportunities of the two agents. We adapt these models to a sample of observed meetings and we explain the worker's hiring probability with a nested Logit model. We use for explicative variables the individual characteristics of the worker (like age, sex, marital status, level of education, his past situation in the labour market. . . ), the characteristics of the vacancies (like type of labour contract, offered wage. . . ) And the employer's alternative meeting opportunities. . . Moreover, we explain the employers hiring behaviour throughout time with survival models. We can observe from the estimation results a segmentation in the labor market on the basis of worker's level of education. A worker is hired only if his level of education is greater than a level fixed by the employer

To the bibliography