To see the other types of publications on this topic, follow the link: Science des données chirurgicales.

Dissertations / Theses on the topic 'Science des données chirurgicales'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Science des données chirurgicales.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Derathé, Arthur. "Modélisation de la qualité de gestes chirurgicaux laparoscopiques." Thesis, Université Grenoble Alpes, 2020. https://thares.univ-grenoble-alpes.fr/2020GRALS021.pdf.

Full text
Abstract:
La chirurgie laparoscopique est une pratique de plus en plus communément utilisée dans différentes spécialités chirurgicales, du fait des grands avantages pour le patient en termes de complications et de temps d’hospitalisation. En revanche, cette pratique est très différente de la chirurgie dite « ouverte », et présente ses propres difficultés, notamment dans la manipulation des instruments chirurgicaux, et la maîtrise de l’espace opératoire. Une meilleure compréhension du geste chirurgical en laparoscopie permettrait d’améliorer les outils utilisés pour la formation des jeunes chirurgiens.L’objectif de ce travail était de développer et valider une méthode visant à expliquer certains aspects clés de la pratique du geste chirurgical en termes cliniques, à partir d’une approche algorithmique. La compréhension du contexte clinique de cette thèse étant essentielle, un important travail d’explicitation et de formalisation des connaissances du chirurgien a été effectué. La deuxième partie de ce travail a consisté à développer une méthode algorithmique visant à prédire la qualité du geste chirurgical et le chirurgien pratiquant. Enfin à travers l’analyse de données décrivant la qualité et la pratique du geste chirurgical, nous avons étudié et validé la pertinence clinique de nouveaux éléments de connaissances cliniques.Nous avons travaillé sur une cohorte de 30 patients opérés par gastrectomie longitudinale au sein du département de chirurgie digestive du CHU de Grenoble. Cette technique chirurgicale est aujourd’hui communément utilisé pour traiter les patients atteints d’obésité morbide ou accompagné de comorbidités. Grâce à une réflexion commune avec notre partenaire chirurgien, nous avons pu formaliser les notions importantes de cette procédure chirurgicale. Pour chacune des chirurgies de la cohorte, nous avons effectué trois annotations distinctes : une annotation de la procédure et des actions des mains du chirurgien, une évaluation de la qualité d’exposition de la scène chirurgicale à chaque geste de dissection effectué par le chirurgien, et enfin la segmentation complète de l’image associée à chacun des gestes de dissection évalués. L’annotation de la procédure et la segmentation ont rendu possible l’extraction de métriques caractéristiques du geste et de la scène chirurgicale.Ensuite, nous avons développé un algorithme dont l’objectif était la prédiction de la qualité d’exposition à partir des métriques. Nous avons également développé un environnement dédié à l’optimisation des hyper-paramètres de notre algorithme pour maximiser les performances en prédiction. L’intérêt de cet environnement était notamment de gérer les spécificités de notre jeu de données.Dans un troisième temps, nous avons mis en place une méthode permettant de confronter l’analyse algorithmique quantitative de nos données à l’expertise clinique des chirurgiens ayant effectué les chirurgies. Pour ce faire, nous avons d’abord extrait les variables les plus importantes pour notre tâche de prédiction. Puis nous avons traduit l’information portée par ces variables sous forme d’énoncés présentant une signification clinique. Enfin nous avons extrait des échantillons vidéos représentatifs de chacun de ces énoncés. A partir de ces énoncés accompagnés de leurs échantillons vidéos, nous avons pu construire un questionnaire de validation, et le présenter à nos partenaires chirurgiens. Nous avons ainsi mené une validation clinique visant à recueillir leur avis quant à la pertinence clinique de notre approche.Nous avons donc proposé une méthode d'analyse quantitative explicitant le lien entre des observations visuelles et temporelles et des critères cliniques relatifs à des chirurgies laparoscopiques. Une meilleure compréhension de ces liens permettrait, à terme, de proposer des systèmes d'aide à la formation des chirurgiens sur cette pratique complexe.hick up
Sous cœlioscopie, le traitement chirurgical permet une meilleure prise en charge du patient, et sa pratique est de plus en plus fréquente en routine clinique. Cette pratique présente néanmoins ses difficultés propres pour le chirurgien, et nécessite une formation prolongée pendant l’internat et en post-internat. Pour faciliter cette formation, il est notamment possible de développer des outils d’évaluation et d’analyse de la pratique chirurgicale.Dans cette optique, l’objectif de ce travail de thèse est d’étudier la faisabilité d’une méthodologie proposant, à partir d’un traitement algorithmique, des analyses à portée clinique pertinente pour le chirurgien. J’ai donc traité les problèmes suivants : Il m’a fallu recueillir et annoter un jeu de données, implémenter un environnement d’apprentissage dédié à la prédiction d’un aspect spécifique de la pratique chirurgicale, et proposer une approche permettant de traduire mes résultats algorithmiques sous une forme pertinente pour le chirurgien. Dès que cela était possible, nous avons cherché à valider ces différentes étapes de la méthodologie
APA, Harvard, Vancouver, ISO, and other styles
2

Feghoul, Kevin. "Deep learning for simulation in healthcare : Application to affective computing and surgical data science." Electronic Thesis or Diss., Université de Lille (2022-....), 2024. http://www.theses.fr/2024ULILS033.

Full text
Abstract:
Dans cette thèse, nous abordons diverses tâches dans les domaines de l’informatique affective et de la science des données chirurgicales qui ont le potentiel d’améliorer la simulation médicale. Plus précisément, nous nous concentrons sur quatre défis clés : la détection du stress, la reconnaissance des émotions, l’évaluation des compétences chirurgicales et la reconnaissance des gestes chirurgicaux. La simulation est devenue un élément important de la formation médicale, offrant aux étudiants la possibilité d’acquérir de l’expérience et de perfectionner leurs compétences dans un environnement sûr et contrôlé. Cependant,malgré des avancées significatives, la formation basée sur la simulation fait encore face à d’importants défis qui limitent son plein potentiel. Parmi ces défis figurent la garantie de scénarios réalistes, la prise en compte des variations individuelles dans les réponses émotionnelles des apprenants, et, pour certains types de simulations, comme les simulations chirurgicales, l’évaluation objective des performances. Intégrer le suivi des états cognitifs,des niveaux de stress et des états émotionnels des étudiants en médecine, ainsi que l’incorporation d’outils fournissant des retours objectifs et personnalisés, en particulier pour les simulations chirurgicales, pourrait aider à pallier ces limitations. Ces dernières années, l’apprentissage profond a révolutionné notre façon de résoudre des problèmes complexes dans diverses disciplines, entraînant des avancées significatives en informatique affective et en science des données chirurgicales. Cependant, plusieurs défis spécifiques à ces domaines subsistent. En informatique affective, la reconnaissance automatique du stress et des émotions est difficile en raison des problèmes de définition de ces états et de la variabilité de leur expression chez les individus. De plus, la nature multimodale de l’expression du stress et des émotions ajoute une couche de complexité supplémentaire, car l’intégration efficace de sources de données diverses demeure un défi majeur. En science des données chirurgicales, la variabilité des techniques chirurgicales entre les praticiens, la nature dynamique des environnements chirurgicaux, et l’intégration de plusieurs modalités soulignent les difficultés pour l’évaluation automatique des compétences chirurgicales et la reconnaissance des gestes. La première partie de cette thèse propose un nouveau cadre de fusion multimodale basé sur le Transformer pour la détection du stress, en exploitant plusieurs techniques de fusion. Ce cadre intègre des signaux physiologiques provenant de deux capteurs,chaque capteur étant traité comme une modalité distincte. Pour la reconnaissance des émotions, nous proposons une approche multimodale innovante utilisant un réseau de neurones convolutifs sur graphes (GCN) pour fusionner efficacement les représentations intermédiaires de plusieurs modalités, extraites à l’aide de Transformer encoders unimodaux. Dans la deuxième partie de cette thèse, nous introduisons un nouveau cadre d’apprentissage profond qui combine un GCN avec un Transformer encoder pour l’évaluation des compétences chirurgicales, en exploitant des séquences de données de squelettes de mains.Nous évaluons notre approche en utilisant des données issues de deux tâches de simulation chirurgicale que nous avons collectées. Nous proposons également un nouveau cadre multimodal basé sur le Transformer pour la reconnaissance des gestes chirurgicaux, intégrant un module itératif de raffinement multimodal afin d’améliorer la fusion des informations complémentaires entre différentes modalités. Pour pallier les limitations des ensembles de données existants en reconnaissance des gestes chirurgicaux, nous avons collecté deux nouveaux ensembles de données spécifiquement conçus pour cette tâche, sur lesquels nous avons effectué des benchmarks unimodaux et multimodaux pour le premier ensemble de données et des benchmarks unimodaux pour le second
In this thesis, we address various tasks within the fields of affective computing and surgicaldata science that have the potential to enhance medical simulation. Specifically, we focuson four key challenges: stress detection, emotion recognition, surgical skill assessment, andsurgical gesture recognition. Simulation has become a crucial component of medical training,offering students the opportunity to gain experience and refine their skills in a safe, controlledenvironment. However, despite significant advancements, simulation-based trainingstill faces important challenges that limit its full potential. Some of these challengesinclude ensuring realistic scenarios, addressing individual variations in learners’ emotionalresponses, and, for certain types of simulations, such as surgical simulation, providing objectiveassessments. Integrating the monitoring of medical students’ cognitive states, stresslevels and emotional states, along with incorporating tools that provide objective and personalizedfeedback, especially for surgical simulations, could help address these limitations.In recent years, deep learning has revolutionized the waywe solve complex problems acrossvarious disciplines, leading to significant advancements in affective computing and surgicaldata science. However, several domain-specific challenges remain. In affective computing,automatically recognizing stress and emotions is challenging due to difficulties in definingthese states and the variability in their expression across individuals. Furthermore, themultimodal nature of stress and emotion expression introduces another layer of complexity,as effectively integrating diverse data sources remains a significant challenge. In surgicaldata science, the variability in surgical techniques across practitioners, the dynamic natureof surgical environments, and the challenge of effectively integrating multiple modalitieshighlight ongoing challenges in surgical skill assessment and gesture recognition. The firstpart of this thesis introduces a novel Transformer-based multimodal framework for stressdetection that leverages multiple fusion techniques. This framework integrates physiologicalsignals from two sensors, with each sensor’s data treated as a distinct modality. Foremotion recognition, we propose a novel multimodal approach that employs a Graph ConvolutionalNetwork (GCN) to effectively fuse intermediate representations from multiplemodalities, extracted using unimodal Transformer encoders. In the second part of this thesis,we introduce a new deep learning framework that combines a GCN with a Transformerencoder for surgical skill assessment, leveraging sequences of hand skeleton data. We evaluateour approach using two surgical simulation tasks that we have collected. Additionally,we propose a novel Transformer-based multimodal framework for surgical gesture recognitionthat incorporates an iterative multimodal refinement module to enhance the fusionof complementary information from different modalities. To address existing dataset limitationsin surgical gesture recognition, we collected two new datasets specifically designedfor this task, on which we conducted unimodal and multimodal benchmarks for the firstdataset and unimodal benchmarks for the second
APA, Harvard, Vancouver, ISO, and other styles
3

Dorval, Valérie. "Planification des activités chirurgicales sous contrainte de capacité." Thesis, Valenciennes, Université Polytechnique Hauts-de-France, 2019. http://www.theses.fr/2019UPHF0004.

Full text
Abstract:
Les services de chirurgies sont confrontés à des difficultés à répondre à la demande et les patients font face à de longues listes d’attente avant d’être traités. Afin d’améliorer les services, des délais maximums à respecter ont été mis en place pour certains types de chirurgie, ajoutant toutefois une contrainte au système surchargé. Finalement, l’annulation de chirurgies pour cause de manque de lits aux soins intensifs et sur les unités de soins est considérée comme assez fréquente, causant un goulot d’étranglement dans le flux de patients. Dans ce contexte, l’objectif de cette thèse est de proposer et de valider une procédure de planification des activités chirurgicales tenant compte de la capacité dans les unités de soins post-opératoires, dans le but d’améliorer l’utilisation des lits d’hospitalisation et ainsi d’augmenter le flux de patients dans le système. Cette thèse propose un outil d’aide à la décision pour formaliser le processus de planification des activités chirurgicales au niveau tactique/opérationnel et permettant de tenir compte de la disponibilité des lits d’hospitalisation et de la variabilité de la durée de séjour des patients, en fonction de différents facteurs. Cet outil tient compte du fonctionnement actuel du système et du contexte l’entourant en vue d’assurer la faisabilité de la mise en oeuvre. Dans un premier temps, un modèle de prédiction de la durée de séjour des patients est conçu en combinant une méthode de classification des données, soit les arbres de classification et de régression, avec une méthode permettant l’estimation de la distribution des données, les distributions phase-type. Une étape de validation permettra de comparer les résultats du modèle aux données empiriques. En second lieu, un outil de planification des activités chirurgicales est développé en utilisant la programmation linéaire en nombres entiers et en y incorporant la composante « durée de séjour des patients » dans le but de contrôler l’occupation des lits d’hospitalisation en plus de l’occupation des salles de chirurgies. Finalement, un simulateur est développé et utilisé pour permettre d’évaluer différentes stratégies et critères d’ordonnancement des activités en plus de tenir compte de la variabilité inhérente au problème. À ce niveau il est possible d’intégrer le modèle de prévision des durées de séjour développé en début de projet
Surgical services face difficulties in meeting demand and patients face long waiting lists for treatment. In order to improve services, maximum deadlines have been set for certain types of surgery, but this adds a constraint to the already overloaded system. Finally, the cancellation of surgeries due to a lack of beds in intensive care and on care units is considered quite frequent, causing a bottleneck in the patient flow. In this context, the objective of this thesis is to propose and validate a surgical activity planning procedure that takes into account capacity in post-operative care units, with the aim of improving the use of hospital beds and thus increasing patient flow in the system. This thesis proposes a decision support tool to formalize the surgical activity planning process at the tactical/operational level and to take into account the availability of hospital beds and the variability in patients' length of stay according to different factors. This tool takes into account the current functioning of the system and the context surrounding it in order to ensure the feasibility of implementation. First, a model for predicting the length of patients' stay is designed by combining a data classification method, classification and regression tree theory, with a method for estimating the data distribution, phase-type distributions. A validation step will compare the model results with empirical data. Second, a surgical activity planning tool is being developed using integer linear programming and incorporating the "length of stay" component to control hospital bed occupancy in addition to surgical room occupancy. Finally, a simulator is developed and used to evaluate different strategies and criteria for scheduling activities and to take into account the inherent variability of the problem. At this point, it is possible to integrate the model for predicting the length of stay developed at the beginning of the project
APA, Harvard, Vancouver, ISO, and other styles
4

Picinbono, Guillaume. "Modèles géométriques et physiques pour la simulation d'interventions chirurgicales." Phd thesis, Université de Nice Sophia-Antipolis, 2001. http://tel.archives-ouvertes.fr/tel-00633965.

Full text
Abstract:
Dans cette thèse, nous proposons un ensemble d'outils nécessaires à l'élaboration d'un simulateur de chirurgie. Dans un premier temps, nous définissons plusieurs modèles déformables physiques temps réels permettant de simuler les déformations et la découpe d'organes du corps humain. Ces modèles s'appuient sur la théorie de l'élasticité et la méthode des éléments finis. Nous avons tout d'abord travaillé sur l'enrichissement du modèle élastique linéaire en le généralisant au cas des matériaux dont le comportement est anisotrope, soit en raison de la présence de fibres (muscles, tendons), soit parce qu'ils sont entourés d'une peau (capsule de Glisson pour le foie). Cependant, la principale limitation de l'élasticité linéaire est de n'être valable que dans l'hypothèse de petits déplacements. Nous proposons donc un nouveau modèle déformable mettant en oeuvre l'élasticité non-linéaire de St Venant-Kirchhoff, qui reste valable pour les grands déplacements. Après avoir étendu ce modèle aux matériaux anisotropes, nous proposons plusieurs méthodes d'optimisation des calculs, soit en utilisant un algorithme adaptatif qui combine les modèles linéaires et non-linéaires, soit à partir d'une nouvelle formulation. La seconde partie de ces travaux porte sur la simulation des interactions entre les instruments chirurgicaux et les organes virtuels. Pour cela, nous avons modélisé les contacts, ainsi que certaines actions spécifiques comme le glissement, la préhension et la découpe. De plus, nous nous sommes intéressés aux problèmes liés à l'utilisation d'interfaces à retour d'effort.
APA, Harvard, Vancouver, ISO, and other styles
5

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Full text
Abstract:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
APA, Harvard, Vancouver, ISO, and other styles
6

Padoy, Nicolas. "Modélisation des Activités Chirurgicales et de leur Déroulement pour la Reconnaissance des Etapes Opératoires." Phd thesis, Université Henri Poincaré - Nancy I, 2010. http://tel.archives-ouvertes.fr/tel-00487069.

Full text
Abstract:
Le bloc opératoire est au coeur des soins délivrés dans l'hôpital. Suite à de nombreux dévelopments techniques et médicaux, il devient équippé de salles opératoires hautement technologiques. Bien que ces changements soient bénéfiques pour le traitement des patients, ils accroissent la complexité du déroulement des opérations. Ils impliquent également la présence de nombreux systèmes électroniques fournissant de l'information riche et variée sur les processus chirurgicaux. Ce travail s'intéresse au dévelopement de méthodes statistiques permettant de modéliser le déroulement des processus chirurgicaux et d'en reconnaitre les étapes, en utilisant des signaux présents dans le bloc opératoire. Ces méthodes combinent des signaux de bas niveau avec de l'information de haut niveau et permettent à la fois de détecter des événements et de déclencher des actions pré-définies. L'une des applications principales est la conception de salles opératoires sensibles au contexte, fournissant des interfaces utilisateurs réactives, permettant une meilleure synchronisation au sein du bloc opératoire et produisant une documentation automatisée. Nous introduisons et formalisons le problème consistant à reconnaitre les phases réalisées au sein d'un processus chirurgical, en utilisant une représentation des chirurgies par une suite temporelle et multi-dimensionnelle de signaux synchronisés. Nous proposons ensuite des méthodes pour la modélisation, la segmentation hors-ligne et la reconnaissance en-ligne des phases chirurgicales. La méthode principale, une variante de modèle de Markov caché étendue par des variables de probabilités de phases, est demontrée sur deux applications médicales. La première concerne les interventions endoscopiques, la cholécystectomie étant prise en exemple. Les phases endoscopiques sont reconnues en utilisant des signaux indiquant l'utilisation des instruments et enregistrés lors de chirurgies réélles. La deuxième application concerne la reconnaissance des activités génériques d'une salle opératoire. La reconnaissance utilise de l'information 4D provenant de chirurgies réalisées dans une maquette de salle opératoire et observée par un système de reconstruction multi-vues. Mots
APA, Harvard, Vancouver, ISO, and other styles
7

Curé, Olivier. "Relations entre bases de données et ontologies dans le cadre du web des données." Habilitation à diriger des recherches, Université Paris-Est, 2010. http://tel.archives-ouvertes.fr/tel-00843284.

Full text
Abstract:
Ce manuscrit présente mon intérêt pour la conception des méthodes et algorithmes nécessaires pour la réalisation d'applications avancées pour le web sémantique. Cette extension du web actuel vise à autoriser l'intégration et le partage de données entre organismes et applications. Une conséquence directe du succès de cette approche permettrait de considérer le web comme une base de données globale contenant les données stockées sur toutes les machines connectées. Cet aspect s'exprime bien dans le site web dédié à l'activité web sémantique du W3C, qui déclare que le web sémantique est un web des données. Ainsi, ce web des données permettra de soumettre des requêtes structurées sur tous les ensembles de données connectés, et de récupérer des résultats pertinents provenant de sources diverses et hétérogènes. Une question essentielle liée à cette hétérogénéité concerne la notion de sémantique. Dans le contexte du web sémantique, elle est généralement traitée avec des ontologies et les opérations de médiation associées. Ma recherche s'ancrent dans ces thématiques et ce manuscrit vise à présenter quelques unes de mes recherches et résultats, ainsi qu'à décrire certaines des applications que j'ai conçues et implémentées
APA, Harvard, Vancouver, ISO, and other styles
8

Watrin, Lucie. "Les données scientifiques saisies par le droit." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM1072.

Full text
Abstract:
Issues de l’expérience, les données constituent une description brute du réel, sur le fondement desquelles s’élaborent ou se vérifient les théories scientifiques. Or, à l’étude, les interactions entre cet élément de base de la connaissance et l’ordre juridique peuvent être observées à trois stades. Au stade de la production des données, tout d’abord. En effet, quoique cette phase relève pour une large part du contrôle de la communauté scientifique, certaines règles juridiques se superposent à ce contrôle en vue d’agir sur l’orientation ou la conduite des recherches. Au stade de l’utilisation des données scientifiques ensuite, puisqu’une fois mises au jour, les données sont parfois directement appréhendées par le juge, le législateur ou par certains professionnels, qui exploitent leur pouvoir de révélation du réel. À cet égard, il faut relever que même lorsqu’elles sont incertaines, les données scientifiques ne perdent pas toute utilité, puisque si elles ne permettent pas connaître le réel, elles offrent la possibilité de s’en approcher et donc de fonder des décisions sur une vraisemblance scientifiquement étayée. Enfin, le droit a vocation à intervenir au stade de la protection des données, afin d’arbitrer entre les intérêts parfois contradictoires des scientifiques producteurs de données et de la collectivité. Les termes de cet arbitrage entre la réservation privative des données et leur valorisation collective ont été profondément renouvelés ces dernières années, avec le développement combiné du Big data et de l’Open data
Scientific data is produced by experiment, and consists in a raw description of reality, upon which basis scientific theories are developped or confirmed. Upon assesment, interactions between this basic element of knowledge and the legal order can be observed in three stages. First, at the stage of data production. Although the control of this phase falls largely under the control of the scientific community, some legal rules are added to this control, in order to influence on the direction or on the conduct of the research. Second, at the stage of the use of scientific data, because once discovered, data is sometimes directly apprehended by the judge, the legislator or by some professionals, and is then used to unveil reality. In this regard, even when uncertain, scientific data does not lose its utility, because in spite of failling to display reality, it offers the possibility to approach it and therefore to build decisions on a scientifically based likelihood. Finally, the law intervenes at the stage of data protection, in order to arbitrate conflicting interests between those who produce scientific data, and society. The terms of the arbitration between the private reservation data and their collective value was deeply renewed in recent years, under the influence of the combined development of Big data and Open data
APA, Harvard, Vancouver, ISO, and other styles
9

Malarme, Pierre. "Conception d'un système d'aide à la chirurgie sur base de la modélisation d'opérations, d'un recalage temporel des données et d'un recalage sémantique de métadonnées." Doctoral thesis, Universite Libre de Bruxelles, 2011. http://hdl.handle.net/2013/ULB-DIPOT:oai:dipot.ulb.ac.be:2013/209844.

Full text
Abstract:
Le but principal de cette thèse de doctorat est de concevoir un système de chirurgie assistée par la connaissance. Cette connaissance est extraite de l'information issue des données et du contexte capturés en salle d'opération. Ce contexte est défini à l'aide d'un modèle de processus opératoire (surgical workflow - SWf). L'assistance porte sur la capture des modèles, l'automatisation de tâches ou encore la gestion des erreurs et des imprévus.

The main goal of this PhD thesis is to design a computer assisted surgery system based on surgical workflow (SWf) modeling, and intra-operative data and metadata acquired during the operation. For the SWf modeling, workflow-mining techniques will be developed based on dynamic learning and incremental inference. An ontology will be used to describe the various steps of the surgery and their attributes.
Doctorat en Sciences de l'ingénieur
info:eu-repo/semantics/nonPublished

APA, Harvard, Vancouver, ISO, and other styles
10

Allab, Kais. "Matrix factorization framework for simultaneous data (co-)clustering and embedding." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB083/document.

Full text
Abstract:
Les progrès des technologies informatiques et l’augmentation continue des capacités de stockage ont permis de disposer de masses de données de trés grandes tailles et de grandes dimensions. Le volume et la nature même des données font qu’il est de plus en plus nécessaire de développer de nouvelles méthodes capables de traiter, résumer et d’extraire l’information contenue dans de tels types de données. D’un point de vue extraction des connaissances, la compréhension de la structure des grandes masses de données est d’une importance capitale dans l’apprentissage artificiel et la fouille de données. En outre, contrairement à l’apprentissage supervisé, l’apprentissage non supervisé peut fournir des outils pour l’analyse de ces ensembles de données en absence de groupes (classes). Dans cette thèse, nous nous concentrons sur des méthodes fondamentales en apprentissage non supervisé notamment les méthodes de réduction de la dimension, de classification simple (clustering) et de classification croisée (co-clustering). Notre contribution majeure est la proposition d’une nouvelle manière de traiter simultanément la classification et la réduction de dimension. L’idée principale s’appuie sur une fonction objective qui peut être décomposée en deux termes, le premier correspond à la réduction de la dimension des données, tandis que le second correspond à l’objectif du clustering et celui du co-clustering. En s’appuyant sur la factorisation matricielle, nous proposons une solution prenant en compte simultanément les deux objectifs: réduction de la dimension et classification. Nous avons en outre proposé des versions régularisées de nos approches basées sur la régularisation du Laplacien afin de mieux préserver la structure géométrique des données. Les résultats expérimentaux obtenus sur des données synthétiques ainsi que sur des données réelles montrent que les algorithmes proposés fournissent d’une part de bonnes représentations dans des espaces de dimension réduite et d’autre part permettent d’améliorer la qualité des clusters et des co-clusters. Motivés par les bons résultats obtenus par les méthodes du clustering et du co-clustering basés sur la régularisation du Laplacien, nous avons développé un nouvel algorithme basé sur l’apprentissage multi-variétés (multi-manifold) dans lequel une variété consensus est approximée par la combinaison d’un ensemble de variétés candidates reflétant au mieux la structure géométrique locale des données. Enfin, nous avons aussi étudié comment intégrer des contraintes dans les Laplaciens utilisés pour la régularisation à la fois dans l’espace des objets et l’espace des variables. De cette façon, nous montrons comment des connaissances a priori peuvent contribuer à l’amélioration de la qualité du co-clustering
Advances in computer technology and recent advances in sensing and storage technology have created many high-volume, high-dimensional data sets. This increase in both the volume and the variety of data calls for advances in methodology to understand, process, summarize and extract information from such kind of data. From a more technical point of view, understanding the structure of large data sets arising from the data explosion is of fundamental importance in data mining and machine learning. Unlike supervised learning, unsupervised learning can provide generic tools for analyzing and summarizing these data sets when there is no welldefined notion of classes. In this thesis, we focus on three important techniques of unsupervised learning for data analysis, namely data dimensionality reduction, data clustering and data co-clustering. Our major contribution proposes a novel way to consider the clustering (resp. coclustering) and the reduction of the dimension simultaneously. The main idea presented is to consider an objective function that can be decomposed into two terms where one of them performs the dimensionality reduction while the other one returns the clustering (resp. co-clustering) of data in the projected space simultaneously. We have further introduced the regularized versions of our approaches with graph Laplacian embedding in order to better preserve the local geometry of the data. Experimental results on synthetic data as well as real data demonstrate that the proposed algorithms can provide good low-dimensional representations of the data while improving the clustering (resp. co-clustering) results. Motivated by the good results obtained by graph-regularized-based clustering (resp. co-clustering) methods, we developed a new algorithm based on the multi-manifold learning. We approximate the intrinsic manifold using a subset of candidate manifolds that can better reflect the local geometrical structure by making use of the graph Laplacian matrices. Finally, we have investigated the integration of some selected instance-level constraints in the graph Laplacians of both data samples and data features. By doing that, we show how the addition of priory knowledge can assist in data co-clustering and improves the quality of the obtained co-clusters
APA, Harvard, Vancouver, ISO, and other styles
11

Madera, Cedrine. "L’évolution des systèmes et architectures d’information sous l’influence des données massives : les lacs de données." Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS071/document.

Full text
Abstract:
La valorisation du patrimoine des données des organisation est mise au cœur de leur transformation digitale. Sous l’influence des données massives le système d’information doit s’adapter et évoluer. Cette évolution passe par une transformation des systèmes décisionnels mais aussi par l’apparition d’un nouveau composant du système d’information : Les lacs de données. Nous étudions cette évolution des systèmes décisionnels, les éléments clés qui l’influence mais aussi les limites qui apparaissent , du point de vue de l’architecture, sous l’influence des données massives. Nous proposons une évolution des systèmes d’information avec un nouveau composant qu’est le lac de données. Nous l’étudions du point de vue de l’architecture et cherchons les facteurs qui peuvent influencer sa conception , comme la gravité des données. Enfin, nous amorçons une piste de conceptualisation des lacs de données en explorant l’approche ligne de produit.Nouvelle versionSous l'influence des données massives nous étudions l'impact que cela entraîne notamment avec l'apparition de nouvelles technologies comme Apache Hadoop ainsi que les limite actuelles des système décisionnel.Les limites rencontrées par les systèmes décisionnels actuels impose une évolution au système d 'information qui doit s'adapter et qui donne naissance à un nouveau composant : le lac de données.Dans un deuxième temps nous étudions en détail ce nouveau composant, formalisons notre définition, donnons notre point de vue sur son positionnement dans le système d information ainsi que vis à vis des systèmes décisionnels.Par ailleurs, nous mettons en évidence un facteur influençant l’architecture des lacs de données : la gravité des données, en dressant une analogie avec la loi de la gravité et en nous concentrant sur les facteurs qui peuvent influencer la relation donnée-traitement.Nous mettons en évidence , au travers d'un cas d'usage , que la prise en compte de la gravité des données peut influencer la conception d'un lac de données.Nous terminons ces travaux par une adaptation de l'approche ligne de produit logiciel pour amorcer une méthode de formalisations et modélisation des lacs de données. Cette méthode nous permet :- d’établir une liste de composants minimum à mettre en place pour faire fonctionner un lac de données sans que ce dernier soit transformé en marécage,- d’évaluer la maturité d'un lac de donnée existant,- de diagnostiquer rapidement les composants manquants d'un lac de données existant qui serait devenu un marécage,- de conceptualiser la création des lacs de données en étant "logiciel agnostique”
Data is on the heart of the digital transformation.The consequence is anacceleration of the information system evolution , which must adapt. The Big data phenomenonplays the role of catalyst of this evolution.Under its influence appears a new component of the information system: the data lake.Far from replacing the decision support systems that make up the information system, data lakes comecomplete information systems’s architecture.First, we focus on the factors that influence the evolution of information systemssuch as new software and middleware, new infrastructure technologies, but also the decision support system usage itself.Under the big data influence we study the impact that this entails especially with the appearance ofnew technologies such as Apache Hadoop as well as the current limits of the decision support system .The limits encountered by the current decision support system force a change to the information system which mustadapt and that gives birth to a new component: the data lake.In a second time we study in detail this new component, formalize our definition, giveour point of view on its positioning in the information system as well as with regard to the decision support system .In addition, we highlight a factor influencing the architecture of data lakes: data gravity, doing an analogy with the law of gravity and focusing on the factors that mayinfluence the data-processing relationship. We highlight, through a use case, that takingaccount of the data gravity can influence the design of a data lake.We complete this work by adapting the software product line approach to boot a methodof formalizations and modeling of data lakes. This method allows us:- to establish a minimum list of components to be put in place to operate a data lake without transforming it into a data swamp,- to evaluate the maturity of an existing data lake,- to quickly diagnose the missing components of an existing data lake that would have become a dataswamp- to conceptualize the creation of data lakes by being "software agnostic “
APA, Harvard, Vancouver, ISO, and other styles
12

Gross-Amblard, David. "Tatouage des bases de données." Habilitation à diriger des recherches, Université de Bourgogne, 2010. http://tel.archives-ouvertes.fr/tel-00590970.

Full text
Abstract:
Les techniques de tatouage de bases de données permettent la dissimulation d'information pertinente dans les n-uplets, comme par exemple l'identité du propriétaire des données. Les techniques de tatouage sont nombreuses dans le domaine multimédia, mais le tatouage des bases de données présente de nombreuses spécificités. Certaines d'entre elles sont traitées dans ce document : comment tatouer une base de données numérique tout en préservant le résultat de requêtes d'agrégat importantes, comment tatouer un flux structuré, comme un flux XML typé ou une partition musicale symbolique, comment tatouer une base de données géographiques.
APA, Harvard, Vancouver, ISO, and other styles
13

Molli, Pascal. "Cohérence des données dans les environnements d'édition collaborative." Habilitation à diriger des recherches, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00601380.

Full text
Abstract:
Les outils d'édition collaborative permettent à un groupe de personnes distribuées dans le temps, dans l'espace et à travers les organisations, de travailler ensemble sur les mêmes documents. Un système d'édition collaborative efficace doit permettre à n'importe qui de modifier n'importe quel type de données à n'importe quel moment. Cela pose des problèmes de maintient de la cohérence des données au sein des ces systèmes. Nous présentons trois approches de maintient de la cohérence dans les systèmes collaboratifs distribués: une approche transactionnelle, une approche basée sur les transformées opérationnelles et une approche basée sur les types commutatifs répliqués.
APA, Harvard, Vancouver, ISO, and other styles
14

Wackernagel, Hans. "Géostatistique et assimilation séquentielle de données." Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2004. http://tel.archives-ouvertes.fr/tel-00542362.

Full text
Abstract:
La géostatistique spatio-temporelle traditionnelle n'est pas en mesure de décrire adéquatement la dynamique, en général fortement non-linéaire, de processus spatio-temporels multivariables. Pour cela des modèles de transport physico-chimiques sont en général bien mieux adaptés. Cependant, étant donné que ces derniers ne maîtrisent pas totalement la complexité des processus qu'ils cherchent à décrire, soit parce qu'ils sont basés sur des hypothèses simplificatrices, soit parce que l'information servant à établir les conditions initiales et aux limites est imparfaite, il est opportun d'introduire des techniques statistiques servant à les guider pour assimiler un flot de mesures émanant de capteurs automatiques. Des projets récents au Centre de Géostatistique de l'Ecole des Mines de Paris ont permis d'explorer l'application de ces techniques dans le domaine de l'océanographie et en pollution de l'air. Il s'est très vite avéré que la géostatistique offrait des concepts et des approches qui pouvaient contribuer à enrichir les techniques d'Assimilation Séquentielle de Données. La thèse de Laurent Bertino et des publications ultérieures ont permis de développer cette thématique porteuse, dont la présente synthèse établit un compte-rendu.
APA, Harvard, Vancouver, ISO, and other styles
15

Di, Ruscio Andrea. "Utilisation des données de radio science pour la construction d’éphémérides planétaires." Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4031.

Full text
Abstract:
Le thème central de la thèse concerne l’utilisation des données de radio tracking pour le développement d’éphémérides planétaires, en particulier, dans deux cas : 1) analyse de données de navigation de la mission Cassini pour améliorer les éphémérides de Saturne et augmenter notre connaissance du système solaire externe ; 2) simulation des données radio de la mission ESA BepiColombo collectées durant la phase orbital à Mercure, pour évaluer leur contribution sur le développement des éphémérides planétaire de l’Intégrateur Numérique Planétaire de l’Observatoire de Paris (INPOP).Le premier sujet de recherche essaie de traiter les données de navigation de la sonde Cassini autour de Saturne en utilisant la connaissance mise à jour du système Saturnien : éphémérides précises pour les lunes du système et caractérisation de la gravité de Titan et des autres lunes principales.Ça permis la création des points normaux plus précis, capable de contraindre l’orbite de Saturne pour 13 ans (la moitié de sa révolution autour du Soleil) au niveau des mètres et de donner précieux informations sur le système solaire externe, en particulier sur la masse de la Kuiper belt et sur la possible position de P9. Les nouvelles données montrent une réduction de l’incertitude d’un facteur 5 en respect aux analyses précédentes.La deuxième partie de la thèse se concentre sur la production des simulations réalistes des données radio que le Mercury Orbiter Radio-science Experiment (MORE) de la sonde BepiColombo mesurera durant la phase scientifique de sa mission autour de Mercure.Des points normaux sont après produits avec une incertitude déduite de la matrice de covariance de l’état de la sonde estimé en utilisant ces données simulées.Ces points sont donc traités par le weighted-least square estimateur d’INPOP pour quantifier l’impact que les données de BepiColombo auront sur le développement des éphémérides planétaires, en particulier pour contraindre l’orbite de Mercure et des paramètres relativistes
The central theme of the thesis concerns the exploitation of radio tracking measurements for the development of planetary ephemerides, in particular, applied on two research topics: 1) the analysis of navigation data of Cassini mission to enhance the ephemeris of Saturn and increase our knowledge of the outer solar system; 2) the simulation of BepiColombo measurements collected during the orbital phase at Mercury, for assessing their contribution on the Intégrateur Numérique Planétaire de l’Observatoire de Paris (INPOP) planetary ephemerides.The first research aims at reprocessing Cassini radio tracking data by exploiting the current knowledge of the Saturnian system developed throughout the mission, i.e. the availability of accurate satellite ephemerides and precise gravity solutions for Saturn, Titan and the other major moons. This allows the production of more precise normal points, which are able to constrain the orbit of the planet at meters-level for 13 years (almost half of its revolution) and to provide invaluable insights on the mass of the Kuiper belt. The results show a reduction of a factor 5 on normal points uncertainties with respect to previous analyses, providing tighter constraints on the acceptance regions of planet 9.The second research topic focuses on the production of realistic normal points derived from the end-to-end simulation of BepiColombo Mercury Orbiter Radio-science Experiment (MORE). The uncertainties of the normal points are deduced from the mapped covariance of the spacecraft state. The derived measurements are then processed with the INPOP weighted-least squares filter to quantify the achievable constraints on ephemerides and relativistic parameters
APA, Harvard, Vancouver, ISO, and other styles
16

Cagnazzo, Marco. "Transformée en ondelettes et compression de données tridimensionnelles." Phd thesis, Université de Nice Sophia-Antipolis, 2005. http://tel.archives-ouvertes.fr/tel-00506115.

Full text
Abstract:
Notre thèse de doctorat porte principalement sur la transformée en ondelettes (TO) tridimensionnelle, et ses variations, comme la TO compensée en mouvement ou la TO adaptée à la forme, pour le codage des séquences vidéo et des images multispectrales (MS). Cette approche peut sembler a priori normale, néanmoins, dans le domaine de la compression vidéo, les approches basées sur les transformée 3D ont juste commencé à être concurrentielles avec les schémas hybrides basés sur la transformée cosinus discret (DCT). Notons qu'en ce qui concerne les images MS, la littérature scientifique n'appréhende pas le problème de la compression par une approche intégrale. L'approche TO 3D, étudiée dans cette thèse, a reçu une attention particulière par les chercheurs qui s'intéressent au domaine de la compression de données, car la version bi-dimensionnelle a des très bons résultats pour le codage d'images fixes. D'ailleurs, l'approche de TO fournit un support total à la scalabilité qui semble être l'une des aspects les plus importantes dans le domaine de la livraison de multimédia. Une représentation scalable d'information se compose de plusieurs sous ensembles de données, dont chacune d'elle est une représentation efficace de l'information originale. Une telle approche est obligatoire pour la livraison efficace de multimédia sur les réseaux hétérogènes. Le problème d'allocation des ressources est un autre aspect commun au codage vidéo et aux images MS.
APA, Harvard, Vancouver, ISO, and other styles
17

Masseglia, Florent. "Extraction de connaissances : réunir volumes de données et motifs significatifs." Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00788309.

Full text
Abstract:
L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense.
APA, Harvard, Vancouver, ISO, and other styles
18

Senellart, Pierre. "XML probabiliste: Un modèle de données pour le Web." Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00758055.

Full text
Abstract:
Les données extraites du Web sont chargées d'incertitude: elles peuvent contenir des contradictions ou résulter de processus par nature incertains comme l'intégration de données ou l'extraction automatique d'informations. Dans cette thèse d'habilitation, je présente les modèles de données XML probabilistes, la manière dont ils peuvent être utilisés pour représenter les données du Web, et la complexité de différentes opérations de gestion de données sur ces modèles. Je donne un état de l'art exhaustif du domaine, en insistant sur mes propres contributions. Je termine par un résumé de mes futurs projets de recherche.
APA, Harvard, Vancouver, ISO, and other styles
19

Zahoor, Ehtesham. "Gouvernance de service : aspects sécurité et données." Phd thesis, Université Nancy II, 2011. http://tel.archives-ouvertes.fr/tel-00643552.

Full text
Abstract:
Les travaux autour de la conception, de la vérification et de la surveillance de compositions de services Web forment un domaine de recherche très actif actuellement. Cependant, peu de ces travaux s'intéressent à la prise en compte globale des problématiques de composition, vérification et surveillance grâce à un formalisme unifié. Dans la thèse, nous proposons l'approche DISC qui est une approche déclarative unifiée utilisant un formalisme à base d'événements, et qui permet grâce à un formalisme unique de concevoir, de vérifier et de surveiller des compositions de services, réduisant ainsi les transformations nécessaires pour passer d'un formalisme à un autre. De plus, le formalisme utilisé permet de prendre en compte des aspects non fonctionnels tels que les données, les aspects temporels, ou certains aspects liés à la sécurité. L'approche permet en outre d'instancier et de vérifier des compositions de services, et d'exécuter et surveiller ces compositions lors de l'exécution. Enfin, les effets de violations lors de l'exécution de la composition peuvent être calculés, et un ensemble d'actions de recouvrement sont proposées, permettant aux compositions d'être en partie autonomes vis-à-vis des problèmes pouvant survenir à l'exécution.
APA, Harvard, Vancouver, ISO, and other styles
20

Fejoz, Loïc. "Développement prouvé de structures de données sans verrou." Phd thesis, Université Henri Poincaré - Nancy I, 2008. http://tel.archives-ouvertes.fr/tel-00594978.

Full text
Abstract:
Le sujet central de cette thèse est le développement d'une méthode dédiée à la preuve de structures de données sans verrou. La motivation première vient du constat que les programmes concurrents sont devenu monnaie courante. Ceci a été possible par l'apparition de nouvelles primitives de synchronisation dans les nouvelles architectures matérielles. La seconde motivation est la quête de logiciel prouvé et donc correct. La sûreté des logiciels est en effet devenue primordiale de par la diffusion des systèmes embarqués et enfouis. La méthode proposée est basée sur le raffinement et dédiée à la conception et la vérification d'algorithme non-bloquant, en particulier ceux sans verrou. La méthode a été formalisée et sa correction prouvée en Isabelle/HOL. Un outil a par ailleurs été développé afin de générer des obligations de preuves à destination des solveurs SMT et des prouveurs de théorèmes du premier ordre. Nous l'avons utilisé afin de vérifier certains de ces algorithmes.
APA, Harvard, Vancouver, ISO, and other styles
21

Pazat, Jean-Louis. "Génération de code réparti par distribution de données." Habilitation à diriger des recherches, Université Rennes 1, 1997. http://tel.archives-ouvertes.fr/tel-00170867.

Full text
APA, Harvard, Vancouver, ISO, and other styles
22

Raïssi, Chedy. "Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00351626.

Full text
Abstract:
Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.
APA, Harvard, Vancouver, ISO, and other styles
23

Allab, Kais. "Matrix factorization framework for simultaneous data (co-)clustering and embedding." Electronic Thesis or Diss., Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB083.

Full text
Abstract:
Les progrès des technologies informatiques et l’augmentation continue des capacités de stockage ont permis de disposer de masses de données de trés grandes tailles et de grandes dimensions. Le volume et la nature même des données font qu’il est de plus en plus nécessaire de développer de nouvelles méthodes capables de traiter, résumer et d’extraire l’information contenue dans de tels types de données. D’un point de vue extraction des connaissances, la compréhension de la structure des grandes masses de données est d’une importance capitale dans l’apprentissage artificiel et la fouille de données. En outre, contrairement à l’apprentissage supervisé, l’apprentissage non supervisé peut fournir des outils pour l’analyse de ces ensembles de données en absence de groupes (classes). Dans cette thèse, nous nous concentrons sur des méthodes fondamentales en apprentissage non supervisé notamment les méthodes de réduction de la dimension, de classification simple (clustering) et de classification croisée (co-clustering). Notre contribution majeure est la proposition d’une nouvelle manière de traiter simultanément la classification et la réduction de dimension. L’idée principale s’appuie sur une fonction objective qui peut être décomposée en deux termes, le premier correspond à la réduction de la dimension des données, tandis que le second correspond à l’objectif du clustering et celui du co-clustering. En s’appuyant sur la factorisation matricielle, nous proposons une solution prenant en compte simultanément les deux objectifs: réduction de la dimension et classification. Nous avons en outre proposé des versions régularisées de nos approches basées sur la régularisation du Laplacien afin de mieux préserver la structure géométrique des données. Les résultats expérimentaux obtenus sur des données synthétiques ainsi que sur des données réelles montrent que les algorithmes proposés fournissent d’une part de bonnes représentations dans des espaces de dimension réduite et d’autre part permettent d’améliorer la qualité des clusters et des co-clusters. Motivés par les bons résultats obtenus par les méthodes du clustering et du co-clustering basés sur la régularisation du Laplacien, nous avons développé un nouvel algorithme basé sur l’apprentissage multi-variétés (multi-manifold) dans lequel une variété consensus est approximée par la combinaison d’un ensemble de variétés candidates reflétant au mieux la structure géométrique locale des données. Enfin, nous avons aussi étudié comment intégrer des contraintes dans les Laplaciens utilisés pour la régularisation à la fois dans l’espace des objets et l’espace des variables. De cette façon, nous montrons comment des connaissances a priori peuvent contribuer à l’amélioration de la qualité du co-clustering
Advances in computer technology and recent advances in sensing and storage technology have created many high-volume, high-dimensional data sets. This increase in both the volume and the variety of data calls for advances in methodology to understand, process, summarize and extract information from such kind of data. From a more technical point of view, understanding the structure of large data sets arising from the data explosion is of fundamental importance in data mining and machine learning. Unlike supervised learning, unsupervised learning can provide generic tools for analyzing and summarizing these data sets when there is no welldefined notion of classes. In this thesis, we focus on three important techniques of unsupervised learning for data analysis, namely data dimensionality reduction, data clustering and data co-clustering. Our major contribution proposes a novel way to consider the clustering (resp. coclustering) and the reduction of the dimension simultaneously. The main idea presented is to consider an objective function that can be decomposed into two terms where one of them performs the dimensionality reduction while the other one returns the clustering (resp. co-clustering) of data in the projected space simultaneously. We have further introduced the regularized versions of our approaches with graph Laplacian embedding in order to better preserve the local geometry of the data. Experimental results on synthetic data as well as real data demonstrate that the proposed algorithms can provide good low-dimensional representations of the data while improving the clustering (resp. co-clustering) results. Motivated by the good results obtained by graph-regularized-based clustering (resp. co-clustering) methods, we developed a new algorithm based on the multi-manifold learning. We approximate the intrinsic manifold using a subset of candidate manifolds that can better reflect the local geometrical structure by making use of the graph Laplacian matrices. Finally, we have investigated the integration of some selected instance-level constraints in the graph Laplacians of both data samples and data features. By doing that, we show how the addition of priory knowledge can assist in data co-clustering and improves the quality of the obtained co-clusters
APA, Harvard, Vancouver, ISO, and other styles
24

Gelgon, Marc. "Structuration statistique de données multimédia pour la recherche d'information." Habilitation à diriger des recherches, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00450297.

Full text
Abstract:
L'unité du travail réside en ce qu'on s'intéresse à la recherche de structure dans les données numériques (issues de données multimédia), en vue d'y faciliter la recherche d'information. Le cadre méthodologique de la résolution est que nous privilégions ici celui des modèles probabi- listes, en particulier les mélanges de lois, et de l'estimation statistique associée. La recherche de structure implique que le jeu de données étudié est composé de sous-populations de caracté- ristiques distinctes : il s'agit de séparer et de caractériser ces sous-populations, deux problèmes fortement imbriqués. Les entités extraites et les attributs qu'on en leur associe seront alors directement utiles pour la recherche d'information.
APA, Harvard, Vancouver, ISO, and other styles
25

Plantevit, Marc. "Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00319242.

Full text
Abstract:
L'extraction de motifs séquentiels est devenue, depuis son introduction, une technique majeure du domaine de la fouille de données avec de nombreuses applications (analyse du comportement des consommateurs, bioinformatique, sécurité, musique, etc.). Les motifs séquentiels permettent la découverte de corrélations entre événements en fonction de leurs chronologies d'apparition. Il existe de nombreux algorithmes permettant l'extraction de tels motifs. Toutefois, ces propositions ne prennent en compte qu'une seule dimension d'analyse (e.g le produit dans les applications de type étude des achats des consommateurs) alors que la plupart des données réelles sont multidimensionnelles par nature. Dans ce manuscrit, nous définissons les motifs séquentiels multidimensionnels afin de prendre en compte les spécificités inhérentes aux bases de données multidimensionnelles (plusieurs dimensions, hiérarchies, valeurs agrégées). Nous définissons des algorithmes permettant l'extraction de motifs séquentiels multi- dimensionnels en tenant compte des ces spécificités. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions. Nous nous intéressons également à l'extraction de comportements temporels atypiques dans des données multidimensionnelles. Nous montrons qu'il peut y avoir plusieurs interprétations d'un comportement atypique (fait ou connaissance). En fonction de chaque interprétation, nous proposons une méthode d'extraction de tels comportements. Ces méthodes sont également validées par des expérimentations sur des données réelles.
APA, Harvard, Vancouver, ISO, and other styles
26

Collard, Martine. "Fouille de données, Contributions Méthodologiques et Applicatives." Habilitation à diriger des recherches, Université Nice Sophia Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-01059407.

Full text
Abstract:
Les travaux présentés dans ce mémoire, ont été développés sur le thème de la découverte de motifs intéressants à travers la fouille de données et mis en oeuvre dans le cadre de la conception de systèmes d'information. Ils sont essentiellement consacrés aux problèmes soulevés par l'étape de fouille pour la découverte de modèles et de motifs fréquents. Ils sont à la fois d'ordre méthodologique et applicatif.
APA, Harvard, Vancouver, ISO, and other styles
27

Denielou, Yves-Pol. "Alignement Multiple de Données Génomiques et Post-Génomiques : Approches Algorithmiques." Phd thesis, Université de Grenoble, 2010. http://tel.archives-ouvertes.fr/tel-00610419.

Full text
Abstract:
L'alignement multiple de réseaux biologiques a pour objectif d'extraire des informations fonctionnelles des données haut-débit représentées sous forme de graphes. Ceci concerne, par exemple, les données d'interaction protéines-protéines, les données métaboliques ou même les données génomiques. Dans un premier temps nous proposons un formalisme précis, qui s'appuie sur les notions de graphe de données stratifié et de multigraphe d'alignement (MGA), et qui définit les alignements multiples locaux en autorisant notamment un réglage de la conservation de la topologie entre les réseaux. Nous présentons ensuite un algorithme de construction et partitionnement ''à la volée" du MGA, qui permet de traiter de façon efficace l'alignement de nombreux réseaux biologiques. Dans un second temps, nous étendons le formalisme pour parvenir à retrouver des alignements - que nous qualifions de ''partiels" - lorsqu'il y a des noeuds manquants sur certains réseaux. Nous détaillons les algorithmes associés, puis nous proposons différentes améliorations, et des variantes adaptées à des problèmes biologiques particuliers.
APA, Harvard, Vancouver, ISO, and other styles
28

Bouganim, Luc. "Sécurisation du Contrôle d'Accès dans les Bases de Données." Habilitation à diriger des recherches, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00308620.

Full text
APA, Harvard, Vancouver, ISO, and other styles
29

El, Golli Aïcha. "Extraction de données symboliques et cartes topologiques: application aux données ayant une structure complexe." Phd thesis, Université Paris Dauphine - Paris IX, 2004. http://tel.archives-ouvertes.fr/tel-00178900.

Full text
Abstract:
Un des objectifs de lanalyse de données symboliques est de permettre une meilleure modélisation des variations et des imprécisions des données réelles. Ces données expriment en effet, un niveau de connaissance plus élevé, la modélisation doit donc offrir un formalisme plus riche que dans le cadre de lanalyse de données classiques. Un ensemble dopérateurs de généralisation symbolique existent et permettent une synthèse et représentation des données par le formalisme des assertions, formalisme défini en analyse de données symboliques. Cette généralisation étant supervisée, est souvent sensible aux observations aberrantes. Lorsque les données que lon souhaite généraliser sont hétérogènes, certaines assertions incluent des observations virtuelles. Face à ce nouveau formalisme et donc cette extension dordre sémantique que lanalyse de données symbolique a apporté, une nouvelle approche de traitement et dinterprétation simpose. Notre objectif au cours de ce travail est daméliorer tout dabord cette généralisation et de proposer ensuite une méthode de traitement de ces données. Les contributions originales de cette thèse portent sur de nouvelles approches de représentation et de classification des données à structure complexe. Nous proposons donc une décomposition permettant daméliorer la généralisation tout en offrant le formalisme symbolique. Cette décomposition est basée sur un algorithme divisif de classification. Nous avons aussi proposé une méthode de généralisation symbolique non supervisée basée sur l'algorithme des cartes topologiques de Kohonen. L'avantage de cette méthode est de réduire les données d'une manière non supervisée et de modéliser les groupes homogènes obtenus par des données symboliques. Notre seconde contribution porte sur lélaboration dune méthode de classification traitant les données à structure complexe. Cette méthode est une adaptation de la version batch de lalgorithme des cartes topologiques de Kohonen aux tableaux de dissimilarités. En effet, seule la définition dune mesure de dissimilarité adéquate, est nécessaire pour le bon déroulement de la méthode.
APA, Harvard, Vancouver, ISO, and other styles
30

Wagner, Frédéric. "Redistribution de données à travers un réseau à haut débit." Phd thesis, Université Henri Poincaré - Nancy I, 2005. http://tel.archives-ouvertes.fr/tel-00011705.

Full text
Abstract:
Nous considérons ici le problème où deux programmes différents situés sur deux grappes d'ordinateurs distantes, reliées par un réseau à haut débit, forment un couplage de code et échangent
régulièrement des données. Un tel échange s'effectue par une redistribution de données. Nous étudions comment effectuer une telle redistribution le plus efficacement possible en minimisant temps de communication et congestion du réseau.

Nous utilisons pour ce faire, une modélisation du problème à l'aide de graphes bipartis. Le modèle choisi permet une prise en compte du délai d'initialisation des communications, des différentes bandes passantes et impose une limite d'une communication simultanée par interface réseau (modèle 1-port) et de k communications simultanées sur la dorsale.

Nous effectuons une validation expérimentale du modèle puis l'utilisons pour développer deux algorithmes d'ordonnancement
des communications. Nous montrons que chacun d'entre eux
est un algorithme d'approximation garantissant un temps d'exécution dans le pire des cas 8/3 fois plus élevé que le temps optimal.
Nous concluons l'étude de ces algorithmes par une série d'expériences démontrant de bonnes performances en pratique.


Enfin, nous étendons le problème initial au cas de grappes hétérogènes :
ce cas imposant de sortir du modèle 1-port, nous montrons comment modifier nos algorithmes pour en tirer parti.
Nous étudions également le cas de redistributions exécutées en régime permanent sur un réseau d'une topologie plus complexe autorisant les communications locales.
APA, Harvard, Vancouver, ISO, and other styles
31

Fize, Jacques. "Mise en correspondance de données textuelles hétérogènes fondée sur la dimension spatiale." Thesis, Montpellier, 2019. http://www.theses.fr/2019MONTS099.

Full text
Abstract:
Avec l’essor du Big Data, le traitement du Volume, de la Vélocité (croissance et évolution) et de la Variété de la donnée concentre les efforts des différentes communautés pour exploiter ces nouvelles ressources. Ces nouvelles ressources sont devenues si importantes, que celles-ci sont considérées comme le nouvel « or noir ». Au cours des dernières années, le volume et la vélocité sont des aspects de la donnée qui sont maitrisés contrairement à la variété qui elle reste un défi majeur. Cette thèse présente deux contributions dans le domaine de mise en correspondance de données hétérogènes, avec un focus sur la dimensions spatiale.La première contribution repose sur un processus de mise en correspondance de données textuelles hétérogènes divisé en deux étapes : la géoreprésentation et le géomatching. Dans la première phase, nous proposons de représenter la dimension spatiale de chaque document d'un corpus à travers une structure dédiée, la Spatial Textual Representation (STR). Cette représentation de type graphe est composée des entités spatiales identifiées dans le document, ainsi que les relations spatiales qu'elles entretiennent. Pour identifier les entités spatiales d'un document et leurs relations spatiales, nous proposons une ressource dédiée, nommée Geodict. La seconde phase, le géomatching, consiste à mesurer la similarité entre les représentations générées (STR). S'appuyant sur la nature de la structure de la STR (i.e. graphe), différents algorithmes de graph matching ont été étudiés. Pour évaluer la pertinence d'une correspondance, nous proposons un ensemble de 6 critères s'appuyant sur une définition de la similarité spatiale entre deux documents.La seconde contribution repose sur la dimension thématique des données textuelles et sa participation dans le processus de mise en correspondance spatiale. Nous proposons d'identifier les thèmes apparaissant dans la même fenêtre contextuelle que certaines entités spatiales. L'objectif est d'induire certaines des similarités spatiales implicites entre les documents. Pour cela, nous proposons d'étendre la structure de la STR à l'aide de deux concepts : l'entité thématique et de la relation thématique. L'entité thématique représente un concept propre à un domaine particulier (agronome, médical) et représenté selon différentes orthographes présentes dans une ressource terminologique, ici un vocabulaire. Une relation thématique lie une entité spatiale à une entité thématique si celles-ci apparaissent dans une même fenêtre contextuelle. Les vocabulaires choisis ainsi que la nouvelle forme de la STR intégrant la dimension thématique sont évalués selon leur couverture sur les corpus étudiés, ainsi que leurs contributions dans le processus de mise en correspondance spatiale
With the rise of Big Data, the processing of Volume, Velocity (growth and evolution) and data Variety concentrates the efforts of communities to exploit these new resources. These new resources have become so important that they are considered the new "black gold". In recent years, volume and velocity have been aspects of the data that are controlled, unlike variety, which remains a major challenge. This thesis presents two contributions in the field of heterogeneous data matching, with a focus on the spatial dimension.The first contribution is based on a two-step process for matching heterogeneous textual data: georepresentation and geomatching. In the first phase, we propose to represent the spatial dimension of each document in a corpus through a dedicated structure, the Spatial Textual Representation (STR). This graph representation is composed of the spatial entities identified in the document, as well as the spatial relationships they maintain. To identify the spatial entities of a document and their spatial relationships, we propose a dedicated resource, called Geodict. The second phase, geomatching, computes the similarity between the generated representations (STR). Based on the nature of the STR structure (i.e. graph), different algorithms of graph matching were studied. To assess the relevance of a match, we propose a set of 6 criteria based on a definition of the spatial similarity between two documents.The second contribution is based on the thematic dimension of textual data and its participation in the spatial matching process. We propose to identify the themes that appear in the same contextual window as certain spatial entities. The objective is to induce some of the implicit spatial similarities between the documents. To do this, we propose to extend the structure of STR using two concepts: the thematic entity and the thematic relationship. The thematic entity represents a concept specific to a particular field (agronomic, medical) and represented according to different spellings present in a terminology resource, in this case a vocabulary. A thematic relationship links a spatial entity to a thematic entity if they appear in the same window. The selected vocabularies and the new form of STR integrating the thematic dimension are evaluated according to their coverage on the studied corpora, as well as their contributions to the heterogeneous textual matching process on the spatial dimension
APA, Harvard, Vancouver, ISO, and other styles
32

Castelli, Aleardi Luca. "Représentations compactes de structures de données géométriques." Phd thesis, Ecole Polytechnique X, 2006. http://tel.archives-ouvertes.fr/tel-00336188.

Full text
Abstract:
Nous considérons le problème de concevoir des représentations compactes ou succinctes de structures de données géométriques. Dans ce cadre, en plus des questions de simple compression, l'attention est portée sur l'étude de structures de données nécessitant une petite quantité de ressources mémoire et permettant de répondre à des requêtes locales en temps O(1). L'une des contributions de cette thèse consiste à proposer un cadre algorithmique général pour la conception de représentations compactes de structures telles que les graphes planaires et les maillages surfaciques. Comme application nous présentons différentes structures spécialement conçues pour représenter de manière compacte la connectivité (ou information combinatoire) de certaines classes de graphes localement planaires. Pour le cas des triangulations planaires à m faces, nous proposons une représentation compacte de l'information combinatoire nécessitant asymptotiquement 2:175 bits par triangle pour le coût en espace et qui permet la navigation entre triangles adjacents, ainsi que d'autres requêtes locales d'incidence entre sommets, en temps constant : cette structure est ainsi optimale pour la classe des triangulations ayant un bord de taille arbitraire. Une telle représentation reste valide et optimale dans le cas de triangulations d'une surface de genre g borné : O(g lgm) bits supplémentaires sont alors nécessaires. Cette représentation est bien adaptée pour faire une mise à jour locale efficace de la triangulation. Plus précisément, il est possible d'effectuer des mises à jour en temps O(1) amorti après insertion de sommets, et en temps O(log2m) amorti après suppression de sommets et flip d'arêtes. Et en ce qui concerne les triangulations et les graphes planaires 3-connexes, correspondant aux maillages triangulaires et polygonaux homéomorphes à une sphère, nous proposons les premières représentations succinctes optimales : elles atteignent l'entropie respective des deux classes, 2 bits par arête pour les graphes 3-connexes, et 1:62 bits par triangle (ou 3:24 bits par sommet) pour les triangulations. Ces structures permettent aussi l'accès en temps O(1) aux informations associées aux sommets, notamment leurs coordonnées. Cependant nous ne traitons pas ici la compression de cette information géométrique.
APA, Harvard, Vancouver, ISO, and other styles
33

Muscariello, Armando. "Découverte de motifs variables dans les grandes volumes de données audio." Phd thesis, Université Rennes 1, 2011. http://tel.archives-ouvertes.fr/tel-00642956.

Full text
Abstract:
Découverte de motifs variables dans les grandes volumes de données audio. Les données audio, comme les documents oraux ou télévisés ou les données radio, sont composées par de nombreux sequences variables qui se répètent. La découverte de l'emplacement de ces répétitions, ci-après dénommé motifs, aide à déduire les propriétés structurelles de données acoustiques, ce qui facilite l'accès à la partie pertinente des données, et qui permets de résumér des grands documents par un ensemble de quelques éléments particuliers. Cette thèse détails nos efforts dans la conception et la mise en oeuvre d'une architecture non supervisée de découverte de motifs, et montres son applicabilité dans une tâche de decouverte des mots et des segments peu variables comme des chansons. En ce qui concerne la méthodologie, la découverte est réalisée d'une manière totalement non supervisée, ce qui signifie que aucune connaissance acoustiques ou linguistiques sur les données est fournie. Notre solution est basée sur l'intégration d'une technique de traitement de données séquentielle qui exploits la répétitivité local du motifs réel, et une variante segmentale de l'alignement temporel dynamique. En s'appuyant sur cette architecture, une technique pour la comparaison de sequences basée sur leurs matrices d autosimilarité de est introduite, pour améliorer la robustesse à la variabilité du signal de parole. En outre, l'applicabilité du système est démontrée sur une tâche de découverte de chansons sur plusieurs jours de flux audio. Pour adapter le système à cette tâche, des techniques pour accélérer le temps de calcul sont mises en oeuvre, basées sur le sous-échantillonnage des séquences.
APA, Harvard, Vancouver, ISO, and other styles
34

Marascu, Alice. "Extraction de motifs séquentiels dans les flux de données." Phd thesis, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00445894.

Full text
Abstract:
Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses. Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l'impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d'application de ces traitements (comme les transactions bancaires, l'usage du Web, la surveillance des réseaux, etc) ont suscité beaucoup d'intérêt tant dans les milieux industriels qu'académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l'historique des flux. Cela a conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd'hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d'analyse et de résumé. De plus, l'extraction de motifs séquentiels y est encore peu étudiée: au commencement de cette thèse, il n'existait aucune méthode d'extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d'une manière efficace et fiable et qui permet principalement d'en extraire des motifs séquentiels. Dans cette thèse, nous proposons l'approche CLARA (CLAssification, Résumés et Anomalies). CLARA permet d'obtenir des clusters à partir d'un flux de séquences d'itemsets, de calculer et gérer des résumés de ces clusters et d'y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent: - La classification non supervisée de séquences d'itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. - Les résumés de flux de données à l'aide de l'extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L'ensemble de ces motifs permet de résumer le flux de manière fiable à un instant t. La gestion de l'historique de ces motifs est un point essentiel dans l'analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d'optimiser cet historique. - La détection d'anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l'utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peut avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposerons également un cas d'étude sur des données réelles, réalisé en collaboration avec Orange Labs.
APA, Harvard, Vancouver, ISO, and other styles
35

Finance, Béatrice. "Accès transparent et sécurisé à des données largement distribuées." Habilitation à diriger des recherches, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00340601.

Full text
Abstract:
Offrir un accès transparent et sécurisé à un ensemble de ressources passe par la définition de logiciels de médiation qui rendent la complexité de l'architecture sous-jacente transparente à l'utilisateur en offrant des facilités de conception, d'intégration, d'interrogation et d'administration permettant le partage de données et de programmes d'une manière fiable et efficace. Un très gros effort a été mené ces vingt dernières années pour aider à la mise en œuvre de ces logiciels de médiation, que cela soit par la communauté bases de données ou par la communauté systèmes distribués. Ces deux communautés adressent différemment le problème de l'accès transparent et sécurisé à des ressources largement distribuées, il est donc important aujourd'hui de comprendre la variabilité des solutions en termes de fonctionnalités, de design, d'algorithmes et d'architectures afin d'identifier les différentes dimensions du problème.
Ce mémoire retrace l'ensemble de mes activés de recherche réalisées à partir de 1992 au sein du thème SBD (Systèmes et Bases de Données) du laboratoire PRISM de l'Université de Versailles-St-Quentin, et depuis 2002, dans le cadre du projet SMIS (Secure & Mobile Information System) à l'INRIA. Il détaille les aspects pluridisciplinaires de l'accès transparent aux données comme la conception et le développement de systèmes de médiation de données pour l'interopérabilité de bases de données relationnelles, objets et XML, et la problématique d'accès aux données dans les systèmes à objets distribués à l'aide d'annuaires. Il aborde également la problématique d'accès sécurisé aux données, notamment dans un contexte XML.
Ce mémoire détaille l'ensemble de mes contributions scientifiques autour de ces trois thèmes, indique pour chacun d'eux le contexte historique de l'époque et le replace vis-à-vis de l'existant. Pour conclure, il liste un ensemble de perspectives et directions de recherche à la lueur de mon expérience pluridisciplinaire et du constat de l'adoption croissante de XML comme fondation technologique pour l'accès transparent et sécurisé aux données largement distribuées.
APA, Harvard, Vancouver, ISO, and other styles
36

Travers, Nicolas. "Optimisation Extensible dans un Mediateur de Données Semi-Structurées." Phd thesis, Université de Versailles-Saint Quentin en Yvelines, 2006. http://tel.archives-ouvertes.fr/tel-00131338.

Full text
Abstract:
Cette thèse propose un cadre d'évaluation pour des requêtes XQuery dans un
contexte de médiation de données XML. Un médiateur doit fédérer des sources de données
distribuées et hétérogènes. A cette fin, un modèle de représentation des requêtes est néces-
saire. Ce modèle doit intégrer les problèmes de médiation et permettre de définir un cadre
d'optimisation pour améliorer les performances. Le modèle des motifs d'arbre est souvent
utilisé pour représenter les requêtes XQuery, mais il ne reconnaît pas toutes les spécifica-
tions du langage. La complexité du langage XQuery fait qu'aucun modèle de représentation
complet n'a été proposé pour reconna^³tre toutes les spécifications. Ainsi, nous proposons un
nouveau modèle de représentation pour toutes les requêtes XQuery non typées que nous appe-
lons TGV. Avant de modéliser une requête, une étape de canonisation permet de produire une
forme canonique pour ces requêtes, facilitant l'étape de traduction vers le modèle TGV. Ce
modèle prend en compte le contexte de médiation et facilite l'étape d'optimisation. Les TGV
définis sous forme de Types Abstraits de Données facilitent l'intégration du modèle dans tout
système en fonction du modèle de données. De plus, une algèbre d'évaluation est définie pour
les TGV. Grâce µa l'intégration d'annotations et d'un cadre pour règles de transformation, un
optimiseur extensible manipule les TGV. Celui-ci repose sur des règles transformations, un
modèle de coût générique et une stratégie de recherche. Les TGV et l'optimiseur extensible
sont intégrés dans le médiateur XLive, développé au laboratoire PRiSM.
APA, Harvard, Vancouver, ISO, and other styles
37

Jaff, Luaï. "Structures de Données dynamiques pour les Systèmes Complèxes." Phd thesis, Université du Havre, 2007. http://tel.archives-ouvertes.fr/tel-00167104.

Full text
Abstract:
Mon travail porte sur la dynamique de certaines structures de données et sur les systèmes complexes. Nous avons présenté une approche de la combinatoire des tableaux et des permutations basée sur la dynamique. Cette approche, que nous appelons (Structures de Données Dynamiques) nous ouvre
la porte vers des applications en économie via les systèmes complexes.

Les structures de données que nous avons étudiées sont les permutations qui ne contiennent pas de sous-suite croissante de longueur plus que deux, les tableaux de Young standards rectangles à deux lignes, les mots de Dyck et les codes qui lient ces structures de données.

Nous avons proposé un modèle économique qui modélise le bénéfice d'un compte bancaire dont l'énumération des configurations possible se fait à l'aide d'un code adapté. Une seconde application
concerne l'évolution de populations d'automate génétique . Ces populations sont étudiées par analyse spectrale et des expérimentations sont données sur des automates probabilistes dont l'évolution conduit à contrôler la dissipation par auto-régulation.

L'ensemble de ce travail a pour ambition de donner quelques outils calculatoires liés à la dynamique de structures de données pour analyser la complexité des systèmes.
APA, Harvard, Vancouver, ISO, and other styles
38

Jawad, Mohamed. "Confidentialité de données dans les systèmes P2P." Phd thesis, Université de Nantes, 2011. http://tel.archives-ouvertes.fr/tel-00638721.

Full text
Abstract:
Les communautés en ligne pair-a-pair (P2P), comme les communautés professionnelles (p. ex., médicales ou de recherche) deviennent de plus en plus populaires a cause de l'augmentation des besoins du partage de données. Alors que les environnements P2P offrent des caractéristiques intéressantes (p. ex., passage a l'échelle, disponibilité, dynamicité), leurs garanties en termes de protection des données sensibles sont limitées. Ils peuvent être considérés comme hostiles car les données publiées peuvent être consultées par tous les pairs (potentiellement malicieux) et utilisées pour tout (p. ex., pour le commerce illicite ou tout simplement pour des activités contre les préférences personnelles ou éthiques du propriétaire des données). Cette thèse propose un service qui permet le partage de données sensibles dans les systèmes P2P, tout en assurant leur confidentialité. La première contribution est l'analyse des techniques existant pour la confidentialité de données dans les architectures P2P. La deuxième contribution est un modèle de confidentialité, nommé PriMod, qui permet aux propriétaires de données de spécifier leurs préférences de confidentialité dans de politiques de confidentialité et d'attacher ces politiques a leurs données sensibles. La troisième contribution est le développement de PriServ, un service de confidentialité, basé sur une DHT qui met en oeuvre PriMod afin de prévenir la violation de la confidentialité de données. Entre autres, PriServ utilise de techniques de confiance pour prédire le comportement des pairs.
APA, Harvard, Vancouver, ISO, and other styles
39

Schmitt, Alan. "Analyses Statiques pour Manipulations de Données Structurées Hiérarchiquement." Habilitation à diriger des recherches, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00637917.

Full text
Abstract:
Selon le Larousse, un programme informatique est un "ensemble d'instructions et de données représentant un algorithme et susceptible d'être exécuté par un ordinateur." Une forte adéquation entre instructions et données est donc nécessaire afin d'éviter tout dysfonctionnement d'un programme. Nous nous sommes ainsi intéressés ces dernières années aux analyses statiques, réalisées avant l'exécution du programme, permettant de garantir que la manipulation des données se passera correctement. Nous illustrerons nos recherches sur ce thème en considérant trois grandes familles de données: les arbres non ordonnés, les arbres ordonnés (dont XML), et les programmes eux-mêmes en tant que données. Dans chacun de ces domaines, nous avons conçu des analyses statiques, sous forme de système de types ou de bisimulations, adaptés à plusieurs problématiques telles que la manipulation de messages dans un système à composants, les langages bidirectionnels, la manipulation de XML ou les calculs de processus d'ordre supérieur avec passivation.
APA, Harvard, Vancouver, ISO, and other styles
40

Constantin, Camelia. "Classement de Services et de Données par leur Utilsation." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2007. http://tel.archives-ouvertes.fr/tel-00809638.

Full text
Abstract:
L'émergence des systèmes pair-à-pair et la possibilité de réaliser des calculs et d'échanger des données par des services web conduit à des systèmes d'intégration de données à large échelle où l'évaluation de requêtes et d'autres traitements complexes sont réalisés par composition de services. Un problème important dans ce type de systèmes est l'absence de connaissances globales. Il est difficile par exemple de choisir le meilleur pair pour le routage des requêtes, le meilleur service lors de la composition de services ou de décider parmi les données locales à un pair celles à rafraîchir, à mettre en cache, etc. La notion de choix implique celle de classement. Bien qu'il soit possible de comparer et classer des entités d'après leur contenu ou d'autres métadonnées associées, ces techniques sont généralement basées sur des descriptions homogènes et sémantiquement riches. Une alternative intéressante dans le contexte d'un système à large échelle est le classement basé sur les liens qui exploite les relations entre les différentes entités et permet de faire des choix fondés sur des informations globales. Cette thèse présente un nouveau modèle générique de classement de services fondé sur leurs liens de collaboration. Nous définissons une importance globale de service en exploitant des connaissances spécifiques sur sa contribution aux autres services à travers les appels reçus et les données échangées. L'importance peut être calculée efficacement par un algorithme asynchrone sans génération de messages supplémentaires. La notion de contribution est abstraite et nous avons étudié son instanciation dans le cadre de trois applications: (i) le classement de services basé sur les appels où la contribution reflète la sémantique des services ainsi que leur utilisation avec le temps; (ii) le classement de services par l'utilisation des données où la contribution des services est fondée sur l'utilisation de leurs données pendant l'évaluation des requêtes dans un entrepôt distribué; (iii) la définition des stratégies de cache distribuées qui sont basées sur la contribution d'une mise en cache des données à réduire la charge du système.
APA, Harvard, Vancouver, ISO, and other styles
41

Faye, David Célestin. "Médiation de données sémantique dans SenPeer, un système pair-à-pair de gestion de données." Phd thesis, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00481311.

Full text
Abstract:
La société de l'information demande un accès efficace à un ensemble d'informations qui sont souvent hétérogènes et distribuées. Dans le but d'un partage efficace de cette information, plusieurs solutions techniques ont été proposées. L'infrastructure Pair-à-Pair (P2P) est un paradigme émergent et offrant de nouvelles opportunités pour la mise en place de systèmes distribués à grande échelle. D'autre part, le concept de base de données distribuée a été introduit dans le but d'organiser une collection multiple de bases de données logiquement liées et distribuées sur un réseau d'ordinateurs. Récemment, les systèmes P2P de gestion de données communément appelés PDMS (Peer Data Management System) ont vu le jour. Ils combinent les avantages des systèmes P2P avec ceux des bases de données distribuées. Dans le but de contribuer à la recherche sur la gestion de données dans un contexte P2P, nous proposons le PDMS SenPeer. SenPeer suit une topologie super-pair basée sur l'organisation des pairs en communautés sémantiques en fonction de leur thème d'intérêt. Pour faciliter l'échange de données entre pairs nous établissons des processus de découverte de correspondances sémantiques et de reformulation de requêtes en présence de plusieurs modèles de données. Ces correspondances sémantiques, en combinaison avec les schémas des pairs sont à la base d'une topologie sémantique au dessus du réseau physique et utilisée pour un routage efficace des requêtes. Les requêtes sont échangées à travers un format commun d'échange de requête et un processus d'optimisation distribué permet de choisir le meilleur plan d'exécution de la requête en fonction des caractéristiques du PDMS. Une validation expérimentale par la mise en place d'un simulateur permet d'affirmer l'utilité et la performance des techniques proposées.
APA, Harvard, Vancouver, ISO, and other styles
42

Dehainsala, Hondjack. "Explicitation de la sémantique dans lesbases de données : Base de données à base ontologique et le modèle OntoDB." Phd thesis, Université de Poitiers, 2007. http://tel.archives-ouvertes.fr/tel-00157595.

Full text
Abstract:
Une ontologie de domaine est une représentation de la sémantique des concepts d'un domaine
en termes de classes et de propriétés, ainsi que des relations qui les lient. Avec le développement de
modèles d'ontologies stables dans différents domaines, OWL dans le domaine duWeb sémantique,
PLIB dans le domaine technique, de plus en plus de données (ou de métadonnées) sont décrites par référence à ces ontologies. La taille croissante de telles données rend nécessaire de les gérer au sein de bases de données originales, que nous appelons bases de données à base ontologique (BDBO), et qui possèdent la particularité de représenter, outre les données, les ontologies qui en définissent le sens. Plusieurs architectures de BDBO ont ainsi été proposées au cours des dernières années. Les chémas qu'elles utilisent pour la représentation des données sont soit constitués d'une unique table de triplets de type (sujet, prédicat, objet), soit éclatés en des tables unaires et binaires respectivement pour chaque classe et pour chaque propriété. Si de telles représentations permettent une grande flexibilité dans la structure des données représentées, elles ne sont ni susceptibles de passer à grande échelle lorsque chaque instance est décrite par un nombre significatif de propriétés, ni adaptée à la structure des bases de données usuelles, fondée sur les relations n-aires. C'est ce double inconvénient que vise à résoudre le modèle OntoDB. En introduisant des hypothèses de typages qui semblent acceptables dans beaucoup de domaine d'application, nous proposons une architecture de BDBO constituée de quatre parties : les deux premières parties correspondent à la structure usuelle des bases de données : données reposant sur un schéma logique de données, et méta-base décrivant l'ensemble de la structure de tables.
Les deux autres parties, originales, représentent respectivement les ontologies, et le méta-modèle
d'ontologie au sein d'un méta-schéma réflexif. Des mécanismes d'abstraction et de nomination permettent respectivement d'associer à chaque donnée le concept ontologique qui en définit le sens, et d'accéder aux données à partir des concepts, sans se préoccuper de la représentation des données. Cette architecture permet à la fois de gérer de façon efficace des données de grande taille définies par référence à des ontologies (données à base ontologique), mais aussi d'indexer des bases de données usuelles au niveau connaissance en leur adjoignant les deux parties : ontologie et méta-schéma. Le modèle d'architecture que nous proposons a été validé par le développement d'un prototype opérationnel implanté sur le système PostgreSQL avec le modèle d'ontologie PLIB. Nous présentons également une évaluation comparative de nos propositions aux modèles présentés antérieurement.
APA, Harvard, Vancouver, ISO, and other styles
43

Langlois, Vincent. "Couple de friction métallique de nouvelle génération en arthroplastie totale primaire de hanche : historique, données actuelles et résultats préliminaires d'une série de 54 cas." Bordeaux 2, 2001. http://www.theses.fr/2001BOR23022.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Laurent, Anne. "Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles." Habilitation à diriger des recherches, Université Montpellier II - Sciences et Techniques du Languedoc, 2009. http://tel.archives-ouvertes.fr/tel-00413140.

Full text
Abstract:
Ce mémoire décrit mes activités de recherche et d'animation de recherche depuis ma thèse, soutenue en 2002. Les travaux décrits ici ont été principalement menés au LIRMM (Université Montpellier 2, CNRS UMR 5506), au sein de l'équipe TATOO. Dans ce contexte, je me suis attachée à concilier des visions trop souvent vues comme divergentes au sein des communautés liées à la fouille de données complexes : gérer l'approximation (à la fois dans les données et dans les résultats produits), la fouille de données et les bases de données complexes et volumineuses, notamment les entrepôts de données. Plus précisément, mes travaux visent à montrer qu'il est possible de relever le défi jusqu'à présent non totalement solutionné d'extraire des connaissances exploitables par les experts non informaticiens à partir d'entrepôts de données, en prenant en compte au mieux les particularités de ce domaine. En particulier, j'ai porté d'une part une grande attention à exploiter la dimension temporelle des entrepôts et d'autre part à montrer autant que faire se peut que flou et passage à l'échelle ne sont pas des notions antagonistes. Dans cet objectif, j'ai mené, dirigé, encadré et valorisé à travers des collaborations scientifiques et industrielles des travaux dont je rapporte ici une synthèse.
APA, Harvard, Vancouver, ISO, and other styles
45

BARRA, Vincent. "Modélisation, classification et fusion de données biomédicales." Habilitation à diriger des recherches, Université Blaise Pascal - Clermont-Ferrand II, 2004. http://tel.archives-ouvertes.fr/tel-00005998.

Full text
Abstract:
Ce mémoire synthétise les travaux que j'ai menés de 2000 à 2004, au sein de deux laboratoires des facultés de Clermont-Ferrand : l'Equipe de Recherche en Imagerie Médicale (ERIM, Université d'Auvergne), où j'ai effectué ma thèse, et le Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS, Université Blaise Pascal) dans lequel j'ai été accueilli suite à mon recrutement en tant que maître de conférences dans cette même université. Ce changement de laboratoire s'est accompagné d'une modification de mon thème principal de recherche, passant du traitement d'images médicales multimodales par des techniques de fusion d'informations, au domaine de la bioinformatique en général, et de l'étude des puces à ADN en particulier. Plutôt que d'essayer de regrouper artificiellement ces deux thèmes au sein d'un même plan, j'ai préféré diviser ce mémoire en deux parties distinctes et cohérentes, chacune traitant d'un des deux aspects de recherche que je mène actuellement de front. Ainsi, la première partie résume les travaux que j'ai effectués depuis 2001 dans le domaine de la fusion de données appliquée au traitement d'images 3D du cerveau, soit directement soit dans le cadre du co-encadrement de deux doctorants. Le dernier chapitre de cette partie met en particulier en perspective les nouveaux développements espérés sur la stimulation magnétique transcrânienne, à travers l'encadrement d'une thèse CIFRE que j'assure par délégation à temps plein. La seconde partie se concentre sur les recherches que je mène depuis septembre 2001 au LIMOS, concernant l'étude des images de puces à ADN. J'expose dans cette partie au travers de trois chapitres mon projet de recherche dans ce domaine, et je présente pour chaque choix retenu ma contribution sous la forme d'un simulateur d'images de biopuces transcriptome et de nouvelles méthodes d'analyse de ces images. Si les deux parties sont clairement décorrélées, j'ai néanmoins essayé de dégager une problématique générale commune à mes travaux, que j'ai nommée sans forfanterie modélisation, classification et fusion de données biomédicales, et qui constitue le titre de ce manuscrit.
APA, Harvard, Vancouver, ISO, and other styles
46

Perrin, Olivier. "De l'intégration de données à la composition de services Web." Habilitation à diriger des recherches, Université Nancy II, 2010. http://tel.archives-ouvertes.fr/tel-00544860.

Full text
Abstract:
Il est désormais devenu naturel pour les entreprises de faire coexister des systèmes d'informations, des services ou des processus différents étant donné que celles-ci passent d'architectures centralisées à des architectures distribuées en vue de mener à bien des projets communs. Dans ce contexte, l'interopérabilité, c'est-à-dire la capacité qu'ont deux ou plusieurs composants (applications, sources de données, services mais aussi processus métier) de communiquer et de coopérer en dépit des différences (l'hétérogénéité) dues au langage d'implantation, à l'environnement d'exécution (applicatif métier) ou au modèle d'abstraction choisi (niveau d'abstraction choisi pour représenter une information), est devenue de plus en plus importante. Dans mes travaux, je me suis intéressé à différents problèmes autour de l'interopérabilité, en étudiant respectivement les problèmes liés à l'intégration de données afin de prendre compte l'hétérogénéité au niveau données, les problèmes liés à la distribution et à l'autonomie des processus interentreprises, et enfin les problèmes liés la fiabilité des compositions de services dans les architectures orientées services. Ce sont ces dimensions que je présente dans ce document, ainsi que quelques perspectives.
APA, Harvard, Vancouver, ISO, and other styles
47

Daassi, Chaouki. "Techniques d'interaction avec un espace de données temporelles." Phd thesis, Université Joseph Fourier (Grenoble), 2003. http://tel.archives-ouvertes.fr/tel-00005156.

Full text
Abstract:
Les données temporelles sont fréquemment manipulées dans plusieurs domaines d'application (bancaire, clinique, géographique, etc.). Malgré la diversité des techniques proposées pour visualiser ce type de données, nous constatons un manque d'approches et de méthodes de conception. Dans cette thèse, nous proposons une approche de conception de techniques de visualisation et plus généralement d'interaction avec des espaces de données temporelles. Pour garantir l'utilisabilité de ces techniques, nous proposons de prendre en compte les caractéristiques des données manipulées et les tâches utilisateur, nous situant ainsi à la jonction de deux domaines de l'informatique : les Bases de Données et les Interfaces Homme-Machine. Ce travail contribue donc à la conception de systèmes interactifs pour l'analyse visuelle de données temporelles. Dans ce contexte, nous proposons une taxonomie qui organise les travaux existants de visualisation de données temporelles selon leur processus de visualisation. Cette taxonomie est construite à partir du processus de visualisation proposé par Chi. En collaboration avec des utilisateurs géographes, nous avons identifié une liste de tâches utilisateur pertinentes pour la manipulation de données temporelles. A partir de cette liste, nous avons conçu et implémenté cinq techniques d'interaction adaptées aux tâches identifiées. Nous avons intégré ces techniques pour développer INVEST (Interactive Visualization and Explorative System of Temporal data) qui est une plate-forme multi-techniques pour l'analyse visuelle de données temporelles. Chaque technique de visualisation est une vue du même espace de données. INVEST inclut un moteur de sélection de techniques de visualisation en fonction des tâches utilisateur spécifiées.
APA, Harvard, Vancouver, ISO, and other styles
48

Saliba, Elie Mario. "Understanding and managing Zoological Nomenclature in the era of Big Data and Open Science." Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS460.

Full text
Abstract:
La nomenclature est la branche de la taxonomie responsable de la création et de la gestion des noms scientifiques attribués aux catégories d’êtres vivants. Elle assure la continuité de la transmission de toutes sortes de données et de connaissances accumulées sur les taxons. Les zoologistes se réfèrent pour cela au Code International de Nomenclature Zoologique. Le Code contient les règles qui permettent de comprendre et d'appliquer correctement cette discipline. La nomenclature s'est complexifiée au fil des siècles, pour s'adapter aux changements scientifiques et technologiques. Aujourd’hui, la nomenclature joue, par l’intermédiaire des noms scientifiques, un rôle crucial dans les bases de données de biodiversité. Mais ces dernières présentent cependant des limitations en termes de modèles de données et de l’utilisation de celles-ci pour des travaux nomenclaturaux. Cette dimension de la nomenclature est explorée dans la thèse. Si les données nomenclaturales sont présentes en grande partie dans les bases de données en ligne, la discipline elle-même est restée relativement imperméable à l'informatisation. Une analyse approfondie du Code a permis d’établir une liste d’objets formels et des propriétés les accompagnant nécessaires pour modéliser les règles de cette discipline. En effet, la structure des règles du Code se veut logique et non-ambigüe, et est donc idéale pour une traduction de ces dernières en série d’algorithmes. Cette hypothèse a mené à la création d’une application web appelée Lognom, pour ‘logiciel de nomenclature’. Lognom est un logiciel basé sur des algorithmes aidant à la prise de décision en matière de nomenclature zoologique. L’application ne repose pas sur des bases de données préexistantes, mais fournit une réponse en fonction des données entrées par l'utilisateur. Ce logiciel vise à soutenir les taxonomistes dans leur gestion de la nomenclature au quotidien, en déterminant si un nom ou un travail est disponible, si les règles orthographiques ont été correctement appliquées et si toutes les exigences précédant la publication d’un nouveau nom ou d’un nouveau travail ont été respectées. Lognom permet également à l'utilisateur d’établir quel nom est le nom valide parmi plusieurs candidats préenregistrés, et la liste des synonymes qui résulte de cette détermination. Il comprend également quelques outils pour répondre à des questions diverses de nomenclature, telle que la détermination du genre grammatical d’un nom de genre. Toutes les règles du Code de nomenclature zoologique n’ont cependant pas pu être intégrées à l’application. Certaines règles reposent sur une interprétation sémantique qu’il est très complexe d’automatiser. De plus, même s’il contient quelques contrôles, Lognom est très sensible à la qualité des données fournies par ses utilisateurs. Une proposition de classification des règles est fournie, afin de mieux cerner les forces et les faiblesses du Code quant à sa possible informatisation exhaustive, ainsi que des recommandations quant à l’optimisation de son caractère logique et non-ambigu. De même, diverses questions en rapport avec la nomenclature et ses applications informatiques sont explorées, et une brève analyse expliquant les difficultés sociales liées à l’amélioration de ces règles est évoquée. Il y existe une multitude d’applications futures possibles pour les algorithmes développés lors de cette thèse. Ces perspectives incluent la possibilité de travailler collaborativement sur des projets concernant la nomenclature d’un même groupe taxonomique. Ceci pourrait conduire à établir des listes dynamiques de noms. Une modification de ces algorithmes pourraient également simuler l’impact d’une modification des règles du Code sur les noms et les travaux existants. Sur le long terme, un outil tel que Lognom pourrait conduire à la possibilité de modéliser la nomenclature dans sa totalité, et d’ouvrir la porte à une gestion plus efficace et plus coordonnée de cette discipline pluricentenaire
Nomenclature is the discipline of taxonomy responsible for creating and managing the scientific names assigned to categories of living beings. It ensures continuity in the transmission of all kinds of accumulated data and knowledge about taxa. To this end, zoologists refer to the International Code of Zoological Nomenclature. The Code contains the rules for understanding and correctly applying this discipline.Nomenclature has become increasingly complex over the centuries, to keep pace with the evolution of scientific and technological knowledge. It currently plays, through scientific names, a crucial role in biodiversity databases. However, databases have their limitations in terms of structure when it comes to nomenclatural endeavors. The role of nomenclature in databases is explored in the thesis.While nomenclatural data is largely present in online databases, the discipline itself has remained relatively impervious to computerization. An in-depth analysis of the Code enabled the creation of a list of formal objects and their properties, which are needed to model the rules of this discipline. Moreover, the structure of the Code's rules is intended to be logical and unambiguous, which makes it ideal for translating into a series of algorithms. This hypothesis led to the creation of a web application called Lognom. Lognom is an algorithm-based software that supports decision-making in zoological nomenclature. The application does not rely on pre-existing databases, but provides an answer based on data entered by the user. The software aims to support taxonomists in their day-to-day nomenclature management, by determining whether a name or work is available and whether spelling rules have been correctly applied. It can also verify whether all requirements preceding the publication of a new name or work have been met. Additionally, Lognom allows the user to establish which name is the valid name among several candidates, and the list of synonyms that results from this decision. It also includes several tools for answering various nomenclatural questions, such as the determination of the grammatical gender of a genus name. However, it has not been possible to integrate all the rules of the International Code of Zoological Nomenclature into the application. Some rules are based on semantic interpretation, which is very complex to automate. Moreover, Lognom is highly sensitive to the quality of the data supplied by its users, even if it does provide a few controls. A proposed classification of the Code’s rules is included, to better identify the strengths and weaknesses of the Code in terms of its possible complete computerization. Recommendations for the optimization of its logical and unambiguous character are also mentioned. Similarly, various issues relating to nomenclature and its computer applications are explored, as well as a brief analysis of the social difficulties that might impede the improvement of these rules. There are still many possible future applications for the algorithms developed for Lognom. These include the possibility of working collaboratively on projects concerning the nomenclature of q given taxonomic group. This could lead to the creation of dynamic lists of names: Furthermore, the algorithms should be able to simulate the impact of changes in the rules of the Code on existing names and works. In the long term, a tool such as Lognom could enable the possibility of modeling nomenclature in its entirety, opening the door to more efficient and coordinated management of this centuries-old discipline
APA, Harvard, Vancouver, ISO, and other styles
49

Pigeau, Antoine. "Structuration géo-temporelle de données multimédia personnelles." Phd thesis, Nantes, 2005. http://www.theses.fr/2005NANT2131.

Full text
Abstract:
Les travaux de recherche présentés dans cette thèse portent sur la classification de ollections d'images personnelles acquises à partir d'un mobile. Nous avons choisi de traiter la structuration de la collection d'images comme un problème de classification. Notre approche est basée sur la construction de deux partitions distinctes, l'une temporelle et l'autre spatiale, à partir des métadonnées des images : leur date et leur géolocalisation. Les principaux ingrédients de notre approche sont les modèles de mélange gaussien et le critère statistique ICL pour déterminer leur complexité. Un algorithme d'optimisation incrémental du critère ICL est tout d'abord proposé, permettant la construction de partitions non-hiérarchiques. Il est ensuite combiné avec un algorithme agglomératif pour fournir un algorithme hiérarchique incrémental. Enfin nous proposons plusieurs techniques, pour construire des partitions ybridespatio-temporelles, prenant en compte les contraintes d'IHM sur un mobile
Usage of mobile devices raises the need for organizing large personal multimedia collection. The present work focus on personal image collections acquired from mobile phones equipped with a camera. We deal with the structuring of an image collection as a clustering problem. Our solution consists in building two distinct temporal and spatial partitions, based on the temporal and spatial metadata of each image. The main ingredients of our approach are the Gaussian mixture models and the ICL criterion to determine the models complexities. First, we propose an incremental optimization algorithm to build non-hierarchical partitions in an automatic manner. It is then combined with an agglomerative algorithm to provide an incremental hierarchical algorithm. Finally, two techniques are roposed to build hybrid spatio-temporal classifications taking into account the human machine interaction constraints
APA, Harvard, Vancouver, ISO, and other styles
50

Bourqui, Romain. "Décomposition et Visualisation de graphes : Applications aux Données Biologiques." Phd thesis, Université Sciences et Technologies - Bordeaux I, 2008. http://tel.archives-ouvertes.fr/tel-00421872.

Full text
Abstract:
La quantité d'informations stockée dans les bases de données est en constante augmentation rendant ainsi nécessaire la mise au point de systèmes d'analyse et de visualisation. Nous nous intéressons dans cette thèse aux données relationnelles et plus particulièrement aux données biologiques. Cette thèse s'oriente autour de trois axes principaux : tout d'abord, la décomposition de graphes en groupes d'éléments ”similaires” afin de détecter d'éventuelles structures de communauté ; le deuxième aspect consiste à mettre en évidence ces structures dans un système de visualisation, et dans un dernier temps, nous nous intéressons à l'utilisabilité de l'un de ces systèmes de visualisation via une évaluation expérimentale.
Les travaux de cette thèse ont été appliqués sur des données réelles provenant de deux domaines de la biologie : les réseaux métaboliques et les réseaux d'interactions gènes-protéines.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography