Tesi: "Science des donnes"

1

Stone, Christopher John. "Aspects of science in the works of Donne and Milton". Thesis, University of Leeds, 2013. http://etheses.whiterose.ac.uk/5883/.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

This thesis exploits the tendency within the early modern period for intellectual eclecticism in order to understand how educated renaissance figures understood the nature of knowledge. Through a detailed study of how both John Donne and John Milton interpreted, acknowledged, and assimilated the understanding gained through their scientific reading and interests into their artistic, literary, and philosophical writings, this thesis outlines a variety of the period’s reflections on the nature of knowledge. Amongst these philosophies, questions of the permissibility of gaining access to information, hierarchical relationships between the knowledge accessed through emergent scientific practices and established literary traditions, and the influence of modern technology upon the quality (and even the trustworthiness) of learning gathered through such endeavours act to establish a collection of academic strategies which early modern intellectuals used to help them navigate the rapidly expanding landscape of knowledge. In pursuing the areas outlined above, the thesis uses an innovative chronological methodology which – whilst fairly common amongst Milton studies – is unusual in the field of Donne scholarship. The predominantly chronological methodology offers several benefits to the thesis. Notably, it allows for the progress and development of ideas over the lives of both writers to be examined. Furthermore, this methodology causes texts to be read according to their merit rather than their arbitrarily assigned ‘historical importance’. Thus, the thesis offers new and detailed readings of texts covering the breadth of Donne and Milton’s respective corpuses selected for their value to the thesis’s remit. It is for this reason that the thesis offers extensive readings of not only major canonical works such as Paradise Lost, Samson Agonistes, ‘The First Anniversary’, and Donne’s Sermons but also affords the same level of attention to Ignatius His Conclave, and Milton’s Commonplace Book. The chronological methodology also causes a heightened focus upon intertextual readings within the thesis – with prose and poetry considered alongside each other so as to produce a richer and fuller understanding of the respective authors’ canons that is not limited by genre. The thesis, ultimately, offers two intersecting case studies of educated individuals which – in some areas – offer a broader understanding of how the emergence of new areas of knowledge and new classifications within the panorama of human learning were interpreted, managed, and accommodated.

2

Di, Ruscio Andrea. "Utilisation des données de radio science pour la construction d’éphémérides planétaires". Thesis, Université Côte d'Azur, 2021. http://www.theses.fr/2021COAZ4031.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le thème central de la thèse concerne l’utilisation des données de radio tracking pour le développement d’éphémérides planétaires, en particulier, dans deux cas : 1) analyse de données de navigation de la mission Cassini pour améliorer les éphémérides de Saturne et augmenter notre connaissance du système solaire externe ; 2) simulation des données radio de la mission ESA BepiColombo collectées durant la phase orbital à Mercure, pour évaluer leur contribution sur le développement des éphémérides planétaire de l’Intégrateur Numérique Planétaire de l’Observatoire de Paris (INPOP).Le premier sujet de recherche essaie de traiter les données de navigation de la sonde Cassini autour de Saturne en utilisant la connaissance mise à jour du système Saturnien : éphémérides précises pour les lunes du système et caractérisation de la gravité de Titan et des autres lunes principales.Ça permis la création des points normaux plus précis, capable de contraindre l’orbite de Saturne pour 13 ans (la moitié de sa révolution autour du Soleil) au niveau des mètres et de donner précieux informations sur le système solaire externe, en particulier sur la masse de la Kuiper belt et sur la possible position de P9. Les nouvelles données montrent une réduction de l’incertitude d’un facteur 5 en respect aux analyses précédentes.La deuxième partie de la thèse se concentre sur la production des simulations réalistes des données radio que le Mercury Orbiter Radio-science Experiment (MORE) de la sonde BepiColombo mesurera durant la phase scientifique de sa mission autour de Mercure.Des points normaux sont après produits avec une incertitude déduite de la matrice de covariance de l’état de la sonde estimé en utilisant ces données simulées.Ces points sont donc traités par le weighted-least square estimateur d’INPOP pour quantifier l’impact que les données de BepiColombo auront sur le développement des éphémérides planétaires, en particulier pour contraindre l’orbite de Mercure et des paramètres relativistes
The central theme of the thesis concerns the exploitation of radio tracking measurements for the development of planetary ephemerides, in particular, applied on two research topics: 1) the analysis of navigation data of Cassini mission to enhance the ephemeris of Saturn and increase our knowledge of the outer solar system; 2) the simulation of BepiColombo measurements collected during the orbital phase at Mercury, for assessing their contribution on the Intégrateur Numérique Planétaire de l’Observatoire de Paris (INPOP) planetary ephemerides.The first research aims at reprocessing Cassini radio tracking data by exploiting the current knowledge of the Saturnian system developed throughout the mission, i.e. the availability of accurate satellite ephemerides and precise gravity solutions for Saturn, Titan and the other major moons. This allows the production of more precise normal points, which are able to constrain the orbit of the planet at meters-level for 13 years (almost half of its revolution) and to provide invaluable insights on the mass of the Kuiper belt. The results show a reduction of a factor 5 on normal points uncertainties with respect to previous analyses, providing tighter constraints on the acceptance regions of planet 9.The second research topic focuses on the production of realistic normal points derived from the end-to-end simulation of BepiColombo Mercury Orbiter Radio-science Experiment (MORE). The uncertainties of the normal points are deduced from the mapped covariance of the spacecraft state. The derived measurements are then processed with the INPOP weighted-least squares filter to quantify the achievable constraints on ephemerides and relativistic parameters

3

Canselier, Guillaume. "Les données acquises de la science : les connaissances scientifiques et la faute médicale en droit privé". Paris 1, 2006. https://www.bnds.fr/collection/theses-numeriques-de-la-bnds/les-donnees-acquises-de-la-science-9782848741338.html.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Pour apprécier la faute médicale, le droit renvoie aux «données acquises de la science». Nombreuses sont désormais les règles de droit qui se référent à l'état des connaissances scientifiques. Des conséquences juridiques étant associées à cette référence, il importe d'en préciser le sens. Il y a là matière à une délicate opération de qualification. Les critères guidant le juriste dans cette tâche manquent aujourd'hui. C'est pourquoi les éclairages de la philosophie des sciences s'avèrent du plus grand intérêt pour le droit. L'épistémologie réfutationniste développée par Karl Popper, qui conçoit la science comme un ensemble de conjectures réfutables, fait accéder le juriste à une meilleure compréhension de la connaissance scientifique. Cette vision de la science permet de mieux saisir le rôle que le savoir scientifique doit jouer dans l'appréciation de la faute du médecin. Le comportement de ce dernier est jaugé à l'aune de normes médicales, entremêlant subtilement science et jugements de valeur. Via un phénomène d'internormativité, le droit renvoie à un réseau normatif qui lui est extérieur. La technique juridique par laquelle s'opère un tel renvoi est celle du standard. L'application du standard des données acquises de la science suscite d'indéniables difficultés. D'abord, elle requiert les lumières d'un expert, ce qui suppose de définir clairement le rôle de ce dernier par rapport à celui du juge. Ensuite, il est à craindre que ce standard favorise une appréciation inappropriée de la faute médicale parce que trop abstraite.

4

Tiano, Donato. "Learning models on healthcare data with quality indicators". Electronic Thesis or Diss., Lyon 1, 2022. http://www.theses.fr/2022LYO10182.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les séries temporelles sont des collections de données obtenues par des mesures dans le temps. Cette données vise à fournir des éléments de réflexion pour l'extraction d'événements et à les représenter dans une configuration compréhensible pour une utilisation ultérieure. L'ensemble du processus de découverte et d'extraction de modèles à partir de l'ensemble de données s'effectue avec plusieurs techniques d'extraction, notamment l'apprentissage automatique, les statistiques et les clusters. Ce domaine est ensuite divisé par le nombre de sources adoptées pour surveiller un phénomène. Les séries temporelles univariées lorsque la source de données est unique, et les séries temporelles multivariées lorsque la source de données est multiple. La série chronologique n'est pas une structure simple. Chaque observation de la série a une relation forte avec les autres observations. Cette interrelation est la caractéristique principale des séries temporelles, et toute opération d'extraction de séries temporelles doit y faire face. La solution adoptée pour gérer l'interrelation est liée aux opérations d'extraction. Le principal problème de ces techniques est de ne pas adopter d'opération de prétraitement sur les séries temporelles. Les séries temporelles brutes comportent de nombreux effets indésirables, tels que des points bruyants ou l'énorme espace mémoire requis pour les longues séries. Nous proposons de nouvelles techniques d'exploration de données basées sur l'adoption des caractéristiques plus représentatives des séries temporelles pour obtenir de nouveaux modèles à partir des données. L'adoption des caractéristiques a un impact profond sur la scalabilité des systèmes. En effet, l'extraction d'une caractéristique de la série temporelle permet de réduire une série entière en une seule valeur. Par conséquent, cela permet d'améliorer la gestion des séries temporelles, en réduisant la complexité des solutions en termes de temps et d'espace. FeatTS propose une méthode de clustering pour les séries temporelles univariées qui extrait les caractéristiques les plus représentatives de la série. FeatTS vise à adopter les particularités en les convertissant en réseaux de graphes pour extraire les interrelations entre les signaux. Une matrice de cooccurrence fusionne toutes les communautés détectées. L'intuition est que si deux séries temporelles sont similaires, elles appartiennent souvent à la même communauté, et la matrice de cooccurrence permet de le révéler. Dans Time2Feat, nous créons un nouveau clustering de séries temporelles multivariées. Time2Feat propose deux extractions différentes pour améliorer la qualité des caractéristiques. Le premier type d'extraction est appelé extraction de caractéristiques intra-signal et permet d'obtenir des caractéristiques à partir de chaque signal de la série temporelle multivariée. Inter-Signal Features Extraction permet d'obtenir des caractéristiques en considérant des couples de signaux appartenant à la même série temporelle multivariée. Les deux méthodes fournissent des caractéristiques interprétables, ce qui rend possible une analyse ultérieure. L'ensemble du processus de clustering des séries temporelles est plus léger, ce qui réduit le temps nécessaire pour obtenir le cluster final. Les deux solutions représentent l'état de l'art dans leur domaine. Dans AnomalyFeat, nous proposons un algorithme pour révéler des anomalies à partir de séries temporelles univariées. La caractéristique de cet algorithme est la capacité de travailler parmi des séries temporelles en ligne, c'est-à-dire que chaque valeur de la série est obtenue en streaming. Dans la continuité des solutions précédentes, nous adoptons les fonctionnalités de révélation des anomalies dans les séries. Avec AnomalyFeat, nous unifions les deux algorithmes les plus populaires pour la détection des anomalies : le clustering et le réseau neuronal récurrent. Nous cherchons à découvrir la zone de densité du nouveau point obtenu avec le clustering
Time series are collections of data obtained through measurements over time. The purpose of this data is to provide food for thought for event extraction and to represent them in an understandable pattern for later use. The whole process of discovering and extracting patterns from the dataset is carried out with several extraction techniques, including machine learning, statistics, and clustering. This domain is then divided by the number of sources adopted to monitor a phenomenon. Univariate time series when the data source is single and multivariate time series when the data source is multiple. The time series is not a simple structure. Each observation in the series has a strong relationship with the other observations. This interrelationship is the main characteristic of time series, and any time series extraction operation has to deal with it. The solution adopted to manage the interrelationship is related to the extraction operations. The main problem with these techniques is that they do not adopt any pre-processing operation on the time series. Raw time series have many undesirable effects, such as noisy points or the huge memory space required for long series. We propose new data mining techniques based on the adoption of the most representative features of time series to obtain new models from the data. The adoption of features has a profound impact on the scalability of systems. Indeed, the extraction of a feature from the time series allows for the reduction of an entire series to a single value. Therefore, it allows for improving the management of time series, reducing the complexity of solutions in terms of time and space. FeatTS proposes a clustering method for univariate time series that extracts the most representative features of the series. FeatTS aims to adopt the features by converting them into graph networks to extract interrelationships between signals. A co-occurrence matrix merges all detected communities. The intuition is that if two time series are similar, they often belong to the same community, and the co-occurrence matrix reveals this. In Time2Feat, we create a new multivariate time series clustering. Time2Feat offers two different extractions to improve the quality of the features. The first type of extraction is called Intra-Signal Features Extraction and allows to obtain of features from each signal of the multivariate time series. Inter-Signal Features Extraction is used to obtain features by considering pairs of signals belonging to the same multivariate time series. Both methods provide interpretable features, which makes further analysis possible. The whole time series clustering process is lighter, which reduces the time needed to obtain the final cluster. Both solutions represent the state of the art in their field. In AnomalyFeat, we propose an algorithm to reveal anomalies from univariate time series. The characteristic of this algorithm is the ability to work among online time series, i.e. each value of the series is obtained in streaming. In the continuity of previous solutions, we adopt the functionality of revealing anomalies in the series. With AnomalyFeat, we unify the two most popular algorithms for anomaly detection: clustering and recurrent neural network. We seek to discover the density area of the new point obtained with clustering

5

Henry, Didier. "Modèles de propagation de l'information et méthodes de sciences des données". Thesis, Antilles, 2018. http://www.theses.fr/2018ANTI0323/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nos jours, les médias sociaux en ligne ont transformé notre façon de créer, de partager et d'accéder à l'information. Ces plateformes reposent sur de gigantesques réseaux favorisent le libre échange d'informations entre des centaines de millions de personnes à travers le monde entier, et cela de manière instantanée.Qu'ils soient en lien avec un évènement global ou en lien avec un évènement local, ces messages peuvent influencer une société et peuvent contenir des informations utiles pour la détection ou la prédiction de phénomènes du monde réel.Cependant, certains messages diffusés peuvent avoir un impact très négatif dans la vie réelle. Ces messages contenant une « infox » peuvent avoir des conséquences désastreuses.Pour éviter et anticiper ces situations dramatiques, suivre les rumeurs, éviter les mauvaises réputations, il est nécessaire d'étudier puis de modéliser la propagation de l'information.Or, la plupart des modèles de diffusion introduits reposent sur des hypothèses axiomatiques représentées par des modèles mathématiques. Par conséquent, ces modèles sont éloignés des comportements de diffusion des utilisateurs dans la mesure où ils n’intègrent pas les observations faites sur des cas concrets de diffusion. Dans nos travaux, nous étudions le phénomène de diffusion de l’information à deux échelles. À une échelle microscopique, nous avons observé les comportements de diffusion selon des traits de personnalité des utilisateurs en analysant les messages qu'ils publient en termes de sentiments et d'émotions. À une échelle macroscopique, nous avons analysé l'évolution du phénomène de diffusion en prenant en compte la dimension géographique des utilisateurs
Nowadays, online social media has transformed the way we create, share and access information. These platforms rely on gigantic networks that promote the free exchange of information between hundreds of millions of people around the world, and this instantly.Whether related to a global event or in connection with a local event, these messages may influence a society and may contain information useful for the detection or prediction of real-world phenomena.However, some broadcast messages can have a very negative impact in real life. These messages containing false information can have disastrous consequences.To avoid and anticipate these dramatic situations, follow rumors, avoid bad reputations, it is necessary to study and then model the propagation of information.However, most of the diffusion models introduced are based on axiomatic hypotheses represented by mathematical models. As a result, these models are far removed from the users' dissemination behaviors in that they do not incorporate observations made on concrete dissemination cases. In our work, we study the phenomenon of diffusion of information at two scales. On a microscopic scale, we observed diffusion behaviors based on the personality traits of users by analyzing the messages they post in terms of feelings and emotions. On a macroscopic scale, we analyzed the evolution of the diffusion phenomenon by taking into account the geographical dimension of the users

6

Watrin, Lucie. "Les données scientifiques saisies par le droit". Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM1072.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Issues de l’expérience, les données constituent une description brute du réel, sur le fondement desquelles s’élaborent ou se vérifient les théories scientifiques. Or, à l’étude, les interactions entre cet élément de base de la connaissance et l’ordre juridique peuvent être observées à trois stades. Au stade de la production des données, tout d’abord. En effet, quoique cette phase relève pour une large part du contrôle de la communauté scientifique, certaines règles juridiques se superposent à ce contrôle en vue d’agir sur l’orientation ou la conduite des recherches. Au stade de l’utilisation des données scientifiques ensuite, puisqu’une fois mises au jour, les données sont parfois directement appréhendées par le juge, le législateur ou par certains professionnels, qui exploitent leur pouvoir de révélation du réel. À cet égard, il faut relever que même lorsqu’elles sont incertaines, les données scientifiques ne perdent pas toute utilité, puisque si elles ne permettent pas connaître le réel, elles offrent la possibilité de s’en approcher et donc de fonder des décisions sur une vraisemblance scientifiquement étayée. Enfin, le droit a vocation à intervenir au stade de la protection des données, afin d’arbitrer entre les intérêts parfois contradictoires des scientifiques producteurs de données et de la collectivité. Les termes de cet arbitrage entre la réservation privative des données et leur valorisation collective ont été profondément renouvelés ces dernières années, avec le développement combiné du Big data et de l’Open data
Scientific data is produced by experiment, and consists in a raw description of reality, upon which basis scientific theories are developped or confirmed. Upon assesment, interactions between this basic element of knowledge and the legal order can be observed in three stages. First, at the stage of data production. Although the control of this phase falls largely under the control of the scientific community, some legal rules are added to this control, in order to influence on the direction or on the conduct of the research. Second, at the stage of the use of scientific data, because once discovered, data is sometimes directly apprehended by the judge, the legislator or by some professionals, and is then used to unveil reality. In this regard, even when uncertain, scientific data does not lose its utility, because in spite of failling to display reality, it offers the possibility to approach it and therefore to build decisions on a scientifically based likelihood. Finally, the law intervenes at the stage of data protection, in order to arbitrate conflicting interests between those who produce scientific data, and society. The terms of the arbitration between the private reservation data and their collective value was deeply renewed in recent years, under the influence of the combined development of Big data and Open data

7

Ponchateau, Cyrille. "Conception et exploitation d'une base de modèles : application aux data sciences". Thesis, Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique, 2018. http://www.theses.fr/2018ESMA0005/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les sciences expérimentales font régulièrement usage de séries chronologiques, pour représenter certains des résultats expérimentaux, qui consistent en listes chronologiques de valeurs (indexées par le temps), généralement fournies par des capteurs reliés à un système (objet de l’expérience). Ces séries sont analysées dans le but d’obtenir un modèle mathématique permettant de décrire les données et ainsi comprendre et expliquer le comportement du système étudié. De nos jours, les technologies de stockage et analyse de séries chronologiques sont nombreuses et matures, en revanche, quant au stockage et à la gestion de modèles mathématiques et leur mise en lien avec des données numériques expérimentales, les solutions existantes sont à la fois récentes, moins nombreuses et moins abouties. Or,les modèles mathématiques jouent un rôle essentiel dans l’interprétation et la validation des résultats expérimentaux. Un système de stockage adéquat permettrait de faciliter leur gestion et d’améliorer leur ré-utilisabilité. L’objectif de ce travail est donc de développer une base de modèles permettant la gestion de modèle mathématiques et de fournir un système de « requête par les données », afin d’aider à retrouver/reconnaître un modèle à partir d’un profil numérique expérimental. Dans cette thèse, je présente donc la conception (de la modélisation des données, jusqu’à l’architecture logicielle) de la base de modèles et les extensions qui permettent de réaliser le système de « requête par les données ». Puis, je présente le prototype de la base de modèle que j’ai implémenté, ainsi que les résultats obtenus à l’issu des tests de ce-dernier
It is common practice in experimental science to use time series to represent experimental results, that usually come as a list of values in chronological order (indexed by time) and generally obtained via sensors connected to the studied physical system. Those series are analyzed to obtain a mathematical model that allow to describe the data and thus to understand and explain the behavio rof the studied system. Nowadays, storage and analyses technologies for time series are numerous and mature, but the storage and management technologies for mathematical models and their linking to experimental numerical data are both scarce and recent. Still, mathematical models have an essential role to play in the interpretation and validation of experimental results. Consequently, an adapted storage system would ease the management and re-usability of mathematical models. This work aims at developing a models database to manage mathematical models and provide a “query by data” system, to help retrieve/identify a model from an experimental time series. In this work, I will describe the conception (from the modeling of the system, to its software architecture) of the models database and its extensions to allow the “query by data”. Then, I will describe the prototype of models database,that I implemented and the results obtained by tests performed on the latter

8

Saliba, Elie Mario. "Understanding and managing Zoological Nomenclature in the era of Big Data and Open Science". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS460.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La nomenclature est la branche de la taxonomie responsable de la création et de la gestion des noms scientifiques attribués aux catégories d’êtres vivants. Elle assure la continuité de la transmission de toutes sortes de données et de connaissances accumulées sur les taxons. Les zoologistes se réfèrent pour cela au Code International de Nomenclature Zoologique. Le Code contient les règles qui permettent de comprendre et d'appliquer correctement cette discipline. La nomenclature s'est complexifiée au fil des siècles, pour s'adapter aux changements scientifiques et technologiques. Aujourd’hui, la nomenclature joue, par l’intermédiaire des noms scientifiques, un rôle crucial dans les bases de données de biodiversité. Mais ces dernières présentent cependant des limitations en termes de modèles de données et de l’utilisation de celles-ci pour des travaux nomenclaturaux. Cette dimension de la nomenclature est explorée dans la thèse. Si les données nomenclaturales sont présentes en grande partie dans les bases de données en ligne, la discipline elle-même est restée relativement imperméable à l'informatisation. Une analyse approfondie du Code a permis d’établir une liste d’objets formels et des propriétés les accompagnant nécessaires pour modéliser les règles de cette discipline. En effet, la structure des règles du Code se veut logique et non-ambigüe, et est donc idéale pour une traduction de ces dernières en série d’algorithmes. Cette hypothèse a mené à la création d’une application web appelée Lognom, pour ‘logiciel de nomenclature’. Lognom est un logiciel basé sur des algorithmes aidant à la prise de décision en matière de nomenclature zoologique. L’application ne repose pas sur des bases de données préexistantes, mais fournit une réponse en fonction des données entrées par l'utilisateur. Ce logiciel vise à soutenir les taxonomistes dans leur gestion de la nomenclature au quotidien, en déterminant si un nom ou un travail est disponible, si les règles orthographiques ont été correctement appliquées et si toutes les exigences précédant la publication d’un nouveau nom ou d’un nouveau travail ont été respectées. Lognom permet également à l'utilisateur d’établir quel nom est le nom valide parmi plusieurs candidats préenregistrés, et la liste des synonymes qui résulte de cette détermination. Il comprend également quelques outils pour répondre à des questions diverses de nomenclature, telle que la détermination du genre grammatical d’un nom de genre. Toutes les règles du Code de nomenclature zoologique n’ont cependant pas pu être intégrées à l’application. Certaines règles reposent sur une interprétation sémantique qu’il est très complexe d’automatiser. De plus, même s’il contient quelques contrôles, Lognom est très sensible à la qualité des données fournies par ses utilisateurs. Une proposition de classification des règles est fournie, afin de mieux cerner les forces et les faiblesses du Code quant à sa possible informatisation exhaustive, ainsi que des recommandations quant à l’optimisation de son caractère logique et non-ambigu. De même, diverses questions en rapport avec la nomenclature et ses applications informatiques sont explorées, et une brève analyse expliquant les difficultés sociales liées à l’amélioration de ces règles est évoquée. Il y existe une multitude d’applications futures possibles pour les algorithmes développés lors de cette thèse. Ces perspectives incluent la possibilité de travailler collaborativement sur des projets concernant la nomenclature d’un même groupe taxonomique. Ceci pourrait conduire à établir des listes dynamiques de noms. Une modification de ces algorithmes pourraient également simuler l’impact d’une modification des règles du Code sur les noms et les travaux existants. Sur le long terme, un outil tel que Lognom pourrait conduire à la possibilité de modéliser la nomenclature dans sa totalité, et d’ouvrir la porte à une gestion plus efficace et plus coordonnée de cette discipline pluricentenaire
Nomenclature is the discipline of taxonomy responsible for creating and managing the scientific names assigned to categories of living beings. It ensures continuity in the transmission of all kinds of accumulated data and knowledge about taxa. To this end, zoologists refer to the International Code of Zoological Nomenclature. The Code contains the rules for understanding and correctly applying this discipline.Nomenclature has become increasingly complex over the centuries, to keep pace with the evolution of scientific and technological knowledge. It currently plays, through scientific names, a crucial role in biodiversity databases. However, databases have their limitations in terms of structure when it comes to nomenclatural endeavors. The role of nomenclature in databases is explored in the thesis.While nomenclatural data is largely present in online databases, the discipline itself has remained relatively impervious to computerization. An in-depth analysis of the Code enabled the creation of a list of formal objects and their properties, which are needed to model the rules of this discipline. Moreover, the structure of the Code's rules is intended to be logical and unambiguous, which makes it ideal for translating into a series of algorithms. This hypothesis led to the creation of a web application called Lognom. Lognom is an algorithm-based software that supports decision-making in zoological nomenclature. The application does not rely on pre-existing databases, but provides an answer based on data entered by the user. The software aims to support taxonomists in their day-to-day nomenclature management, by determining whether a name or work is available and whether spelling rules have been correctly applied. It can also verify whether all requirements preceding the publication of a new name or work have been met. Additionally, Lognom allows the user to establish which name is the valid name among several candidates, and the list of synonyms that results from this decision. It also includes several tools for answering various nomenclatural questions, such as the determination of the grammatical gender of a genus name. However, it has not been possible to integrate all the rules of the International Code of Zoological Nomenclature into the application. Some rules are based on semantic interpretation, which is very complex to automate. Moreover, Lognom is highly sensitive to the quality of the data supplied by its users, even if it does provide a few controls. A proposed classification of the Code’s rules is included, to better identify the strengths and weaknesses of the Code in terms of its possible complete computerization. Recommendations for the optimization of its logical and unambiguous character are also mentioned. Similarly, various issues relating to nomenclature and its computer applications are explored, as well as a brief analysis of the social difficulties that might impede the improvement of these rules. There are still many possible future applications for the algorithms developed for Lognom. These include the possibility of working collaboratively on projects concerning the nomenclature of q given taxonomic group. This could lead to the creation of dynamic lists of names: Furthermore, the algorithms should be able to simulate the impact of changes in the rules of the Code on existing names and works. In the long term, a tool such as Lognom could enable the possibility of modeling nomenclature in its entirety, opening the door to more efficient and coordinated management of this centuries-old discipline

9

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web". Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.

10

BARRA, Vincent. "Modélisation, classification et fusion de données biomédicales". Habilitation à diriger des recherches, Université Blaise Pascal - Clermont-Ferrand II, 2004. http://tel.archives-ouvertes.fr/tel-00005998.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce mémoire synthétise les travaux que j'ai menés de 2000 à 2004, au sein de deux laboratoires des facultés de Clermont-Ferrand : l'Equipe de Recherche en Imagerie Médicale (ERIM, Université d'Auvergne), où j'ai effectué ma thèse, et le Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS, Université Blaise Pascal) dans lequel j'ai été accueilli suite à mon recrutement en tant que maître de conférences dans cette même université. Ce changement de laboratoire s'est accompagné d'une modification de mon thème principal de recherche, passant du traitement d'images médicales multimodales par des techniques de fusion d'informations, au domaine de la bioinformatique en général, et de l'étude des puces à ADN en particulier. Plutôt que d'essayer de regrouper artificiellement ces deux thèmes au sein d'un même plan, j'ai préféré diviser ce mémoire en deux parties distinctes et cohérentes, chacune traitant d'un des deux aspects de recherche que je mène actuellement de front. Ainsi, la première partie résume les travaux que j'ai effectués depuis 2001 dans le domaine de la fusion de données appliquée au traitement d'images 3D du cerveau, soit directement soit dans le cadre du co-encadrement de deux doctorants. Le dernier chapitre de cette partie met en particulier en perspective les nouveaux développements espérés sur la stimulation magnétique transcrânienne, à travers l'encadrement d'une thèse CIFRE que j'assure par délégation à temps plein. La seconde partie se concentre sur les recherches que je mène depuis septembre 2001 au LIMOS, concernant l'étude des images de puces à ADN. J'expose dans cette partie au travers de trois chapitres mon projet de recherche dans ce domaine, et je présente pour chaque choix retenu ma contribution sous la forme d'un simulateur d'images de biopuces transcriptome et de nouvelles méthodes d'analyse de ces images. Si les deux parties sont clairement décorrélées, j'ai néanmoins essayé de dégager une problématique générale commune à mes travaux, que j'ai nommée sans forfanterie modélisation, classification et fusion de données biomédicales, et qui constitue le titre de ce manuscrit.

11

Gaignard, Alban. "Distributed knowledge sharing and production through collaborative e-Science platforms". Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00838796.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

This thesis addresses the issues of coherent distributed knowledge production and sharing in the Life-science area. In spite of the continuously increasing computing and storage capabilities of computing infrastructures, the management of massive scientific data through centralized approaches became inappropriate, for several reasons: (i) they do not guarantee the autonomy property of data providers, constrained, for either ethical or legal concerns, to keep the control over the data they host, (ii) they do not scale and adapt to the massive scientific data produced through e-Science platforms. In the context of the NeuroLOG and VIP Life-science collaborative platforms, we address on one hand, distribution and heterogeneity issues underlying, possibly sensitive, resource sharing ; and on the other hand, automated knowledge production through the usage of these e-Science platforms, to ease the exploitation of the massively produced scientific data. We rely on an ontological approach for knowledge modeling and propose, based on Semantic Web technologies, to (i) extend these platforms with efficient, static and dynamic, transparent federated semantic querying strategies, and (ii) to extend their data processing environment, from both provenance information captured at run-time and domain-specific inference rules, to automate the semantic annotation of ''in silico'' experiment results. The results of this thesis have been evaluated on the Grid'5000 distributed and controlled infrastructure. They contribute to addressing three of the main challenging issues faced in the area of computational science platforms through (i) a model for secured collaborations and a distributed access control strategy allowing for the setup of multi-centric studies while still considering competitive activities, (ii) semantic experiment summaries, meaningful from the end-user perspective, aimed at easing the navigation into massive scientific data resulting from large-scale experimental campaigns, and (iii) efficient distributed querying and reasoning strategies, relying on Semantic Web standards, aimed at sharing capitalized knowledge and providing connectivity towards the Web of Linked Data.

12

Houas, Heykel. "Allocation de ressources pour la transmission de données multimedia scalables". Phd thesis, Université de Cergy Pontoise, 2009. http://tel.archives-ouvertes.fr/tel-00767889.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse s'intéresse aux problèmes d'allocation de ressources pour la transmission de données multimédia scalables sous contraintes de qualité de service (QoS) sur les réseaux hétérogènes. Les liaisons filaires et sans fil considérées (DS-CDMA, OFDMA) sont appliquées à des services de transmission d'images et de parole sur des canaux à évanouissements lents ou rapides, avec ou sans multitrajets. La QoS de ces réseaux est exprimée en terme de qualité perçue du point de vue de l'utilisateur (couche Application) et en terme de taux d'erreurs binaires (TEB) par classe du point de vue de la transmission (couche Physique). Les ressources étudiées sont : l'allocation des puissances, des ordres de modulation et des porteuses ainsi que les propriétés de protection inégale contre les erreurs (UEP). L'objectif de ce document est d'allouer ces ressources de façon à maximiser le débit source des données multimédia hiérarchisées (sous forme de classes d'importance) en s'appuyant sur une connaissance parfaite ou partielle des canaux de propagation, sous contrainte de performances cibles en réception. Les stratégies d'adaptation de lien que nous présentons se basent sur la possible troncature d'une partie de ces données à transmettre. Elles se fondent également sur le degré de sensibilité et la protection adéquate de chacune de ces classes contre les erreurs liées à la transmission sur le canal, conformément aux exigences de QoS exprimées sur ces dernières. Les schémas de transmission explorent plusieurs critères d'optimisation des ressources : la minimisation de la charge utile du système ainsi que l'optimisation de la robustesse de la transmission aux erreurs d'estimation du canal. Dans ces contextes, nous décrivons l'allocation optimale de sous-porteuses, de modulations, de rendements de code et d'énergie maximisant le débit source de l'utilisateur tout en véri ant les contraintes sur la charge du système et la QoS. Nous montrons que ces schémas d'allocation sont adaptables à de nombreux systèmes de communication et présentent des performances supérieures aux stratégies de l'état de l'art.

13

Curé, Olivier. "Relations entre bases de données et ontologies dans le cadre du web des données". Habilitation à diriger des recherches, Université Paris-Est, 2010. http://tel.archives-ouvertes.fr/tel-00843284.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce manuscrit présente mon intérêt pour la conception des méthodes et algorithmes nécessaires pour la réalisation d'applications avancées pour le web sémantique. Cette extension du web actuel vise à autoriser l'intégration et le partage de données entre organismes et applications. Une conséquence directe du succès de cette approche permettrait de considérer le web comme une base de données globale contenant les données stockées sur toutes les machines connectées. Cet aspect s'exprime bien dans le site web dédié à l'activité web sémantique du W3C, qui déclare que le web sémantique est un web des données. Ainsi, ce web des données permettra de soumettre des requêtes structurées sur tous les ensembles de données connectés, et de récupérer des résultats pertinents provenant de sources diverses et hétérogènes. Une question essentielle liée à cette hétérogénéité concerne la notion de sémantique. Dans le contexte du web sémantique, elle est généralement traitée avec des ontologies et les opérations de médiation associées. Ma recherche s'ancrent dans ces thématiques et ce manuscrit vise à présenter quelques unes de mes recherches et résultats, ainsi qu'à décrire certaines des applications que j'ai conçues et implémentées

14

De, Vlieger P. "Création d'un environnement de gestion de base de données " en grille ". Application à l'échange de données médicales". Phd thesis, Université d'Auvergne - Clermont-Ferrand I, 2011. http://tel.archives-ouvertes.fr/tel-00654660.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La problématique du transport de la donnée médicale, de surcroît nominative, comporte de nombreuses contraintes, qu'elles soient d'ordre technique, légale ou encore relationnelle. Les nouvelles technologies, issues particulièrement des grilles informatiques, permettent d'offrir une nouvelle approche au partage de l'information. En effet, le développement des intergiciels de grilles, notamment ceux issus du projet européen EGEE, ont permis d'ouvrir de nouvelles perspectives pour l'accès distribué aux données. Les principales contraintes d'un système de partage de données médicales, outre les besoins en termes de sécurité, proviennent de la façon de recueillir et d'accéder à l'information. En effet, la collecte, le déplacement, la concentration et la gestion de la donnée, se fait habituellement sur le modèle client-serveur traditionnel et se heurte à de nombreuses problématiques de propriété, de contrôle, de mise à jour, de disponibilité ou encore de dimensionnement des systèmes. La méthodologie proposée dans cette thèse utilise une autre philosophie dans la façon d'accéder à l'information. En utilisant toute la couche de contrôle d'accès et de sécurité des grilles informatiques, couplée aux méthodes d'authentification robuste des utilisateurs, un accès décentralisé aux données médicales est proposé. Ainsi, le principal avantage est de permettre aux fournisseurs de données de garder le contrôle sur leurs informations et ainsi de s'affranchir de la gestion des données médicales, le système étant capable d'aller directement chercher la donnée à la source. L'utilisation de cette approche n'est cependant pas complètement transparente et tous les mécanismes d'identification des patients et de rapprochement d'identités (data linkage) doivent être complètement repensés et réécris afin d'être compatibles avec un système distribué de gestion de bases de données. Le projet RSCA (Réseau Sentinelle Cancer Auvergne - www.e-sentinelle.org) constitue le cadre d'application de ce travail. Il a pour objectif de mutualiser les sources de données auvergnates sur le dépistage organisé des cancers du sein et du côlon. Les objectifs sont multiples : permettre, tout en respectant les lois en vigueur, d'échanger des données cancer entre acteurs médicaux et, dans un second temps, offrir un support à l'analyse statistique et épidémiologique.

15

Ménélas, Bob. "Rendus sensorimoteurs en environnements virtuels pour l'analyse de données scientifiques complexes". Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00600399.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Par l'exploitation de nos capacités visuelles, la visualisation scienti que entend proposer aux ingénieurs et aux chercheurs un outil visant à les assister dans l'acquisition de connaissance à partir de phénomènes complexes. Ce travail de thèse s'inscrit dans cette lignée, à ceci près qu'il s'intéresse plutôt à l'utilisation des technologies de la Réalité Virtuelle dans le but d'amener un utilisateur expert au coeur du processus d'exploration et d'analyse des données, ce que nous appelons Exploration de données scienti fiques. Dans le but d'arriver à des processus d'exploration efficaces, notre recherche s'est portée sur la mise en place de techniques d'interactions intuitives, susceptibles d'exploiter au mieux les capacités sensorimotrices de l'être humain. Pour atteindre cet objectif, deux conditions nous paraissent être essentielles. D'une part, il faut que les informations transmises via différents canaux sensorimoteurs aient une certaine cohérence à être délivrées ensemble : il est primordial que l'exploitation d'un canal pour véhiculer une information ne soit pas en concurrence avec ce qui est fait sur un autre canal. D'autre part, il est souhaitable que le potentiel de chaque canal soit utilisé au meilleur de sa capacité. Dans ce contexte, ce travail a débuté par une analyse de l'utilisation de l'haptique dans l'Exploration de données scientifi ques. Pour ce type d'usage, il a été identifié quatre tâches fondamentales (Sélectionner, Localiser, Relier et Arranger) pour lesquelles l'haptique semble présenter un réel avantage par rapport aux autres canaux sensoriels. Pour chacune de ces tâches, nous avons montré, au travers d'une large étude bibliographique, comment l'interaction haptique pouvait être exploitée afi n d'off rir des méthodes d'exploration efficaces. Sur la base de cette analyse organisée autour de ces quatre catégories, nous avons ensuite mis en évidence les problématiques liées aux tâches identifiées. Ainsi, nous avons souligné, d'une part que l'haptique pouvait faciliter la sélection de données scienti fiques dans des contextes où celles-ci sont massives, et d'autre part nous avons montré le besoin de mettre en place de nouvelles méthodes de suivi de structures d'intérêts (iso-surfaces, lignes de courant etc.). Notre problématique ayant ainsi été posée, nous avons d'une part étudié l'utilisation de retour multimodaux non visuels pour la recherche et la sélection de cibles dans un environnent virtuel 3d. Les situations impliquant une ou plusieurs cibles furent analysées, et plusieurs paradigmes d'interaction ont été proposés. Dans cet ordre d'idées, nous sommes arrivés à défi nir et valider un principe directeur pour l'usage de retours haptico-sonores pour la recherche et la sélection d'une cible donn ée située dans une scène 3d pouvant en contenir plusieurs autres. Nous avons en eff et montré que, pour une telle tâche, il était préférable d'exploiter la spatialisation sonore a n de localiser la cible désirée dans l'espace, tandis que le retour haptique permettait une sélection précise de la cible. D'autre part, nous nous sommes attaqués aux problèmes liés au rendu haptique d'ensembles de données pouvant présenter de fortes variations. A cet eff et, suite à un rappel de l'apport de l'haptique pour le rendu de surfaces dans le domaine médical, nous avons analysé certains besoins pouvant être comblés par l'ajout de ce canal sensorimoteur dans l'analyse d'iso-surfaces issues de simulation de Mécanique des Fluides Numérique (MFN). Par la suite nous avons proposé et évalué, par l'intermédiaire d'expériences de perception et de mesures de performance, de nouvelles méthodes de rendu haptique d'iso-surfaces dont l'une des originalités est de pouvoir se passer d'une représentation polygonale intermédiaire. En fin, nous avons appliquécette nouvelle approche d'exploration de données scientifi ques à l'analyse des résultats d'une simulation d'un écoulement dans une cavité ouverte. Ainsi, nous avons proposé deux méthodes d'analyse multi-sensorielle, dédiées à l'exploration d'un ensemble de données issu d'une simulation de MFN, en exploitant les approches génériques développées précédemment. La première méthode concerne une analyse interactive de la géométrie de l'écoulement, alors que la seconde se rapporte à une analyse multi-sensorielle de la topologie de l'écoulement. Les premières évaluations menées ont indiqué que les méthodes proposées tendaient à favoriser une meilleure compréhension du phénomène analysé et qu'elles pouvaient diminuer la charge cognitive habituellement requise par une telle tâche. A titre de conclusion, soulignons que cette thèse de doctorat ouvre la voie à un certain nombre de perspectives de recherches. A court terme, il s'agit de compléter les travaux relatifs à l'analyse de l'aspect dynamique de la simulation d'un écoulement dans une cavité ouverte. Ces travaux consisteront à proposer et valider différentes interactions multimodales visant à examiner les échanges/recirculations pouvant exister entre/dans les parties de la dite cavité. Mais au-delà des travaux relatifs à la MFN, l'expérience acquise à travers ces travaux pluridisciplinaires (informatique, mécanique des fluides, ergonomie cognitive) me permettra à moyen terme d'élargir mes travaux de recherche à l'exploration de données médicales, météorologiques, ou géologiques.

16

Wipliez, Matthieu. "Infrastructure de compilation pour des programmes flux de données". Phd thesis, INSA de Rennes, 2010. http://tel.archives-ouvertes.fr/tel-00598914.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les programmes flux de données (" data flow " en anglais) sont des programmes décrits sous la forme d'un graphe afin de mettre en évidence un certain nombre de propriétés, comme le parallélisme disponible, la localité des données, la certitude de ne pas avoir d'inter-blocages, etc. Ma thèse présente les problématiques liées à la mise en place d'une infrastructure de compilation pour ce type de programmes. Cette infrastructure a pour but de compiler, analyser, transformer, et exécuter un programme flux de données sur différentes plateformes, depuis des composants logiques programmables jusqu'à des processeurs multi-coeurs avec mémoire partagée. Nous présentons les aspects théoriques associés aux problèmes de compilation, d'analyse et d'ordonnancement des programmes flux de données, ainsi que les aspects pratiques et les résultats obtenus concernant la génération de code et l'exécution de ces programmes.

17

Galbaud, du Fort Guillaume. "Epidémiologie et santé mentale du couple : etude comparée de données populationnelles et de données cliniques". Thesis, McGill University, 1991. http://digitool.Library.McGill.CA:80/R/?func=dbin-jump-full&object_id=59993.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

In an epidemiological study of mental health in couples, individual and systemic approaches were compared in terms of their appropriateness for general versus clinical populations.
The primary results from the study of 845 couples in the general population suggest that there exists a significant spouse-similarity across the various mental health dimensions examined (psychological distress, general well-being, and role satisfaction).
The main results from the study of 17 couples in marital therapy suggest that significant sex differences exist in dyadic adjustment. Sex differences were also noted in the correlations between dyadic adjustment and depressive symptoms.
In conclusion, it appears that epidemiological research on the mental health of couples should have as its objective a simultaneous consideration of both the individual and the couple, as well as a simultaneous consideration of clinical and general populations, in order to create a double complementarity out of this apparent double dichotomy.

18

Marteau, Hubert. "Une méthode d'analyse de données textuelles pour les sciences sociales basée sur l'évolution des textes". Tours, 2005. http://www.theses.fr/2005TOUR4028.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le but est d'apporter aux sociologues un outil informatique permettant l'analyse d'entretiens ouverts semi-directifs. Le traitement est en deux étapes : une indexation des entretiens suivi d'une classification. Les méthodes d'indexation habituelles reposent sur une analyse statistiques plus adaptées à des textes de contenu et de structure (textes littéraires, scientifiques,. . . ) marqués qu'à des entretiens limités à l'usage de peu de mots (1000 mots pour des textes de discussion). Partant de l'hypothèse que l'appartenance sociologique induit fortement la forme du discours, nous évaluons la structure et l'évolution des textes en proposant de nouvelles représentations des textes (image, signal) qui conduisent à l'extraction de valeurs indexant le texte, mesures statiques ou liées à l'évolution du texte. La classification choisie est arborée (NJ). Elle repose sur ces caractéristiques par sa faible complexité et son respects des distances, elle fournit une aide à la classification
This PhD Thesis aims at bringing to sociologists a data-processing tool wich allows them to analyse of semi-directing open talks. The proposed tool performs in two steps : an indexation of the talks followed by a classification. Usually, indexing methods rely on a general stastistical analysis. Such methods are suited for texts having contents and structure ( literary texts, scientific texts,. . . ). These texts have more vocabulary and structure than talks (limitation to 1000 words for suche texts). On the basis of the assumption that the sociological membership strongly induces the form of the speech, we propose various methods to evaluate the structure and the evolution of the texts. The methods attempt to find new representations of texts (image, signal) and to extract values from these new representations. Selected classification is a classification by trees (NJ). It has a low complexity and it respects distances, then this method is a good solution to provide a help to classification

19

Girres, Jean-François, e Jean-François Girres. "Modèle d'estimation de l'imprécision des mesures géométriques de données géographiques". Phd thesis, Université Paris-Est, 2012. http://tel.archives-ouvertes.fr/tel-00809273.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

De nombreuses applications SIG reposent sur des mesures de longueur ou de surface calculées à partir de la géométrie des objets d'une base de données géographiques (comme des calculs d'itinéraires routiers ou des cartes de densité de population par exemple). Cependant, aucune information relative à l'imprécision de ces mesures n'est aujourd'hui communiquée à l'utilisateur. En effet, la majorité des indicateurs de précision géométrique proposés porte sur les erreurs de positionnement des objets, mais pas sur les erreurs de mesure, pourtant très fréquentes. Dans ce contexte, ce travail de thèse cherche à mettre au point des méthodes d'estimation de l'imprécision des mesures géométriques de longueur et de surface, afin de renseigner un utilisateur dans une logique d'aide à la décision. Pour répondre à cet objectif, nous proposons un modèle permettant d'estimer les impacts de règles de représentation (projection cartographique, non-prise en compte du terrain, approximation polygonale des courbes) et de processus de production (erreur de pointé et généralisation cartographique) sur les mesures géométriques de longueur et de surface, en fonction des caractéristiques des données vectorielles évaluées et du terrain que ces données décrivent. Des méthodes d'acquisition des connaissances sur les données évaluées sont également proposées afin de faciliter le paramétrage du modèle par l'utilisateur. La combinaison des impacts pour produire une estimation globale de l'imprécision de mesure demeure un problème complexe et nous proposons des premières pistes de solutions pour encadrer au mieux cette erreur cumulée. Le modèle proposé est implémenté au sein du prototype EstIM (Estimation de l'Imprécision des Mesures)

20

Madera, Cedrine. "L’évolution des systèmes et architectures d’information sous l’influence des données massives : les lacs de données". Thesis, Montpellier, 2018. http://www.theses.fr/2018MONTS071/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La valorisation du patrimoine des données des organisation est mise au cœur de leur transformation digitale. Sous l’influence des données massives le système d’information doit s’adapter et évoluer. Cette évolution passe par une transformation des systèmes décisionnels mais aussi par l’apparition d’un nouveau composant du système d’information : Les lacs de données. Nous étudions cette évolution des systèmes décisionnels, les éléments clés qui l’influence mais aussi les limites qui apparaissent , du point de vue de l’architecture, sous l’influence des données massives. Nous proposons une évolution des systèmes d’information avec un nouveau composant qu’est le lac de données. Nous l’étudions du point de vue de l’architecture et cherchons les facteurs qui peuvent influencer sa conception , comme la gravité des données. Enfin, nous amorçons une piste de conceptualisation des lacs de données en explorant l’approche ligne de produit.Nouvelle versionSous l'influence des données massives nous étudions l'impact que cela entraîne notamment avec l'apparition de nouvelles technologies comme Apache Hadoop ainsi que les limite actuelles des système décisionnel.Les limites rencontrées par les systèmes décisionnels actuels impose une évolution au système d 'information qui doit s'adapter et qui donne naissance à un nouveau composant : le lac de données.Dans un deuxième temps nous étudions en détail ce nouveau composant, formalisons notre définition, donnons notre point de vue sur son positionnement dans le système d information ainsi que vis à vis des systèmes décisionnels.Par ailleurs, nous mettons en évidence un facteur influençant l’architecture des lacs de données : la gravité des données, en dressant une analogie avec la loi de la gravité et en nous concentrant sur les facteurs qui peuvent influencer la relation donnée-traitement.Nous mettons en évidence , au travers d'un cas d'usage , que la prise en compte de la gravité des données peut influencer la conception d'un lac de données.Nous terminons ces travaux par une adaptation de l'approche ligne de produit logiciel pour amorcer une méthode de formalisations et modélisation des lacs de données. Cette méthode nous permet :- d’établir une liste de composants minimum à mettre en place pour faire fonctionner un lac de données sans que ce dernier soit transformé en marécage,- d’évaluer la maturité d'un lac de donnée existant,- de diagnostiquer rapidement les composants manquants d'un lac de données existant qui serait devenu un marécage,- de conceptualiser la création des lacs de données en étant "logiciel agnostique”
Data is on the heart of the digital transformation.The consequence is anacceleration of the information system evolution , which must adapt. The Big data phenomenonplays the role of catalyst of this evolution.Under its influence appears a new component of the information system: the data lake.Far from replacing the decision support systems that make up the information system, data lakes comecomplete information systems’s architecture.First, we focus on the factors that influence the evolution of information systemssuch as new software and middleware, new infrastructure technologies, but also the decision support system usage itself.Under the big data influence we study the impact that this entails especially with the appearance ofnew technologies such as Apache Hadoop as well as the current limits of the decision support system .The limits encountered by the current decision support system force a change to the information system which mustadapt and that gives birth to a new component: the data lake.In a second time we study in detail this new component, formalize our definition, giveour point of view on its positioning in the information system as well as with regard to the decision support system .In addition, we highlight a factor influencing the architecture of data lakes: data gravity, doing an analogy with the law of gravity and focusing on the factors that mayinfluence the data-processing relationship. We highlight, through a use case, that takingaccount of the data gravity can influence the design of a data lake.We complete this work by adapting the software product line approach to boot a methodof formalizations and modeling of data lakes. This method allows us:- to establish a minimum list of components to be put in place to operate a data lake without transforming it into a data swamp,- to evaluate the maturity of an existing data lake,- to quickly diagnose the missing components of an existing data lake that would have become a dataswamp- to conceptualize the creation of data lakes by being "software agnostic “

21

Fardeheb, Malik. "Le poste prescripteur : un système d'information thérapeutique pour une prescription conforme aux données actuelles de la science (DAS)". Lyon 1, 1999. http://www.theses.fr/1999LYO1T285.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

22

Samba, Alassane. "Science des données au service des réseaux d'opérateur : proposition de cas d’utilisation, d’outils et de moyens de déploiement". Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0111/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'évolution des télécommunications amené aujourd'hui à un foisonnement des appareils connectés et une massification des services multimédias. Face à cette demande accrue de service, les opérateurs ont besoin d'adapter le fonctionnement de leurs réseaux, afin de continuer à garantir un certain niveau de qualité d'expérience à leurs utilisateurs. Pour ce faire, les réseaux d'opérateur tendent vers un fonctionnement plus cognitif voire autonomique. Il s'agit de doter les réseaux de moyens d'exploiter toutes les informations ou données à leur disposition, les aidant à prendre eux-mêmes les meilleures décisions sur leurs services et leur fonctionnement, voire s'autogérer. Il s'agit donc d'introduire de l'intelligence artificielle dans les réseaux. Cela nécessite la mise en place de moyens d'exploiter les données, d'effectuer surelles de l'apprentissage automatique de modèles généralisables, apportant l’information qui permet d'optimiser les décisions. L'ensemble de ces moyens constituent aujourd'hui une discipline scientifique appelée science des données. Cette thèse s'insère dans une volonté globale de montrer l'intérêt de l'introduction de la science des données dans différents processus d'exploitation des réseaux. Elle comporte deux contributions algorithmiques correspondant à des cas d'utilisation de la science des données pour les réseaux d'opérateur, et deux contributions logicielles, visant à faciliter, d'une part l'analyse, et d'autre part le déploiement des algorithmes issus de la science des données. Les résultats concluants de ces différents travaux ont démontré l'intérêt et la faisabilité de l'utilisation de la science des données pour l'exploitation des réseaux d'opérateur. Ces résultats ont aussi fait l'objet de plusieurs utilisations par des projets connexes
The evolution of telecommunications has led today to a proliferation of connected devices and a massification of multimedia services. Faced with this increased demand for service, operators need to adapt the operation of their networks, in order to continue to guarantee a certain level of quality of experience to their users. To do this, operator networks tend towards a more cognitive or autonomic functioning. It is about giving the networks the means to exploit all the information or data at their disposal, helping them to make the best decisions about their services and operations,and even self-manage. It is therefore a questionof introducing artificial intelligence into networks. This requires setting up means to exploit the data, to carry out on them the automatic learning of generalizable models, providing information that can optimize decisions. All these means today constitute a scientific discipline called data science. This thesis fits into a global desire to show the interest of the introduction of data science in different network operating processes. It inlcudes two algorithmic contributions corresponding to use cases of data science for the operator networks, and two software contributions, aiming to facilitate,on the one hand, the analysis, and on the other hand the deployment of the algorithms produced through data science. The conclusive results of these various studies have demonstrated the interest and the feasibility of using data science for the exploitation of operator networks. These results have also been used by related projects

23

Gross-Amblard, David. "Tatouage des bases de données". Habilitation à diriger des recherches, Université de Bourgogne, 2010. http://tel.archives-ouvertes.fr/tel-00590970.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les techniques de tatouage de bases de données permettent la dissimulation d'information pertinente dans les n-uplets, comme par exemple l'identité du propriétaire des données. Les techniques de tatouage sont nombreuses dans le domaine multimédia, mais le tatouage des bases de données présente de nombreuses spécificités. Certaines d'entre elles sont traitées dans ce document : comment tatouer une base de données numérique tout en préservant le résultat de requêtes d'agrégat importantes, comment tatouer un flux structuré, comme un flux XML typé ou une partition musicale symbolique, comment tatouer une base de données géographiques.

24

Banciu, Andrei. "Une Approche Stochastique Pour l'Evaluation De La Dynamique Des Données". Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00768862.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les applications de traitement du signal ont connu un très fort développement dans les dernières décennies, bénéficiant des avancées majeures de l'industrie des semi-conducteurs. Toutes les implémentations pratiques utilisent l'arithmétique en virgule fixe afin de réduire la surface et la consommation d'énergie. En conséquence, une conversion de la description en virgule flottante de l'algorithme à une implémentation en virgule fixe qui ajuste la largeur du chemin de données doit être réalisée. C'est un processus d'optimisation qui consiste à trouver les partie fractionnaire (évaluation de la précision numérique) et entière (estimation de la dynamique) minimales qui satisfassent les contraintes de performance. Dans cette thèse, une approche stochastique pour l'évaluation de la dynamique des données est présentée. Notre objectif est d'obtenir une représentation complète de la variabilité qui intègre le comportement probabiliste et non seulement les limites maximales et minimales. Une méthode basée sur le développement de Karhunen-Loève est développée pour le cas des systèmes linéaires et invariants dans le temps. Ensuite, le développement du chaos polynomial est introduit afin de traiter des opérations non-linéaires. Les méthodes sont appliquées à l'optimisation de la taille de données quand une légère dégradation des performances est acceptable. La dynamique retenue ne couvre plus tout l'intervalle théorique de variation : des débordements sont autorisés avec une contrainte quant à leur probabilité d'apparition. Les signaux qui ont des variations importantes de leur amplitude sont approximées avec des intervalles réduits pour réduire le coût de l'implémentation.

25

Cagnazzo, Marco. "CODAGE DES DONNÉES VISUELLES : EFFICACITÉ, ROBUSTESSE, TRANSMISSION". Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2013. http://tel.archives-ouvertes.fr/tel-00859677.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Après l'obtention de mon doctorat (2005), mes travaux ont porté initialement sur deux des axes de recherche de la thèse, notamment sur le codage vidéo scalable et sur le codage d'images par ondelettes adaptées à la forme (OAF). J'ai en particulier étudié la mise en place d'un codeur vidéo scalable basé sur la transformée en ondelettes par schémas lifting compensés en mouvement et allocation optimale des ressources de codage. En suite j'ai abordé le problème du critère optimal pour l'estimation de mouvement pour ce type de codeur : des meilleures performances débit-distorsion peuvent être atteintes au prix d'une augmentation de la complexité de l'estimation de mouvement. Par rapport au codage d'images par OAF, j'ai travaillé sur les conditions qui permettent à cette approche d'être compétitif avec les méthodes traditionnelles, et ensuite sur l'utilisation conjointe de la transformée en OAF avec la quantification vectorielle arborescente et avec la transformée de Karhunen-Loéve par classes pour la compression d'images multi-spectrales. J'ai aussi considéré la relation entre distorsion sur les coefficients et distorsion perceptuelle ou non-perceptuelle sur l'image résultante. Ensuite j'ai travaillé sur l'amélioration d'un codeur vidéo standard par une représentation efficace du mouvement : un premier travail, visant une très bonne précision, a abouti à une nouvelle méthode de codage sans pertes basée sur l'information mutuelle ; une deuxième approche utilise la quantification des vecteurs de mouvement, permettant de réduire le débit pour la même qualité. J'ai ensuite travaillé sur le codage vidéo distribué (CVD). Dans le contexte du CVD, la corrélation entre deux images consécutives (ou entre deux vues voisines dans le cas de vidéo multi-vues) est exploité uniquement au décodeur, tandis que les deux images sont codées séparément. Il est alors fondamental que le décodeur soit capable de construire une bonne estimation de l'image manquante : dans ce cas le codeur devra envoyer seulement quelques bits de parité d'un code à correction d'erreurs pour améliorer l'estimation jusqu'à avoir une qualité acceptable. Dans ce cadre, mes travaux ont visé surtout à améliorer l'estimation de l'image manquante, par une description précise du mouvement : un premier axe est basé sur la représentation dense des champs de vecteurs de mouvement ; un deuxième sur la modélisation des trajectoires des objets ; les méthodes basées sur les hash, de raffinement successif et de fusion du mouvement global avec le mouvement local ont également donné des bons résultats. Ces techniques d'estimation peuvent être utilisées dans le cadre du codage par descriptions multiples : les images paires et impaires d'une séquence vidéo sont codées dans deux flux séparés avec un codeur standard, et le décodeur peut reproduire le taux original d'images par seconde même s'il reçoit un seul flux : les techniques de CVD permettent de reconstruire l'image manquante. Le CVD permet également de gérer efficacement le compromis entre degré d'interactivité, occupation d'espace de stockage et besoins de bande passante lors du streaming interactif de vidéos multi-vues. Le CVD de la vidéo 3D comporte des problématiques liées au codage des cartes de profondeur à la détection et la gestion des occlusions, et à la fusion des estimations temporelles et inter-vues. Finalement je me suis aussi occupé de la relation entre qualité de l'estimation de l'image manquante et le débit de codage total associé. Même en dehors du cadre du CVD, la compression vidéo 3D, ou plus précisément, de la vidéo multi-vues (VMV) et de la vidéo multi-vues avec profondeur (MVP) est également un domaine majeur de mon activité de recherche. Je me suis intéressé aux méthodes d'estimation dense de disparité, au codage de cartes de profondeur et au codage par Don't Care Regions (DCR) c'est à dire, en considérant les erreurs sur l'image synthétisé avec la carte de profondeur plutôt que la carte de profondeur elle-même. Le dernier domaine de recherche concerne la distribution de la vidéo sur réseau. Dans le cas de réseau filaire, j'ai travaillé sur une approche network-aware pour la distribution coopérative de vidéo. Dans le cas de réseau sans fils, je me suis intéressé à un protocole cross-layer qui minimise le nombre de message échangé, tout en garantissant à tous les nœuds la réception de la vidéo. Ce protocole a ensuite été amélioré pour prendre en compte les compromis entre distorsion et congestion sur le réseau. Ce protocole peut être utilisé conjointement au codage réseau pour maximiser le throughput du réseau et pour améliorer la robustesse de la communication. Les techniques de codage réseau peuvent également être utilisées avec le codage à descriptions multiples pour ultérieurement améliorer la robustesse, et avec le codage de la vidéo multi-vues pour optimiser (en sens débit-distorsion) la planification d'envoi des paquets vidéo.

26

Molli, Pascal. "Cohérence des données dans les environnements d'édition collaborative". Habilitation à diriger des recherches, Université Henri Poincaré - Nancy I, 2007. http://tel.archives-ouvertes.fr/tel-00601380.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les outils d'édition collaborative permettent à un groupe de personnes distribuées dans le temps, dans l'espace et à travers les organisations, de travailler ensemble sur les mêmes documents. Un système d'édition collaborative efficace doit permettre à n'importe qui de modifier n'importe quel type de données à n'importe quel moment. Cela pose des problèmes de maintient de la cohérence des données au sein des ces systèmes. Nous présentons trois approches de maintient de la cohérence dans les systèmes collaboratifs distribués: une approche transactionnelle, une approche basée sur les transformées opérationnelles et une approche basée sur les types commutatifs répliqués.

27

Wackernagel, Hans. "Géostatistique et assimilation séquentielle de données". Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2004. http://tel.archives-ouvertes.fr/tel-00542362.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La géostatistique spatio-temporelle traditionnelle n'est pas en mesure de décrire adéquatement la dynamique, en général fortement non-linéaire, de processus spatio-temporels multivariables. Pour cela des modèles de transport physico-chimiques sont en général bien mieux adaptés. Cependant, étant donné que ces derniers ne maîtrisent pas totalement la complexité des processus qu'ils cherchent à décrire, soit parce qu'ils sont basés sur des hypothèses simplificatrices, soit parce que l'information servant à établir les conditions initiales et aux limites est imparfaite, il est opportun d'introduire des techniques statistiques servant à les guider pour assimiler un flot de mesures émanant de capteurs automatiques. Des projets récents au Centre de Géostatistique de l'Ecole des Mines de Paris ont permis d'explorer l'application de ces techniques dans le domaine de l'océanographie et en pollution de l'air. Il s'est très vite avéré que la géostatistique offrait des concepts et des approches qui pouvaient contribuer à enrichir les techniques d'Assimilation Séquentielle de Données. La thèse de Laurent Bertino et des publications ultérieures ont permis de développer cette thématique porteuse, dont la présente synthèse établit un compte-rendu.

28

Kopylova, Evguenia. "Algorithmes bio-informatiques pour l'analyse de données de séquençage à haut débit". Phd thesis, Université des Sciences et Technologie de Lille - Lille I, 2013. http://tel.archives-ouvertes.fr/tel-00919185.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nucleotide sequence alignment is a method used to identify regions of similarity between organisms at the genomic level. In this thesis we focus on the alignment of millions of short sequences produced by Next-Generation Sequencing (NGS) technologies against a reference database. Particularly, we direct our attention toward the analysis of metagenomic and metatranscriptomic data, that is the DNA and RNA directly extracted for an environment. Two major challenges were confronted in our developed algorithms. First, all NGS technologies today are susceptible to sequencing errors in the form of nucleotide substitutions, insertions and deletions and error rates vary between 1-15%. Second, metagenomic samples can contain thousands of unknown organisms and the only means of identifying them is to align against known closely related species. To overcome these challenges we designed a new approximate matching technique based on the universal Levenshtein automaton which quickly locates short regions of similarity (seeds) between two sequences allowing 1 error of any type. Using seeds to detect possible high scoring alignments is a widely used heuristic for rapid sequence alignment, although most existing software are optimized for performing high similarity searches and apply exact seeds. Furthermore, we describe a new indexing data structure based on the Burst trie which optimizes the search for approximate seeds. We demonstrate the efficacy of our method in two implemented software, SortMeRNA and SortMeDNA. The former can quickly filter ribosomal RNA fragments from metatranscriptomic data and the latter performs full alignment for genomic and metagenomic data.

29

Pajon, Jean-Louis. "Outils de visualisation interactifs pour l'analyse de données scalaires structurées : applications aux sciences de la terre". Paris 11, 1992. http://www.theses.fr/1992PA112420.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse est consacrée à l'étude des applications de l'infographie à la visualisation de données scientifiques scalaires calculées dans des maillages structures. Une connaissance approfondie des propriétés possédées par ces maillages permet de mettre au point des algorithmes plus rapides pour résoudre certains types de problèmes géometriques fréquemment rencontrés dans les applications. Par exemple, la connaissance des différentes cellules d'un maillage qui sont intersectées par une droite peut être acquise plus rapidement dans un maillage convexe, étoilé ou monotone. Cette connaissance, qui permet d'interpoler des valeurs numériques le long de cette droite, trouve des applications en rendu volumique. Elle permet aussi de localiser rapidement un point dans un maillage. De nombreuses techniques de visualisation adaptées aux maillages structurés sont disponibles. Leur utilisation effective est facilitée par l'emploi de méthodes de manipulation directe à la souris d'objets 3D dessinés à l'écran. Ces idées ont été mises en application dans un logiciel Actris destiné à l'analyse des réservoirs de pétrole

30

Jagiella, Nick. "Parameterization des modeles tumoral bases sur des maillages des donnees experimentaux". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00779981.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans le but d'établir un modèle prédictif pour la croissance tumorale in-vivo et la thérapie, le modèle multi-échelle doit être élaboré et calibré par étape et de façon individuelle pour chaque type de cellule ciblé et pour di érents environnements (in-vitro et in-vivo). Nous présenterons, en tant que preuve de concept et à partir de di érentes sources de données, les étapes de la construction et de la paramétrisation du modèle de la croissance avasculaire des lignées de cellules EMT6/Ro et SK-MES-1. Dans une première étape, un modèle multi-échelle à base d'agents a été construit et validé avec des données provenant de la littérature sur les sphéroïdes multicellulaires de carcinomes mammaires de souris EMT6/Ro. Pour cette lignée de cellules, il a pu prédire que la cinétique de croissance est contrôlée par une combinaison de contraintes spatiales et de limitation des nutriments. Il a été trouvé que l'ATP est la ressource critique que les cellules essayent de garder constante en permutant d'un métabolisme aérobique à anaérobique et ce pour de larges plages de concentrations d'oxygène et de glucose. La saturation de la croissance a été observé uniquement dans le cas de faibles concentrations d'oxygène et de glucose ce que le modèle a pu expliqué par une migration guidée par l'adhésion de cellule à cellule. Dans une seconde étape, le modèle a été adapté à la lignée cellulaire SK-MES-1. Nous avons calibré la cinétique de croissance qualitativement en analysant des images de cryosections de sphéroïdes marquées pour l'apoptose et la prolifération et quantitativement en la comparant des courbes de croissance. Au delà de l'ATP, le lactate a été identi é comme contrôlant la taille du noyau nécrotique. Pour rendre compte de la situation in-vivo, nous proposons une extension du modèle qui prend en compte un réseau de vaisseaux sanguins et le phénomène de l'angiogenèse associé. A n de paramétrer les propriétés des vaisseaux fonctionnels et dans le but de valider les lois de l'angiogenèse, nous menons à partir d'images de perfusion d'agents de contraste une étude de sensibilité aux paramètres. Dans un premier temps, nous résolvons le problème direct de la perfusion des agents de contraste dans un réseau de vaisseaux perméables ou non. Ensuite, nous résolvons le problème inverse rigoureusement et, grâce à des comparaisons directes entre les paramètres originaux et ceux récupérés, nous étudions la capacité de prédiction du modèle dans di érents cas.

31

Allab, Kais. "Matrix factorization framework for simultaneous data (co-)clustering and embedding". Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB083/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les progrès des technologies informatiques et l’augmentation continue des capacités de stockage ont permis de disposer de masses de données de trés grandes tailles et de grandes dimensions. Le volume et la nature même des données font qu’il est de plus en plus nécessaire de développer de nouvelles méthodes capables de traiter, résumer et d’extraire l’information contenue dans de tels types de données. D’un point de vue extraction des connaissances, la compréhension de la structure des grandes masses de données est d’une importance capitale dans l’apprentissage artificiel et la fouille de données. En outre, contrairement à l’apprentissage supervisé, l’apprentissage non supervisé peut fournir des outils pour l’analyse de ces ensembles de données en absence de groupes (classes). Dans cette thèse, nous nous concentrons sur des méthodes fondamentales en apprentissage non supervisé notamment les méthodes de réduction de la dimension, de classification simple (clustering) et de classification croisée (co-clustering). Notre contribution majeure est la proposition d’une nouvelle manière de traiter simultanément la classification et la réduction de dimension. L’idée principale s’appuie sur une fonction objective qui peut être décomposée en deux termes, le premier correspond à la réduction de la dimension des données, tandis que le second correspond à l’objectif du clustering et celui du co-clustering. En s’appuyant sur la factorisation matricielle, nous proposons une solution prenant en compte simultanément les deux objectifs: réduction de la dimension et classification. Nous avons en outre proposé des versions régularisées de nos approches basées sur la régularisation du Laplacien afin de mieux préserver la structure géométrique des données. Les résultats expérimentaux obtenus sur des données synthétiques ainsi que sur des données réelles montrent que les algorithmes proposés fournissent d’une part de bonnes représentations dans des espaces de dimension réduite et d’autre part permettent d’améliorer la qualité des clusters et des co-clusters. Motivés par les bons résultats obtenus par les méthodes du clustering et du co-clustering basés sur la régularisation du Laplacien, nous avons développé un nouvel algorithme basé sur l’apprentissage multi-variétés (multi-manifold) dans lequel une variété consensus est approximée par la combinaison d’un ensemble de variétés candidates reflétant au mieux la structure géométrique locale des données. Enfin, nous avons aussi étudié comment intégrer des contraintes dans les Laplaciens utilisés pour la régularisation à la fois dans l’espace des objets et l’espace des variables. De cette façon, nous montrons comment des connaissances a priori peuvent contribuer à l’amélioration de la qualité du co-clustering
Advances in computer technology and recent advances in sensing and storage technology have created many high-volume, high-dimensional data sets. This increase in both the volume and the variety of data calls for advances in methodology to understand, process, summarize and extract information from such kind of data. From a more technical point of view, understanding the structure of large data sets arising from the data explosion is of fundamental importance in data mining and machine learning. Unlike supervised learning, unsupervised learning can provide generic tools for analyzing and summarizing these data sets when there is no welldefined notion of classes. In this thesis, we focus on three important techniques of unsupervised learning for data analysis, namely data dimensionality reduction, data clustering and data co-clustering. Our major contribution proposes a novel way to consider the clustering (resp. coclustering) and the reduction of the dimension simultaneously. The main idea presented is to consider an objective function that can be decomposed into two terms where one of them performs the dimensionality reduction while the other one returns the clustering (resp. co-clustering) of data in the projected space simultaneously. We have further introduced the regularized versions of our approaches with graph Laplacian embedding in order to better preserve the local geometry of the data. Experimental results on synthetic data as well as real data demonstrate that the proposed algorithms can provide good low-dimensional representations of the data while improving the clustering (resp. co-clustering) results. Motivated by the good results obtained by graph-regularized-based clustering (resp. co-clustering) methods, we developed a new algorithm based on the multi-manifold learning. We approximate the intrinsic manifold using a subset of candidate manifolds that can better reflect the local geometrical structure by making use of the graph Laplacian matrices. Finally, we have investigated the integration of some selected instance-level constraints in the graph Laplacians of both data samples and data features. By doing that, we show how the addition of priory knowledge can assist in data co-clustering and improves the quality of the obtained co-clusters

32

Cadot, Martine. "Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association". Phd thesis, Université de Franche-Comté, 2006. http://tel.archives-ouvertes.fr/tel-00594174.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse concerne la fouille de données en sciences humaines. Cette branche récente de l'intelligence artificielle consiste en un ensemble de méthodes visant à extraire de la connaissance à partir de données stockées sur des supports informatiques. Parmi celles-ci, l'extraction de motifs et de règles d'association est une méthode de traitement des données qui permet de représenter de façon symbolique la structure des données, comme le font les méthodes statistiques classiques, mais qui, contrairement à celles-ci, reste opérationnelle en cas de données complexes, volumineuses. Toutefois ce modèle informatique des données, construit à partir de comptages de cooccurrences, n'est pas directement utilisable par les chercheurs en sciences humaines : il est essentiellement dédié aux données dichotomiques (vrai/faux), ses résultats directs, très morcelés, sont difficiles à interpréter, et sa validité peut paraître douteuse aux chercheurs habitués à la démarche statistique. Nous proposons des techniques que nous avons construites puis expérimentées sur des données réelles dans le but de réduire les difficultés d'utilisation que nous venons de décrire : 1) un test de randomisation à base d'échanges en cascade dans la matrice sujets x propriétés permet d'obtenir les liaisons statistiquement significatives entre deux propriétés, 2) une extension floue de la méthode d'extraction classique des motifs, qui produit des règles d'association floues généralisant les règles binaires et proches des règles floues définies par les chercheurs poursuivant les travaux de Zadeh, 3) MIDOVA, un algorithme extrayant les interactions n-aires entre variables - problème peu connu, peu abordé en informatique, et abordé avec de fortes limitations en statistiques - et 4) des méta-règles pour nettoyer le jeu de règles d'association de ses principales contradictions et redondances.

33

Cagnazzo, Marco. "Transformée en ondelettes et compression de données tridimensionnelles". Phd thesis, Université de Nice Sophia-Antipolis, 2005. http://tel.archives-ouvertes.fr/tel-00506115.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Notre thèse de doctorat porte principalement sur la transformée en ondelettes (TO) tridimensionnelle, et ses variations, comme la TO compensée en mouvement ou la TO adaptée à la forme, pour le codage des séquences vidéo et des images multispectrales (MS). Cette approche peut sembler a priori normale, néanmoins, dans le domaine de la compression vidéo, les approches basées sur les transformée 3D ont juste commencé à être concurrentielles avec les schémas hybrides basés sur la transformée cosinus discret (DCT). Notons qu'en ce qui concerne les images MS, la littérature scientifique n'appréhende pas le problème de la compression par une approche intégrale. L'approche TO 3D, étudiée dans cette thèse, a reçu une attention particulière par les chercheurs qui s'intéressent au domaine de la compression de données, car la version bi-dimensionnelle a des très bons résultats pour le codage d'images fixes. D'ailleurs, l'approche de TO fournit un support total à la scalabilité qui semble être l'une des aspects les plus importantes dans le domaine de la livraison de multimédia. Une représentation scalable d'information se compose de plusieurs sous ensembles de données, dont chacune d'elle est une représentation efficace de l'information originale. Une telle approche est obligatoire pour la livraison efficace de multimédia sur les réseaux hétérogènes. Le problème d'allocation des ressources est un autre aspect commun au codage vidéo et aux images MS.

34

Temanni, Mohamed Ramzi. "Combinaison de sources de données pour l'amélioration de la prédiction en apprentissage : une application à la prédiction de la perte de poids chez l'obèse à partir de données transcriptomiques et cliniques". Phd thesis, Université Pierre et Marie Curie - Paris VI, 2009. http://tel.archives-ouvertes.fr/tel-00814513.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les maladies complexes comme l'obésité sont des maladies multifactorielles. Peu de travaux existent pour essayer de prédire les effets des différents traitements et ainsi mieux adapter les traitements aux patients. L'utilisation de modèles prédictifs pour mieux guider le choix des traitements de l'obésité reste un champ de recherche peu exploré malgré le fort impact qu'elle pourrait avoir vu la prévalence de cette maladie. Dans d'autres domaines de la médecine, comme la cancérologie par exemple, de telles méthodes sont déjà utilisées pour l'aide au diagnostic se basant notamment sur des données issues de puces à ADN. Cette technologie s'avère adaptée et son utilisation a donné lieu à des résultats intéressants pour dépister les maladies ou aider les médecins dans leur choix thérapeutique. Cependant si celle‐ci s'avère suffisante pour prédire d'une manière satisfaisante dans le domaine du cancer, en revanche elle s'avère d'un apport limité dans le cadre d'une application aux données de l'obésité. Cela suggère l'utilisation d'autres données patients pour améliorer les performances en prédiction. Les travaux de recherche présentés dans ce mémoire abordent les problèmes de la prédiction de la perte de poids suite à un régime ou une chirurgie bariatrique. Nous avons analysé le problème de la prédiction de la perte de poids à partir des données transcriptomique dans le cadre de deux projets européens et aussi à partir des données biocliniques dans le cadre de la chirurgie de l'obésité. Nous avons ensuite proposé trois concepts de combinaisons de modèles : combinaison de données, combinaison de méthodes et combinaison avec abstention. Nous avons analysé empiriquement ces trois approches et les expérimentations ont montré une amélioration des résultats pour les données de l'obésité même si ceux‐ci restent bien en deça de ce qu'on observe avec les données cancers

35

Barrabe, Patrice. "Acquisition et transmission optique de données". Grenoble 1, 1990. http://www.theses.fr/1990GRE10121.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette etude porte sur l'acquisition multisources et la transmission a haut debit (10 moctets/sec) de donnees numeriques, dans les domaines industriels et scientifiques. Les applications plus particulierement visees, sont celles qui presentent simultanement des contraintes d'immunite electromagnetique, de dispersion geographique (quelques centaines de metres), et de fonctionnement temps reel. Nous proposons une solution basee sur le choix de technologies performantes mais standards (fibres optiques multimodes et logique ttl rapide), afin d'optimiser les couts de fabrication. Le principe est d'implanter au niveau de chaque source des unites entierement logiques, destinees a la preparation et a la transmission des donnees. Ces unites sont reliees entre elles et a une station centrale, par un bus optique synchrone relaye en chaque point de connexion (structure daisy chain. Grace a une bonne maitrise des technologies, le travail presente permettra d'aboutir a un reseau d'acquisition rapide et fiable, ne necessitant que peu de developpement logiciel

36

Masseglia, Florent. "Extraction de connaissances : réunir volumes de données et motifs significatifs". Habilitation à diriger des recherches, Université de Nice Sophia-Antipolis, 2009. http://tel.archives-ouvertes.fr/tel-00788309.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'analyse et la fouille des données d'usages sont indissociables de la notion d'évolution dynamique. Considérons le cas des sites Web, par exemple. Le dynamisme des usages sera lié au dynamisme des pages qui les concernent. Si une page est créée, et qu'elle présente de l'intérêt pour les utilisateurs, alors elle sera consultée. Si la page n'est plus d'actualité, alors les consultations vont baisser ou disparaître. C'est le cas, par exemple, des pages Web de conférences scientifiques qui voient des pics successifs de consultation lorsque les appels à communications sont diffusés, puis le jour de la date limite d'envoi des résumés, puis le jour de la date limite d'envoi des articles. Dans ce mémoire d'habilitation à diriger des recherches, je propose une synthèse des travaux que j'ai dirigés ou co-dirigés, en me basant sur des extraits de publications issues de ces travaux. La première contribution concerne les difficultés d'un processus de fouille de données basé sur le support minimum. Ces difficultés viennent en particulier des supports très bas, à partir desquels des connaissances utiles commencent à apparaître. Ensuite, je proposerai trois déclinaisons de cette notion d'évolution dans l'analyse des usages : l'évolution en tant que connaissance (des motifs qui expriment l'évolution) ; l'évolution des données (en particulier dans le traitement des flux de données) ; et l'évolution des comportements malicieux et des techniques de défense.

37

El, Hafyani Hafsa. "Analyse de données spatio-temporelles dans le contexte de la collecte participative de données environnementales". Thesis, université Paris-Saclay, 2022. http://www.theses.fr/2022UPASG035.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La qualité de l'air est l'un des principaux facteurs de risque pour la santé humaine. La collecte participative ou Mobile Crowd Sensing (MCS) en anglais, un nouveau paradigme basé sur la technologie émergente des micro-capteurs connectés, offre la possibilité de mesurer l'exposition individuelle à la pollution de l'air n'importe où et n'importe quand. Cela amène à générer en continu des séries de données géo-localisées, qui finissent par former une grande masses de données. Celle-ci constitue une mine d'information pour des analyses variées et une opportunité unique d'extraction de connaissances sur l'exposition à la pollution. Toutefois, cette analyse est loin d'être simple, car il y a un gap entre les séries de données brutes des capteurs et les informations exploitables. En effet, les données brutes sont irrégulières, bruitées et incomplètes. Le défi majeur que cette thèse cherche à relever est de combler ce gap en proposant une approche holistique d'analyse et d'extraction de connaissance des données collectées dans le contexte du MCS. Nous mettons en oeuvre un processus analytique complet comprenant le prétraitement des données, leur enrichissement avec des informations contextuelles, ainsi que la modélisation et le stockage de ces données. Nous l'avons implémenté en veillant à automatiser son déploiement. Les approches proposées sont appliquées sur des données réelles collectées au sein du projet Polluscope
Air quality is one of the major risk factors in human health. Mobile Crowd Sensing (MCS), which is a new paradigm based on the emerging connected micro-sensor technology, offers the opportunity of the assessment of personal exposure to air pollution anywhere and anytime. This leads to the continuous generation of geolocated data series, which results in a big data volume. Such data is deemed to be a mine of information for various analysis, and a unique opportunity of knowledge discovery about pollution exposure. However, achieving this analysis is far from straightforward. In fact, there is a gap to fill between the raw sensor data series and usable information: raw data is highly uneven, noisy, and incomplete. The major challenge addressed by this thesis is to fill this gap by providing a holistic approach for data analytics and mining in the context of MCS. We establish an end-to-end analytics pipeline, which encompasses data preprocessing, their enrichment with contextual information, as well as data modeling and storage. We implemented this pipeline while ensuring its automatized deployment. The proposed approaches have been applied to real-world datasets collected within the Polluscope project

38

Senellart, Pierre. "XML probabiliste: Un modèle de données pour le Web". Habilitation à diriger des recherches, Université Pierre et Marie Curie - Paris VI, 2012. http://tel.archives-ouvertes.fr/tel-00758055.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les données extraites du Web sont chargées d'incertitude: elles peuvent contenir des contradictions ou résulter de processus par nature incertains comme l'intégration de données ou l'extraction automatique d'informations. Dans cette thèse d'habilitation, je présente les modèles de données XML probabilistes, la manière dont ils peuvent être utilisés pour représenter les données du Web, et la complexité de différentes opérations de gestion de données sur ces modèles. Je donne un état de l'art exhaustif du domaine, en insistant sur mes propres contributions. Je termine par un résumé de mes futurs projets de recherche.

39

Arenou, Frédéric. "Contribution à la validation statistique des données d'Hipparcos : catalogue d'entrée et données préliminaires". Phd thesis, Observatoire de Paris, 1993. http://tel.archives-ouvertes.fr/tel-00010577.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les parallaxes trigonométriques du satellite Hipparcos vont considérablement modifier de nombreux domaines de l'Astronomie. Leur précision annoncée (un facteur 5 par rapport à celles obtenues au sol) et leur nombre (100 000...) méritent une étude approfondie des erreurs externes et des éventuels effets systématiques. Après avoir décrit un modèle empirique à trois dimensions de l'absorption interstellaire qui nous a permis d'estimer la couleur d'une grande partie des étoiles du Catalogue d'Entrée d'Hipparcos, nous montrons, à l'aide des données préliminaires obtenues par le satellite, la qualité du Catalogue d'Entrée. Tirant parti des nombreuses données (au sol ou provenant d'Hipparcos) et des calibrations photométriques et spectroscopiques, cette thèse a également pour objet de mettre au point différentes méthodes qui permettront de valider statistiquement les futures parallaxes d'Hipparcos. Ces méthodes, utilisant notamment l'estimation conditionnelle pour étudier les différents biais des données, sont appliquées en détail aux parallaxes préliminaires obtenues avec un an de mission, et permettent de dégager des perspectives pour les calibrations des magnitudes absolues. Enfin, à l'aide d'analyses multivariées de données du Catalogue d'Entrée, une étude cinématique des étoiles A du voisinage solaire montre que le temps de mélange des vitesses spatiales est supérieur à deux années galactiques.

40

Saadaoui, Belgacem. "Analyse et traitement automatique de donnees sociales (absenteisme salarial)". Paris 9, 1991. http://www.theses.fr/1991PA09A001.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

41

Zahoor, Ehtesham. "Gouvernance de service : aspects sécurité et données". Phd thesis, Université Nancy II, 2011. http://tel.archives-ouvertes.fr/tel-00643552.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux autour de la conception, de la vérification et de la surveillance de compositions de services Web forment un domaine de recherche très actif actuellement. Cependant, peu de ces travaux s'intéressent à la prise en compte globale des problématiques de composition, vérification et surveillance grâce à un formalisme unifié. Dans la thèse, nous proposons l'approche DISC qui est une approche déclarative unifiée utilisant un formalisme à base d'événements, et qui permet grâce à un formalisme unique de concevoir, de vérifier et de surveiller des compositions de services, réduisant ainsi les transformations nécessaires pour passer d'un formalisme à un autre. De plus, le formalisme utilisé permet de prendre en compte des aspects non fonctionnels tels que les données, les aspects temporels, ou certains aspects liés à la sécurité. L'approche permet en outre d'instancier et de vérifier des compositions de services, et d'exécuter et surveiller ces compositions lors de l'exécution. Enfin, les effets de violations lors de l'exécution de la composition peuvent être calculés, et un ensemble d'actions de recouvrement sont proposées, permettant aux compositions d'être en partie autonomes vis-à-vis des problèmes pouvant survenir à l'exécution.

42

TUNG, Tony. "Indexation 3D de bases de donnees d'objets par graphes de Reeb ameliores". Phd thesis, Télécom ParisTech, 2005. http://tel.archives-ouvertes.fr/tel-00009843.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La rapide avancée de la technologique numérique a permis d'améliorer les méthodes d'acquisition et de rendu de modèles 3D. On peut constater qu'aujourd'hui les bases de données d'objets 3D sont présentes dans beaucoup de domaines, qu'ils soient ludiques (jeux, multimédia) ou scientifiques (applications médicales, industrielles, héritage culturel, etc.). La facilité d'acquisition et de reconstruction des modèles 3D, ainsi que leur modélisation permettent de créer de grandes bases de données, et il devient difficile de naviguer dans ces bases pour retrouver des informations. L'indexation des objets 3D apparaît donc comme une solution nécessaire et prometteuse pour gérer ce nouveau type de données. Notre étude s'insérant dans le cadre du projet européen SCULPTEUR IST-2001-35372 dont des partenaires étaient des musées, nous avons donc travaillé avec des bases de données de modèles 3D muséologiques. L'indexation des éléments d'une base de données consiste à définir une méthode permettant d'effectuer des comparaisons parmi les composants de cette base. Actuellement, une des principales applications consiste à effectuer des requêtes de similarité : étant donné une "clé'' de recherche, on extrait de la base de données les éléments ayant la clé la plus similaire.

Nous présentons dans ce mémoire une méthode d'indexation de modèles 3D appliquée aux recherches par similarité de forme et d'aspect dans des bases de données d'objets 3D. L'approche repose sur la méthode d'appariement de graphes de Reeb multirésolution proposée par [Hilaga et al, 01]. Dans le cadre de notre étude, nous travaillons avec des maillages de modèles 3D de géométrie plus ou moins complexes, à différents niveaux de résolution, et parfois texturés. L'approche originale, basée sur la topologie des objets 3D, s'est avérée insuffisante pour obtenir des appariements satisfaisants. C'est pourquoi nous proposons d'étendre les critères de cohérence topologique pour les appariements et de fusionner au graphe des informations géométriques et visuelles pour améliorer leur mise en correspondance et l'estimation de la similarité entre modèles. Ces attributs sont librement pondérables afin de s'adapter au mieux aux requêtes d'un utilisateur. Nous obtenons une représentation souple, multicritère et multirésolution que nous nommons graphe de Reeb multirésolution augmenté (aMRG). Nous comparons cette approche à un ensemble varié de méthodes d'indexation. Elle se révèle être très performante pour retrouver les objets de formes similaires et discerner les différentes classes de formes 3D.

43

Raïssi, Chedy. "Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données". Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2008. http://tel.archives-ouvertes.fr/tel-00351626.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Extraction de séquences fréquentes : des bases de données statiques aux flots de données Il est reconnu aujourd'hui que l'être humain est généralement noyé sous une profusion d'informations et que sa capacité d'analyse n'est plus capable de faire face au volume sans cesse croissant de données. C'est dans ce contexte qu'est né le processus d'Extraction de Connaissance dans les bases de Données. Un des buts de ce processus est de passer d'un grand volume d'informations à un petit ensemble de connaissances à fortes valeurs ajoutées pour l'analyste ou le décideur. De plus, le processus d'ECD n'est pas un processus monolithique et univoque au cours duquel il s'agirait d'appliquer un principe général à tous les types de données stockées ou récupérées. Ainsi, une des étapes de ce processus qu'est la fouille de données peut se dériver sous plusieurs formes tels que : le clustering, la classification, l'extraction d'itemset et de règles d'associations, l'extraction de structures plus complexes tels que les épisodes, les graphes ou comme dans le cadre de cette thèse l'extraction de motifs séquentiels. Malheureusement, dans un monde sans cesse en évolution, le contexte dans lequel les travaux d'ECD ont été définis ces dernières années considérait que les données, sur lesquelles la fouille était réalisée, étaient disponibles dans des bases de données statiques. Aujourd'hui, suite au développement de nouvelles technologies et applications associées, nous devons faire face à de nouveaux modèles dans lesquels les données sont disponibles sous la forme de flots. Une question se pose alors : quid des approches d'extraction de connaissances traditionnelles ? Dans ce mémoire, nous présentons un ensemble de résultat sur les motifs séquentiels dans les bases de données d'un point de vue des représentations condensées et des méthodes d'échantillonnage puis nous étendons nos différentes approches afin de prendre en compte le nouveau modèle des flots de données. Nous présentons des algorithmes permettant ainsi l'extraction de motifs séquentiels (classiques et multidimensionnels) sur les flots. Des expérimentations menées sur des données synthétiques et sur des données réelles sont rapportées et montrent l'intérêt de nos propositions.

44

Fejoz, Loïc. "Développement prouvé de structures de données sans verrou". Phd thesis, Université Henri Poincaré - Nancy I, 2008. http://tel.archives-ouvertes.fr/tel-00594978.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le sujet central de cette thèse est le développement d'une méthode dédiée à la preuve de structures de données sans verrou. La motivation première vient du constat que les programmes concurrents sont devenu monnaie courante. Ceci a été possible par l'apparition de nouvelles primitives de synchronisation dans les nouvelles architectures matérielles. La seconde motivation est la quête de logiciel prouvé et donc correct. La sûreté des logiciels est en effet devenue primordiale de par la diffusion des systèmes embarqués et enfouis. La méthode proposée est basée sur le raffinement et dédiée à la conception et la vérification d'algorithme non-bloquant, en particulier ceux sans verrou. La méthode a été formalisée et sa correction prouvée en Isabelle/HOL. Un outil a par ailleurs été développé afin de générer des obligations de preuves à destination des solveurs SMT et des prouveurs de théorèmes du premier ordre. Nous l'avons utilisé afin de vérifier certains de ces algorithmes.

45

Wipliez, Matthieu. "Infrastructure de compilation pour des programmes flux de données". Phd thesis, Rennes, INSA, 2010. http://www.theses.fr/2010ISAR0033.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les programmes flux de données (« data flow » en anglais) sont des programmes décrits sous la forme d’un graphe afin de mettre en évidence un certain nombre de propriétés, comme le parallélisme disponible, la localité des données, la certitude de ne pas avoir d’inter-blocages, etc. Ma thèse présente les problématiques liées à la mise en place d’une infrastructure de compilation pour ce type de programmes. Cette infrastructure a pour but de compiler, analyser, transformer, et exécuter un programme flux de données sur différentes plateformes, depuis des composants logiques programmables jusqu��à des processeurs multi-cœurs avec mémoire partagée. Nous présentons les aspects théoriques associés aux problèmes de compilation, d’analyse et d’ordonnancement des programmes flux de données, ainsi que les aspects pratiques et les résultats obtenus concernant la génération de code et l’exécution de ces programmes
The work presented in this thesis takes place in a context of growing demand for better video quality (High-Definition TV, home cinema. . . ) and unprecedented concern for power consumption. The limitations and lack of flexibility of current video standards make it increasingly long and complicated to implement standards on embedded systems. A new standard called Reconfigurable Video Coding aims to solve these problems by describing video coding with dataflow programs. A dataflow program is a program represented as a directed graph where vertices are computational units and edges represent the flow of data between vertices. This thesis presents a compilation infrastructure for dataflow programs that can compile these programs to a simple, high-level Intermediate Representation (IR). We show how this IR can be used to analyze, transform, and generate code for dataflow programs in many languages, from C to hardware description languages

46

Pazat, Jean-Louis. "Génération de code réparti par distribution de données". Habilitation à diriger des recherches, Université Rennes 1, 1997. http://tel.archives-ouvertes.fr/tel-00170867.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

47

Gelgon, Marc. "Structuration statistique de données multimédia pour la recherche d'information". Habilitation à diriger des recherches, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00450297.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'unité du travail réside en ce qu'on s'intéresse à la recherche de structure dans les données numériques (issues de données multimédia), en vue d'y faciliter la recherche d'information. Le cadre méthodologique de la résolution est que nous privilégions ici celui des modèles probabi- listes, en particulier les mélanges de lois, et de l'estimation statistique associée. La recherche de structure implique que le jeu de données étudié est composé de sous-populations de caracté- ristiques distinctes : il s'agit de séparer et de caractériser ces sous-populations, deux problèmes fortement imbriqués. Les entités extraites et les attributs qu'on en leur associe seront alors directement utiles pour la recherche d'information.

48

Verdie, Yannick. "Modélisation de scènes urbaines à partir de données aeriennes". Phd thesis, Université Nice Sophia Antipolis, 2013. http://tel.archives-ouvertes.fr/tel-00881242.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'analyse et la reconstruction automatique de scène urbaine 3D est un problème fondamental dans le domaine de la vision par ordinateur et du traitement numérique de la géométrie. Cette thèse présente des méthodologies pour résoudre le problème complexe de la reconstruction d'éléments urbains en 3D à partir de données aériennes Lidar ou bien de maillages générés par imagerie Multi-View Stereo (MVS). Nos approches génèrent une représentation précise et compacte sous la forme d'un maillage 3D comportant une sémantique de l'espace urbain. Deux étapes sont nécessaires; une identification des différents éléments de la scène urbaine, et une modélisation des éléments sous la forme d'un maillage 3D. Le Chapitre 2 présente deux méthodes de classifications des éléments urbains en classes d'intérêts permettant d'obtenir une compréhension approfondie de la scène urbaine, et d'élaborer différentes stratégies de reconstruction suivant le type d'éléments urbains. Cette idée, consistant à insérer à la fois une information sémantique et géométrique dans les scènes urbaines, est présentée en détails et validée à travers des expériences. Le Chapitre 3 présente une approche pour détecter la 'Végétation' incluses dans des données Lidar reposant sur les processus ponctuels marqués, combinée avec une nouvelle méthode d'optimisation. Le Chapitre 4 décrit à la fois une approche de maillage 3D pour les 'Bâtiments' à partir de données Lidar et de données MVS. Des expériences sur des structures urbaines larges et complexes montrent les bonnes performances de nos systèmes.

49

Collard, Martine. "Fouille de données, Contributions Méthodologiques et Applicatives". Habilitation à diriger des recherches, Université Nice Sophia Antipolis, 2003. http://tel.archives-ouvertes.fr/tel-01059407.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire, ont été développés sur le thème de la découverte de motifs intéressants à travers la fouille de données et mis en oeuvre dans le cadre de la conception de systèmes d'information. Ils sont essentiellement consacrés aux problèmes soulevés par l'étape de fouille pour la découverte de modèles et de motifs fréquents. Ils sont à la fois d'ordre méthodologique et applicatif.

50

Gaugain, Claire. "Exploration bioinformatique des relations entre mécanismes moléculaires et fonctions cellulaires". Phd thesis, Université Victor Segalen - Bordeaux II, 2007. http://tel.archives-ouvertes.fr/tel-00417346.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'intégration des données biologiques est un des principaux défis de la bioinformatique aujourd'hui. La mise à disposition de quantités importantes de données concernant tous les niveaux d'organisation de la cellule, nécessite la mise en place de stratégies d'intégration pour rassembler toutes ces données, et ainsi mieux comprendre le fonctionnement de la cellule. Nous nous sommes intéressés à l'exploitation du concept de voisinage pour représenter et intégrer des données biologiques. Dans un premier temps, notre travail met l'accent sur l'importance du choix de la représentation pour mener une intégration efficace. Notre étude sur la représentation du métabolisme a montré que les modes élémentaires sont une alternative pertinente à la représentation classique sous forme de voies métaboliques. De plus, les modes élémentaires nous ont permis de trouver des routes métaboliques utilisées par la cellule en réponse à divers stress. Nous avons également exploité le voisinage dans une perspective de génomique comparative. Nous avons cherché à déterminer si le voisinage d'expression peut être une signature pour les gènes, et s'il peut être utilisé pour caractériser des gènes en établissant des équivalences entre des génomes (orthologues ou gènes fonctionnellement similaires). Les résultats présentés confirment l'intérêt de l'exploration du voisinage, des gènes et de leur produit, pour intégrer des données hétérogènes. L'efficacité de cette exploration est fortement liée au choix de la représentation des connaissances.

Tesi sul tema "Science des donnes"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili