Tesi sul tema "Classification des données brevets"

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Classification des données brevets.

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-50 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Classification des données brevets".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Baldit, Patrick. "La sériation des similarités spécifiques : outil pour la recherche de l'information stratégique : une méthode de classification automatique de l'information issue des bases de données en veille technologique". Aix-Marseille 3, 1994. http://www.theses.fr/1994AIX30086.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ces dernieres annees ont vu l'emergence du concept d'intelligence economique sensibilisant les decideurs publics ou prives a se preoccuper des modifications de leur environnement. Depuis une trentaine d'annees, au niveau de la planete, le stockage informatique de donnees couvrant un vaste domaine de connaissance s'est generalise. La problematique s'est orientee vers une exploitation rationnelle de ce gisement mondial dans le but d'en retirer des informations pertinentes et strategiques. L'utilisation de la bibliometrie comme outil de traitement dans le cadre de la veille technologique s'est imposee pour permettre d'etablir des grilles de lecture de documents primaires pour des experts du domaine. Les distributions specifiques de ce type d'information rendent l'utilisation des techniques statistiques usuelles difficilement exploitables et nous ont conduits a la creation d'un algorithme de traitement adapte, permettant une classification non hierarchique par optimisation d'un critere global, que nous avons appele la seriation des similarites specifiques. L'objectif final du traitement statistique etant de fournir aux experts des representations cartographiques de l'information recueillie, le developpement de visualisation hypertexte s'est avere primordial pour une exploitation conviviale
2

Huot, Charles. "Analyse relationnelle pour la veille technologique : vers l'analyse automatique des bases de données". Université Paul Cézanne (Aix-Marseille). Faculté des sciences et techniques de Saint-Jérôme, 1992. http://www.theses.fr/1992AIX30089.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
3

Faucompré, Pascal. "La mise en correspondance automatique de banques de données bibliographiques scientifiques et techniques à l'aide de la Classification Internationale des Brevets : contribution au rapprochement de la science et de la technologie". Aix-Marseille 3, 1997. http://www.theses.fr/1997AIX30128.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans un contexte où la performance technologique est synonyme de compétitivité économique, la recherche d'innovations technologiques exige une veille technologique active. Il ne suffit plus d'observer d'éventuelles relations entre science et technique : il s'agit de les provoquer. La mise en relation de l'information scientifique et de l'information technique ouvre une voie pour les rapprocher. Quel langage commun utiliser ? Du côté de l'information scientifique, les passerelles reliant les banques de données entre elles visent des concordances exactes. Mais un tel postulat s'oppose au besoin de retranscription nécessaire entre science et technologie
Scientific information and technical information are at the heart of technological success, which brings economic advantage. Technical innovation needs a more active technological awareness than a neutral observation. It is no more sufficient to watch and to analyse the relationship between science and technique: firms and laboratories have to search it to obtain closer links between them. On one hand, multiple paths between scientific databases attempt to establish the most exact concordances. This is incompatible with such dialog. On the other hand, all patent documents are classified with codes of the International Patent Classification (IPC). This classification can offer the opportunity to use a common language for heterogeneous information. In fact, the IPC does not allow a direct link with other indexing languages because of its hierarchical structure and its complexity. However, its keywords index (catchwords) brings a useful compatibility with these documentary tools. In a first stage, a correspondence system has been built using these catchwords. Then scientific bibliographic references have been indexed with IPC codes. This tool brings to end-users new relations between fundamental literature and patent documents. However, the analysis of results shows that automatic established paths never are bi-univocal because they attempt to get a wilder search area and not to close a set of response. In accordance with a wilder perspective than the documentary viewpoint, this new relation could bring strategic elements to technological awareness
4

Dos, Santos Raimundo N. Macedo. "Rationalisation de l'usage de la Classification Internationale des Brevets par l'analyse fonctionnelle pour répondre à la demande de l'information industrielle". Aix-Marseille 3, 1995. http://www.theses.fr/1995AIX30037.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La methode, presentee dans cette these, propose la rationalisation de l'usage de la classification internationale des brevets par l'analyse fonctionnelle, afin de repondre a un besoin eprouve par l'entreprise. En proposant cette methode et toutes les reflexions qu'elle suscite, notre aspiration est de contribuer a mettre a la disposition des utilisateurs finaux un moyen efficace permettant de combler leurs besoins tout en diminuant les couts d'exploitation. Desormais, maintiendront les bases de leur competitivite les entreprises qui franchiront un seuil qualitatif important dans leur capacite a prevoir l'evolution des marches, cerneront les besoins potentiels, identifieront les innovations technologiques, anticiperont les modifications de comportement des acteurs economiques, politiques et sociaux. Assurer la perennite de l'entreprise en milieu international exigera la mise en place d'un ensemble de capteurs sensibles jusqu'aux signaux faibles, informant sans delais des centres de decisions attentifs. Si la revolution de l'information a rendu les donnees plus largement et rapidement disponibles, c'est deja une evidence que les volumes d'information vont croissant, et que, parallelement, la masse d'information a consulter pour trouver une information pertinente va en augmentant. L'exploitation des connaissances, des outils et des techniques devient plus fine et requiert plus d'intelligence, de creativite et des methodes susceptibles de mettre, au meme niveau d'echange, tous les acteurs concernes dans l'action de mediation entre l'offre et la demande d'information
5

Cherrabi, El Alaoui Nezha. "Un prisme sémantique des brevets par thésaurus interposés : positionnement, essais et applications". Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL4003.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous vivons dans une société caractérisée par une obésité des données non raffinées disponibles dans différentes bases de données. Un écosystème où règne de l’information polluée qui empêche la transformation d’un nombre d’informations en connaissances productives, dans ce sens. les chercheurs dans le domaine de la recherche de l’information ont toujours insisté sur l’usage de l’information pertinente. Historiquement, la maitrise de l’information a été toujours l’enjeu de l’humanité pour conserver sa survie, à présent l’information doit être d’un degré de fiabilité suffisant pour éviter de polluer les connaissances. Le brevet est une source multidimensionnelle, source de premier plan en matière d’information.L’analyse instrumentée des données brevets devient une nécessité et constitue, pour les entreprises, les industriels et l’État, une ressource de mesure la plus efficace de l’activité inventive, pour une approche objective. La recherche dans les bases de données brevets est une tâche complexe pour plusieurs raisons, le nombre de brevets existants est très élevé et augmente rapidement, la recherche par mot-clé ne parvient pas à des résultats satisfaisants, les grandes entreprises ont recours à des professionnels capables de faire des recherches ciblées et efficaces, ce qui n’est pas souvent le cas pour les chercheurs universitaires, étudiants et d’autres profils. D’où la nécessité de l’intervention de la machine pour aider les experts et les non experts à mieux exploiter l’information en matière de brevets et démocratiser son usage. Ainsi, nous proposons une méthode d’accompagnement de l’usager à l’utilisation de cette documentation. Une voie qui s’appuie sur un référentiel normalisé des principes techniques imaginés par l’homme eux-mêmes décrits par des ensembles terminologiques que nous combinons avec des outils de traitement automatique des langues (TAL) pour s’absoudre des formes rédactionnelles des brevets et pour étendre les vocabulaires associés
We live in an information society, characterized by an explosion of data available on the web and in different databases. Researchers in the field of information stress the need for relevant information. Information literacy has always been the challenge for humanity to maintain its survival, now information must be of a sufficient degree of reliability to avoid polluting knowledge. The patent is a multidimensional source, a leading source of information. The instrumented analysis of patent data is becoming a necessity and constitutes, for companies, industrialists and the State, a resource for the most efficient measurement of inventive activity, for an objective approach. Searching patent databases is a complex task for several reasons, the number of existing patents is very high and increasing rapidly, keyword searches do not yield satisfactory results, large companies use professionals capable of performing targeted and efficient searches, which is often not the case for university researchers, students and other profiles.Hence the need for the machine to help experts and non-experts alike to better exploit patent information. Thus, we propose a method to accompany the user in the use of this documentation. This method is based on a standardized reference system of man-made technical principles, which are themselves described by terminology sets that we combine with natural language processing (NLP) tools to dispense with the editorial forms of patents and to extend the associated vocabularies
6

Pellier, Karine. "La dynamique structurelle et spatiale des systèmes de brevets". Thesis, Montpellier 1, 2010. http://www.theses.fr/2010MON10025.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
C'est sous l'impulsion des travaux fondateurs de Schumpeter que l'innovation se positionne au coeur de l'analyse économique. Depuis ces travaux fondateurs, trop peu d'innovation studies se sont toutefois consacrées aux usages du brevet dans la longue durée. Partant de là, cette thèse a pour ambition première de fournir, outre des renseignements empiriques de bonne qualité et de nouvelles séries statistiques, une lecture renouvelée, d'inspiration cliométrique, des brevets dans leurs dimensions structurelles et spatiales. Notre premier apport est de présenter l'organisation d'une nouvelle base de données sur l'évolution de longue période des brevets dans 40 pays du XVIIe siècle à 1945 et dans plus de 150 pays de 1945 à nos jours. Nous montrons, par la suite, que des événements certes rares, mais particulièrement significatifs, ont conditionné les pulsations de l'histoire économique des brevets. Les guerres, la promulgation de lois, l'ouverture ou la fermeture d'offices, mais aussi des effets purement statistiques ont, sur le très long terme, normé, à travers le dépôt et la délivrance des séries étudiées, l'existence des systèmes de brevets. En prolongement, nous déterminons, à travers une analyse spectrale et co-spectrale, la périodicité de nos séries de brevets. Enfin, nous livrons un éclairage plus contemporain, en termes de convergence, sur les dynamiques structurelles et surtout spatiales en oeuvre dans les systèmes de brevets des pays européens
At the behest of Schumpeter's seminal works, innovation is now positioned at the heart of economic analysis. However, since these pioneering works, not enough innovation studies have been devoted to the uses of patent over time. Starting from this assertion, the present thesis aims first and foremost at providing - in addition to good quality empirical information and new statistical series - a new interpretation of patents in their structural and spatial dimensions, based on a cliometric approach. Our first contribution is to present the organisation of a new database on the evolution over a long period of time of patents in 40 countries from the XVIIth century up to 1945 and in over 150 countries from 1945 to the present time. We show in a second step that rare but nevertheless significant events conditioned the heartbeat of the economic history of patents. Wars, the promulgation of laws, the opening or closing of offices, but also purely statistical effects standardized over the long term the existence of patent systems through the application and granting of the series under study. Furthermore we determine the periodicity of our patent series using a spectral and co-spectral analysis. Finally we propose a more contemporary insight - in terms of convergence - into structural and more specifically spatial dynamics at work in the European countries patent systems
7

Thenard, Yannick. "Recherche documentaire et diffusion en matière de brevets d'invention". Paris 2, 1996. http://www.theses.fr/1996PA020042.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La societe accorde a l'inventeur l'exclusivite de son invention, le droit d'en interdire l'exploitation, pendant un intervalle donne conformement aux regles fixees par la loi sur les brevets d'invention. Pour obtenir la protection accordee par la loi, l'invention doit repondre a des criteres etablis et son inventeur s'engage a la porter a la connaissance du public. Certains des criteres de brevetabilite s'apprecient au regard de l'etat de la technique. La recherche permettant la determination de l'art anterieur a en consequence une importance capitale a l'egard du droit d'interdire dont l'inventeur est gratifie. Les brevets d'invention etant consideres comme la meilleure source d'information, quels sont les moyens de recherche mis en oeuvre pour rendre possible l'etablissement de l'etat de la technique? la diffusion de l'invention constitue la contrepartie que la loi exige en echange de la protection qu'elle accorde. La loi prevoit desormais cette diffusion qui se substitue a la publicite legale jusqu'alors organisee. La diffusion facilite la veille technologique et permet la constitution de fonds documentaires indispensables a l'etablissement de l'etat de la technique. Les deux themes etudies, la recherche et la diffusion en matiere de brevet d'invention, le sont au regard de leur evolution. Evolution intimement liee aux progres des sciences de l'information, a l'informatique. Les perspectives d'avenir de ces matieres interdependantes sont envisagees et permettent de s'interroger sur la place qu'occupe l'etat de la technique dans la loi sur les brevets d'invention
The company grants to the inventor, for a given period of time, the exclusivity of his invention and the right to forbid the working of that invention, in accordance with the regulations laid down by the law on patents of invention. To obtain the protection granted by the law, the invention has to conform to established criteria and its inventor is committed to disclose it to the public. Certain criteria of patentability are determined in view of the documentary search. Therefore this search, which makes it possible to determine the prior art, is of major importance as regard the right to forbid which is conterred upon the inventor. Given the fact that patents of invention are considered as the best source of information, what search means are used to enable the preparation of the documentary search? the diffusion of the invention is the compensation required by the law in exchange for the protection that it grants. The low now makes provision for this diffusion which replaces the legal publicity organized heretofore. The diffusion helps the technological watch and makes it possible to constitute documentary stocks which are needed for establishing the documentary search. The two themes that are covered, i. E. The search and diffusion in matters of patents of invention, are examined from the point of view of their evolution, an evolution which is closely linked to the progress made in the art of information and to information-processing. The future prospects of these independent matters are considered and they leave people wondering over the place occupied by the documentary search in the law on patents of invention
8

Nadif, Mohamed. "Classification automatique et données manquantes". Metz, 1991. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1991/Nadif.Mohamed.SMZ912.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Face à un problème pratique de traitements de données, il arrive souvent qu'un certain nombre desdites données se trouve manquer, et dont l'absence peut être imputable à diverses raisons comme une erreur de saisie ou d'expérimentation ou un refus de répondre. Notre travail a consisté à classifier un ensemble d'individus décrits par des variables binaires ou qualitatives nominales sachant que certaines de ces variables n'ont pas été relevées. Les modèles probabilistes étant notre principal outil pour étudier et proposer des solutions au problème de la classification automatique en présence de données manquantes, nous commencons par rappeler comment la classification peut être vue comme une solution à un problème d'estimation de paramètres d'un modèle de mélanges et comment associer à l'algorithme EM (Estimation, Maximisation) un algorithme CEM (Classification, Estimation, Maximisation). En nous appuyant sur les modèles de Bernoulli et en faisant une hypothèse sur la distribution des données manquantes, nous retenons comme critère, l'espérance de la vraisemblance classifiante. Ensuite, nous utilisons le processus de l'algorithme EM en supposant que les données manquantes suivent le modèle de Bernoulli choisi. De plus, l'extension de cet algorithme est étudiée dans ce travail. Nous nous sommes aussi intéressés à la reconstitution des données non observées. Toutes les méthodes proposées dans cette thèse ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif de classification automatique, INRIA) et ont été appliquées sur des données simulées et réelles
9

Bouquet, Valérie. "Système de veille stratégique au service de la recherche de l'innovation de l'entreprise : principes, outils, applications". Aix-Marseille 3, 1995. http://www.theses.fr/1995AIX30080.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans un contexte economique de mondialisation des echanges et des marches, de plus en plus concurrentiel et exigeant, l'entreprise doit s'ouvrir vers l'exterieur tout en gardant la maitrise de son environnement. Sa reussite dependra en grande partie de sa capacite a gerer la collecte, le traitement et la diffusion de l'information a des fins strategiques. Ce memoire fait etat des travaux entrepris en matiere de collectes ponctuelles et systematiques des informations contenues dans les bases de donnees externes sur les societes et les couples produits/marches concurrents dans un contexte industriel. Les donnees ainsi acquises sont traitees, synthetisees puis diffusees aux acteurs economiques de l'entreprise. La surveillance de ces deux poles se fait selon trois methodes dependantes des interets mis en jeu: la veille globale, la veille specifique et la veille corporate. L'accent est mis sur l'importance de la communication entre les maillons de la chaine informationnelle de l'entreprise et les reseaux externes que les differents acteurs se constituent. Une large partie est consacree a la description et a l'analyse statistique des donnees brevets obtenues en ligne, illustree par des exemples issus d'etudes realisees au sein de l'entreprise. Les actions de veilles et la bibliometrie permettent d'une part de stimuler l'innovation au sein du groupe et d'autre part d'alerter les decideurs en vue d'entrainer des reflexions et des actions concernant l'orientation des recherches et la strategie de la firme
10

Nivol, William. "Systèmes de surveillance systématique pour le management stratégique de l'entreprise : le traitement de l'information brevet : de l'information documentaire à l'informationn stratégique". Aix-Marseille 3, 1993. http://www.theses.fr/1993AIX30030.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La veille technologique revet une importance strategique pour l'entreprise. Dans cette optique, les travaux realises dans un cadre industriel au cours de cette these permettent d'entreprendre une surveillance continue de l'environnement concurrentiel de l'entreprise a partir d'information brevet. Ils concernent le developpement et la mise en place de differents outils bibliometriques permettant d'exploiter systematiquement et automatiquement l'information brevet issue des bases de donnees accessibles en ligne. La base de donnees wpil de derwent representant la principale et la plus importante source d'information brevet, l'auteur entreprend, dans un premier temps, une analyse detaillee de ces principales caracteristiques. Il poursuit par la description des limites liees a son exploitation statistique a partir de methodes d'analyse bibliometriques. Differentes solutions sont apportees a chacun des problemes evoques. A partir de ces considerations, deux chaines de traitements bibliometriques developpees pour entreprendre l'analyse de l'information brevet sont presentees. La premiere repose sur l'exploitation informatique des index generes par le logiciel de gestion documentaire texto. La seconde est basee sur l'utilisation du logiciel d'analyse de donnees textuelles dataview. Pour montrer l'interet et l'importance de ces outils dans le processus d'information strategique, chacune des techniques presentees est argumentee par de nombreux cas concrets d'analyse ayant tous conduit a l'elaboration de dossiers d'informations strategiques destines a informer les decideurs dans l'entreprise
11

Audebert, Nicolas. "Classification de données massives de télédétection". Thesis, Lorient, 2018. http://www.theses.fr/2018LORIS502/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La multiplication des sources de données et la mise à disposition de systèmes d'imagerie à haute résolution a fait rentrer l'observation de la Terre dans le monde du big data. Cela a permis l'émergence de nouvelles applications (étude de la répartition des sols par data mining, etc.) et a rendu possible l'application d'outils statistiques venant des domaines de l'apprentissage automatique et de la vision par ordinateur. Cette thèse cherche à concevoir et implémenter un modèle de classification bénéficiant de l'existence de grande bases de données haute résolution (si possible, annotées) et capable de générer des cartes sémantiques selon diverses thématiques. Les applications visés incluent la cartographie de zones urbaines ainsi que l'étude de la géologie et de la végétation à des fins industrielles.L'objectif de la thèse est de développer de nouveaux outils statistiques pour la classification d'images aériennes et satellitaires. Des approches d'apprentissage supervisé telles que les réseaux de neurones profonds, surpassant l'état-de-l'art en combinant des caractéristiques locales des images et bénéficiant d'une grande quantité de données annotées, seront particulièrement étudiées. Les principales problématiques sont les suivantes : (a) la prédiction structurée (comment introduire la structure spatial et spectral dans l'apprentissage ?), (b) la fusion de données hétérogènes (comment fusionner des données SAR, hyperspectrales et Lidar ?), (c) la cohérence physique du modèle (comment inclure des connaissances physiques a priori dans le modèle ?) et (d) le passage à l'échelle (comment rendre les solutions proposées capables de traiter une quantité massive de données ?)
Thanks to high resolution imaging systems and multiplication of data sources, earth observation(EO) with satellite or aerial images has entered the age of big data. This allows the development of new applications (EO data mining, large-scale land-use classification, etc.) and the use of tools from information retrieval, statistical learning and computer vision that were not possible before due to the lack of data. This project is about designing an efficient classification scheme that can benefit from very high resolution and large datasets (if possible labelled) for creating thematic maps. Targeted applications include urban land use, geology and vegetation for industrial purposes.The PhD thesis objective will be to develop new statistical tools for classification of aerial andsatellite image. Beyond state-of-art approaches that combine a local spatial characterization of the image content and supervised learning, machine learning approaches which take benefit from large labeled datasets for training classifiers such that Deep Neural Networks will be particularly investigated. The main issues are (a) structured prediction (how to incorporate knowledge about the underlying spatial and contextual structure), (b) data fusion from various sensors (how to merge heterogeneous data such as SAR, hyperspectral and Lidar into the learning process ?), (c) physical plausibility of the analysis (how to include prior physical knowledge in the classifier ?) and (d) scalability (how to make the proposed solutions tractable in presence of Big RemoteSensing Data ?)
12

BARRA, Vincent. "Modélisation, classification et fusion de données biomédicales". Habilitation à diriger des recherches, Université Blaise Pascal - Clermont-Ferrand II, 2004. http://tel.archives-ouvertes.fr/tel-00005998.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce mémoire synthétise les travaux que j'ai menés de 2000 à 2004, au sein de deux laboratoires des facultés de Clermont-Ferrand : l'Equipe de Recherche en Imagerie Médicale (ERIM, Université d'Auvergne), où j'ai effectué ma thèse, et le Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS, Université Blaise Pascal) dans lequel j'ai été accueilli suite à mon recrutement en tant que maître de conférences dans cette même université. Ce changement de laboratoire s'est accompagné d'une modification de mon thème principal de recherche, passant du traitement d'images médicales multimodales par des techniques de fusion d'informations, au domaine de la bioinformatique en général, et de l'étude des puces à ADN en particulier. Plutôt que d'essayer de regrouper artificiellement ces deux thèmes au sein d'un même plan, j'ai préféré diviser ce mémoire en deux parties distinctes et cohérentes, chacune traitant d'un des deux aspects de recherche que je mène actuellement de front. Ainsi, la première partie résume les travaux que j'ai effectués depuis 2001 dans le domaine de la fusion de données appliquée au traitement d'images 3D du cerveau, soit directement soit dans le cadre du co-encadrement de deux doctorants. Le dernier chapitre de cette partie met en particulier en perspective les nouveaux développements espérés sur la stimulation magnétique transcrânienne, à travers l'encadrement d'une thèse CIFRE que j'assure par délégation à temps plein. La seconde partie se concentre sur les recherches que je mène depuis septembre 2001 au LIMOS, concernant l'étude des images de puces à ADN. J'expose dans cette partie au travers de trois chapitres mon projet de recherche dans ce domaine, et je présente pour chaque choix retenu ma contribution sous la forme d'un simulateur d'images de biopuces transcriptome et de nouvelles méthodes d'analyse de ces images. Si les deux parties sont clairement décorrélées, j'ai néanmoins essayé de dégager une problématique générale commune à mes travaux, que j'ai nommée sans forfanterie modélisation, classification et fusion de données biomédicales, et qui constitue le titre de ce manuscrit.
13

Silva, Gonçalves da Costa Lorga da Ana Isabel. "Données manquantes et méthodes d'imputation en classification". Paris, CNAM, 2005. http://www.theses.fr/2005CNAM0719.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
In this work we aimed to study the effect of missing data in classification of variables; mainly in ascending hierarchical classification, according to the following factors; amount of missing data, imputation techniques, similarly coefficient and classification criterion. We used as techniques in presence of missing data, listwise and pairwise; as simple imputation methods, an EM algorithm, the OLS regression method, the NIPALS algorithm and a PLS regression method. As mutiple imputation, we used a method based on the OLS regression and a new one based on PLS, combined by the mean value of the similarly matrices and an ordinal consensus. As hierarchical methods we used classical and probabilistic approaches, the latter based on the VL-family. The hierachical methods used were single, complete and average linkage, AVL and AVB. For the similarity matrices we used the basic affinity coefficient (for continuous data)-that corresponds to the Ochiai index for binary data; the Pearson's correlation coefficient and the probabilistic approach of the affinity coefficient, centered and reduced by the W-method. The study was based mainly on simulated data, complemented by reals ones. We used the Spearman coefficient between the associated ultrametrics to compare the structures of the hierarchical classifications and, for the non hierarchical classifications, the Rand's index
Le but de ce travail est d'étudier l'effet des données manquantes en classification de variables, principalement en classification hiérarchique ascendante, et aussi en classification hiérachique ascendante, et aussi en classification non hiérarchique (ou partitionnement). L'étude est effectuée en considérant les facteurs suivants : pourcentage de donnes manquantes, méthodes d'imputation, coefficients de ressemblance et critères de classification. On suppose que les données manquantes au hasard, mais pas complètement au hasard. Les données manquantes satisfont un schéma majoritairement monotone. Nous avons utilisé comme techniques sans imputation les méthodes listwise et pairwise et comme méthodes d'imputation simple. L'algorithme EM, le modèle de régression OLS, l'algorithme NIPALS et une méthode de régression PLS. Comme méthodes d'imputation multiple basé sur les méthodes de régression PLS. Pour combiner les strctures de classification résultant des méthodes d'imputation multiple nous avons proposé une combinaison par la moyenne des matrices de similarité et deux méthodes de consensus. Nous avons utilisé comme méthodes de classification hiérachique, le saut minimal, le saut maximal, la moyenne parmi les groupes et aussi les AVL et AVB ; pour les matrices de ressemblance, le coefficient d'affinité basique (pour les données continues) -qui correspond à l'indice d'Ochiai; pour les données binaires, le coefficient de corrélation de Bravais-Pearson et l'approximation probabiliste du coefficient d'affinité centré et réduit par la méthode-W. L'étude est basée principalemnt sur des données simulées et complétée par des applications à des données réelles
14

Borges, Gouvea Barroso Wanise. "Elaboration et mise à disposition d'une base de données de documents de brevet tombés dans le domaine public". Toulon, 2003. http://www.theses.fr/2003TOUL0005.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le but de ce travail est de présenter les avantages et l'élaboration d'un outil qui pourra contribuer au développement technologique et économique des entreprises brésiliennes, notamment les PME. Cet outil consiste en une base de données constituée de documents de brevet du domaine public, c'est-à-dire d'inventions pouvant être gracieusement et légalement exploitées, reproduites ou perfectionnées par les entreprises intéressées, sans qu'il soit nécessaire pour autant de verser des royalties car il s'agit de technologie du domaine public sur le territoire brésilien ; ce qui se traduira en gains économiques et technologiques, aussi bien pour les entreprises brésiliennes que pour le Brésil. Nous avons tracé le profil des documents de brevet déposés au Brésil, grâce à la base de données de l'Institut national de propriété industrielle brésilien – INPI et nous avons constaté que celle-ci contient des documents allant de 1971 à 2002, soit près de 250. 000 brevets indexés, dont 140. 000 environ (56%) sont tombés dans le domaine public,La base de données est constituée d'inventions des divers secteurs technologiques, les documents présents en plus grand nombre étant ceux relatifs aux "nécessités courants de la vie" et à la "chimie"
In this work, we present the advantages of elaborating a tool that certainly will contribute to the technological and economical development of the brazilian enterprises, mainly the SMEs. This tool consists of a database that contains patent documents in public domain, i. E. , inventions that can be legally and freely explored, reproduced or improved by interested enterprises without payment of royalties because they are of public domain technology in the Brazilian territory, enabling technological and economical profits for the Brazilian enterprises and Brazil. We have traced the profile of the patent documents filed in Brazil through the database from the brazilian Trademark and Patent Office - INPI, and verified that the Office has documents from 1971 to the 2002, and about 250,000 patents documents, where, approximately, 140,000 (56%) are in public domain. This database contains inventions of all technological areas, and the biggest documental incidences occur in "human necessities" and "chemistry" areas
15

Rabah, Mazouzi. "Approches collaboratives pour la classification des données complexes". Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080079.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La présente thèse s'intéresse à la classification collaborative dans un contexte de données complexes, notamment dans le cadre du Big Data, nous nous sommes penchés sur certains paradigmes computationels pour proposer de nouvelles approches en exploitant des technologies de calcul intensif et large echelle. Dans ce cadre, nous avons mis en oeuvre des classifieurs massifs, au sens où le nombre de classifieurs qui composent le multi-classifieur peut être tres élevé. Dans ce cas, les méthodes classiques d'interaction entre classifieurs ne demeurent plus valables et nous devions proposer de nouvelles formes d'interactions, qui ne se contraignent pas de prendre la totalité des prédictions des classifieurs pour construire une prédiction globale. Selon cette optique, nous nous sommes trouvés confrontés à deux problèmes : le premier est le potientiel de nos approches à passer à l'echelle. Le second, relève de la diversité qui doit être créée et maintenue au sein du système, afin d'assurer sa performance. De ce fait, nous nous sommes intéressés à la distribution de classifieurs dans un environnement de Cloud-computing, ce système multi-classifieurs est peut etre massif et ses propréités sont celles d'un système complexe. En terme de diversité des données, nous avons proposé une approche d'enrichissement de données d'apprentissage par la génération de données de synthèse, à partir de modèles analytiques qui décrivent une partie du phenomène étudié. Aisni, la mixture des données, permet de renforcer l'apprentissage des classifieurs. Les expérientations menées ont montré un grand potentiel pour l'amélioration substantielle des résultats de classification
This thesis focuses on the collaborative classification in the context of complex data, in particular the context of Big Data, we used some computational paradigms to propose new approaches based on HPC technologies. In this context, we aim at offering massive classifiers in the sense that the number of elementary classifiers that make up the multiple classifiers system can be very high. In this case, conventional methods of interaction between classifiers is no longer valid and we had to propose new forms of interaction, where it is not constrain to take all classifiers predictions to build an overall prediction. According to this, we found ourselves faced with two problems: the first is the potential of our approaches to scale up. The second, is the diversity that must be created and maintained within the system, to ensure its performance. Therefore, we studied the distribution of classifiers in a cloud-computing environment, this multiple classifiers system can be massive and their properties are those of a complex system. In terms of diversity of data, we proposed a training data enrichment approach for the generation of synthetic data from analytical models that describe a part of the phenomenon studied. so, the mixture of data reinforces learning classifiers. The experimentation made have shown the great potential for the substantial improvement of classification results
16

Girard, Régis. "Classification conceptuelle sur des données arborescentes et imprécises". La Réunion, 1997. http://elgebar.univ-reunion.fr/login?url=http://thesesenligne.univ.run/97_08_Girard.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux exposés dans cette thèse se situent dans le cadre de la classification conceptuelle automatique. Nous présentons un formalisme de représentations de données structurées et imprécises fondées sur la notion d'attribut et de valeur : les arborescences symboliques nuancées (ASN). La définition de treillis de nuances permet de prendre en compte l'imprécision d'une valeur. Les attributs peuvent être de plusieurs types : simple, structure ou même récursif et permettent de manipuler des données de nature arborescente. L'introduction de contraintes de validité entre les valeurs des attributs donne la possibilité de représenter des connaissances sur le domaine d'application. Nous proposons des algorithmes permettant de manipuler des observations définies à partir du modèle proposé et de trouver des concepts aisément interprétables. Dans un premier temps, nous définissons une correspondance de galois entre des entités et leurs descriptions à partir d'attributs nuancés mais non structurés, et nous proposons un algorithme de calcul des concepts. Ensuite, nous précisons les algorithmes de généralisation et de comparaison de deux ASN et nous présentons un algorithme incrémental de construction du treillis de galois entre des entités et des ASN. Nous étendons ainsi les treillis de galois au cas de données arborescentes et nuancées. Les concepts trouvés sont décrits de manière imprécise par des ASN. Le treillis des concepts étant de grande taille, l'introduction d'un indice de distance défini sur les ASN nous permet de générer un sous-treillis de galois formé de concepts ne dépassant pas un seuil donné de généralité. Enfin, nous définissons une mesure de similarité sur les ASN et nous proposons un algorithme d'extraction d'un graphe hiérarchique de concepts à partir d'un treillis de galois. Dans la dernière partie de la thèse, nous présentons le système CID fondé sur le formalisme des ASN et nous terminons par deux exemples d'application.
17

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web". Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)
18

Hajjar, Chantal. "Cartes auto-organisatrices pour la classification de données symboliques mixtes, de données de type intervalle et de données discrétisées". Thesis, Supélec, 2014. http://www.theses.fr/2014SUPL0066/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse s'inscrit dans le cadre de la classification automatique de données symboliques par des méthodes géométriques bio-inspirées, plus spécifiquement par les cartes auto-organisatrices. Nous mettons en place plusieurs algorithmes d'apprentissage des cartes auto-organisatrices pour classifier des données symboliques mixtes ainsi que des données de type intervalle et des données discrétisées. Plusieurs jeux de données symboliques simulées et réelles, dont deux construits dans le cadre de cette thèse, sont utilisés pour tester les méthodes proposées. En plus, nous proposons une carte auto-organisatrice pour les données discrétisées (binned data) dans le but d'accélérer l'apprentissage des cartes classiques et nous appliquons la méthode proposée à la segmentation d'images
This thesis concerns the clustering of symbolic data with bio-inspired geometric methods, more specifically with Self-Organizing Maps. We set up several learning algorithms for the self-organizing maps in order to cluster mixed-feature symbolic data as well as interval-valued data and binned data. Several simulated and real symbolic data sets, including two sets built as part of this thesis, are used to test the proposed methods. In addition, we propose a self-organizing map for binned data in order to accelerate the learning of standard maps, and we use the proposed method for image segmentation
19

Jeannin, Akodjénou Marc-Ismaël. "Clustering et volume des données". Paris 6, 2008. http://www.theses.fr/2009PA066270.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, le volume de données (à la fois le nombre d'objets et le nombre de caractéristiques, de "dimensions", les décrivant) croît sans arrêt. Les méthodes de clustering doivent s'adapter à cette évolution qui a des impacts à la fois qualitatifs (la pertinence des résultats) et opérationnels (la complexité du traitement). Nous étudions dans cette thèse comment se sont adaptées les méthodes de clustering le long de ces deux axes. Après une analyse des méthodes existantes à travers ce prisme, nous en arrivons au constat que les méthodes qui se concentrent sur la réduction de la complexité opérationnelle ne sont généralement pas efficaces en haute dimension, et réciproquement. Nous développons une démarche abstraite proche de celle des méthodes à base de grille : le clustering est effectué indirectement à travers un résumé des données. Le résumé est constitué d'indices de proximité entre les points et doit se construire avec une complexité opérationnelle respectant des contraintes strictes. Nous proposons ensuite une méthode basée sur cette démarche : le résumé est construit à partir de projections linéaires des données. Les indices de proximité ainsi accumulés sont agrégés pour obtenir le clustering. La méthode a une complexité opérationnelle satisfaisante et a de bonnes performances en haute dimension.
20

Chavent, Marie. "Analyse de données symboliques : une méthode divisive de classification". Paris 9, 1997. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1997PA090029.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse est axée sur le problème de la classification en analyse des données symboliques. Un formalisme est d'abord proposé dans le but de décrire et de manipuler un tableau de données exprimant un niveau de connaissances plus élevé que de simples observations. On parle alors de données complexes. En effet, afin de tenir compte de l'imprécision, de l'incertitude ou de la variation souvent rencontrées dans les données, un individu pourra être décrit sur chaque variable non seulement par une valeur unique mais aussi par un ensemble de valeurs ou par une distribution sur les valeurs. A partir de ce formalisme a) on propose une méthodologie générale permettant de définir un indice de proximité entre deux vecteurs de descriptions complexes et b) les objets symboliques sont présentés en lien avec la théorie des ensembles flous. Dans ce cadre, nous proposons une méthode divisive de classification hiérarchique. Elle est définie pour tous types de variables (quantitatives, qualitatives), possédant éventuellement une description complexe. A chaque étape on optimise un critère mathématique qui est une extension du critère d'inertie intra-classe au cas de données complexes. L'aspect nomothétique de cette méthode permet de réduire fortement l'aspect combinatoire caractérisant les méthodes divisives. De plus, les classes de la hiérarchie sont munies d'une description simple (une conjonction de propriétés portant sur les variables de l'analyse) facilement interprétable par l'utilisateur. Ces descriptions donnent aussi des règles d'affectation d'un nouvel individu aux classes ainsi construites.
21

Marchetti, Franck. "Contribution à la classification de données binaires et qualitatives". Metz, 1989. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1989/Marchetti.Franck.SMZ897.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans ce travail, nous étudions des méthodes de classification automatique spécifiques aux données binaires et qualitatives nominales et ordinales. A chaque fois, nous essayons de rester proche de la forme et de la structure initiale des données. Ces méthodes fournissent des partitions optimisant un critère défini à partir de la distance en valeurs absolues ou distance L1. Cette approche permet d'aboutir à des résultats facilement interprétables par rapport aux données initiales. Nous définissons ensuite une inertie sur l'espace binaire muni de la distance L1. Cette inertie binaire se comporte comme l'inertie habituelle : une relation de type Huyghens et une relation de décomposition de l'inertie sont démontrées. La méthode de classification et la méthode de classification croisée pour tableaux de variables binaires peuvent ainsi être replacées dans un contexte plus habituel. Elles optimisent respectivement un critère d'inertie intraclasse et une mesure d'information. Une extension à la classification ascendante hiérarchique est également envisagée. Ensuite, toujours en restant proche des données initiales, une analyse en composantes principales pour données binaires est construite. Celle-ci recherche un ensemble d'axes factoriels binaires et permet de mettre en évidence des sous-tableaux homogènes. Enfin, un bilan des méthodes pour tableaux binaires est effectué. Toutes les méthodes proposées ici ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif et classification automatique, INRIA)
We propose several clustering methods which are specific of binary and categorical data. Each time, we try to keep to the initial data structure. These methods supply partition optimising criteria defined with absolute value distance or L1 distance. The advantage of this approach is to give results easy to interpret in regard of initial data. Then, we define an inertia on binary space. This binary inertia behaves as an ordinary inertia : a relation of the Huyghens type and a relation of decomposition of the inertia are demonstrated. The clustering method and the crossed clustering method for binary data could be replaced in a more usual context. They respectively optimise an inertia criteria and a measure of information. An agglomerative hierarchical method for binary data is also proposed. Then, we studied a principal components analysis for binary data. This analysis, which is defined with binary factors, can be used to find homogeneous submatrix. Every methods proposed here have been programmed and integrated in SICLA system
22

Llobell, Fabien. "Classification de tableaux de données, applications en analyse sensorielle". Thesis, Nantes, Ecole nationale vétérinaire, 2020. http://www.theses.fr/2020ONIR143F.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les données structurées sous forme de tableaux se rapportant aux mêmes individus sont de plus en plus fréquentes dans plusieurs secteurs d’application. C’est en particulier le cas en évaluation sensorielle où plusieurs épreuves conduisent à l’obtention de tableaux multiples ; chaque tableau étant rapporté à un sujet (juge, consommateur, …). L’analyse exploratoire de ce type de données a suscité un vif intérêt durant les trente dernières années. Cependant, la classification de tableaux multiples n’a été que très peu abordée alors que le besoin pour ce type de données est important. Dans ce contexte, une méthode appelée CLUSTATIS permettant de segmenter les tableaux de données est proposée. Au cœur de cette approche se trouve la méthode STATIS, qui est une stratégie d’analyse exploratoire de tableaux multiples. Plusieurs extensions de la méthode de classification CLUSTATIS sont présentées. En particulier, le cas des données issues d’une épreuve dite « Check-All-That-Apply » (CATA) est considéré. Une méthode de classification ad-hoc, nommée CLUSCATA, est discutée. Afin d’améliorer l’homogénéité des classes issues aussi bien de CLUSTATIS que de CLUSCATA, une option consistant à rajouter une classe supplémentaire, appelée « K+1 », est introduite. Cette classe additionnelle a pour vocation de collecter les tableaux de données identifiés comme atypiques. Le choix du nombre de classes est abordé, et des solutions sont proposées. Des applications dans le cadre de l’évaluation sensorielle ainsi que des études de simulation permettent de souligner la pertinence de l’approche de classification. Des implémentations dans le logiciel XLSTAT et dans l’environnement R sont présentées
Multiblock datasets are more and more frequent in several areas of application. This is particularly the case in sensory evaluation where several tests lead to multiblock datasets, each dataset being related to a subject (judge, consumer, ...). The statistical analysis of this type of data has raised an increasing interest over the last thirty years. However, the clustering of multiblock datasets has received little attention, even though there is an important need for this type of data.In this context, a method called CLUSTATIS devoted to the cluster analysis of datasets is proposed. At the heart of this approach is the STATIS method, which is a multiblock datasets analysis strategy. Several extensions of the CLUSTATIS clustering method are presented. In particular, the case of data from the so-called "Check-All-That-Apply" (CATA) task is considered. An ad-hoc clustering method called CLUSCATA is discussed.In order to improve the homogeneity of clusters from both CLUSTATIS and CLUSCATA, an option to add an additional cluster, called "K+1", is introduced. The purpose of this additional cluster is to collect datasets identified as atypical.The choice of the number of clusters is discussed, ans solutions are proposed. Applications in sensory analysis as well as simulation studies highlight the relevance of the clustering approach.Implementations in the XLSTAT software and in the R environment are presented
23

Rodriguez-Rojas, Oldemar. "Classification et modèles linéaires en analyse des données symboliques". Paris 9, 2000. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2000PA090064.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce travail s'inscrit dans le cadre de l'analyse de données symboliques. Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification automatique, aussi bien que quelques modèles lineaux. Ces généralisations seront toujours faites d'après deux principes fondamentaux de l'analyse de données symbolique, à savoir : l'analyse de données classique devrait être toujours un cas particulier de l'analyse de données symbolique et dans une analyse de données symbolique, tant la sortie comme l'entrée devraient être symboliques. Nous présentons deux nouveaux algorithmes, qui généralisent au cas symbolique de l'algorithme cap, l'algorithme cap et l'algorithme capso. Nous généralisons, pour les variables de type intervalle, la moyenne, la médiane, la moyenne des valeurs extrèmes, l'écart type, la déviation quartile, boites de dispersion (boxplot) et la correlation. Trois nouvelles méthodes sont aussi présentées pour effectuer la regression simple pour les variables de type intervalle. Nous étendons la methode d'analyse en composantes principales pour données de type histogramme, nous généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons une méthode pour l'analyse des tableaux de proximités (multidimensional scaling) pour des données de type intervalle, que nous avons dénommée interscal. Pour chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis en application. Ce logiciel a été dénommé PIMAD symbolique (programme integré de méthodes d'analyse de données symbolique).
24

El, Assaad Hani. "Modélisation et classification dynamique de données temporelles non stationnaires". Thesis, Paris Est, 2014. http://www.theses.fr/2014PEST1162/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse aborde la problématique de la classification non supervisée de données lorsque les caractéristiques des classes sont susceptibles d'évoluer au cours du temps. On parlera également, dans ce cas, de classification dynamique de données temporelles non stationnaires. Le cadre applicatif des travaux concerne le diagnostic par reconnaissance des formes de systèmes complexes dynamiques dont les classes de fonctionnement peuvent, suite à des phénomènes d'usures, des déréglages progressifs ou des contextes d'exploitation variables, évoluer au cours du temps. Un modèle probabiliste dynamique, fondé à la fois sur les mélanges de lois et sur les modèles dynamiques à espace d'état, a ainsi été proposé. Compte tenu de la structure complexe de ce modèle, une variante variationnelle de l'algorithme EM a été proposée pour l'apprentissage de ses paramètres. Dans la perspective du traitement rapide de flux de données, une version séquentielle de cet algorithme a également été développée, ainsi qu'une stratégie de choix dynamique du nombre de classes. Une série d'expérimentations menées sur des données simulées et des données réelles acquises sur le système d'aiguillage des trains a permis d'évaluer le potentiel des approches proposées
Nowadays, diagnosis and monitoring for predictive maintenance of railway components are important key subjects for both operators and manufacturers. They seek to anticipate upcoming maintenance actions, reduce maintenance costs and increase the availability of rail network. In order to maintain the components at a satisfactory level of operation, the implementation of reliable diagnostic strategy is required. In this thesis, we are interested in a main component of railway infrastructure, the railway switch; an important safety device whose failure could heavily impact the availability of the transportation system. The diagnosis of this system is therefore essential and can be done by exploiting sequential measurements acquired successively while the state of the system is evolving over time. These measurements consist of power consumption curves that are acquired during several switch operations. The shape of these curves is indicative of the operating state of the system. The aim is to track the temporal dynamic evolution of railway component state under different operating contexts by analyzing the specific data in order to detect and diagnose problems that may lead to functioning failure. This thesis tackles the problem of temporal data clustering within a broader context of developing innovative tools and decision-aid methods. We propose a new dynamic probabilistic approach within a temporal data clustering framework. This approach is based on both Gaussian mixture models and state-space models. The main challenge facing this work is the estimation of model parameters associated with this approach because of its complex structure. In order to meet this challenge, a variational approach has been developed. The results obtained on both synthetic and real data highlight the advantage of the proposed algorithms compared to other state of the art methods in terms of clustering and estimation accuracy
25

Tisserant, Guillaume. "Généralisation de données textuelles adaptée à la classification automatique". Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS231/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données
We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data
26

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web". Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.
27

Blanchard, Frédéric. "Visualisation et classification de données multidimensionnelles : Application aux images multicomposantes". Reims, 2005. http://theses.univ-reims.fr/exl-doc/GED00000287.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'analyse des images multicomposantes est un problème crucial. Les questions de la visualisation et de la classification pour ces images sont importantes. Nous nous sommes intéressés à ces deux problèmes en nous plaçant dans le cadre plus général de l'analyse des données multidimensionnelles, et avons apporté deux éléments de réponses. Avant de traiter ces questions, nous nous sommes intéressés aux problèmes pratiques et théoriques liés à la dimensionnalité et étudions quelques unes des techniques courantes de réduction de dimensionnalité. La question de la visualisation est alors exposée et une nouvelle méthode utilisant l'image couleur est proposée. Cette technique permet une visualisation immédiate et synthétique des données, sans connaissance a priori. Elle est illustrée par des applications. Nous présentons également une contribution à la classification non supervisée de données qui se situe en amont du processus de classification proprement dit. Nous avons conçu une nouvelle façon de représenter les données et leurs liens à l'aide de la théorie des ensembles flous. Cette méthode permet, en classification, de traiter avec succès des échantillons de données dont les classes sont d'effectifs et de densités différents, sans faire d'a priori sur leur forme. Un algorithme de classification et des exemples de son application sont proposés. Ce travail présente deux contributions importantes aux problématiques de la visualisation et la classification, et fait intervenir des concepts issus de thématiques diverses comme l'analyse de données ou la théorie des ensembles flous. Il peut ainsi être utilisé dans d'autres contextes que celui de l'analyse d'images multicomposantes
The analysis of multicomponent images is a crucial problem. Visualization and clustering problem are two relevant questions about it. We decided to work in the more general frame of data analysis to answer to these questions. The preliminary step of this work is describing the problems induced by the dimensionality and studying the current dimensionality reduction methods. The visualization problem is then considered and a contribution is exposed. We propose a new method of visualization through color image that provides an immediate and sythetic image od data. Applications are presented. The second contribution lies upstream with the clustering procedure strictly speaking. We etablish a new kind of data representation by using rank transformation, fuzziness and agregation procedures. Its use inprove the clustering procedures by dealing with clusters with dissimilar density or variant effectives and by making them more robust. This work presents two important contributions to the field of data analysis applied to multicomponent image. The variety of the tools involved (originally from decision theory, uncertainty management, data mining or image processing) make the presented methods usable in many diversified areas as well as multicomponent images analysis
28

Lomet, Aurore. "Sélection de modèle pour la classification croisée de données continues". Compiègne, 2012. http://www.theses.fr/2012COMP2041.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La classification croisée a pour objectif de partitionner simultanément les lignes et les colonnes d'un tableau de données pour révéler la structure en blocs homogènes. Parmi les différentes méthodes proposées, l'une d'entre elles utilise le modèle probabiliste des blocs latents. Pour un même jeu de données, plusieurs classifications croisées qui diffèrent par le nombre de classes par exemple peuvent être proposées. La sélection du nombre de classes devient alors un problème fondamental afin d'obtenir une classification des données pertinente. De plus, l'absence de jeu de données réelles de référence limite l'évaluation objective des méthodes d'apprentissage. De ce fait, l'utilisation des données simulées est particulièrement intéressante. Cependant, leur conception pose plusieurs problèmes : la quantification de la difficulté du problème d'apprentissage qui s'exprime par le risque de Bayes en classification simple est problématique en raison de la double nature de la dimension du tableau. La première contribution de cette thèse réside donc en la définition d'une mesure objective du niveau de difficulté d'un problème de classification croisée afin de proposer un protocole de simulation pour lequel le degré de mélange des classes est contrôlé. Pour ce faire, nous revenons sur la définition des fonctions de coût des règles de Bayes et des risques. Puis, nous décrivons les difficultés liées à l'estimation de ces quantités. A partir de ces dernières, nous définissons un risque de Bayes conditionné par le tableau de données observé comme mesure du niveau de difficulté. Par la suite, nous proposons un protocole de simulation utilisant le modèle de blocs latents pour lequel le niveau de difficulté exprimé par ce risque conditionnel est contrôlé. Pour le choix du nombre de classes, nous proposons dans cette thèse une nouvelle procédure utilisant des critères de sélection de modelé reposant sur des justifications théoriques et ne nécessitant pas de calculs supplémentaires coûteux après l'estimation du modèle de blocs latents. Puisque nous employons un modèle probabiliste, nous adaptons le critère ICL qui a été initialement défini pour le choix du nombre de composants des modèles de mélange. Nous développons trois versions qui diffèrent suivant les hypothèses et les distributions a priori posées. Nous proposons également un critère dérivé BIC. Les résultats obtenus du critère ICL exact informatif et des deux critères asymptotiques ICLBIC et BIC sur des jeux de données simulées et réelles montrent que ceux-ci sont performants et robustes pour des tableaux suffisamment grands quant à la sélection du nombre de classes et du type de modèle.
29

Jollois, François-Xavier. "Contribution de la classification automatique à la fouille de données". Metz, 2003. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/2003/Jollois.Francois_Xavier.SMZ0311.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La classification est une étape essentielle dans un processus de fouille de données. Les méthodes usuelles que nous décrivons se basent sur des critères métriques. Mais, l'utilisation des modèles de mélange dans la classification est devenue une approche classique et puissante. En traitant la classification sous cette approche, à partir des algorithmes de type EM, nous nous sommes intéressés aux problèmes suivants : recherche du nombre de classes, gestion des données manquantes, stratégies d'initialisation et accélération de l'algorithme. L'algorithme EM est devenu quasiment incontournable dans l'approche mélange; Alors que beaucoup de travaux sont effectués sur des données continues, nous avons choisi de nous interesser principalement aux données binaires et qualitatives. En premier lieu, nous avons proposé une étude comparative de critères de choix du nombre de classes les plus utilisées.
30

Le, Thanh Van. "Classification prétopologique des données : application à l'analyse des trajectoires patients". Lyon 1, 2007. http://www.theses.fr/2007LYO10296.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le travail a porté sur la mise au point de méthodes de classification automatique des données fondées sur les concepts de la prétopologie. La démarche a été guidée : par le souci de pouvoir appliquer ces méthodes à des données complexes non plongeables dans un espace métrique sans courir le risque de les dénaturer, ainsi que par le souci de pouvoir proposer une classification sur la base de plusieurs critères d'analyse. Les méthodes ainsi proposées permettent donc de traité des données modélisées dans des espaces sur lesquels, à priori, on dispose seulement d'une famille de relations binaires réflexives. Trois méthodes ont été développées. Elles fonctionnent en deux étapes. La première consiste à utiliser l'algorithme des fermés minimaux pour obtenir un recouvrement directement à partir des données. La deuxième utilise ce recouvrement pour extraire des "noyaux" à partir desquels la classification est construite. Le nombre de classes est ainsi prédéterminé par le nombre de noyaux, donc par la structure intime des données. Un outil logiciel a été développé afin de tester ces méthodes sur des données issues des grandes bases médico-économiques hospitalières, permettant ainsi d'apporter un élément à la construction de trajectoires patients au sein du système de soins
The objective of my work is to develop clustering methods based on a new mathemetical concept : pretopology. My approach was driven by two major concerns : (1) to develop methods which are applicable to complex data and for which we cannot use metric concepts due to the nature of these data, (2) to integrate various points of view in the clustering process. Thus, proposed methods are only founded on families of reflexive binary relationships between objects to be clustered. Three methods are developed according to two steps. The first one consists in using the minimal closed subset algorithm to get a covering from data. The second one uses this covering to extract "centers" from which the final clustering is determined. The numbers of clusters is then predetermined by the number of centers, corresponding to information given by the minimal closed subsets. This means the number of clusters is only derived from the data itself. A software tool has been developed in view to test our approach on complex data issued from the PMSI (French DRG system) allowing to give answers to questions related to the concept of "patient profile" inside health care delivery organizations (public hospital and private clinics
31

Gallopin, Mélina. "Classification et inférence de réseaux pour les données RNA-seq". Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS174/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse regroupe des contributions méthodologiques à l'analyse statistique des données issues des technologies de séquençage du transcriptome (RNA-seq). Les difficultés de modélisation des données de comptage RNA-seq sont liées à leur caractère discret et au faible nombre d'échantillons disponibles, limité par le coût financier du séquençage. Une première partie de travaux de cette thèse porte sur la classification à l'aide de modèle de mélange. L'objectif de la classification est la détection de modules de gènes co-exprimés. Un choix naturel de modélisation des données RNA-seq est un modèle de mélange de lois de Poisson. Mais des transformations simples des données permettent de se ramener à un modèle de mélange de lois gaussiennes. Nous proposons de comparer, pour chaque jeu de données RNA-seq, les différentes modélisations à l'aide d'un critère objectif permettant de sélectionner la modélisation la plus adaptée aux données. Par ailleurs, nous présentons un critère de sélection de modèle prenant en compte des informations biologiques externes sur les gènes. Ce critère facilite l'obtention de classes biologiquement interprétables. Il n'est pas spécifique aux données RNA-seq. Il est utile à toute analyse de co-expression à l'aide de modèles de mélange visant à enrichir les bases de données d'annotations fonctionnelles des gènes. Une seconde partie de travaux de cette thèse porte sur l'inférence de réseau à l'aide d'un modèle graphique. L'objectif de l'inférence de réseau est la détection des relations de dépendance entre les niveaux d'expression des gènes. Nous proposons un modèle d'inférence de réseau basé sur des lois de Poisson, prenant en compte le caractère discret et la grande variabilité inter-échantillons des données RNA-seq. Cependant, les méthodes d'inférence de réseau nécessitent un nombre d'échantillons élevé.Dans le cadre du modèle graphique gaussien, modèle concurrent au précédent, nous présentons une approche non-asymptotique pour sélectionner des sous-ensembles de gènes pertinents, en décomposant la matrice variance en blocs diagonaux. Cette méthode n'est pas spécifique aux données RNA-seq et permet de réduire la dimension de tout problème d'inférence de réseau basé sur le modèle graphique gaussien
This thesis gathers methodologicals contributions to the statistical analysis of next-generation high-throughput transcriptome sequencing data (RNA-seq). RNA-seq data are discrete and the number of samples sequenced is usually small due to the cost of the technology. These two points are the main statistical challenges for modelling RNA-seq data.The first part of the thesis is dedicated to the co-expression analysis of RNA-seq data using model-based clustering. A natural model for discrete RNA-seq data is a Poisson mixture model. However, a Gaussian mixture model in conjunction with a simple transformation applied to the data is a reasonable alternative. We propose to compare the two alternatives using a data-driven criterion to select the model that best fits each dataset. In addition, we present a model selection criterion to take into account external gene annotations. This model selection criterion is not specific to RNA-seq data. It is useful in any co-expression analysis using model-based clustering designed to enrich functional annotation databases.The second part of the thesis is dedicated to network inference using graphical models. The aim of network inference is to detect relationships among genes based on their expression. We propose a network inference model based on a Poisson distribution taking into account the discrete nature and high inter sample variability of RNA-seq data. However, network inference methods require a large number of samples. For Gaussian graphical models, we propose a non-asymptotic approach to detect relevant subsets of genes based on a block-diagonale decomposition of the covariance matrix. This method is not specific to RNA-seq data and reduces the dimension of any network inference problem based on the Gaussian graphical model
32

Blanchet, Juliette. "Modèles Markoviens et extensions pour la classification de données complexes". Phd thesis, Grenoble 1, 2007. http://www.theses.fr/2007GRE10148.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous abordons le problème de la classification d'individus à partir d'observations dites « complexes » en ce sens qu'elles ne vérifient pas certaines des hypothèses simplificatrices classiquement adoptées. Dans ce travail, les individus à classer sont supposés dépendants les uns des autres. L'approche adoptée est une approche probabiliste fondée sur une modélisation markovienne. Trois problèmes de classification sont abordés. Le premier concerne la classification de données lorsque celles-ci sont de grande dimension. Pour un tel problème, nous adoptons un modèle markovien gaussien non diagonal tirant partie du fait que la plupart des observations de grande dimension vivent en réalité dans des sous-espaces propres à chacune des classes et dont les dimensions intrinsèques sont faibles. De ce fait, le nombre de paramètres libres du modèles reste raisonnable. Le deuxième point abordé s'attache à relâcher l'hypothèse simplificatrice de bruit indépendant uni modal, et en particulier gaussien. Nous considérons pour cela le modèle récent de champ de Markov triplet et proposons une nouvelle famille de Markov triplet adaptée au cadre d'une classification supervisée. Nous illustrons la flexibilité et les performances de nos modèles sur une application à la reconnaissance d'images réelles de textures. Enfin, nous nous intéressons au problème de la classification d'observations dites incomplètes, c'est-à-dire pour lesquelles certaines valeurs sont manquantes. Nous développons pour cela une méthode markovienne ne nécessitant pas le remplacement préalable des observations manquantes. Nous présentons une application de cette méthodologie à un problème réel de classification de gènes
We address the issue of clustering individuals from « complex » observations in the sense that they do not verify sorne of the classically adopted simplifying assumptions. Ln this work, the individuals to be clustered are assumed to be dependant upon one another. Three clustering problems are considered. The first of these relates to high-dimensional data clustering. For such a problem, we adopt a non-diagonal Gaussian Markovian model which is based upon the fact that most high-dimensional data actually lives in class dependent subspaces of lower dimension. Such a model only requires the estimation of a reasonable number of parameters. The second point attempts go beyond the simplifying assumption of unimodal, and in particular Gaussian, independent noise. We consider for this the recent triplet Markov field model and propose a new family of triplet Markov field models adapted to the framework of a supervised classification. We iIIustrate the fIexibiiity and performances of our models, applied through real texture image recognition. Finally, we tackle the problem of clustering with incomplete observations, i. E. For which sorne values are missing. For this we develop a Markovian method which does not require preliminary imputation of the missing data. We present an application of this methodology on a real gene cIustering issue
33

Blanchet, Juliette. "Modèles markoviens et extensions pour la classification de données complexes". Phd thesis, Université Joseph Fourier (Grenoble), 2007. http://tel.archives-ouvertes.fr/tel-00195271.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Nous abordons le problème de la classification d'individus à partir d'observations dites " complexes " en ce sens qu'elles ne vérifient pas certaines des hypothèses simplificatrices classiquement adoptées. Dans ce travail, les individus à classer sont supposés dépendants les uns des autres. L'approche adoptée est une approche probabiliste fondée sur une modélisation markovienne. Trois problèmes de classification sont abordés.
Le premier concerne la classification de données lorsque celles-ci sont de grande dimension. Pour un tel problème, nous adoptons un modèle markovien gaussien non diagonal tirant partie du fait que la plupart des observations de grande dimension vivent en réalité dans des sous-espaces propres à chacune des classes et dont les dimensions intrinsèques sont faibles. De ce fait, le nombre de paramètres libres du modèle reste raisonnable.
Le deuxième point abordé s'attache à relâcher l'hypothèse simplificatrice de bruit indépendant unimodal, et en particulier gaussien. Nous considérons pour cela le modèle récent de champ de Markov triplet et proposons une nouvelle famille de Markov triplet adaptée au cadre d'une classification supervisée. Nous illustrons la flexibilité et les performances de nos modèles sur une application à la reconnaissance d'images réelles de textures.
Enfin, nous nous intéressons au problème de la classification d'observations dites incomplètes, c'est-à-dire pour lesquelles certaines valeurs sont manquantes. Nous développons pour cela une méthode markovienne ne nécessitant pas le remplacement préalable des observations manquantes. Nous présentons une application de cette méthodologie à un problème réel de classification de gènes.
34

Vescovo, Laure. "Outils et méthodes pour la classification pyramidale de données biologiques". Evry-Val d'Essonne, 2007. http://www.theses.fr/2007EVRY0006.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le séquençage de génomes complets produit des quantités de données et la génomique comparative introduit de nouveaux problèmes. Nous nous intéressons à l'amélioration de la classification pyramidale pour ses propriétés permettant d'obtenir des représentations proches des données. L'algorithme de calcul des pyramides induit un biais important. Nous proposons deux approches de filtrage pour le corriger : une solution optimale, réalisée par régression isotone, et une approche heuristique. Nous présentons aussi un algorithme permettant d'obtenir la pyramide après l'étape de filtrage. Nous appliquons les pyramides à l'alignement multiple progressif de séquences qui utilise une structure de guidage pour définir l'ordre des séquences à aligner. Nous avons étudié l'influence de cette structure. Cette étape est importante et il faut utiliser une méthode adaptée. Nous proposons aussi une approche d'alignement mixte, basée sur les stratégies d'alignement local et global à partir des pyramides
The sequencing of complete genomes produces a lot of data and the comparative genomics introduces new problems. We focus on the improvement of the pyramidal classification for its properties allowing to obtain representations close to the data. The calculation algorithm of the pyramids induces an important skew. We propose two approaches of filtering to correct it: an optimal solution, carried out by isotone regression, and a heuristic approach. We present also an algorithm allowing to obtain the pyramid after the filtering step. We apply the pyramids to the progressive multiple alignment of sequences which uses a guide structure to define the order to align the sequences. We studied the influence of this structure. This step is important and an adapted method should be used. We propose also a mixed approach of alignment, based on the strategies of local and global alignment starting from the pyramids
35

Brossier, Gildas. "Problèmes de représentation de données par des arbres". Rennes 2, 1986. http://www.theses.fr/1986REN20014.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans un premier temps, on étudie les propriétés des tableaux de distance associés, aux différentes représentations arborées et les relations entre ces distances. Ensuite, on définit les représentations ordonnées, on construit une classe d'algorithmes d'ordonnancement et on étudie leurs propriétés d'optimalité dans différentes conditions. Les propriétés de décomposition des tableaux de distances quadrangulaires nous permettent alors de construire des algorithmes rapides de représentations, possédant certaines propriétés d'optimalité. On étend ces résultats au cas où la donnée est une matrice non symétrique. Enfin dans le cas où la matrice de données est rectangulaire, on dégage les conditions nécessaires et suffisantes à une représentation simultanée de deux ensembles de données. Quand les conditions ne sont pas satisfaites on propose des algorithmes d'approximation
First, we begin by studying the properties of distance tables associated with tree-representations, and the relation between these distances. Then we define ordered representations, construct a class of ordering algorithms and study their optimal properties under different conditions. The decomposition properties of distance tables allow us to construct fast algorithms for representations with some optimal properties we extend results when data are asymmetry matrices. Last of all we show in the case of rectangular matrices the necessary and sufficient conditions for the simultaneous representations of two sets of data. When conditions are not satisfied we propose some approximation algorithms
36

Diatta, Jean. "Une extension de la classification hiérarchique : les quasi-hiérarchies". Aix-Marseille 1, 1996. http://www.theses.fr/1996AIX11023.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce travail s'inscrit dans le cadre de l'approche polythetique de la classification en analyse des donnees. Il s'agit precisement de l'etude d'un modele de classification, fonde sur une structure de fermeture definie sur un ensemble universel fini non vide, dont les ensembles fermes non minimaux sont recouvrables par en dessous, et telle que la mediane (ensembliste) de chaque triplet d'ensembles fermes est contenue dans l'un au moins des trois ensembles: une quasi-hierarchie. L'etude des proprietes mathematiques de cette structure a permis de situer les quasi-hierarchies par rapport a d'autres modeles, et de cerner le probleme de leur representation graphique. Deux conditions (d'inclusion et du diametre) caracterisent les dissimilarites dites quasi-ultrametriques qui sont en bijection avec les quasi-hierarchies indicees. Outre un algorithme polynomial de construction de quasi-hierarchies a partir de dissimilarites quelconque, une procedure d'approximation par une quasi-ultrametrique inferieure maximale est proposee. Une generalisation de ce modele a conduit a des multiquasi-hierarchies qui, par le biais des dissimilarites multi-voies qui leur correspondent, s'averent appropriees pour prendre en compte des relations multi-aires liant les elements de l'ensemble universel
37

Elisabeth, Erol. "Fouille de données spatio-temporelles, résumés de données et apprentissage automatique : application au système de recommandations touristique, données médicales et détection des transactions atypiques dans le domaine financier". Thesis, Antilles, 2021. http://www.theses.fr/2021ANTI0607.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La fouille de données est une des composantes Gestion de la Relation Client (CRM) largement déployée dans les entreprises. Ce processus s’appuie sur des algorithmes issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données.L’objectif de déterminer des modèles, établis à partir de clusters au service de l’amélioration de la connaissance du client au sens générique, de la prédiction de ses comportements et de l’optimisation de l’offre proposée. Ces modèles ayant vocation à être utilisés par des utilisateurs spécialistes du domaine de données, chercheurs en économie de la santé et sciences de gestion ou professionnels du secteur étudié, ces travaux de recherche mettent l’accent sur l’utilisabilité des environnements de fouille de données. Cette thèse s’intéresse à la fouille de données spatio-temporelle. Elle met particulièrement en évidence une approche originale pour le traitement des données avec un but d’enrichissement des connaissances pratiques du domaine. Ce travail comporte un volet applicatif en quatre chapitres qui correspond à quatre systèmes développés:- Un modèle pour la mise place d’un système de recommandation basé sur la collecte de données de positionnement GPS,- Un outil de résumé de données optimisé pour la rapidité des réponses aux requêtes au programme de médicalisation des systèmes d’information (PMSI),- Un outil d’apprentissage automatique pour la lutte contre le blanchiment dans le système financier,- Un modèle pour la prédiction d’activité dans les TPE qui sont météo-dépendantes (tourisme, transport, loisirs, commerce, etc.). Le problème est ici d’identifier les algorithmes de classification et de réseaux de neurones en vue d’une analyse de données dont le but est d’adapter la stratégie de l’entreprise aux mouvements conjoncturels
Data mining is one of the components of Customer Relationship Management (CRM), widely deployed in companies. It is the process of extracting interesting, non-trivial, implicit, unknown and potentially useful knowledge from data. This process relies on algorithms from various scientific disciplines (statistics, artificial intelligence, databases) to build models from data stored in data warehouses.The objective of determining models, established from clusters in the service of improving knowledge of the customer in the generic sense, the prediction of his behavior and the optimization of the proposed offer. Since these models are intended to be used by users who are specialists in the field of data, researchers in health economics and management sciences or professionals in the sector studied, this research work emphasizes the usability of data mining environments.This thesis is concerned with spatio-temporal data mining. It particularly highlights an original approach to data processing with the aim of enriching practical knowledge in the field.This work includes an application component in four chapters which corresponds to four systems developed:- A model for setting up a recommendation system based on the collection of GPS positioning data,- A data summary tool optimized for the speed of responses to requests for the medicalization of information systems program (PMSI),- A machine learning tool for the fight against money laundering in the financial system,- A model for the prediction of activity in VSEs which are weather-dependent (tourism, transport, leisure, commerce, etc.). The problem here is to identify classification algorithms and neural networks for data analysis aimed at adapting the company's strategy to economic changes
38

Guillemot, Vincent. "Application de méthodes de classification supervisée et intégration de données hétérogènes pour des données transcriptomiques à haut-débit". Phd thesis, Université Paris Sud - Paris XI, 2010. http://tel.archives-ouvertes.fr/tel-00481822.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les méthodes d'apprentissage supervisé sont appliquées depuis récemment à des jeux de données de puces à ADN, afin d'une part d'extraire des gènes impliqués dans les différences entre les classes d'individus étudiés et d'autre part de construire une fonction de classification permettant de prédire la classe d'un nouvel individu. Ces données de puces à ADN peuvent être accompagnées d'une information précieuse décrivant les interactions entre les variables (les gènes). Cette information est regroupée sous la forme de réseaux de régulations génétiques (RRG). L'objectif de la thèse est de réaliser l'intégration de l'information contenue dans ces RRGs dans une méthode de classification supervisée binaire. Nous proposons une nouvelle méthode, graph Constrained Discriminant Analysis (gCDA), basée sur l'analyse discriminante de Fisher. Les méthodes de la littérature se proposent d'implémenter la contrainte suivante : les gènes qui sont voisins dans le RRG doivent avoir des poids proches, voire identiques, dans la fonction de classification. À contrepoint de ces méthodes, gCDA est basée sur l'estimation régularisée des matrices de variance covariance qui sont utilisées dans l'analyse discriminante de Fisher. Les estimateurs utilisés dans gCDA prennent en compte l'information contenue dans les RRGs disponibles a priori grâce aux propriétés des modèles graphiques gaussiens. gCDA est comparée aux méthodes de la littérature sur des données simulées, données pour lesquelles le graphe sous-jacent est parfaitement connu. Dans le cas de données réelles, le graphe sous-jacent décrivant les interactions entre variables n'est pas connu. Nous nous sommes donc également intéressés à des méthodes permettant d'inférer de tels graphes à partir de données transcriptomiques. Enfin, des résultats sont obtenus sur trois jeux de données réelles. Les RRG ont été inférés soit sur des jeux de données de même nature mais indépendants (c'est-à-dire concernant des individus qui ne sont pas utilisés pour en classification), soit sur une partie indépendante du jeu de données étudié. Nous montrons une amélioration notable des performances de classification sur ces jeux de données lorsque gCDA est utilisée par rapport à l'utilisation des méthodes de la littérature décrites dans la deuxième partie.
39

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients". Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats
Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results
40

Juery, Damien. "Classification bayésienne non supervisée de données fonctionnelles en présence de covariables". Thesis, Montpellier 2, 2014. http://www.theses.fr/2014MON20160/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Un des objectifs les plus importants en classification non supervisée est d'extraire des groupes de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les données sont recueillies en temps continu, de plus en plus d'utilisateurs ont besoin d'outils capables de classer des courbes.Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément, nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles. Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles et robustes.Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en projetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d'observation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension infinie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seulement les valeurs discrétisées. Nous proposons un algorithme qui généralise l'algorithme "Gibbs sampling with auxiliary parameters" de Neal (2000). L'implémentation numérique requiert le calcul de produits scalaires, qui sont approchés à partir de méthodes numériques. Quelques applications sur données réelles et simulées sont également présentées, puis discutées.En dernier lieu, l'ajout d'une hiérarchie supplémentaire à notre modèle nous permet de pouvoir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu'il est possible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont présentées
One of the major objectives of unsupervised clustering is to find similarity groups in a dataset. With the current development of phenotyping, in which continuous-time data are collected, more and more users require new efficient tools capable of clustering curves.The work presented in this thesis is based on Bayesian statistics. Specifically, we are interested in unsupervised Bayesian clustering of functional data. Nonparametric Bayesian priors allow the construction of flexible and robust models.We generalize a clustering model (DPM), founded on the Dirichlet process, to the functional framework. Unlike current methods which make use of the finite dimension, either by representing curves as linear combinations of basis functions, or by regarding curves as data points, calculations are hereby carried out on complete curves, in the infinite dimension. The reproducing kernel Hilbert space (RKHS) theory allows us to derive, in the infinite dimension, probability density functions of curves with respect to a gaussian measure. In the same way, we make explicit a posterior distribution, given complete curves and not only data points. We suggest generalizing the algorithm "Gibbs sampling with auxiliary parameters" by Neal (2000). The numerical implementation requires the calculation of inner products, which are approximated from numerical methods. Some case studies on real and simulated data are also presented, then discussed.Finally, the addition of an extra hierarchy in our model allows us to take functional covariates into account. For that purpose, we will show that it is possible to define several models. The previous algorithmic method is therefore extended to each of these models. Some case studies on simulated data are presented
41

D'ambrosio, Roberto. "Classification de bases de données déséquilibrées par des règles de décomposition". Phd thesis, Université Nice Sophia Antipolis, 2014. http://tel.archives-ouvertes.fr/tel-00995021.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d'apprentissage conventionnels sont moins efficaces dans la prévision d'échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma 'One-per-Class', utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s'améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l' 'Error Correcting Output Code' (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le 'One-per-Class' et 'Pair-Wise Coupling' des approches sur la décomposition, nous avons développé une règle qui s'applique à la régression 'softmax' sur la fiabilité afin d'évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d'estimation fiable nous remarquons que peu de travaux ont porté sur l'efficacité de l'estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu'il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs.
42

Mure, Simon. "Classification non supervisée de données spatio-temporelles multidimensionnelles : Applications à l’imagerie". Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI130/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Avec l'augmentation considérable d'acquisitions de données temporelles dans les dernières décennies comme les systèmes GPS, les séquences vidéo ou les suivis médicaux de pathologies ; le besoin en algorithmes de traitement et d'analyse efficaces d'acquisition longitudinales n'a fait qu'augmenter. Dans cette thèse, nous proposons une extension du formalisme mean-shift, classiquement utilisé en traitement d'images, pour le groupement de séries temporelles multidimensionnelles. Nous proposons aussi un algorithme de groupement hiérarchique des séries temporelles basé sur la mesure de dynamic time warping afin de prendre en compte les déphasages temporels. Ces choix ont été motivés par la nécessité d'analyser des images acquises en imagerie par résonance magnétique sur des patients atteints de sclérose en plaques. Cette maladie est encore très méconnue tant dans sa genèse que sur les causes des handicaps qu'elle peut induire. De plus aucun traitement efficace n'est connu à l'heure actuelle. Le besoin de valider des hypothèses sur les lésions de sclérose en plaque nous a conduit à proposer des méthodes de groupement de séries temporelles ne nécessitant pas d'a priori sur le résultat final, méthodes encore peu développées en traitement d'images
Due to the dramatic increase of longitudinal acquisitions in the past decades such as video sequences, global positioning system (GPS) tracking or medical follow-up, many applications for time-series data mining have been developed. Thus, unsupervised time-series data mining has become highly relevant with the aim to automatically detect and identify similar temporal patterns between time-series. In this work, we propose a new spatio-temporal filtering scheme based on the mean-shift procedure, a state of the art approach in the field of image processing, which clusters multivariate spatio-temporal data. We also propose a hierarchical time-series clustering algorithm based on the dynamic time warping measure that identifies similar but asynchronous temporal patterns. Our choices have been motivated by the need to analyse magnetic resonance images acquired on people affected by multiple sclerosis. The genetics and environmental factors triggering and governing the disease evolution, as well as the occurrence and evolution of individual lesions, are still mostly unknown and under intense investigation. Therefore, there is a strong need to develop new methods allowing automatic extraction and quantification of lesion characteristics. This has motivated our work on time-series clustering methods, which are not widely used in image processing yet and allow to process image sequences without prior knowledge on the final results
43

Samé, Allou Badara. "Modèles de mélange et classification de données acoustiques en temps réel". Compiègne, 2004. http://www.theses.fr/2004COMP1540.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse, menée en collaboration avec le Centre Technique des Industries Mécaniques (CETIM), s'inscrit dans le cadre de la classification automatique pour le contrôle en temps réel par émission acoustique des équipements sous pression (citernes GPL. . . ). Le travail effectué vise à améliorer un logiciel temps réel (LOTERE) d'aide à la décision dans le contrôle des équipements sous pression, jugé lent quand le nombre des émissions acoustiques à traiter devient très grand. Deux approches classificatoires basées sur le modèle de mélange de lois, capables de prendre en compte les contraintes de temps d'exécution, ont été développées. La première approche consiste à classifier les 'bins' résultant de la conversion des données initiales en un histogramme et la seconde consiste à classifier les données de façon séquentielle par mise à jour récurrente de la classification. Une étude expérimentale sur des données simulées et des données réelles a permis de mettre en évidence l'efficacité des approches proposées
The motivation for this Phd Thesis was a real-time flaw diagnosis application for pressurized containers using acoustic emissions. It has been carried out in collaboration with the Centre Technique des Industries Mécaniques (CETIM). The aim was to improve LOTERE, a real-time computer-aided-decision software, which has been found to be too slow when the number of acoustic emissions becomes large. Two mixture model-based clustering approaches, taking into account time constraints, have been proposed. The first one consists in clustering 'bins' resulting from the conversion of original observations into an histogram. The second one is an on-line approach updating recursively the classification. An experimental study using both simulated and real data has shown that the proposed methods are very efficient
44

D'Ambrosio, Roberto. "Classification de bases de données déséquilibrées par des règles de décomposition". Thesis, Nice, 2014. http://www.theses.fr/2014NICE4007/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le déséquilibre entre la distribution des a priori est rencontré dans un nombre très large de domaines. Les algorithmes d’apprentissage conventionnels sont moins efficaces dans la prévision d’échantillons appartenant aux classes minoritaires. Notre but est de développer une règle de reconstruction adaptée aux catégories de données biaisées. Nous proposons une nouvelle règle, la Reconstruction Rule par sélection, qui, dans le schéma ‘One-per-Class’, utilise la fiabilité, des étiquettes et des distributions a priori pour permettre de calculer une décision finale. Les tests démontrent que la performance du système s’améliore en utilisant cette règle plutôt que des règles classiques. Nous étudions également les règles dans l’ ‘Error Correcting Output Code’ (ECOC) décomposition. Inspiré par une règle de reconstitution de données statistiques conçue pour le ‘One-per-Class’ et ‘Pair-Wise Coupling’ des approches sur la décomposition, nous avons développé une règle qui s’applique à la régression ‘softmax’ sur la fiabilité afin d’évaluer la classification finale. Les résultats montrent que ce choix améliore les performances avec respect de la règle statistique existante et des règles de reconstructions classiques. Sur ce thème d’estimation fiable nous remarquons que peu de travaux ont porté sur l’efficacité de l’estimation postérieure dans le cadre de boosting. Suivant ce raisonnement, nous développons une estimation postérieure efficace en boosting Nearest Neighbors. Utilisant Universal Nearest Neighbours classification nous prouvons qu’il existe une sous-catégorie de fonctions, dont la minimisation apporte statistiquement de simples et efficaces estimateurs de Bayes postérieurs
Disproportion among class priors is encountered in a large number of domains making conventional learning algorithms less effective in predicting samples belonging to the minority classes. We aim at developing a reconstruction rule suited to multiclass skewed data. In performing this task we use the classification reliability that conveys useful information on the goodness of classification acts. In the framework of One-per-Class decomposition scheme we design a novel reconstruction rule, Reconstruction Rule by Selection, which uses classifiers reliabilities, crisp labels and a-priori distributions to compute the final decision. Tests show that system performance improves using this rule rather than using well-established reconstruction rules. We investigate also the rules in the Error Correcting Output Code (ECOC) decomposition framework. Inspired by a statistical reconstruction rule designed for the One-per-Class and Pair-Wise Coupling decomposition approaches, we have developed a rule that applies softmax regression on reliability outputs in order to estimate the final classification. Results show that this choice improves the performances with respect to the existing statistical rule and to well-established reconstruction rules. On the topic of reliability estimation we notice that small attention has been given to efficient posteriors estimation in the boosting framework. On this reason we develop an efficient posteriors estimator by boosting Nearest Neighbors. Using Universal Nearest Neighbours classifier we prove that a sub-class of surrogate losses exists, whose minimization brings simple and statistically efficient estimators for Bayes posteriors
45

Nair, Benrekia Noureddine Yassine. "Classification interactive multi-label pour l’aide à l’organisation personnalisée des données". Nantes, 2015. https://archive.bu.univ-nantes.fr/pollux/show/show?id=bb2e3d25-7f53-4b66-af04-a9fb5e80ea28.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'importance croissante donnée actuellement aux contenus personnalisés a conduit au développement de plusieurs systèmes de classification interactive pour diverses applications originales. Néanmoins, tous ces systèmes recourent à une classification mono-label des items qui limite fortement l'expressivité de l'utilisateur. Le problème majeur commun à tous les développeurs d'un système de classification interactif et multi-label est: quel classifieur multi-label devrions-nous choisir? Les évaluations expérimentales des systèmes d'apprentissage interactifs récents sont essentiellement subjectives. L:importance de leurs conclusions est donc limitée. Pour tirer des conclusions plus générales qui permettent de guider la sélection de l'algorithme d'apprentissage approprié lors du développement d'un tel système, nous étudions de manière approfondie l'impact des contraintes d'interactivité majeures (apprentissage à partir de peu d'exemples en un temps limité) sur les performances prédictives et les temps de calcul des classifieurs. Les expérimentations mettent en évidence le potentiel d'une approche d'apprentissage ensemble Random Forest of Predictive Clustering Trees(RF-PCT). Cependant, la forte contrainte sur le temps de calcul posée par l'interactivité, nous a conduits à proposer une nouvelle approche d'apprentissage hybride FMDI-RF+ qui associe RF-PCT avec une approche de factorisation de matrice efficace pour la réduction de dimensions. Les résultats expérimentaux indiquent que FMDI-RF+ est aussi précise que RF-PCT dans les prédictions avec clairement un avantage à FMDI-RF+ pour la vitesse de calcul
The growing importance given today to personalized contents led to the development of several interactive classification systems for various novel applications. Nevertheless, all these systems use a single-label item classification which greatly constrains the user's expressiveness. The major problem common to all developers of an interactive multi-label system is: which multi-label classifier should we choose? Experimental evaluations of recent interactive learning systems are mainly subjective. The importance of their conclusions is consequently limited. To draw more general conclusions for guiding the selection of a suitable learning algorithm during the development of such a system, we extensively study the impact of the major interactivity constraints (learning from few examples in a limited time) on the classifier predictive and time-computation performances. The experiments demonstrate the potential of an ensemble learning approach Random Forest of Predictive Clustering Trees(RF-PCT). However,the strong constraint imposed by the interactivity on the computation time has led us to propose a new hybrid learning approach FMDI-RF+ which associates RF-PCT with an efficient matrix factorization approach for dimensionality reduction. The experimental results indicate that RF-FMDI+ is as accurate as RF-PCT in the predictions with a significant advantage to FMDI-RF + for the speed of computation
46

Botte-Lecocq, Claudine. "L'analyse de données multidimensionnelles par transformations morphologiques binaires". Lille 1, 1991. http://www.theses.fr/1991LIL10142.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le travail présenté concerne une nouvelle approche pour la classification automatique, basée sur la théorie de la morphologie mathématique. Comme le langage de la morphologie mathématique est celui de la théorie des ensembles, nous montrons comment un ensemble d'observations multidimensionnelles à valeurs réelles peut être transformé en un ensemble discret d'éléments à valeurs binaires. La méthodologie de classification que nous présentons dans ce mémoire peut être décomposée en deux étapes successives: une étape de détection des modes et une étape de classification des observations s'appuyant sur les modes détectés. Dans la deuxième partie du mémoire, nous présentons quatre méthodes distinctes de détection des modes. Les deux premières ont pour but d'extraire les modes par une analyse morphologique des données à classer en combinant deux opérateurs morphologiques de base, les deux dernières sont basées sur l'analyse morphologique de la connexité des points de l'ensemble discret. Dans la dernière partie de ce mémoire, nous définissons et comparons plusieurs procédures de classification à partir des modes extraits, qui aboutissent à des partitions de l'ensemble des observations. Nous illustrons enfin cette approche morphologique à l'aide d'ensembles de données générées artificiellement. Une comparaison des différents résultats obtenus avec ceux obtenus par deux méthodes bien établies en classification automatique permet de mettre en évidence l'intérêt des outils de la morphologie mathématique en analyse de données
47

Kettaf, Fatima-Zohra. "Contribution des algorithmes évolutionnaires au partitionnement des données". Tours, 1997. http://www.theses.fr/1997TOUR4008.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dans cette thèse, on s'intéresse à l'apport des algorithmes évolutionnaires (algorithme génétique et stratégie d'évolution) au partitionnement des données. Il est en effet aujourd'hui reconnu que les méthodes évolutionnaires, par leur parallélisme implicite possèdent de bonnes aptitudes à l'exploration globale de l'espace de solutions et ne nécessitent pas de modélisation a priori des données. Nous proposons de nouveaux codages d'une partition à nombre de classes fixes ou non relativement à différents modèles de classification (exclusive, flore, possibiliste, mélange de lois de probabilité). Ces codages sont de trois types : par appartenance, par prototype et par similitude. Les algorithmes que noous proposons sont construits à partir de ces codages et recherchent en parallèle, dans l'espace des partitions codées, le nombre de classes et la classification associée. Une des originalités de cette thèse concerne l'utilisation de chromosone de longueur variable pour le partitionnement, le nombre de classes n'étant pas fixe a priori. On introduit aussi de nouveaux opérateurs génétiques d'insertion et de fusion de classes à l'image de l'algorithme Isodata. Les algorithmes sont valides sur des données réelles et simulées et compares à deux méthodes de classification non génétique (GMVE et Isodata)
In this work we are interested in the contribution of evolutionary algorithms (genetic algorithm and evolution strategy) to the partionning problem. It is well known today, that evolutionary methods with their implicit parallelism, have good abilities to perform a global search in the space of possible solutions of the problem at hand, and that they don't need any prior modelling of the data. We propose here new partition encodings with known or unknown number of clusters, adapted to different clustreing models (exclusive, fuzzy, possibilist, mixture model. . . ). These encodings are : belongness, prototype, and similitude. The algorithms we propose are based on these encodings and seek in the partitions'space the number of clusters and the "optimal" partition in regard to a predefined criterion. One of the originality of this thesis is the use of variable length chromosomes, which easily adapt to partitions' encodings with variable number of clusters. We also introduce new genetic operators : insertion and deletion of clusters as in the isodata algorithm. Finally, we give some experimental results on simulated and real data of our algorithms and compare them to GMVE and isodata ones
48

Pigeau, Antoine. "Structuration géo-temporelle de données multimédia personnelles". Phd thesis, Nantes, 2005. http://www.theses.fr/2005NANT2131.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux de recherche présentés dans cette thèse portent sur la classification de ollections d'images personnelles acquises à partir d'un mobile. Nous avons choisi de traiter la structuration de la collection d'images comme un problème de classification. Notre approche est basée sur la construction de deux partitions distinctes, l'une temporelle et l'autre spatiale, à partir des métadonnées des images : leur date et leur géolocalisation. Les principaux ingrédients de notre approche sont les modèles de mélange gaussien et le critère statistique ICL pour déterminer leur complexité. Un algorithme d'optimisation incrémental du critère ICL est tout d'abord proposé, permettant la construction de partitions non-hiérarchiques. Il est ensuite combiné avec un algorithme agglomératif pour fournir un algorithme hiérarchique incrémental. Enfin nous proposons plusieurs techniques, pour construire des partitions ybridespatio-temporelles, prenant en compte les contraintes d'IHM sur un mobile
Usage of mobile devices raises the need for organizing large personal multimedia collection. The present work focus on personal image collections acquired from mobile phones equipped with a camera. We deal with the structuring of an image collection as a clustering problem. Our solution consists in building two distinct temporal and spatial partitions, based on the temporal and spatial metadata of each image. The main ingredients of our approach are the Gaussian mixture models and the ICL criterion to determine the models complexities. First, we propose an incremental optimization algorithm to build non-hierarchical partitions in an automatic manner. It is then combined with an agglomerative algorithm to provide an incremental hierarchical algorithm. Finally, two techniques are roposed to build hybrid spatio-temporal classifications taking into account the human machine interaction constraints
49

Jaziri, Rakia. "Modèles de mélanges topologiques pour la classification de données structurées en séquences". Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_jaziri.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing sequential, large and complex data. In this work, the problem of clustering, visualization and structuring data is tackled by a three-stage proposal. The first proposal present a generative approach to learn a new probabilistic Self-Organizing Map (PrSOMS) for non independent and non identically distributed data sets. Our model defines a low dimensional manifold allowing friendly visualizations. To yield the topology preserving maps, our model exhibits the SOM like learning behavior with the advantages of probabilistic models. This new paradigm uses HMM (Hidden Markov Models) formalism and introduces relationships between the states. This allows us to take advantage of all the known classical views associated to topographic map. The second proposal concerns a hierarchical extension of the approach PrSOMS. This approach deals the complex aspect of the data in the classification process. We find that the resulting model ”H-PrSOMS” provides a good interpretability of classes built. The third proposal concerns an alternative approach statistical topological MGTM-TT, which is based on the same paradigm than HMM. It is a generative topographic modeling observation density mixtures, which is similar to a hierarchical extension of time GTM model. These proposals have then been applied to test data and real data from the INA (National Audiovisual Institute). This work is to provide a first step, a finer classification of audiovisual broadcast segments. In a second step, we sought to define a typology of the chaining of segments (multiple scattering of the same program, one of two inter-program) to provide statistically the characteristics of broadcast segments. The overall framework provides a tool for the classification and structuring of audiovisual programs
50

Aldea, Emanuel. "Apprentissage de données structurées pour l'interprétation d'images". Paris, Télécom ParisTech, 2009. http://www.theses.fr/2009ENST0053.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La plupart des méthodes de classification d’images s'appuient en premier lieu sur les attributs des objets d'intérêt. Cependant, les informations spatiales liées aux relations entre ces objets sont également utiles, comme cela a été montré en segmentation et reconnaissance de structures dans les images, et leur intégration dans des méthodes d'apprentissage et de classification commence à apparaître et évoluer. Les modélisations floues permettent de représenter à la fois l'imprécision de la relation et le passage graduel de la satisfaction à la non satisfaction de cette relation. L'objectif de ce travail est d'explorer les techniques de représentation de l’information spatiale et leur intégration dans les classifieurs d'images qui utilisent les noyaux de graphes. Nous justifions le choix de graphes étiquetés pour représenter les images dans le contexte de l'apprentissage SVM, ainsi que les adaptations nécessaires par rapport aux domaines connexes. A partir des mesures d’adjacence floues entre les objets d'intérêt, nous définissons une famille de représentations de graphes déterminés par des seuils différents appliqués à ces mesures spatiales. Enfin, nous employons plusieurs noyaux dans un apprentissage multiple afin de mettre en place des classifieurs qui peuvent tenir compte des différentes représentations graphiques de la même image à la fois. Les résultats montrent que l'information spatiale complète les caractéristiques visuelles des éléments distinctifs dans les images et que l'adaptation des fonctions noyau pour les représentations spatiales floues est bénéfique en termes de performances
Image interpretation methods use primarily the visual features of low-level or high-level interest elements. However, spatial information concerning the relative positioning of these elements is equally beneficial, as it has been shown previously in segmentation and structure recognition. Fuzzy representations permit to assess at the same time the imprecision degree of a relation and the gradual transition between the satisfiability and the non-satisfiability of a relation. The objective of this work is to explore techniques of spatial information representation and their integration in the learning process, within the context of image classifiers that make use of graph kernels. We motivate our choice of labeled graphs for representing images, in the context of learning with SVM classifiers. Graph kernels have been studied intensively in computational chemistry and biology, but an adaptation for image related graphs is necessary, since image structures and properties of the information encoded in the labeling are fundamentally different. We illustrate the integration of spatial information within the graphical model by considering fuzzy adjacency measures between interest elements, and we define a family of graph representations determined by different thresholds applied to these spatial measures. Finally, we employ multiple kernel learning in order to build up classifiers that can take into account different graphical representations of the same image at once. Results show that spatial information complements the visual features of distinctive elements in images and that adapting the discriminative kernel functions for the fuzzy spatial representations is beneficial in terms of performance

Vai alla bibliografia