Siga este link para ver outros tipos de publicações sobre o tema: Structuration automatique de données.

Teses / dissertações sobre o tema "Structuration automatique de données"

Crie uma referência precisa em APA, MLA, Chicago, Harvard, e outros estilos

Selecione um tipo de fonte:

Veja os 50 melhores trabalhos (teses / dissertações) para estudos sobre o assunto "Structuration automatique de données".

Ao lado de cada fonte na lista de referências, há um botão "Adicionar à bibliografia". Clique e geraremos automaticamente a citação bibliográfica do trabalho escolhido no estilo de citação de que você precisa: APA, MLA, Harvard, Chicago, Vancouver, etc.

Você também pode baixar o texto completo da publicação científica em formato .pdf e ler o resumo do trabalho online se estiver presente nos metadados.

Veja as teses / dissertações das mais diversas áreas científicas e compile uma bibliografia correta.

1

Bouchekif, Abdesselam. "Structuration automatique de documents audio". Thesis, Le Mans, 2016. http://www.theses.fr/2016LEMA1038/document.

Texto completo da fonte
Resumo:
La structuration en thèmes est un domaine de recherche très prisé dans le traitement automatique du langage naturel car elle est le point de départ de plusieurs applications comme la recherche d’information, le résumé automatique et la modélisation des thèmes. Dans cette thèse, nous avons proposé un système de structuration automatique des journaux d’informations. Notre système contient deux modules : segmentation thématique et titrage. La segmentation thématique consiste à effectuer un pavage de l’émission en segments thématiquement homogènes. Ces derniers, sont généralement identifiés par des étiquettes anonymes, c’est alors le rôle du module de titrage d’affecter un titre à chaque segment.Ces travaux ont permis plusieurs contributions originales tel que l’exploitation conjointe de la distribution des mots et des locuteurs (cohésion de la parole) ainsi que l’utilisation des relations sémantiques de type diachronique. Après l’étape de segmentation, nous proposons d’apparier chaque segment avec les articles de presse du même jour. Le titre associé au segment est celui de l’article le plus proche thématiquement. Finalement, nous avons proposé deux nouvelles métriques d’évaluation, l’une pour la segmentation thématique et l’autre pour le titrage. Les expériences sont menées sur trois corpus caractérisés par leur richesse et leur diversité. Ils sont constitués de 168 journaux télévisés issus de 10 chaînes françaises transcrits automatiquement
The topic structuring is an area that has attracted much attention in the Natural Language Processing community. Indeed, topic structuring is considered as the starting point of several applications such as information retrieval, summarization and topic modeling.In this thesis, we proposed a generic topic structuring system i.e. that has the ability to deal with any TV Broadcast News.Our system contains two steps: topic segmentation and title assignment. Topic segmentation consists in splitting the document into thematically homogeneous fragments. The latter are generally identified by anonymous labels and the last step has to assign a title to each segment.Several original contributions are proposed like the use of a joint exploitation of the distribution of speakers and words (speech cohesion) and also the use of diachronic semantic relations. After the topic segmentation step, the generated segments are assigned a title corresponding to an article collected from Google News during the same day. Finally, we proposed the evaluation of two new metrics, the first is dedicated to the topic segmentation and the second to title assignment.The experiments are carried out on three corpora. They consisted of 168 TV Broadcast News from 10 French channels automatically transcribed. Our corpus is characterized by his richness and diversity
Estilos ABNT, Harvard, Vancouver, APA, etc.
2

Ribert, Arnaud. "Structuration évolutive de données : application à la construction de classifieurs distribués". Rouen, 1998. http://www.theses.fr/1998ROUES073.

Texto completo da fonte
Resumo:
Les travaux présentés dans ce mémoire abordent le problème de l'enrichissement de la base d'apprentissage des systèmes de classification. L'approche retenue repose essentiellement sur la distribution du problème de classification qui permet un classifieur modulaire, donc évolutif. La méthodologie mise en place consiste a utiliser l'information non supervisée fournie par une hiérarchie indicée en conjonction avec l'information supervisée fournie par un operateur humain. Cette procédure permet d'identifier des régions de l'espace de représentation (dénommées ilots) ou la concentration d'éléments d'une même classe est forte. La structure de la hiérarchie indicée permet ensuite de construire une hiérarchie de classifieurs associes aux ilots et regroupements d'ilots. La pertinence de la distribution obtenue a été vérifiée sur une base de chiffres manuscrits (NIST) à l'aide de perceptrons multi-couches et de l'algorithme des k plus proches voisins. Afin d'obtenir un classifieur distribue évolutif, nous présentons un algorithme de construction de hiérarchie indicée capable de prendre en compte l'ajout d'un nouvel élément sans recalculer la totalité de la hiérarchie. La validation expérimentale de cet algorithme a montré qu'il permettait d'économiser d'importantes ressources mémoires (moyennant un choix d'ultramétrique judicieux) mais que son coût de calcul devait être diminué. Dans le cadre d'une aide à l'étiquetage de nouvelles données nous avons introduit un algorithme de catégorisation multi-échelle ne nécessitant pas la connaissance a priori du nombre d'agrégats dans les données. La validation sur une base de chiffres manuscrits a montré le bon comportement de l'algorithme. La dernière partie de ce mémoire présente notre contribution à un modèle neuronal développé au PSI ces dernières années particulièrement adapté à une utilisation dans une hiérarchie de classifieurs évolutifs, notamment grâce à ces capacités d'auto-configuration.
Estilos ABNT, Harvard, Vancouver, APA, etc.
3

Kempf, Emmanuelle. "Structuration, standardisation et enrichissement par traitement automatique du langage des données relatives au cancer au sein de l’entrepôt de données de santé de l’Assistance Publique – Hôpitaux de Paris". Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS694.

Texto completo da fonte
Resumo:
Le cancer est un enjeu de santé publique dont l’amélioration de la prise en charge repose, entre autres leviers, sur l’exploitation d’entrepôts de données de santé (EDS). Leur utilisation implique la maîtrise d’obstacles tels que la qualité, la standardisation et la structuration des données de soins qui y sont stockées. L’objectif de cette thèse était de démontrer qu’il est possible de lever les verrous d’utilisation secondaire des données de l’EDS de l’Assistance Publique - Hôpitaux de Paris (AP-HP) concernant des patients atteints de cancer à diverses finalités telles que le pilotage de la sécurité et de la qualité des soins, et les projets de recherche clinique observationnelle et expérimentale. En premier lieu, l’identification d’un jeu de données minimales a permis de concentrer l’effort de formalisation des items d’intérêt propres à la discipline. A partir de 15 items identifiés, 4 cas d’usages relevant de perspectives médicales distinctes ont pu être développés avec succès : pilotage concernant l’automatisation de calculs d’indicateurs de sécurité et de qualité des soins nécessaires à la certification internationale des établissements de santé, épidémiologie clinique concernant l’impact des mesures de santé publique en temps de pandémie sur le retard diagnostic des cancers, aide à la décision concernant l’optimisation du recrutement des patients dans des essais cliniques, développement de réseaux de neurones concernant la pronostication par vision par ordinateur. Une deuxième condition nécessaire à l’exploitation d’un EDS en oncologie repose sur la formalisation optimale et interopérable entre plusieurs EDS de ce jeu de données minimales. Dans le cadre de l’initiative française PENELOPE visant à améliorer le recrutement des patients dans des essais cliniques, la thèse a évalué la plus-value de l’extension oncologie du modèle de données commun OMOP. Cette version 5.4 d’OMOP permettait de doubler le taux de formalisation de critères de préscreening d’essais cliniques de phase I à IV. Seulement 23% de ces critères pouvaient être requetés automatiquement sur l’EDS de l’AP-HP, et ce, modulo une valeur prédictive positive inférieure à 30%. Ce travail propose une méthodologie inédite pour évaluer la performance d'un système d’aide au recrutement : à partir des métriques habituelles (sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative), mais aussi à partir d’indicateurs complémentaires caractérisant l’adéquation du modèle choisi avec l’EDS concerné (taux de traduction et d'exécution des requêtes). Enfin, le travail a permis de montrer le caractère palliatif du traitement automatique du langage naturel concernant la structuration des données d'un EDS en informant le bilan d’extension initial d’un diagnostic de cancer et les caractéristiques histopronostiques des tumeurs. La confrontation des métriques de performance d’extraction textuelle et des ressources humaines et techniques nécessaires au développement de systèmes de règles et d’apprentissage automatique a permis de valoriser, pour un certain nombre de situations, la première approche. La thèse a identifié qu’une préannotation automatique à base de règles avant une phase d’annotation manuelle pour entraînement d’un modèle d’apprentissage machine était une approche optimisable. Les règles semblent suffire pour les tâches d’extraction textuelle d’une certaine typologie d’entités bien caractérisée sur un plan lexical et sémantique. L’anticipation et la modélisation de cette typologie pourrait être possible en amont de la phase d’extraction textuelle, afin de différencier, en fonction de chaque type d’entité, dans quelle mesure l’apprentissage machine devrait suppléer aux règles. La thèse a permis de démontrer qu’une attention portée à un certain nombre de thématiques des sciences des données permettait l’utilisation efficiente d’un EDS et ce, à des fins diverses en oncologie
Cancer is a public health issue for which the improvement of care relies, among other levers, on the use of clinical data warehouses (CDWs). Their use involves overcoming obstacles such as the quality, standardization and structuring of the care data stored there. The objective of this thesis was to demonstrate that it is possible to address the challenges of secondary use of data from the Assistance Publique - Hôpitaux de Paris (AP-HP) CDW regarding cancer patients, and for various purposes such as monitoring the safety and quality of care, and performing observational and experimental clinical research. First, the identification of a minimal data set enabled to concentrate the effort of formalizing the items of interest specific to the discipline. From 15 identified items, 4 use cases from distinct medical perspectives were successfully developed: automation of calculations of safety and quality of care required for the international certification of health establishments , clinical epidemiology regarding the impact of public health measures during a pandemic on the delay in cancer diagnosis, decision support regarding the optimization of patient recruitment in clinical trials, development of neural networks regarding prognostication by computer vision. A second condition necessary for the CDW use in oncology is based on the optimal and interoperable formalization between several CDWs of this minimal data set. As part of the French PENELOPE initiative aiming at improving patient recruitment in clinical trials, the thesis assessed the added value of the oncology extension of the OMOP common data model. This version 5.4 of OMOP enabled to double the rate of formalization of prescreening criteria for phase I to IV clinical trials. Only 23% of these criteria could be automatically queried on the AP-HP CDW, and this, modulo a positive predictive value of less than 30%. This work suggested a novel methodology for evaluating the performance of a recruitment support system: based on the usual metrics (sensitivity, specificity, positive predictive value, negative predictive value), but also based on additional indicators characterizing the adequacy of the model chosen with the CDW related (rate of translation and execution of queries). Finally, the work showed how natural language processing related to the CDW data structuring could enrich the minimal data set, based on the baseline tumor dissemination assessment of a cancer diagnosis and on the histoprognostic characteristics of tumors. The comparison of textual extraction performance metrics and the human and technical resources necessary for the development of rules and machine learning systems made it possible to promote, for a certain number of situations, the first approach. The thesis identified that automatic rule-based preannotation before a manual annotation phase for training a machine learning model was an optimizable approach. The rules seemed to be sufficient for textual extraction tasks of a certain typology of entities that are well characterized on a lexical and semantic level. Anticipation and modeling of this typology could be possible upstream of the textual extraction phase, in order to differentiate, depending on each type of entity, to what extent machine learning should replace the rules. The thesis demonstrated that a close attention to a certain number of data science challenges allowed the efficient use of a CDW for various purposes in oncology
Estilos ABNT, Harvard, Vancouver, APA, etc.
4

Serrano, Laurie. "Vers une capitalisation des connaissances orientée utilisateur : extraction et structuration automatiques de l'information issue de sources ouvertes". Caen, 2014. http://www.theses.fr/2014CAEN2011.

Texto completo da fonte
Resumo:
Face à l’augmentation vertigineuse des informations disponibles librement (notamment sur le Web), repérer efficacement celles qui présentent un intérêt s’avère une tâche longue et complexe. Les analystes du renseignement d’origine sources ouvertes sont particulièrement concernés par ce phénomène. En effet, ceux-ci recueillent manuellement une grande partie des informations d'intérêt afin de créer des fiches de connaissance résumant le savoir acquis à propos d’une entité. Dans ce contexte, cette thèse a pour objectif de faciliter et réduire le travail des acteurs du renseignement et de la veille. Nos recherches s’articulent autour de trois axes : la modélisation de l’information, l'extraction d’information et la capitalisation des connaissances. Nous avons réalisé un état de l’art de ces différentes problématiques afin d'élaborer un système global de capitalisation des connaissances. Notre première contribution est une ontologie dédiée à la représentation des connaissances spécifiques au renseignement et pour laquelle nous avons défini et modélisé la notion d'événement dans ce domaine. Par ailleurs, nous avons élaboré et évalué un système d’extraction d’événements fondé sur deux approches actuelles en extraction d'information : une première méthode symbolique et une seconde basée sur la découverte de motifs séquentiels fréquents. Enfin, nous avons proposé un processus d’agrégation sémantique des événements afin d'améliorer la qualité des fiches d'événements obtenues et d'assurer le passage du texte à la connaissance. Celui-ci est fondé sur une similarité multidimensionnelle entre événements, exprimée par une échelle qualitative définie selon les besoins des utilisateurs
Due to the considerable increase of freely available data (especially on the Web), the discovery of relevant information from textual content is a critical challenge. Open Source Intelligence (OSINT) specialists are particularly concerned by this phenomenon as they try to mine large amounts of heterogeneous information to acquire actionable intelligence. This collection process is still largely done by hand in order to build knowledge sheets summarizing all the knowledge acquired about a specific entity. Given this context, the main goal of this thesis work is to reduce and facilitate the daily work of intelligence analysts. For this sake, our researches revolve around three main axis: knowledge modeling, text mining and knowledge gathering. We explored the literature related to these different domains to develop a global knowledge gathering system. Our first contribution is the building of a domain ontology dedicated to knowledge representation for OSINT purposes and that comprises a specific definition and modeling of the event concept for this domain. Secondly, we have developed and evaluated an event recognition system which is based on two different extraction approaches: the first one is based on hand-crafted rules and the second one on a frequent pattern learning technique. As our third contribution, we proposed a semantic aggregation process as a necessary post-processing step to enhance the quality of the events extracted and to convert extraction results into actionable knowledge. This is achieved by means of multiple similarity measures between events, expressed according a qualitative scale which has been designed following our final users' needs
Estilos ABNT, Harvard, Vancouver, APA, etc.
5

Hiot, Nicolas. "Construction automatique de bases de données pour le domaine médical : Intégration de texte et maintien de la cohérence". Electronic Thesis or Diss., Orléans, 2024. http://www.theses.fr/2024ORLE1026.

Texto completo da fonte
Resumo:
La construction automatique de bases de données dans le domaine médical représente un défi majeur pour garantir une gestion efficace de l'information et faciliter les prises de décision. Ce projet de recherche se concentre sur l'utilisation des bases de données graphes, une approche qui offre une représentation dynamique et une interrogation efficace des données et en particulier de leur topologie. Notre projet explore la convergence entre les bases de données et le traitement automatique du langage, avec deux objectifs centraux. Tout d'abord, notre attention se porte sur le maintien de la cohérence au sein des bases de données graphes lors des mises à jour, en particulier avec des données incomplètes et des règles métiers spécifiques. Maintenir la cohérence lors des mises à jour permet de garantir un niveau de qualité de données uniforme pour tous les utilisateurs et de faciliter l'analyse. Dans un monde en constante évolution, nous donnons la priorité aux mises à jour, qui peuvent impliquer des modifications de l'instance pour accueillir de nouvelles informations. Mais comment gérer efficacement ces mises à jour successives au sein d'un système de gestion de base de données graphes ? Dans un second temps, nous nous concentrons sur l'intégration des informations extraites de documents textuels, une source de données majeure dans le domaine médical. En particulier, nous examinons les cas cliniques et de pharmacovigilance, un domaine crucial pour identifier les risques et les effets indésirables associés à l'utilisation des médicaments. Comment détecter l'information dans les textes ? Comment intégrer ces données non structurées de manière efficace dans une base de données graphe ? Comment les structurer automatiquement ? Et enfin, qu'est-ce qu'une structure valide dans ce contexte ? On s'intéresse en particulier à favoriser la recherche reproductible en adoptant une démarche transparente et documentée pour permettre la vérification et la validation indépendante de nos résultats
The automatic construction of databases in the medical field represents a major challenge for guaranteeing efficient information management and facilitating decision-making. This research project focuses on the use of graph databases, an approach that offers dynamic representation and efficient querying of data and its topology. Our project explores the convergence between databases and automatic language processing, with two central objectives. In one hand, our focus is on maintaining consistency within graph databases during updates, particularly with incomplete data and specific business rules. Maintaining consistency during updates ensures a uniform level of data quality for all users and facilitates analysis. In a world of constant change, we give priority to updates, which may involve modifying the instance to accommodate new information. But how can we effectively manage these successive updates within a graph database management system? In a second hand, we focus on the integration of information extracted from text documents, a major source of data in the medical field. In particular, we are looking at clinical cases and pharmacovigilance, a crucial area for identifying the risks and adverse effects associated with the use of drugs. But, how can we detect information in texts? How can this unstructured data be efficiently integrated into a graph database? How can it be structured automatically? And finally, what is a valid structure in this context? We are particularly interested in encouraging reproducible research by adopting a transparent and documented approach to enable independent verification and validation of our results
Estilos ABNT, Harvard, Vancouver, APA, etc.
6

Nouvel, Damien. "Reconnaissance des entités nommées par exploration de règles d'annotation - Interpréter les marqueurs d'annotation comme instructions de structuration locale". Phd thesis, Université François Rabelais - Tours, 2012. http://tel.archives-ouvertes.fr/tel-00788630.

Texto completo da fonte
Resumo:
Ces dernières décennies, le développement considérable des technologies de l'information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l'afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. Les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées afin de catégoriser, indexer ou, plus généralement, manipuler des contenus. Notre travail porte sur leur reconnaissance et leur annotation au sein de transcriptions d'émissions radiodiffusées ou télévisuelles, dans le cadre des campagnes d'évaluation Ester2 et Etape. En première partie, nous abordons la problématique de la reconnaissance automatique des entités nommées. Nous y décrivons les analyses généralement conduites pour traiter le langage naturel, discutons diverses considérations à propos des entités nommées (rétrospective des notions couvertes, typologies, évaluation et annotation) et faisons un état de l'art des approches automatiques pour les reconnaître. A travers la caractérisation de leur nature linguistique et l'interprétation de l'annotation comme structuration locale, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d'annotation, dont l'originalité consiste à considérer ces éléments isolément (début ou fin d'une annotation). En seconde partie, nous faisons état des travaux en fouille de données dont nous nous inspirons et présentons un cadre formel pour explorer les données. Les énoncés sont représentés comme séquences d'items enrichies (morpho-syntaxe, lexiques), tout en préservant les ambigüités à ce stade. Nous proposons une formulation alternative par segments, qui permet de limiter la combinatoire lors de l'exploration. Les motifs corrélés à un ou plusieurs marqueurs d'annotation sont extraits comme règles d'annotation. Celles-ci peuvent alors être utilisées par des modèles afin d'annoter des textes. La dernière partie décrit le cadre expérimental, quelques spécificités de l'implémentation du système (mXS) et les résultats obtenus. Nous montrons l'intérêt d'extraire largement les règles d'annotation, même celles qui présentent une moindre confiance. Nous expérimentons les motifs de segments, qui donnent de bonnes performances lorsqu'il s'agit de structurer les données en profondeur. Plus généralement, nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l'approche que nous proposons est compétitive et qu'elle ouvre des perspectives dans le cadre de l'observation des langues naturelles et de l'annotation automatique à l'aide de techniques de fouille de données.
Estilos ABNT, Harvard, Vancouver, APA, etc.
7

Sèdes, Florence. "Contribution au developpement des systemes bureautiques integres : gestion de donnees, repertoires, formulaires, documents". Toulouse 3, 1987. http://www.theses.fr/1987TOU30134.

Texto completo da fonte
Resumo:
Presentation d'une approche visant a integrer les bases textuelles et les bases de donnees en fournissant a l'utilisateur une interface multimedia du type formulaire. Presentation analytique de la fonction formulaire. Etude de l'environnement bureautique. Presentation de l'approche base textuelle. Les insuffisances de cette approche sont analysees ainsi que les contraintes dues au caractere non structure des informations. Il est mis en evidence alors la necessite et les avantages d'une structuration a posteriori. Le mixage d'informations de natures differentes est aussi aborde. Certains aspects sont illustres par des applications concretes
Estilos ABNT, Harvard, Vancouver, APA, etc.
8

Lai, Hien Phuong. "Vers un système interactif de structuration des index pour une recherche par le contenu dans des grandes bases d'images". Phd thesis, Université de La Rochelle, 2013. http://tel.archives-ouvertes.fr/tel-00934842.

Texto completo da fonte
Resumo:
Cette thèse s'inscrit dans la problématique de l'indexation et la recherche d'images par le contenu dans des bases d'images volumineuses. Les systèmes traditionnels de recherche d'images par le contenu se composent généralement de trois étapes: l'indexation, la structuration et la recherche. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à l'étape de structuration qui vise à organiser, dans une structure de données, les signatures visuelles des images extraites dans la phase d'indexation afin de faciliter, d'accélérer et d'améliorer les résultats de la recherche ultérieure. A la place des méthodes traditionnelles de structuration, nous étudions les méthodes de regroupement des données (clustering) qui ont pour but d'organiser les signatures en groupes d'objets homogènes (clusters), sans aucune contrainte sur la taille des clusters, en se basant sur la similarité entre eux. Afin de combler le fossé sémantique entre les concepts de haut niveau sémantique exprimés par l'utilisateur et les signatures de bas niveau sémantique extraites automatiquement dans la phase d'indexation, nous proposons d'impliquer l'utilisateur dans la phase de clustering pour qu'il puisse interagir avec le système afin d'améliorer les résultats du clustering, et donc améliorer les résultats de la recherche ultérieure. En vue d'impliquer l'utilisateur dans la phase de clustering, nous proposons un nouveau modèle de clustering semi-supervisé interactif en utilisant les contraintes par paires (must-link et cannot-link) entre les groupes d'images. Tout d'abord, les images sont regroupées par le clustering non supervisé BIRCH (Zhang et al., 1996). Ensuite, l'utilisateur est impliqué dans la boucle d'interaction afin d'aider le clustering. Pour chaque itération interactive, l'utilisateur visualise les résultats de clustering et fournit des retours au système via notre interface interactive. Par des simples cliques, l'utilisateur peut spécifier les images positives ainsi que les images négatives pour chaque cluster. Il peut aussi glisser les images entre les clusters pour demander de changer l'affectation aux clusters des images. Les contraintes par paires sont ensuite déduites en se basant sur les retours de l'utilisateur ainsi que les informations de voisinage. En tenant compte de ces contraintes, le système réorganise les clusters en utilisant la méthode de clustering semi-supervisé proposée dans cette thèse. La boucle d'interaction peut être répétée jusqu'à ce que le résultat du clustering satisfasse l'utilisateur. Différentes stratégies pour déduire les contraintes par paires entre les images sont proposées. Ces stratégies sont analysées théoriquement et expérimentalement. Afin d'éviter que les résultats expérimentaux dépendent subjectivement de l'utilisateur humain, un agent logiciel simulant le comportement de l'utilisateur humain pour donner des retours est utilisé pour nos expérimentations. En comparant notre méthode avec la méthode de clustering semi-supervisé la plus populaire HMRF-kmeans (Basu et al., 2004), notre méthode donne de meilleurs résultats.
Estilos ABNT, Harvard, Vancouver, APA, etc.
9

Guinaudeau, Camille. "Structuration automatique de flux télévisuels". Phd thesis, INSA de Rennes, 2011. http://tel.archives-ouvertes.fr/tel-00646522.

Texto completo da fonte
Resumo:
L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.
Estilos ABNT, Harvard, Vancouver, APA, etc.
10

Poli, Jean-Philippe. "Structuration automatique de flux télévisuels". Phd thesis, Université Paul Cézanne - Aix-Marseille III, 2007. http://tel.archives-ouvertes.fr/tel-00207960.

Texto completo da fonte
Resumo:
Dans le cadre du dépôt légal de la télévision, nous proposons une méthode de structuration automatique des flux télévisuels afin de procéder au catalogage des émissions.
La stabilité des grilles de programmes nous permet d'en proposer une modélisation statistique basée sur un modèle de Markov contextuel et un arbre de régression. Entraîné sur les grilles de programmes des années précédentes, ce modèle permet de pallier l'imprécision des guides de programmes (EPG, magazines). En rapprochant ces deux sources d'informations, nous sommes en mesure de prédire les séquences d'émissions les plus probables pour un jour de l'année et d'encadrer la durée des émissions.
A partir de ces grilles de programmes prédites et d'un ensemble de règles indiquant les éléments
caractéristiques d'une transition entre deux genres de programmes (images monochromes, silences ou logos), nous sommes en mesure de localiser ces ruptures à l'aide de d´etections effectuées localement dans le flux.
Estilos ABNT, Harvard, Vancouver, APA, etc.
11

Félicien, Vallet. "Structuration automatique de talk shows télévisés". Phd thesis, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00635495.

Texto completo da fonte
Resumo:
Les problématiques modernes de conservation du patrimoine numérique ont rendu les compagnies professionnelles d'archivage demandeuses de nouveaux outils d'indexation et en particulier de méthodes de structuration automatique. Dans cette thèse, nous nous intéressons à un genre télévisuel à notre connaissance peu analysé : le talk show. Inspirés de travaux issus de la communauté des sciences humaines et plus spécifiquement d'études sémiologiques, nous proposons, tout d'abord, une réflexion sur la structuration d'émissions de talk show. Ensuite, ayant souligné qu'un schéma de structuration ne peut avoir de sens que s'il s'inscrit dans une démarche de résolution de cas d'usage, nous proposons une évaluation de l'organisation ainsi dégagée au moyen d'une expérience utilisateur. Cette dernière met en avant l'importance des locuteurs et l'avantage d'utiliser le tour de parole comme entité atomique en lieu et place du plan (shot), traditionnellement adopté dans les travaux de structuration. Ayant souligné l'importance de la segmentation en locuteurs pour la structuration d'émissions de talk show, nous y consacrons spécifiquement la seconde partie de cette thèse. Nous proposons tout d'abord un état de l'art des techniques utilisées dans ce domaine de recherche et en particulier des méthodes non-supervisées. Ensuite sont présentés les résultats d'un premier travail de détection et regroupement des tours de parole. Puis, un système original exploitant de manière plus efficace l'information visuelle est enfin proposé. La validité de la méthode présentée est testée sur les corpus d'émissions Le Grand Échiquier et On n'a pas tout dit. Au regard des résultats, notre dernier système se démarque avantageusement des travaux de l'état de l'art. Il conforte l'idée que les caractéristiques visuelles peuvent être d'un grand intérêt -- même pour la résolution de tâches supposément exclusivement audio comme la segmentation en locuteurs -- et que l'utilisation de méthodes à noyau dans un contexte multimodal peut s'avérer très performante.
Estilos ABNT, Harvard, Vancouver, APA, etc.
12

Vallet, Félicien. "Structuration automatique de talk shows télévisés". Paris, Télécom ParisTech, 2011. http://pastel.archives-ouvertes.fr/pastel-00635495.

Texto completo da fonte
Resumo:
Les problématiques modernes de conservation du patrimoine numérique ont rendu les compagnies professionnelles d’archivage demandeuses de nouveaux outils d’indexation et en particulier de méthodes de structuration automatique. Dans cette thèse, nous nous intéressons à un genre télévisuel à notre connaissance peu analysé : le talk show. Inspirés de travaux issus de la communauté des sciences humaines, nous proposons, tout d’abord, une réflexion sur la structuration d’émissions de talk show. Ensuite, ayant souligné qu’un schéma de structuration ne peut avoir de sens que s’il s’inscrit dans une démarche de résolution de cas d’usage, nous proposons une évaluation de l’organisation ainsi dégagée au moyen d’une expérience utilisateur. Cette dernière met en avant l’importance des locuteurs et l’avantage d’utiliser le tour de parole comme entité atomique en lieu et place du plan (shot), traditionnellement adopté dans les travaux de structuration. Ayant souligné l’importance de la segmentation en locuteurs pour la structuration d’émissions de talk show, nous y consacrons spécifiquement la seconde partie de cette thèse. Nous proposons tout d’abord un état de l’art des techniques utilisées dans ce domaine de recherche. Ensuite sont présentés les résultats d’un premier travail de détection et regroupement des tours de parole. Puis, un système original exploitant de manière plus efficace l’information visuelle est enfin proposé. La validité de la méthode présentée est testée sur les corpus d’émissions Le Grand Échiquier et On n’a pas tout dit. Au regard des résultats, notre dernier système se démarque avantageusement des travaux de l’état de l’art
Archives professionals have high expectations for efficient indexing tools. In particular, the purpose of archiving TV broadcasts has created an expanding need for automatic content structuring methods. In this thesis, is addressed the task of structuring a particular type of TV content that has been scarcely studied in previous works, namely talk show programs. The object of this work is examined in the light of a number of sociological studies, with the aim to identify relevant prior knowledge on the basis of which the structuring approach is motivated. Then, having highlighted that a structuring scheme should be assessed according to specific use cases, a user-based evaluation is undertaken. The latter stresses out the relevance of considering the speakers’ interventions as elementary structural units instead of video shots usually employed in similar studies. Having emphasised the importance of speaker oriented detectors, the second part of this thesis is thus put on speaker diarization methods. We first propose a state of the art of the techniques — particularly unsupervised ones — used in this research domain. Then, results on a first speaker diarization system are presented. Finally, a more original system exploiting efficiently audiovisual information is finally proposed. Its validity is tested on two talk show collections : Le Grand Échiquier and On n’a pas tout dit. The results show that this new system outperforms state of the art methods. Besides, it strengthens the interest of using visual cues — even for tasks that are considered to be exclusively audio such as speaker diarization — and kernel methods in a multimodal context
Estilos ABNT, Harvard, Vancouver, APA, etc.
13

Caillaut, Gaëtan. "Apprentissage d'espaces prétopologiques pour l'extraction de connaissances structurées". Electronic Thesis or Diss., Orléans, 2019. http://www.theses.fr/2019ORLE3208.

Texto completo da fonte
Resumo:
La prétopologie est une théorie mathématique visant à relaxer les axiomes régissant la théorie, bien connue, de la topologie. L'affaiblissement de cette axiomatique passe principalement par la redéfinition de l'opérateur d'adhérence qui, en topologie, est idempotent. La non-idempotence de l'opérateur d'adhérence prétopologique offre un cadre de travail plus pertinent pour la modélisation de phénomènes variés, par exemple des processus itératifs évoluant au cours du temps. La prétopologie est le fruit de la généralisation de plusieurs concepts, parmi lesquels la topologie mais aussi la théorie des graphes. Cette thèse comprend quatre parties majeures. La première partie consiste en une introduction du cadre théorique de la prétopologie puis à une mise en lumière de plusieurs applications de la prétopologie dans des domaines tels que l'apprentissage automatique, l'analyse d'images ou encore l'étude des systèmes complexes. La seconde partie permettra de poser et de définir la modélisation logique et multi-critères d'un espace prétopologique sur laquelle est basée cette thèse. Cette modélisation permet de définir des algorithmes d'apprentissage automatique de règles logiques afin de construire des espaces prétopologiques. Cette partie se focalisera sur l'apprentissage d'espaces prétopologiques non-restreints. L'étude des espaces prétopologiques non-restreints peut s'avérer incommode, notamment lorsque la population étudiée exhibe certaines propriétés structurelles pouvant être décrites dans un espace plus restreint et plus simple à appréhender. C'est pourquoi la troisième partie est dédiée à l'apprentissage d'espaces prétopologiques de type V. Ces espaces sont définis par une famille de préfiltres, ce qui impose une structure particulière. La méthode d'apprentissage, LPSMI, présentée dans cette partie, qui constitue la contribution majeure de cette thèse, tient compte de cette structure si particulière en exploitant le concept d'apprentissage multi-instances. Enfin la dernière partie décrit plusieurs cas d'applications du cadre théorique proposé dans cette thèse. Ainsi, des applications à l'extraction de taxonomies lexicales, à la détection de communautés ainsi qu'à l'ordonnancement d'évènements temporels sont présentées et permettent de montrer l'intérêt, la souplesse et la pertinence de la prétopologie et de l'apprentissage d'espaces prétopologiques dans des domaines variés
Pretopology is a mathematical theory whose goal is to relax the set of axioms governing the well known topology theory. Weakening the set of axioms mainly consists in redefining the pseudo-closure operator which is idempotent in topology. The non-idempotence of the pretopological pseudo-closure operator offers an appropriate framework for the modeling of various phenomena, such as iterative processes evolving throughout time. Pretopology is the outcome of the generalisation of several concepts, amongst topology but also graph theory. This thesis is divided in four main parts. The first one is an introduction to the theoretical framework of the pretopology, as well as an overview of several applications in domains where the pretopology theory shines, such as machine learning, image processing or complex systems analysis.The second part will settle the logical modeling of pretopological spaces which allows to define pretopological spaces by a logical and multi-criteria combination. This modeling enables learning algorithms to define pretopological spaces by learning a logical formula. This part will also present an unrestricted pretopological spaces learning algorithm. Unrestricted pretopological spaces can be quite hard to manipulate, especially when the studied population has some structural properties that can be described in a more restricted space. This is why the third part is dedicated to the automatic learning of pretopological spaces of type V. These spaces are defined by a set of prefilters which impose a particular structure. The LPSMI algorithm, which is the main contribution of this work, is presented in this part. This algorithm relies on the multi-instance learning principles to accurately capture the structural properties of pretopological spaces of type V. Finally, the last part consists of multiple applications of the theoretical framework presented in this thesis. Applications to lexical taxonomies extraction, community detection and extraction of temporal relations, as part of a NLP process, will be presented in order to show the usefulness, the relevance and the flexibility of pretopological spaces learning
Estilos ABNT, Harvard, Vancouver, APA, etc.
14

Zhu, Xuan. "Structuration automatique en locuteurs par approche acoustique". Phd thesis, Université Paris Sud - Paris XI, 2007. http://tel.archives-ouvertes.fr/tel-00624061.

Texto completo da fonte
Resumo:
Cette thèse porte sur la structuration en locuteurs de différents types d'enregistrements audio, en particulier des journaux télévisés ou radiophoniques et des réunions. La structuration en locuteurs a pour objectif de répondre à la question ''qui a parlé quand'' dans un document audio donné. Cette thèse fait l'hypothèse qu'aucune connaissance a priori sur la voix de locuteurs ou sur leur nombre n'est disponible. La principale originalité du système de structuration en locuteurs pour des journaux télévisés ou radiophoniques présenté est de combiner deux étapes de regroupement en locuteurs: la première étape se fonde sur le Critère d'Information Bayesien (BIC) avec des Gaussiennes à matrice de covariance pleine et la deuxième étape de regroupement recombine les classes résultant en utilisant des techniques proposées pour l'identification du locuteur et utilisant des modèle de mélange de Gaussiennes (GMM) adaptés à partir d'un modèle générique. Ce système a été validé dans l'évaluation internationale NIST RT-04F (Rich Transcription 2004 Fall) et l'évaluation française ESTER 2005 du projet Technolangue EVALDA. Il a obtenu les meilleurs résultats dans les deux évaluations. Le système de structuration en locuteurs conçu pour les journaux télévisés a également été adapté aux réunions. Il intègre un nouveau détecteur de parole fondé sur le rapport de log-vraisemblance. Diverses techniques de normalisation des paramètres acoustiques et différentes représentations acoustiques ont été testées au cours de cette adaptation. Dans la dernière évaluation du NIST sur de réunions, le système adapté a eu un taux d'erreur de 26% environ sur les données de conférences et séminaires.
Estilos ABNT, Harvard, Vancouver, APA, etc.
15

Naturel, Xavier. "Structuration automatique de flux vidéos de télévision". Phd thesis, Université Rennes 1, 2007. http://tel.archives-ouvertes.fr/tel-00524584.

Texto completo da fonte
Resumo:
La structuration automatique de flux de télévision est un nouveau sujet de recherche, dont l'apparition est liée à l'augmentation de volume des archives de vidéos numériques de télévision. Cette thèse propose une chaîne complète de structuration, qui permet de segmenter et d'étiqueter automatiquement un flux télévisé. Les travaux présentés se divisent en quatre parties : la définition d'outils, la segmentation, l'étiquetage, et la mise à jour. Un flux de télévision est intrinsèquement répétitif. L'une des idées directrices de la thèse est de considérer les répétitions comme une aide essentielle pour la structuration, en particulier pour réaliser la distinction entre les programmes et les inter-programmes. Une méthode rapide de détection des répétitions dans des flux vidéos est proposée, permettant de gérer d'importants volumes vidéos, à partir d'une base de vidéos de référence, étiquetée manuellement. Grâce à un outil, ainsi qu'à la détection des séparations entre publicités, une segmentation en programmes/inter-programmes est réalisée. Les segments sont alors étiquetés à partir du guide des programmes, en réalisant un alignement global par dynamic time warping. Enfin, une étape de mise à jour permet de réduire la dépendance à une base de Référence manuelle, ainsi que de réduire la baisse de qualité des résultats de structuration au cours du temps.
Estilos ABNT, Harvard, Vancouver, APA, etc.
16

Naturel, Xavier Gros Patrick. "Structuration automatique de flux vidéos de télévision". [S.l.] : [s.n.], 2007. ftp://ftp.irisa.fr/techreports/theses/2007/naturel.pdf.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
17

Pigeau, Antoine. "Structuration géo-temporelle de données multimédia personnelles". Phd thesis, Nantes, 2005. http://www.theses.fr/2005NANT2131.

Texto completo da fonte
Resumo:
Les travaux de recherche présentés dans cette thèse portent sur la classification de ollections d'images personnelles acquises à partir d'un mobile. Nous avons choisi de traiter la structuration de la collection d'images comme un problème de classification. Notre approche est basée sur la construction de deux partitions distinctes, l'une temporelle et l'autre spatiale, à partir des métadonnées des images : leur date et leur géolocalisation. Les principaux ingrédients de notre approche sont les modèles de mélange gaussien et le critère statistique ICL pour déterminer leur complexité. Un algorithme d'optimisation incrémental du critère ICL est tout d'abord proposé, permettant la construction de partitions non-hiérarchiques. Il est ensuite combiné avec un algorithme agglomératif pour fournir un algorithme hiérarchique incrémental. Enfin nous proposons plusieurs techniques, pour construire des partitions ybridespatio-temporelles, prenant en compte les contraintes d'IHM sur un mobile
Usage of mobile devices raises the need for organizing large personal multimedia collection. The present work focus on personal image collections acquired from mobile phones equipped with a camera. We deal with the structuring of an image collection as a clustering problem. Our solution consists in building two distinct temporal and spatial partitions, based on the temporal and spatial metadata of each image. The main ingredients of our approach are the Gaussian mixture models and the ICL criterion to determine the models complexities. First, we propose an incremental optimization algorithm to build non-hierarchical partitions in an automatic manner. It is then combined with an agglomerative algorithm to provide an incremental hierarchical algorithm. Finally, two techniques are roposed to build hybrid spatio-temporal classifications taking into account the human machine interaction constraints
Estilos ABNT, Harvard, Vancouver, APA, etc.
18

Nadif, Mohamed. "Classification automatique et données manquantes". Metz, 1991. http://docnum.univ-lorraine.fr/public/UPV-M/Theses/1991/Nadif.Mohamed.SMZ912.pdf.

Texto completo da fonte
Resumo:
Face à un problème pratique de traitements de données, il arrive souvent qu'un certain nombre desdites données se trouve manquer, et dont l'absence peut être imputable à diverses raisons comme une erreur de saisie ou d'expérimentation ou un refus de répondre. Notre travail a consisté à classifier un ensemble d'individus décrits par des variables binaires ou qualitatives nominales sachant que certaines de ces variables n'ont pas été relevées. Les modèles probabilistes étant notre principal outil pour étudier et proposer des solutions au problème de la classification automatique en présence de données manquantes, nous commencons par rappeler comment la classification peut être vue comme une solution à un problème d'estimation de paramètres d'un modèle de mélanges et comment associer à l'algorithme EM (Estimation, Maximisation) un algorithme CEM (Classification, Estimation, Maximisation). En nous appuyant sur les modèles de Bernoulli et en faisant une hypothèse sur la distribution des données manquantes, nous retenons comme critère, l'espérance de la vraisemblance classifiante. Ensuite, nous utilisons le processus de l'algorithme EM en supposant que les données manquantes suivent le modèle de Bernoulli choisi. De plus, l'extension de cet algorithme est étudiée dans ce travail. Nous nous sommes aussi intéressés à la reconstitution des données non observées. Toutes les méthodes proposées dans cette thèse ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif de classification automatique, INRIA) et ont été appliquées sur des données simulées et réelles
Estilos ABNT, Harvard, Vancouver, APA, etc.
19

Falip, Joris. "Structuration de données multidimensionnelles : une approche basée instance pour l'exploration de données médicales". Thesis, Reims, 2019. http://www.theses.fr/2019REIMS014/document.

Texto completo da fonte
Resumo:
L'exploitation, a posteriori, des données médicales accumulées par les praticiens représente un enjeu majeur pour la recherche clinique comme pour le suivi personnalisé du patient. Toutefois les professionnels de santé manquent d'outils adaptés leur permettant d'explorer, comprendre et manipuler aisément leur données. Dans ce but, nous proposons un algorithme de structuration d'éléments par similarité et représentativité. Cette méthode permet de regrouper les individus d'un jeu de données autour de membres représentatifs et génériques aptes à subsumer les éléments et résumer les données. Cette méthode, procédant dimension par dimension avant d'agréger les résultats, est adaptée aux données en haute dimension et propose de plus des résultats transparents, interprétables et explicables. Les résultats obtenus favorisent l'analyse exploratoire et le raisonnement par analogie via une navigation de proche en proche : la structure obtenue est en effet similaire à l'organisation des connaissances utilisée par les experts lors du processus décisionnel qu'ils emploient. Nous proposons ensuite un algorithme de détection d'anomalies qui permet de détecter des anomalies complexes et en haute dimensionnalité en analysant des projections sur deux dimensions. Cette approche propose elle aussi des résultats interprétables. Nous évaluons ensuite ces deux algorithmes sur des données réelles et simulées dont les éléments sont décrits par de nombreuses variables : de quelques dizaines à plusieurs milliers. Nous analysant particulièrement les propriétés du graphe résultant de la structuration des éléments. Nous décrivons par la suite un outil de prétraitement de données médicales ainsi qu'une plateforme web destinée aux médecins. Via cet outil à l'utilisation intuitif nous proposons de structurer de manière visuelle les éléments pour faciliter leur exploration. Ce prototype fournit une aide à la décision et au diagnostique médical en permettant au médecin de naviguer au sein des données et d'explorer des patients similaires. Cela peut aussi permettre de vérifier des hypothèses cliniques sur une cohorte de patients
A posteriori use of medical data accumulated by practitioners represents a major challenge for clinical research as well as for personalized patient follow-up. However, health professionals lack the appropriate tools to easily explore, understand and manipulate their data. To solve this, we propose an algorithm to structure elements by similarity and representativeness. This method allows individuals in a dataset to be grouped around representative and generic members who are able to subsume the elements and summarize the data. This approach processes each dimension individually before aggregating the results and is adapted to high-dimensional data and also offers transparent, interpretable and explainable results. The results we obtain are suitable for exploratory analysis and reasoning by analogy: the structure is similar to the organization of knowledge and decision-making process used by experts. We then propose an anomaly detection algorithm that allows complex and high-dimensional anomalies to be detected by analyzing two-dimensional projections. This approach also provides interpretable results. We evaluate these two algorithms on real and simulated high-dimensional data with up to thousands of dimensions. We analyze the properties of graphs resulting from the structuring of elements. We then describe a medical data pre-processing tool and a web application for physicians. Through this intuitive tool, we propose a visual structure of the elements to ease the exploration. This decision support prototype assists medical diagnosis by allowing the physician to navigate through the data and explore similar patients. It can also be used to test clinical hypotheses on a cohort of patients
Estilos ABNT, Harvard, Vancouver, APA, etc.
20

Rouvier, Mickael. "Structuration de contenus audio-visuel pour le résumé automatique". Phd thesis, Université d'Avignon, 2011. http://tel.archives-ouvertes.fr/tel-00954238.

Texto completo da fonte
Resumo:
Ces dernières années, avec l'apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l'accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l'essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l'analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l'extraction des contenus, la structuration des documents, la définition et l'estimation des fonctions d'intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l'extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu'elle repose sur la construction d'un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d'auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l'approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l'analyse factorielle telle qu'elle a été utilisée récemment en identification du locuteur. L'originalité de notre contribution tient à l'utilisation des décompositions par analyse factorielle pour l'estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l'utilisation de différents niveaux de représentation et de différentes sources d'informations permet de caractériser le style éditorial d'une vidéo en se basant principalement sur l'analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l'essentiel de l'information relative au genre était contenue dans l'image. Une autre contribution concerne l'identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l'état de l'art sur ce type d'approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu'est une vue synthétique. S'agit-il de ce qui le caractérise globalement ou de ce qu'un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d'intérêts correspondants à 3 différents critères : la saillance, l'expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d'intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers.
Estilos ABNT, Harvard, Vancouver, APA, etc.
21

Rouvier, Mickaël. "Structuration de contenus audio-visuel pour le résumé automatique". Thesis, Avignon, 2011. http://www.theses.fr/2011AVIG0192/document.

Texto completo da fonte
Resumo:
Ces dernières années, avec l’apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l’accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l’essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l’analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l’extraction des contenus, la structuration des documents, la définition et l’estimation des fonctions d’intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l’extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu’elle repose sur la construction d’un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d’auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l’approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l’analyse factorielle telle qu’elle a été utilisée récemment en identification du locuteur. L’originalité de notre contribution tient à l’utilisation des décompositions par analyse factorielle pour l’estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l’utilisation de différents niveaux de représentation et de différentes sources d’informations permet de caractériser le style éditorial d’une vidéo en se basant principalement sur l’analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l’essentiel de l’information relative au genre était contenue dans l’image. Une autre contribution concerne l’identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l’état de l’art sur ce type d’approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu’est une vue synthétique. S’agit-il de ce qui le caractérise globalement ou de ce qu’un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d’intérêts correspondants à 3 différents critères : la saillance, l’expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d’intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers
These last years, with the advent of sites such as Youtube, Dailymotion or Blip TV, the number of videos available on the Internet has increased considerably. The size and their lack of structure of these collections limit access to the contents. Sum- marization is one way to produce snippets that extract the essential content and present it as concisely as possible.In this work, we focus on extraction methods for video summary, based on au- dio analysis. We treat various scientific problems related to this objective : content extraction, document structuring, definition and estimation of objective function and algorithm extraction.On each of these aspects, we make concrete proposals that are evaluated.On content extraction, we present a fast spoken-term detection. The main no- velty of this approach is that it relies on the construction of a detector based on search terms. We show that this strategy of self-organization of the detector im- proves system robustness, which significantly exceeds the classical approach based on automatic speech recogntion.We then present an acoustic filtering method for automatic speech recognition based on Gaussian mixture models and factor analysis as it was used recently in speaker identification. The originality of our contribution is the use of decomposi- tion by factor analysis for estimating supervised filters in the cepstral domain.We then discuss the issues of structuring video collections. We show that the use of different levels of representation and different sources of information in or- der to characterize the editorial style of a video is principaly based on audio analy- sis, whereas most previous works suggested that the bulk of information on gender was contained in the image. Another contribution concerns the type of discourse identification ; we propose low-level models for detecting spontaneous speech that significantly improve the state of the art for this kind of approaches.The third focus of this work concerns the summary itself. As part of video summarization, we first try, to define what a synthetic view is. Is that what cha- racterizes the whole document, or what a user would remember (by example an emotional or funny moment) ? This issue is discussed and we make some concrete proposals for the definition of objective functions corresponding to three different criteria : salience, expressiveness and significance. We then propose an algorithm for finding the sum of the maximum interest that derives from the one introduced in previous works, based on integer linear programming
Estilos ABNT, Harvard, Vancouver, APA, etc.
22

Gelgon, Marc. "Structuration statistique de données multimédia pour la recherche d'information". Habilitation à diriger des recherches, Université de Nantes, 2007. http://tel.archives-ouvertes.fr/tel-00450297.

Texto completo da fonte
Resumo:
L'unité du travail réside en ce qu'on s'intéresse à la recherche de structure dans les données numériques (issues de données multimédia), en vue d'y faciliter la recherche d'information. Le cadre méthodologique de la résolution est que nous privilégions ici celui des modèles probabi- listes, en particulier les mélanges de lois, et de l'estimation statistique associée. La recherche de structure implique que le jeu de données étudié est composé de sous-populations de caracté- ristiques distinctes : il s'agit de séparer et de caractériser ces sous-populations, deux problèmes fortement imbriqués. Les entités extraites et les attributs qu'on en leur associe seront alors directement utiles pour la recherche d'information.
Estilos ABNT, Harvard, Vancouver, APA, etc.
23

Almeida, Barbosa Plínio. "Caractérisation et génération automatique de la structuration rythmique du français". Grenoble INPG, 1994. http://www.theses.fr/1994INPG0119.

Texto completo da fonte
Resumo:
Une approche ascendante a permis de reveler la structuration macrorythmique de la phrase lue en francais par l'analyse de corpora de parole naturelle enregistres par un locuteur. L'emergence de cette structure a ete possible grace a un double concours. D'abord, celui du perceptual-center, point d'ancrage acoustique singulier, au voisinage de l'onset de la voyelle: ce paradigme theorique a permis de definir le groupe inter-perceptual-center (gipc), dans lequel les realisations phonemiques s'allongent ou se retrecissent de facon relativement homogene. Ensuite, celui du z-score, duree normalisee qui est calculee pour chaque gipc de la phrase. Ces deux notions ont permis de degager un groupe accentuel qui ralentit des son debut jusqu'a la realisation de l'accent. La force de celui-ci tend a etre proportionnelle a la force du lien syntagmatique qui unit ce groupe accentuel au suivant. Cette structure est generee dynamiquement par un reseau connexionniste, permettant ainsi de conserver la structure rythmique comme mouvement dirige vers un but. Ce mouvement est cadence par une horloge interne, hypothese de travail qui assure le maintien de la tendance a l'isochronisme. Ensuite, un modele de repartition permet de distribuer la duree du gipc entre ses elements phonemiques. Ces deux etapes constituent un modele de generation de la duree segmentale qui peut etre integre dans un systeme de synthese de la parole. Le choix du z-score pour caracteriser la duree du gipc a permis d'integrer au modele de generation l'emergence de la pause au niveau de la substance de l'expression. Cette generation est structuree et tend a conserver la composante macrorythmique de la parole
Estilos ABNT, Harvard, Vancouver, APA, etc.
24

Ben, Meftah Salma. "Structuration sématique de documents XML centres-documents". Thesis, Toulouse 1, 2017. http://www.theses.fr/2017TOU10061/document.

Texto completo da fonte
Resumo:
La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document
Le résumé en anglais n'a pas été communiqué par l'auteur
Estilos ABNT, Harvard, Vancouver, APA, etc.
25

Benadi, Sofiane Abdelkader. "Structuration des données et des services pour le télé-enseignement". Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0058/these.pdf.

Texto completo da fonte
Resumo:
La révolution des STIC touche fondamentalement le domaine éducatif. En s'inscrivant dans ce courant, cette thèse porte sur la conception d'environnements informatiques pour le télé-enseignement. Plus particulièrement, notre travail concerne la mise en place d'un modèle pour la structuration des données et des services dont le but est de servir de base à la conception d'environnements hypermédias permettant la génération dynamique d'activités pédagogiques adaptées aux profils et aux préférences des apprenants. Cette adaptation est réalisée grâce à l'usage des différents langages gravitant autour de la technologie XML et grâce à un découpage horizontal du système en trois niveaux interdépendants (niveaux Support, Structure et Sémantique). Leur rôle respectif est expliqué en décrivant, à chaque fois, les intérêts de cette modélisation. Nous décrivons enfin une plate-forme respectant ce modèle qui a été implémenté afin de valider l'ensemble de nos propositions. Plan de thèse : Le premier chapitre de la thèse présente le domaine de l'EIAH au travers de quelques modèles de l'informatique pédagogique. L'évolution de ce domaine nous amène à poursuivre ce chapitre par la présentation des principaux systèmes d'enseignement assisté par ordinateur. Ayant marqué les recherches dans ce domaine, nous présentons ensuite notre vision de ce qui est appelé l'ingénierie pédagogique. Nous aborderons par la suite la normalisation de l'enseignement à distance avec une brève histoire des normes et de leurs enjeux majeurs. Nous terminons par un bilan sur la situation actuelle et notre proposition d'évolution. Dans le deuxième chapitre nous parlons d'adaptativité des interfaces et des aspects pris en compte pour la modélisation des apprenants ce qui nous amène à discuter des travaux réalisés dans le domaine des systèmes hypermédias adaptatifs. Nous finissons par un bilan sur l'adaptativité des interfaces EIAH. Le troisième chapitre concerne les spécifications de notre modèle nommé AHXEL. Les différentes approches sur lesquelles nous nous sommes appuyées pour définir ces spécifications sont d'abord présentées. Ensuite, nous décrivons comment nous avons mis en oeuvre le modèle apprenant et la structuration des activités pédagogiques multimédias que celà impose. Enfin, un bilan sur notre modèle de gestion des documents pédagogiques nous permet de la situer par rapport à d'autres architectures existances. Le quatrième chapitre décrit la mise en oeuvre du modèle AHXEL. Cette mise en oeuvre est abordée du côté contenu et du côté contenant (plateforme OWASIS). Les besoins en terme d'architecture informatique sont mis en évidence. Puis les choix techniques effectués pour la réalisation informatique sont précisés. L'implémentation du modèle AHXEL est alors exposée dans le détail à l'aide d'illustrations. Le cinquième chapitre présente le processus devant être suivi par les auteurs durant la création de contenu avec quelques résultats et exemples de consultation. Puis, deux expérimentations de notre environnement sont décrites. Les objectifs de ces expérimentations, leur déroulement et leurs résultats sont présentés. Pour conclure nous effectuons un bilan de notre travail et nous ouvrons de nouvelles perspectives de recherches
The evolution of the ICT basically touches the educational field. While fitting in this current, this thesis relates to the design of environments for e-learning. More particularly, our work concerns the implementation of a model for structuring the data and the services whose goal is to used as a basic for the design of hypermedia environments allowing the dynamic generation of pedagogical activities adapted to the profiles and the preferences of the learners. This adaptation is carried out thanks to the use of the various languages revolving around XML technology and thanks to a horizontal system division in three interdependent levels (support, structure and semantics levels). Their respective roles are explained each time by describing the interests of this modelling. Finally, we describe a platform respecting this model which was implemented in order to validate all our proposals
Estilos ABNT, Harvard, Vancouver, APA, etc.
26

Njike, Fotzo Hermine. "Structuration Automatique de Corpus Textuels par Apprentissage Automatique : Automatically structuring textual corpora with machine learning methods". Paris 6, 2004. http://www.theses.fr/2004PA066567.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
27

Scheffer, Nicolas. "Structuration de l'espace acoustique par le modèle générique pour la vérification du locuteur". Avignon, 2006. http://www.theses.fr/2006AVIG0146.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
28

Daniel-Vatonne, Marie-Christine. "Les termes : un modèle de représentation et structuration de données symboliques". Montpellier 2, 1993. http://www.theses.fr/1993MON20031.

Texto completo da fonte
Resumo:
Nos travaux se situent dans le cadre de l'analyse conceptuelle des donnees. Notre objectif est de generaliser les representations par variables binaires ou nominales en y adjoignant la modelisation de structures internes. Le probleme est de ne pas perdre en complexite algorithmique ce qui est gagne en puissance de representation. Selon ces considerations, decrire les donnees et les classes de donnees par des structures arborescentes est un bon compromis. Le systeme de representation que nous proposons s'appuie sur un modele algebrique: les magmas. Il permet de construire des termes assimilables a des arborescences finies, etiquetees et typees. Leur interpretation est intuitive et ils autorisent les descriptions recursives. Une relation d'ordre naturel, la generalisation, induit un treillis sur les termes. Nous etudions ce treillis et montrons qu'il possede des proprietes proches de celles d'un treillis booleen. En particulier, nous montrons que l'on peut construire un treillis de galois mettant en correspondance des ensembles d'objets et leur description par des termes
Estilos ABNT, Harvard, Vancouver, APA, etc.
29

Dupont, Yoann. "La structuration dans les entités nommées". Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCA100/document.

Texto completo da fonte
Resumo:
La reconnaissance des entités nommées et une discipline cruciale du domaine du TAL. Elle sert à l'extraction de relations entre entités nommées, ce qui permet la construction d'une base de connaissance (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc... Nous nous intéressons ici aux phénomènes de structurations qui les entourent.Nous distinguons ici deux types d'éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appelerons les affixes caractéristiques d'une entité nommée. Le second type d'éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l'algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l'extraction d'entités nommées du Français et d'adresses postales.Une autre forme de structuration pour les entités nommées est de nature syntaxique, qui suit généralement une structure d'imbrications ou arborée. Nous proposons un type de cascade d'étiqueteurs linéaires qui n'avait jusqu'à présent jamais été utilisé pour la reconnaissance d'entités nommées, généralisant les approches précédentes qui ne sont capables de reconnaître des entités de profondeur finie ou ne pouvant modéliser certaines particularités des entités nommées structurées.Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients de chacune des méthodes
Named entity recognition is a crucial discipline of NLP. It is used to extract relations between named entities, which allows the construction of knowledge bases (Surdeanu and Ji, 2014), automatic summary (Nobata et al., 2002) and so on. Our interest in this thesis revolves around structuration phenomena that surround them.We distinguish here two kinds of structural elements in named entities. The first one are recurrent substrings, that we will call the caracteristic affixes of a named entity. The second type of element is tokens with a good discriminative power, which we call trigger tokens of named entities. We will explain here the algorithm we provided to extract such affixes, which we will compare to Morfessor (Creutz and Lagus, 2005b). We will then apply the same algorithm to extract trigger tokens, which we will use for French named entity recognition and postal address extraction.Another form of structuration for named entities is of a syntactic nature. It follows an overlapping or tree structure. We propose a novel kind of linear tagger cascade which have not been used before for structured named entity recognition, generalising other previous methods that are only able to recognise named entities of a fixed depth or being unable to model certain characteristics of the structure. Ours, however, can do both.Throughout this thesis, we compare two machine learning methods, CRFs and neural networks, for which we will compare respective advantages and drawbacks
Estilos ABNT, Harvard, Vancouver, APA, etc.
30

Mühlhoff, Philippe. "HBDS structuration d'un système de CAO intergraph". Paris 6, 1990. http://www.theses.fr/1990PA066634.

Texto completo da fonte
Resumo:
Ce travail est organisé en deux parties. La première partie est la description des systèmes de CAO Intergraph de base VAX/VMS et Unix. Les systèmes de CAO traditionnels sont d'abord décrits. Ils sont basés sur le langage graphique IGDS et sur le gestionnaire de bases de données DMRS. Ensuite, les nouveaux systèmes de CAO Intergraph sont décrits. Ils incorporent dans le noyau graphique un langage orienté objet et sont développes dans le monde Unix. La deuxième partie de la thèse consiste en l'élaboration d'un noyau basé sur les notions de message et de types abstraits de données. Sur cette base est développé un système d'exploitation et un langage graphique basé sur les diagrammes de Petri. Ces développements nous permettent de modéliser et décrire algorithmiquement la couche de géométrie associative d'intergraph. Cette deuxième partie se termine sur les possibilités de requêtes à base de clauses de Horn (Prolog) pour interroger des structures HBDS ainsi que sur la possibilité d'utiliser un noyau à base de messages et TAD pour faire de la simulation discrète. En dernière partie (annexe), tous les outils employés dans la thèse sont décrits ainsi que deux systèmes d'information géographique (Tigris et DLG/E).
Estilos ABNT, Harvard, Vancouver, APA, etc.
31

Sautot, Lucile. "Conception et implémentation semi-automatique des entrepôts de données : application aux données écologiques". Thesis, Dijon, 2015. http://www.theses.fr/2015DIJOS055/document.

Texto completo da fonte
Resumo:
Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...)
This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...)
Estilos ABNT, Harvard, Vancouver, APA, etc.
32

Megdiche, Bousarsar Imen. "Intégration holistique et entreposage automatique des données ouvertes". Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30214/document.

Texto completo da fonte
Resumo:
Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations
Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations
Estilos ABNT, Harvard, Vancouver, APA, etc.
33

Tlili, Assed. "Structuration des données de la conception d'un bâtiment pour une utilisation informatique". Phd thesis, Ecole Nationale des Ponts et Chaussées, 1986. http://tel.archives-ouvertes.fr/tel-00529509.

Texto completo da fonte
Resumo:
Cette recherche propose une structure et un dictionnaire de données de la conception thermique d'un bâtiment d'habitation. L'analyse qui y est effectuée facilite la tâche des créateurs de logiciels spécifiques aux différents domaines de la conception des bâtiments en les dispensant des analyses séparées et répétées. Ces logiciels se partagent les données, saisies et manipulées une seule fois, et les échangent entre eux sans problèmes de compatibilité. La démarche se résume en quatre points : - L'analyse préliminaire de la conception d'un bâtiment fournit des listes, de phases, de fonctions et tâches, de dossiers et documents, et enfin d'ouvrages, à partir desquelles pourraient être collectées les données. - Cette collecte sera effectuée dans le domaine restreint de la conception thermique, pour permettre une analyse plus détaillée. Celle-ci aboutit, grâce aux méthodes de structuration, à la "structure brute" du premier niveau, qui contient des fichiers, et à la "structure simplifiée" du second niveau, qui contient des structures de données. - La "méta-structure" du troisième niveau contient la totalité des résultats dans le fichier "STRUCTURE" : nomenclature des données classées par types, et le fichier "DICTIONNAIRE" : tous les paramètres des données classées par ordre alphabétique. - L'application est réalisée grâce au fichier "BASE", dont le contenu (identifiants et valeurs des données) est saisi une seule fois par le premier utilisateur. La méthode qui a permis la proposition de ces résultats pour ce domaine restreint reste valable pour les domaines non traités. Le traitement de tous les domaines de la conception d'un bâtiment aboutirait à un système de CAO global.
Estilos ABNT, Harvard, Vancouver, APA, etc.
34

Aguila, Orieta Del. "Analyse et structuration des données dans les logiciels de CAO en électromagnétisme". Grenoble INPG, 1988. http://www.theses.fr/1988INPG0077.

Texto completo da fonte
Resumo:
Cette étude s'inscrit dans le cadre de l'application de la méthode des éléments finis au calcul des champs électromagnétiques. La complexité des logiciels réalisés nous a conduit à clarifier les concepts de structures des données ainsi que les moyens informatiques qui permettent la mise en oeuvre de ces structures. Après avoir effectué une étude bibliographique exhaustive concernant les bases de données nous présentons les caractéristiques essentielles des données rencontrées en CAO afin de déterminer les modèles de données qui s'adaptent le mieux à notre problème. Bien qu'il n'y ait pas un modèle unique pour la CAO, nous fournirons les éléments permettant d'appréhender la solution la mieux adaptée à chacun des programmes rencontrés. Nous présentons ensuite deux logiciels de CAO qui utilisent la méthode des éléments finis FLUX 3D pour l'électromagnétisme, I-DEAS Supertab pour la mécanique et nous analysons leurs structures de données. Nous présentons enfin quelques algorithmes de maillage de surfaces en 3D ainsi que des algorithmes de visualisation d'objets avec élimination des parties cachets
Estilos ABNT, Harvard, Vancouver, APA, etc.
35

Cho, Choong-Ho. "Structuration des données et caractérisation des ordonnancements admissibles des systèmes de production". Lyon, INSA, 1989. http://www.theses.fr/1989ISAL0053.

Texto completo da fonte
Resumo:
Dans ce mémoire, nous proposons, dans une phase préliminaire, la spécification et la modélisation de la base de données pour l'ordonnancement au sein d'une architecture hiérarchique de gestion de production, et de façon plus approfondie, la spécification analytique des ensembles de solutions admissibles pour aider à l'ordonnancement de trois types d'ateliers différents : - l'un, composé de plusieurs machines en en considérant les temps de réglage comme important sous des contraintes ensemblistes et Cou séquentielles, "flow-shop", un critère potentielles - un autre, composé d'une machine seule, avec des contraintes de dates limite de lots, la machine étant assimilée à une cellule de gestion au sein de l'atelier, et le "job-shop" classique, avec les trois contraintes précédentes: ensemblistes, potentielles, et dates limite. Un des caractères originaux de ce travail notamment, l'introduction d'une nouvelle structure de pour modéliser des familles de séquences de tâches
This work deals, on the one band, with the specification and the modelization of data bases for the scheduling problems in a hierarchical architecture of manufacturing systems, on the other hand, with the analytical specification of the set of feasible solutions for the decision support scheduling problems about three different types of workshops: - first, made up several machines (flowshop: sequences of operations are the same for all jobs), considering the important cri teri on as the set up times under set tasks groups) and potential. Constraints, - second, with only one machine, under the given due dates of jobs constraints, finally, organised in a jobshop, under the three previous constraints: set, potential and due dates. One of original researchs concerns the new structure: PQR trees, to characterise the set of feasible sequences of tasks
Estilos ABNT, Harvard, Vancouver, APA, etc.
36

Méger, Nicolas. "Recherche automatique des fenêtres temporelles optimales des motifs séquentiels". Lyon, INSA, 2004. http://theses.insa-lyon.fr/publication/2004ISAL0095/these.pdf.

Texto completo da fonte
Resumo:
Ce mémoire concerne l'extraction sous contraintes de motifs dans une séquence d'événements. Les motifs extraits sont des règles d'épisodes. L'apport principal réside dans la détermination automatique de la fenêtre temporelle optimale de chaque règle d'épisodes. Nous proposons de n'extraire que les règles pour lesquelles il existe une telle fenêtre. Ces règles sont appelées FLM-règles. Nous présentons un algorithme, WinMiner, pour extraire les FLM-règles, sous les contraintes de support minimum, de confiance minimum, et de gap maximum. Les preuves de la correction de cet algorithme sont fournies. Nous proposons également une mesure d'intérêt dédiée qui permet de sélectionner les FLM-règles pour lesquelles il existe une forte dépendance entre corps et tête de règle. Deux applications de cet algorithme sont décrites. L'une concerne des données médicales tandis que l'autre a été réalisée sur des données sismiques
This work addresses the problem of mining patterns under constraints in event sequences. Extracted patterns are episode rules. Our main contribution is an automatic search for optimal time window of each one of the episode rules. We propose to extract only rules having such an optimal time window. These rules are termed FLM-rules. We present an algorithm, WinMiner, that aims to extract FLM-rules, given a minimum support threshold, a minimum confidence threshold and a maximum gap constraint. Proofs of the correctness of this algorithm are supplied. We also propose a dedicated interest measure that aims to select FLM-rules such that their heads and bodies can be considered as dependant. Two applications are described. The first one is about mining medical datasets while the other one deals with seismic datasets
Estilos ABNT, Harvard, Vancouver, APA, etc.
37

Aouiche, Kamel. "Techniques de fouille de données pour l'optimisation automatique des performances des entrepôts de données". Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/aouiche_k.

Texto completo da fonte
Resumo:
Avec le développement des bases de données en général et des entrepôts de données en particulier, il est devenu très important de réduire les tâches d'administration des systèmes de gestion de base de données. Les systèmes auto-administratifs ont pour objectif de s'administrer et de s'adapter eux-mêmes, automatiquement, sans perte ou même avec un gain de performance. L'idée d'utiliser des techniques de fouille de données pour extraire des connaissances utiles à partir des données stockées pour leur administration est une approche très prometteuse, notamment dans le domaine des entrepôts de données, où les requêtes sont très hétérogènes et ne peuvent pas être interprétées facilement. L'objectif de cette thèse est d'étudier les techniques d'auto-administration des entrepôts de données, principalement des techniques d'optimisation des performances, comme l'indexation et la matérialisation de vues, et de rechercher une manière d'extraire des données elles-mêmes des connaissances utilisables pour appliquer ces techniques. Nous avons réalisé un outil qui recommande une configuration d'index et de vues matérialisées permettant d'optimiser le temps d'accès aux données. Notre outil effectue une recherche de motifs fréquents fermés sur une charge donnée et une classification non supervisée des requêtes de la charge pour construire cette configuration d'index et de vues. Nous avons également couplé la sélection d'index et de vues matérialisées afin de partager efficacement l'espace de disque alloué pour stocker ces structures. Enfin, nous avons appliqué les principes développés dans le cadre relationnel aux entrepôts de données XML. Nous avons proposé une structure d'index précalculant les jointures entre les faits et les dimensions XML et adapté notre stratégie de sélection de vues pour matérialiser des vues XML
With the development of databases in general and data warehouses in particular, it becomes very important to reduce the function of administration. The aim of auto-administrative systems is administrate and adapt themselves automatically, without loss or even with a gain in performance. The idea of using data mining techniques to extract useful knowledge for administration from the data themselves has been in the air for some years. However, no research has ever been achieved. As for as we know, it nevertheless remains a very promising approach, notably in the field of the data warehousing, where the queries are very heterogeneous and cannot be interpreted easily. The aim of this thesis is to study auto-administration techniques in databases and data warehouses, mainly performance optimization techniques such as indexing and view materialization, and to look for a way of extracting from stored data themselves useful knowledge to apply these techniques. We have designed a tool that finds an index and view configuration allowing to optimize data access time. Our tool searches frequent itemsets in a given workload and clusters the query workload to compute this index and view configuration. Finally, we have extended the performance optimization to XML data warehouses. In this area, we proposed an indexing technique that precomputes joins between XML facts and dimensions and adapted our materialized view selection strategy for XML materialized views
Estilos ABNT, Harvard, Vancouver, APA, etc.
38

Guo, Li. "Classifieurs multiples intégarnt la marge d'ensemble. Application aux données de télédétection". Bordeaux 3, 2011. http://www.theses.fr/2011BOR30022.

Texto completo da fonte
Resumo:
Cette thèse se concentre sur l’exploitation du concept de marge d’ensemble pour concevoir de meilleurs classifieurs. Des problèmes relatifs aux données d’apprentissage, tels que la redondance, les classes déséquilibrées et le bruit, sont abordés dans un cadre intégrant la marge d’ensemble. Une définition alternative de la marge d’ensemble est à la base de ce travail. Une approche innovante pour mesurer l’importance de chaque donnée vis-à-vis du processus d’apprentissage est introduite. Nous montrons qu’il y a moins de redondance dans les instances de plus faible marge que dans celles de plus forte marge. De plus, ces instances de plus faibles marge portent plus d’informations significatives que celles de plus forte marge. Par conséquent, ces instances de faible marge ont une influence majeure dans la constitution d’un échantillon d’apprentissage adéquat pour la construction d’un classifieur fiable. Nous proposons une nouvelle méthode de bagging de frontière, basée sur ces observations. Un autre problème majeur, abordé dans cette thèse, concerne la complexité induite par une méthode d’ensemble qui, souvent, implique un nombre significatif de classifieurs de base. Une nouvelle méthode efficace d’élagage d’ensembles est proposée. Elle consiste à ordonner tous les classifieurs de base selon un critère, inspiré de l’entropie, qui exploite aussi notre nouvelle version de la marge des méthodes d’ensemble. Finalement, les méthodes d’ensemble proposées sont appliquées à l’analyse de données de télédétection à trois niveaux d’apprentissage : niveau données, niveau variables, et niveau classifieur
This dissertation focuses on exploiting the ensemble margin concept to design better ensemble classifiers. Some training data set issues, such as redundancy, imbalanced classes and noise, are investigated in an ensemble margin framework. An alternative definition of the ensemble margin is at the core of this work. An innovative approach to measure the importance of each instance in the learning process is introduced. We show that there is less redundancy among smaller margin instances than among higher margin ones. In addition, these smaller margin instances carry more significant information than higher margin instances. Therefore, these low margin instances have a major influence in forming an appropriate training set to build up a reliable classifier. Based on these observations, we propose a new boundary bagging method. Another major issue that is investigated in this thesis is the complexity induced by an ensemble approach which usually involves a significant number of base classifiers. A new efficient ensemble pruning method is proposed. It consists in ordering all the base classifiers with respect to an entropy-inspired criterion that also exploits our new version of the margin of ensemble methods. Finally, the proposed ensemble methods are applied to remote sensing data analysis at three learning levels: data level, feature level and classifier level
Estilos ABNT, Harvard, Vancouver, APA, etc.
39

Girard, Régis. "Classification conceptuelle sur des données arborescentes et imprécises". La Réunion, 1997. http://elgebar.univ-reunion.fr/login?url=http://thesesenligne.univ.run/97_08_Girard.pdf.

Texto completo da fonte
Resumo:
Les travaux exposés dans cette thèse se situent dans le cadre de la classification conceptuelle automatique. Nous présentons un formalisme de représentations de données structurées et imprécises fondées sur la notion d'attribut et de valeur : les arborescences symboliques nuancées (ASN). La définition de treillis de nuances permet de prendre en compte l'imprécision d'une valeur. Les attributs peuvent être de plusieurs types : simple, structure ou même récursif et permettent de manipuler des données de nature arborescente. L'introduction de contraintes de validité entre les valeurs des attributs donne la possibilité de représenter des connaissances sur le domaine d'application. Nous proposons des algorithmes permettant de manipuler des observations définies à partir du modèle proposé et de trouver des concepts aisément interprétables. Dans un premier temps, nous définissons une correspondance de galois entre des entités et leurs descriptions à partir d'attributs nuancés mais non structurés, et nous proposons un algorithme de calcul des concepts. Ensuite, nous précisons les algorithmes de généralisation et de comparaison de deux ASN et nous présentons un algorithme incrémental de construction du treillis de galois entre des entités et des ASN. Nous étendons ainsi les treillis de galois au cas de données arborescentes et nuancées. Les concepts trouvés sont décrits de manière imprécise par des ASN. Le treillis des concepts étant de grande taille, l'introduction d'un indice de distance défini sur les ASN nous permet de générer un sous-treillis de galois formé de concepts ne dépassant pas un seuil donné de généralité. Enfin, nous définissons une mesure de similarité sur les ASN et nous proposons un algorithme d'extraction d'un graphe hiérarchique de concepts à partir d'un treillis de galois. Dans la dernière partie de la thèse, nous présentons le système CID fondé sur le formalisme des ASN et nous terminons par deux exemples d'application.
Estilos ABNT, Harvard, Vancouver, APA, etc.
40

Farenc, Christelle. "Ergoval : une méthode de structuration des règles ergonomiques permettant l'évaluation automatique d'interfaces graphiques". Toulouse 1, 1997. http://www.theses.fr/1997TOU10013.

Texto completo da fonte
Resumo:
Cette thèse propose une nouvelle méthode de structuration des règles ergonomiques permettant l'évaluation des interfaces graphiques. Cette méthode réalisée dans le cadre d'un contrat d'étude passé entre le SRTP (Service de Recherche Technique de la Poste) et le laboratoire LIS a été définie en vue d'être utilisée par des informaticiens et d'être intégrée dans un outil d'évaluation automatique de la présentation statique des interfaces. Pour fournir des résultats directement utilisables lors de la modification de l'interface et pour pouvoir implémenter la méthode dans un outil d'évaluation automatique, les règles ergonomiques ont été reformulées pour qu'elles s'appliquent directement aux objets de présentation, les connaissances nécessaires à l'évaluation ont été structurées de la manière suivante : * l'interface est décomposée suivant les objets de présentation qui la constituent, * une structure intermédiaire entre les objets de présentation et les règles ergonomiques a été défini. Cette structure, appelée typologie, correspond à une hiérarchie de classes qui regroupe les objets graphiques concernés par les mêmes règles ergonomiques. À la place de porter sur les objets graphiques, ces règles sont rattachées aux classes de la typologie. Une maquette de l'outil ERGOVAL, sous la forme d'un système expert, a été réalisée pour valider cette structuration des connaissances et pour définir les spécifications de l'outil final. De manière à pouvoir déterminer le champ d'application de l'outil, nous avons étudié la dimension automatique de l'outil d'évaluation, notamment la récupération automatique de la description de l'interface, et la dimension qualitative de l'évaluation représentée par le nombre et le niveau des règles ergonomiques intégrées dans l'outil. Nous avons ainsi défini la qualité d'une évaluation qui serait réalisée de manière totalement automatique et la qualité d'une évaluation qui intégrerait des règles ergonomiques de plus haut niveau et notamment des règles ergonomiques liées à la tâche
The thesis introduces a new method for structuring ergonomic rules in order to evaluate graphical user interface. This method performed in collaboration with the SRTP (post office technical research unit) aims to be used by computer experts and to be integrated in an automatic user interface evaluation tool : ERGOVAL. In order to provide information to developers in a way they can handle it to modify the interface, ergonomic rules were reformulated to concern directly graphical objects of the user interface. Knowledge involved in the evaluation was structured in this way : * a representation of the UI in terms of the interaction objects of the norm CUA was built : this is the decomposition of graphical objects * all graphical objects concerned by the same set of ergonomic rules are grouped together into classes of objects : the typology of graphic objects. . The resulting typology consists in several levels of abstraction, the graphical objects being the leaves of this typology. The links of this typology are types of links which have hierarchical properties, i. E. Each type inherits attributes from the parent type and associated rules. A mock-up of the ERGOVAL tool was made to validate knowledge structuration and to define specifications of the final tool. In order to determine the scale application, the automatic and qualitative dimensions were studied especially the automatic retrieval of interface description and the number and level of ergonomic rules integrated in the mock-up. Consequently, the quality of an automatic evaluation and an evaluation of high level ergonomic rules were determined
Estilos ABNT, Harvard, Vancouver, APA, etc.
41

Bossut, Philippe. "Analyse des données : application à l'analyse automatique d'images multispectrales". École nationale supérieure des mines de Paris, 1986. http://www.theses.fr/1986ENMP0010.

Texto completo da fonte
Resumo:
La table de hash (hash coding) décrit tout où partie d'une image dans un format pratique pour les algorithmes d'analyse des données et devient un outil indispensable en analyse d'images multispectrales
Estilos ABNT, Harvard, Vancouver, APA, etc.
42

Tisserant, Guillaume. "Généralisation de données textuelles adaptée à la classification automatique". Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS231/document.

Texto completo da fonte
Resumo:
La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données
We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data
Estilos ABNT, Harvard, Vancouver, APA, etc.
43

Jeannin, Akodjénou Marc-Ismaël. "Clustering et volume des données". Paris 6, 2008. http://www.theses.fr/2009PA066270.

Texto completo da fonte
Resumo:
Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, le volume de données (à la fois le nombre d'objets et le nombre de caractéristiques, de "dimensions", les décrivant) croît sans arrêt. Les méthodes de clustering doivent s'adapter à cette évolution qui a des impacts à la fois qualitatifs (la pertinence des résultats) et opérationnels (la complexité du traitement). Nous étudions dans cette thèse comment se sont adaptées les méthodes de clustering le long de ces deux axes. Après une analyse des méthodes existantes à travers ce prisme, nous en arrivons au constat que les méthodes qui se concentrent sur la réduction de la complexité opérationnelle ne sont généralement pas efficaces en haute dimension, et réciproquement. Nous développons une démarche abstraite proche de celle des méthodes à base de grille : le clustering est effectué indirectement à travers un résumé des données. Le résumé est constitué d'indices de proximité entre les points et doit se construire avec une complexité opérationnelle respectant des contraintes strictes. Nous proposons ensuite une méthode basée sur cette démarche : le résumé est construit à partir de projections linéaires des données. Les indices de proximité ainsi accumulés sont agrégés pour obtenir le clustering. La méthode a une complexité opérationnelle satisfaisante et a de bonnes performances en haute dimension.
Estilos ABNT, Harvard, Vancouver, APA, etc.
44

Rodriguez-Rojas, Oldemar. "Classification et modèles linéaires en analyse des données symboliques". Paris 9, 2000. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2000PA090064.

Texto completo da fonte
Resumo:
Ce travail s'inscrit dans le cadre de l'analyse de données symboliques. Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification automatique, aussi bien que quelques modèles lineaux. Ces généralisations seront toujours faites d'après deux principes fondamentaux de l'analyse de données symbolique, à savoir : l'analyse de données classique devrait être toujours un cas particulier de l'analyse de données symbolique et dans une analyse de données symbolique, tant la sortie comme l'entrée devraient être symboliques. Nous présentons deux nouveaux algorithmes, qui généralisent au cas symbolique de l'algorithme cap, l'algorithme cap et l'algorithme capso. Nous généralisons, pour les variables de type intervalle, la moyenne, la médiane, la moyenne des valeurs extrèmes, l'écart type, la déviation quartile, boites de dispersion (boxplot) et la correlation. Trois nouvelles méthodes sont aussi présentées pour effectuer la regression simple pour les variables de type intervalle. Nous étendons la methode d'analyse en composantes principales pour données de type histogramme, nous généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons une méthode pour l'analyse des tableaux de proximités (multidimensional scaling) pour des données de type intervalle, que nous avons dénommée interscal. Pour chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis en application. Ce logiciel a été dénommé PIMAD symbolique (programme integré de méthodes d'analyse de données symbolique).
Estilos ABNT, Harvard, Vancouver, APA, etc.
45

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web". Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Texto completo da fonte
Resumo:
Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)
Estilos ABNT, Harvard, Vancouver, APA, etc.
46

Thion, Romuald. "Structuration relationnelle des politiques de contrôle d'accès : représentation, raisonnement et vérification logiques". Lyon, INSA, 2008. http://theses.insa-lyon.fr/publication/2008ISAL0028/these.pdf.

Texto completo da fonte
Resumo:
Le contrôle d'accès est le mécanisme qui définit et impose ce qu'il est permis et interdit de faire dans un système. Les politiques de contrôle d'accès sont des ensembles de faits et règlements structurés selon des modèles. Depuis l'initiative des modèles à rôles, de nombreuses générations d'organisation des droits d'accès ont vu le jour. Les politiques et les modèles sont ainsi devenus plus grands, plus complexes et soulèvent de nombreux problèmes de formalisation, de vérification et d'administration. La thèse montre que les modèles de contrôle d'accès existants partagent de nombreux traits. Après avoir analysé et synthétisé ces éléments communs, nous proposons une structuration relationnelle pour concevoir, organiser et formaliser les droits d'accès. L'approche est fondée sur les dépendances de données : des classes de formules logiques qui imposent des contraintes sur les données relationnelles. L'approche met à profit des résultats qui dépassent le cadre strict du modèle relationnel et résolvent des problèmes actuels d'expression, de vérification et de raisonnement sur les politiques de contrôle d'accès. Un des problèmes majeurs que nous abordons est de s'assurer qu'une politique est intègre, qu'elle satisfait bien aux propriétés imposées par le modèle. La thèse met à profit des ponts existants entre les dépendances et des domaines de recherche connexes. Nous proposons ainsi une représentation permettant d'exprimer graphiquement les modèles ainsi qu'une méthode semi-automatisée pour assister la réorganisation de politiques existantes. Les récentes applications des dépendances de données offrent de riches perspectives d'applications au contrôle d'accès
Access control is a mechanism which defmes and controls the privileges of users in a system. Nowadays, it is one of the most common and pervasive mechanisms used for security enforcement in information systems. Access control policies are sets of facts and rules organized by mean of access control models. Sin ce the role-based access control initiative, several access control models have been proposed in the literature. The policies and models have become larger and more complex, and several issues on formalization, verification and administration have appeared. The PhD thesis shows that access control models share common characteristics. Upon analysis and synthesis of these traits, we propose a relational structuration for the design, organization and formalization of privileges. The framework is built upon data dependencies: fragments of first-order logic dedicated to express constraints between relational data. Some results from the data bases community benefit the approach by helping address current issues on expression, verification, and reasoning on access control policies. We focus particularly on the integrity property ofpolicies: guaranteeing that the policies enforce the properties defined in the model. The thesis profits from bridges between data dependencies, conceptual graphs and formal concepts analysis. Thus, we propose a graphical representation of the models and a semi-automated method for eengineering the policies. Finally, we present perspectives for access control models based upon recent applications of data dependencies from the databases community
Estilos ABNT, Harvard, Vancouver, APA, etc.
47

Delakis, Emmanouil Gros Patrick Gravier Guillaume. "Structuration multimodale des vidéos de tennis en utilisant des modèles segmentaux". [S.l.] : [s.n.], 2006. ftp://ftp.irisa.fr/techreports/theses/2006/delakis.pdf.

Texto completo da fonte
Estilos ABNT, Harvard, Vancouver, APA, etc.
48

Gorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161/document.

Texto completo da fonte
Resumo:
Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit)
This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)
Estilos ABNT, Harvard, Vancouver, APA, etc.
49

Gorin, Arseniy. "Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0161.

Texto completo da fonte
Resumo:
Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités. Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différentes sources de variabilité (âge, sexe, accent et bruit)
This thesis focuses on acoustic model structuring for improving HMM-Based automatic speech recognition. The structuring relies on unsupervised clustering of speech utterances of the training data in order to handle speaker and channel variability. The idea is to split the data into acoustically similar classes. In conventional multi-Modeling (or class-Based) approach, separate class-Dependent models are built via adaptation of a speaker-Independent model. When the number of classes increases, less data becomes available for the estimation of the class-Based models, and the parameters are less reliable. One way to handle such problem is to modify the classification criterion applied on the training data, allowing a given utterance to belong to more than one class. This is obtained by relaxing the classification decision through a soft margin. This is investigated in the first part of the thesis. In the main part of the thesis, a novel approach is proposed that uses the clustered data more efficiently in a class-Structured GMM. Instead of adapting all HMM-GMM parameters separately for each class of data, the class information is explicitly introduced into the GMM structure by associating a given density component with a given class. To efficiently exploit such structured HMM-GMM, two different approaches are proposed. The first approach combines class-Structured GMM with class-Dependent mixture weights. In this model the Gaussian components are shared across speaker classes, but they are class-Structured, and the mixture weights are class-Dependent. For decoding an utterance, the set of mixture weights is selected according to the estimated class. In the second approach, the mixture weights are replaced by density component transition probabilities. The approaches proposed in the thesis are analyzed and evaluated on various speech data, which cover different types of variability sources (age, gender, accent and noise)
Estilos ABNT, Harvard, Vancouver, APA, etc.
50

Ben-Henia, Iteb. "Degré de figement et double structuration des séquences verbales figées". Paris 13, 2007. http://www.theses.fr/2007PA131007.

Texto completo da fonte
Resumo:
Le figement est un obstacle au traitement automatique des langues naturelles. Ce travail est une contribution aux recherches en cours et vise à améliorer le traitement automatique des séquences verbales figées (SVF) comme casser sa pipe. Les notions de degrés de figement et de double structuration guideront notre étude. Pour déterminer le degré de figement des SVF, nous avons analysé leurs structures interne et externe (en tant que prédicats). Ceci permet alors de les inclure dans les classes de prédicats du français selon la théorie des classes d’objets de G. GROSS. Après une présentation des travaux portant sur le figement (verbal), nous identifierons et relèverons les critères de mesure des degrés de figement des SVF par l’étude des séquences à structure [V SN SP]. Puis, nous proposerons des outils formels de reconnaissance automatique de la métaphore. Enfin, nous décrirons deux classes syntactico-sémantiques de prédicats polylexicaux : celles de et d’<états humains>
Lexical frozeness is one of the main obstacles to automatic processing of natural language. The present work intends to be a contribution to improve automatic processing applied to fossilized verbal sequences (SVF) such as casser sa pipe. Notions of degrees of lexical frozeness and double structuration guided our study. In order to determinate the degree of lexical frozeness of SVF, we analysed their internal structure and their external structuration. Consequently, they can be included in predicates classes developped in L. L. I. , based on G. GROSS theory of object classes. After a survey of publications about (verbal) lexical frozeness, we identify and collect criteria to measure SVF degrees of lexical frozeness through the general structure analysis of [V SN SP] sequences. Then, we propose formal tools for automatic recognition of metaphor through analysis of SVF coming from sports. Lastly, we described two syntactico-semantic classes of predicats: and <états humains>
Estilos ABNT, Harvard, Vancouver, APA, etc.
Oferecemos descontos em todos os planos premium para autores cujas obras estão incluídas em seleções literárias temáticas. Contate-nos para obter um código promocional único!

Vá para a bibliografia