Dissertations / Theses: 'Analyse de données textuellees'

1

Chartron, Ghislaine. "Analyse des corpus de données textuelles, sondage de flux d'informations." Paris 7, 1988. http://www.theses.fr/1988PA077211.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Realisation d'un outil d'extraction des concepts significatifs d'un corpus quelconque de documents "homogenes", l'originalite defaut de respecter les exigences d'un univers ouvert: l'outil a ete appele lexinet. Les traitements ont ete developpes dans la perspective de traiter des sources d'informations diverses en un temps limite, sans s'appuyer sur des lexiques preetablis. Les techniques employees associent des methodes linguistiques elementaires, des methodes statistiques et l'intervention d'un expert humain, specialiste du domaine traite

2

Ramadasse, Harry. "L'observation du travail digital des cols blancs : le développement d'un Observatoire au sein du Groupe Michelin." Electronic Thesis or Diss., université Paris-Saclay, 2024. http://www.theses.fr/2024UPASI002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse explore la pratique du travail digital des salariés cols blancs au sein du Groupe Michelin. Durant la première année d'immersion terrain, nous avons réalisé un diagnostic de l'intelligence digitale qui nous a permis d'aboutir à la question industrielle suivante : « Comment mesurer la dextérité digitale des salariés cols blancs du groupe Michelin ? ». En procédant à la traduction de cette dernière en concepts théoriques, nous avons identifié la question de recherche suivante :« Comment observer la pratique du travail digital des salariés cols blancs d'une organisation pré-digitale industrielle ? ».En nous basant sur la littérature sur la transformation digitale, le travail digital et les observatoires, cette thèse défend le développement d'un observatoire basé sur un échantillon Big Quali, de plus de 200 000 réponses textuelles, collecté en interne.Les contributions de ces travaux sont les suivantes : la proposition d'un cadre théorique du travail digital, une méthodologie de développement d'un observatoire pouvant devenir un instrument de gestion organisationnel, une proposition d'approche méthodologique BigQuali/IA à destination des chercheurs et des practiciens souhaitant analyser de larges bases de données textuelles
This thesis investigates the digital work practices of white-collar workers within the Michelin Group. During the first year of field immersion, a diagnostic of digital intelligence was conducted, leading to the following industrial question: "How to measure digital dexterity of Michelin Group's white-collar workers?". By translating this question into theoretical concepts, the following research question was identified:"How can the digital work practices of white-collar employees in a pre-digital industrial organization be observed?".Drawing on literature related to digital transformation, digital work, and observatories, this thesis advocates for the development of an observatory based on a Big Quali sample of over 200,000 textual responses collected internally.The contributions of this work include: the proposal of a theoretical framework for digital work, a methodology for developing an observatory that can become an organizational management tool, and a proposed BigQuali/AI methodological approach for researchers and practitioners aiming to analyze large textual databases

3

Dubois, Vincent. "Apprentissage approximatif et extraction de connaissances à partir de données textuelles." Nantes, 2003. http://www.theses.fr/2003NANT2001.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La problématique de cette thèse est l'extraction de connaissances à partir de données textuelles (KDT) en se basant sur la théorie des ensembles approximatifs (RST) et l'apprentissage symbolique et numérique. Les contributions sont : (1) l'extension des espaces de versions (espaces de versions approximatifs (RVS)), (2) l'application des RVS au KDT, (3) la découverte et visualisation de graphes à partir de textes. Tout d'abord, nous définissons les espaces de versions approximatifs (RVS), en construisant des opérateurs d'approximation, ce qui aboutit à un cadre général pour l'apprentissage symbolique automatique. L'introduction de la notion de consistance approximative conduit à l'utilisation de concepts presque consistants avec les données. En pratique, cela a pour effet d'étendre l'interprétation des concepts lors de l'apprentissage, et de traiter les données inconsistantes à l'aide de regroupement des exemples. . .

4

Rigouste, Loïs. "Méthodes probabilistes pour l'analyse exploratoire de données textuelles." Phd thesis, Télécom ParisTech, 2006. http://pastel.archives-ouvertes.fr/pastel-00002424.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents. La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de déterminer de tels regroupements. Les modèles de classification probabilistes peuvent également être vus comme des outils de construction de représentations numériques synthétiques d'informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, dûs en particulier à la très grande dimensionnalité du vocabulaire. Notre contribution à cette famille de travaux est double: nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.

5

Lespinats, Sylvain. "Style du génome exploré par analyse textuelle de l'ADN." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2006. http://tel.archives-ouvertes.fr/tel-00151611.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les séquences d'ADN peuvent être considérées comme des textes écrits dans un alphabet de 4 lettres. Des techniques inspirées de l'analyse textuelle permettent donc de les caractériser, entre autres à partir de fréquences d'apparition de courtes suites de caractères (les oligonucléotides ou mots). L'ensemble des fréquences des mots d'une longueur donnée est appelé « signature génomique » (cet ensemble est spécifique de l'espèce, ce qui justifie le terme de « signature »). La signature d'espèce est observable sur la plupart des courts fragments d'ADN, ce qui donne à penser qu'elle résulte d'un « style d'écriture ». De plus, la proximité entre espèces du point de vue de la signature génomique correspond bien souvent à une proximité en terme taxonomique. Pourtant, l'analyse des signatures génomiques se confronte rapidement à des limitations dues à la malédiction de la dimension. En effet, les données de grande dimension (la signature génomique a généralement 256 dimensions) montrent des propriétés qui mettent en défaut l'intuition. Par exemple, le phénomène de concentration des distances euclidiennes est bien connu.
Partant de ces constatations, nous avons mis en place des procédures d'évaluation des distances entre signatures de façon à rendre plus manifeste les informations biologiques sur lesquelles s'appuient nos analyses. Une méthode de projection non-linéaire des voisinages y est associée ce qui permet de s'affranchir des problèmes de grande dimension et de visualiser l'espace occupé par les données. L'analyse des relations entre les signatures pose le problème de la contribution de chaque variable (les mots) à la distance entre les signatures. Un Z-score original basé sur la variation de la fréquence des mots le long des génomes a permis de quantifier ces contributions. L'étude des variations de l'ensemble des fréquences le long d'un génomes permet d'extraire des segments originaux. Une méthode basée sur l'analyse du signal permet d'ailleurs de segmenter précisément ces zones originales.
Grâce à cet ensemble de méthodes, nous proposons des résultats biologiques. En particulier, nous mettons en évidence une organisation de l'espace des signatures génomiques cohérente avec la taxonomie des espèces. De plus, nous constatons la présence d'une syntaxe de l'ADN : il existe des « mots à caractère syntaxique » et des « mots à caractère sémantique », la signature s'appuyant surtout sur les mots à caractère syntaxique. Enfin, l'analyse des signatures le long du génome permet une détection et une segmentation précise des ARN et de probables transferts horizontaux. Une convergence du style des transferts horizontaux vers la signature de l'hôte a d'ailleurs pu être observée.
Des résultats variés ont été obtenus par analyse des signatures. Ainsi, la simplicité d'utilisation et la rapidité de l'analyse des séquences par signatures en font un outil puissant pour extraire de l'information biologique à partir des génomes.

6

Marteau, Hubert. "Une méthode d'analyse de données textuelles pour les sciences sociales basée sur l'évolution des textes." Tours, 2005. http://www.theses.fr/2005TOUR4028.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le but est d'apporter aux sociologues un outil informatique permettant l'analyse d'entretiens ouverts semi-directifs. Le traitement est en deux étapes : une indexation des entretiens suivi d'une classification. Les méthodes d'indexation habituelles reposent sur une analyse statistiques plus adaptées à des textes de contenu et de structure (textes littéraires, scientifiques,. . . ) marqués qu'à des entretiens limités à l'usage de peu de mots (1000 mots pour des textes de discussion). Partant de l'hypothèse que l'appartenance sociologique induit fortement la forme du discours, nous évaluons la structure et l'évolution des textes en proposant de nouvelles représentations des textes (image, signal) qui conduisent à l'extraction de valeurs indexant le texte, mesures statiques ou liées à l'évolution du texte. La classification choisie est arborée (NJ). Elle repose sur ces caractéristiques par sa faible complexité et son respects des distances, elle fournit une aide à la classification
This PhD Thesis aims at bringing to sociologists a data-processing tool wich allows them to analyse of semi-directing open talks. The proposed tool performs in two steps : an indexation of the talks followed by a classification. Usually, indexing methods rely on a general stastistical analysis. Such methods are suited for texts having contents and structure ( literary texts, scientific texts,. . . ). These texts have more vocabulary and structure than talks (limitation to 1000 words for suche texts). On the basis of the assumption that the sociological membership strongly induces the form of the speech, we propose various methods to evaluate the structure and the evolution of the texts. The methods attempt to find new representations of texts (image, signal) and to extract values from these new representations. Selected classification is a classification by trees (NJ). It has a low complexity and it respects distances, then this method is a good solution to provide a help to classification

7

Dermouche, Mohamed. "Modélisation conjointe des thématiques et des opinions : application à l'analyse des données textuelles issues du Web." Thesis, Lyon 2, 2015. http://www.theses.fr/2015LYO22007/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse se situe à la confluence des domaines de "la modélisation de thématiques" (topic modeling) et l'"analyse d'opinions" (opinion mining). Le problème que nous traitons est la modélisation conjointe et dynamique des thématiques (sujets) et des opinions (prises de position) sur le Web et les médias sociaux. En effet, dans la littérature, ce problème est souvent décomposé en sous-tâches qui sont menées séparément. Ceci ne permet pas de prendre en compte les associations et les interactions entre les opinions et les thématiques sur lesquelles portent ces opinions (cibles). Dans cette thèse, nous nous intéressons à la modélisation conjointe et dynamique qui permet d'intégrer trois dimensions du texte (thématiques, opinions et temps). Afin d'y parvenir, nous adoptons une approche statistique, plus précisément, une approche basée sur les modèles de thématiques probabilistes (topic models). Nos principales contributions peuvent être résumées en deux points : 1. Le modèle TS (Topic-Sentiment model) : un nouveau modèle probabiliste qui permet une modélisation conjointe des thématiques et des opinions. Ce modèle permet de caractériser les distributions d'opinion relativement aux thématiques. L'objectif est d'estimer, à partir d'une collection de documents, dans quelles proportions d'opinion les thématiques sont traitées. 2. Le modèle TTS (Time-aware Topic-Sentiment model) : un nouveau modèle probabiliste pour caractériser l'évolution temporelle des thématiques et des opinions. En s'appuyant sur l'information temporelle (date de création de documents), le modèle TTS permet de caractériser l'évolution des thématiques et des opinions quantitativement, c'est-à-dire en terme de la variation du volume de données à travers le temps. Par ailleurs, nous apportons deux autres contributions : une nouvelle mesure pour évaluer et comparer les méthodes d'extraction de thématiques, ainsi qu'une nouvelle méthode hybride pour le classement d'opinions basée sur une combinaison de l'apprentissage automatique supervisé et la connaissance a priori. Toutes les méthodes proposées sont testées sur des données réelles en utilisant des évaluations adaptées
This work is located at the junction of two domains : topic modeling and sentiment analysis. The problem that we propose to tackle is the joint and dynamic modeling of topics (subjects) and sentiments (opinions) on the Web. In the literature, the task is usually divided into sub-tasks that are treated separately. The models that operate this way fail to capture the topic-sentiment interaction and association. In this work, we propose a joint modeling of topics and sentiments, by taking into account associations between them. We are also interested in the dynamics of topic-sentiment associations. To this end, we adopt a statistical approach based on the probabilistic topic models. Our main contributions can be summarized in two points : 1. TS (Topic-Sentiment model) : a new probabilistic topic model for the joint extraction of topics and sentiments. This model allows to characterize the extracted topics with distributions over the sentiment polarities. The goal is to discover the sentiment proportions specfic to each of theextracted topics. 2. TTS (Time-aware Topic-Sentiment model) : a new probabilistic model to caracterize the topic-sentiment dynamics. Relying on the document's time information, TTS allows to characterize the quantitative evolutionfor each of the extracted topic-sentiment pairs. We also present two other contributions : a new evaluation framework for measuring the performance of topic-extraction methods, and a new hybrid method for sentiment detection and classification from text. This method is based on combining supervised machine learning and prior knowledge. All of the proposed methods are tested on real-world data based on adapted evaluation frameworks

8

Trouvilliez, Benoît. "Similarités de données textuelles pour l'apprentissage de textes courts d'opinions et la recherche de produits." Thesis, Artois, 2013. http://www.theses.fr/2013ARTO0403/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur l'établissement de similarités de données textuelles dans le domaine de la gestion de la relation client. Elle se décline en deux parties : - l'analyse automatique de messages courts en réponse à des questionnaires de satisfaction ; - la recherche de produits à partir de l'énonciation de critères au sein d'une conversation écrite mettant en jeu un humain et un programme agent. La première partie a pour objectif la production d'informations statistiques structurées extraites des réponses aux questions. Les idées exprimées dans les réponses sont identifiées, organisées selon une taxonomie et quantifiées. La seconde partie vise à transcrire les critères de recherche de produits en requêtes compréhensibles par un système de gestion de bases de données. Les critères étudiés vont de critères relativement simples comme la matière du produit jusqu'à des critères plus complexes comme le prix ou la couleur. Les deux parties se rejoignent sur la problématique d'établissement de similarités entre données textuelles par des techniques de TAL. Les principales difficultés à surmonter sont liées aux caractéristiques des textes, rédigés en langage naturel, courts, et comportant fréquemment des fautes d'orthographe ou des négations. L'établissement de similarités sémantiques entre mots (synonymie, antonymie, etc) et l'établissement de relations syntaxiques entre syntagmes (conjonction, opposition, etc) sont également des problématiques abordées. Nous étudions également dans cette thèse des méthodes de regroupements et de classification automatique de textes afin d'analyser les réponses aux questionnaires de satisfaction
This Ph.D. thesis is about the establishment of textual data similarities in the client relation domain. Two subjects are mainly considered : - the automatic analysis of short messages in response of satisfaction surveys ; - the search of products given same criteria expressed in natural language by a human through a conversation with a program. The first subject concerns the statistical informations from the surveys answers. The ideas recognized in the answers are identified, organized according to a taxonomy and quantified. The second subject concerns the transcription of some criteria over products into queries to be interpreted by a database management system. The number of criteria under consideration is wide, from simplest criteria like material or brand, until most complex criteria like color or price. The two subjects meet on the problem of establishing textual data similarities thanks to NLP techniques. The main difficulties come from the fact that the texts to be processed, written in natural language, are short ones and with lots of spell checking errors and negations. Establishment of semantic similarities between words (synonymy, antonymy, ...) and syntactic relations between syntagms (conjunction, opposition, ...) are other issues considered in our work. We also study in this Ph. D. thesis automatic clustering and classification methods in order to analyse answers to satisfaction surveys

9

Andreewsky, Marina. "Construction automatique d'un système de type expert pour l'interrogation de bases de données textuelles." Paris 11, 1989. http://www.theses.fr/1989PA112310.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Notre thèse décrit la construction d’un système d’aide à l’interrogation de bases de données textuelles en naturel, le système FASE. Pour une base donnée, FASE génère automatiquement des suites de mots sémantiquement importants de son vocabulaire. Celles-ci sont organisées en arborescence: la racine correspond aux termes généraux de la base et les feuilles aux termes spécifiques d’un petit nombre de documents. Les arborescences sont créées à l'aide de deux modules : le premier, à caractère linguistique, attribue un fichier inverse des mots sémantiques à chaque base traitée. Il comprend une analyse morpho-syntaxique et le traitement de certaines formes de négation et de synonymie. Le second créé, à partir du fichier inverse, des chaînes de mots importants de la base qui recouvrent tous les documents concernés à une étape donnée. Cette procédure permet également d’effectuer une classification automatique de la base textuelle traitée. L'interrogation d'une base consiste en un parcours sélectif de l’arborescence, de la racine à une feuille, c'est-à-dire du niveau le plus général au niveau le plus spécifique. A chaque étape, le système présente à l'utilisateur une suite de mots caractéristiques d'un ensemble de plus en plus restreint de documents. Celui-ci sélectionne les mots les plus proches du sujet qui l'intéresse et le système calcule dynamiquement la nouvelle suite de mots à proposer. Aucune requête n'est à formuler: le système guide la recherche et permet de converger vers les documents correspondants aux validations successives.

10

Priam, Rodolphe. "Méthodes de carte auto-organisatrice par mélange de lois contraintes. Ap^plication à l'exploration dans les tableaux de contingence textuels." Rennes 1, 2003. http://www.theses.fr/2003REN10166.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse à l'analyse exploratoire des données multidimensionnelles souvent qualitatives voir textuelles par des modèles particuliers de carte auto-organisatrice de Kohonen. Il s'agit d'effectuer une classification et une projection simultanées des lignes ou colonnes d'une matrice de données. Le résultat de ces méthodes est une réduction sous la forme d'une surface de régression discréte. Nous étudions plus particulièrement les modèles de mélange de lois de probabilités : les paramètres correspondant aux espérances des vecteurs classés sont contraints en les plaçant aux noeuds d'une grille rectangulaire. Après une présentation de ces méthodes, et des algorithmes d'estimation basés sur l'EM (Expectation-Maximization), nous introduisons essentiellement deux nouvelles approches. La première vise à ''généraliser la méthode d'Analyse Factorielle des Correspondances'' aux grandes matrices : l'algorithme CASOM est une classifieur Nai͏̈f de Bayes contraint en un TPEM (Topology Preserving EM) pour tableau de contingence. La seconde consiste en un schéma général d'adaptation des méthodes de segmentation d'image en carte auto-organisatrice. Pour l'illustrer, nous modifions un algorithme de segmentation par champs moyens, et obtenons un algorithme appellé TNEM. Nous utilisons ces méthodes pour aider à la navigation dans un corpus textuel. En effet, nous aboutissons à des critères et des moyens de représentation objectifs.

11

El, Haddadi Anass. "Fouille multidimensionnelle sur les données textuelles visant à extraire les réseaux sociaux et sémantiques pour leur exploitation via la téléphonie mobile." Toulouse 3, 2011. http://thesesups.ups-tlse.fr/1378/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La concurrence est un concept fondamental de la tradition libérale et des sciences économiques qui oblige les entreprises à pratiquer l'Intelligence Economique (IE) pour bien se positionner sur le marché ou tout simplement pour survivre. Mais souvent, ce n'est pas le plus fort qui survit, ni le plus intelligent, mais celui qui est le plus sensible au changement, facteur dominant dans la société actuelle. Les changements proviennent de l'extérieur ou naissent au sein même de l'entreprise et peuvent l'affecter plus ou moins durablement. Dès lors, les entreprises sont appelées à rester constamment en veille pour guetter le moindre changement en vue d'y apporter la solution adéquate en temps réel. Cependant, pour une veille réussie, on ne doit pas se contenter uniquement de surveiller les opportunités, mais avant tout, d'anticiper les menaces. Malheureusement, cette veille se déroule en oubliant l'indispensable volet sécurité de l'IE à savoir la sécurité des données manipulées et celle des procédés suivis pour atteindre les objectifs de l'IE. Nos travaux de recherche consistent à proposer un Système d'Intelligence Economique (SIE) Généraliste et Mobile. Ce SIE intègre une approche de modélisation du contrôle d'accès aux données et aux traitements pour sécuriser toutes les informations et les flux d'interaction durant son cycle de vie. Le besoin en matière de sécurité dans un SIE provient du fait que les informations manipulées sont d'ordre stratégique ayant une valeur assez importante. Une telle sécurité ne doit pas être considérée comme une option supplémentaire qu'offre un SIE pour se distinguer d'un autre. D'autant plus que la fuite de ces informations n'est pas le fait de faiblesses inhérentes aux systèmes informatiques des entreprises, mais c'est avant tout une question organisationnelle. La mobilité présente un choix stratégique pour notre SIE ''XPlor EveryWhere'', dont le but est de permettre aux utilisateurs de nos solutions de veille de continuer à rechercher, surveiller, valider et rediffuser des informations stratégiques au cours de leurs déplacements. Ils n'ont ainsi plus besoin d'être assis face à leur ordinateur pour accéder à des données utiles dans l'instant (préparation d'une réunion, nouvel ordre du jour, information sur un interlocuteur, une technologie, un marché, demande urgente d'une analyse ou d'un focus spécifique). Il leur suffit simplement d'utiliser discrètement, et en tout sécurité, leur appareil mobile. Grâce à XPlor EveryWhere, ils sont en permanence au cœur de l'information pertinente
Competition is a fundamental concept of the liberal economy tradition that requires companies to resort to Competitive Intelligence (CI) in order to be advantageously positioned on the market, or simply to survive. Nevertheless, it is well known that it is not the strongest of the organizations that survives, nor the most intelligent, but rather, the one most adaptable to change, the dominant factor in society today. Therefore, companies are required to remain constantly on a wakeful state to watch for any change in order to make appropriate solutions in real time. However, for a successful vigil, we should not be satisfied merely to monitor the opportunities, but before all, to anticipate risks. The external risk factors have never been so many: extremely dynamic and unpredictable markets, new entrants, mergers and acquisitions, sharp price reduction, rapid changes in consumption patterns and values, fragility of brands and their reputation. To face all these challenges, our research consists in proposing a Competitive Intelligence System (CIS) designed to provide online services. Through descriptive and statistics exploratory methods of data, Xplor EveryWhere display, in a very short time, new strategic knowledge such as: the profile of the actors, their reputation, their relationships, their sites of action, their mobility, emerging issues and concepts, terminology, promising fields etc. The need for security in XPlor EveryWhere arises out of the strategic nature of information conveyed with quite a substantial value. Such security should not be considered as an additional option that a CIS can provide just in order to be distinguished from one another. Especially as the leak of this information is not the result of inherent weaknesses in corporate computer systems, but above all it is an organizational issue. With Xplor EveryWhere we completed the reporting service, especially the aspect of mobility. Lastly with this system, it's possible to: View updated information as we have access to our strategic database server in real-time, itself fed daily by watchmen. They can enter information at trade shows, customer visits or after meetings

12

Houle, Annie. "Délit de langue et paternité textuelle : une approche informatisée." Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29405/29405.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette étude vise à évaluer l’utilité d’une assistance informatique lors de l’identification de l’auteur d’un texte en français dans un cadre judiciaire. L’objectif est de proposer un environnement informatique au linguiste oeuvrant en contexte judiciaire et plus spécifiquement en analyse de paternité textuelle et de valider la légitimité de cette assistance automatisée à travers une étude de cas impliquant des textes courts et très courts rédigés en français. L’analyse se scinde en deux parties : une partie quantitative presqu’essentiellement automatisée et une partie qualitative semi-automatisée. Les résultats provenant de cette étude suggèrent qu’un environnement automatisé est un gain pour le linguiste, non seulement quant au temps et à la neutralité d’exécution de l’analyse, mais également quant aux résultats encourageants obtenus grâce aux outils créés.

13

Dendani, Mohamed. "La faisabilité et la fécondité de l'application de logiciels d'analyse de données textuelles, sur un corpus substantiel d'entretiens." Aix-Marseille 1, 1992. http://www.theses.fr/1992AIX10040.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette etude s'inscrit dans le cadre d'un travail methodologique et plus precisement dans l'application du traitement informatique a des donnees textuelles. Il s'agit de mener a bien le traitement d'un corpus portant sur les pratiques sociales des jeunes d'origine maghrebine a l'aide de deux logiciels : sato et deredec. Les possibilites theoriques de ces deux logiciels dans le traitement des donnees textuelles permettent beaucoup plus que l'analyse usuelle de discours. En effet, les resultats obtenus a travers ce travail permettent de produire des analyses de plus en plus en profondeur de certains rapports lexicaux et discursifs ayant une portee interessante pour le sociologue. En appliquant une telle demarche, l'analyse des textes ne se limite plus au decompte frequentiel des mots, qui et certe interessant puisqu'il revele des identifications significatives, mais elle permet la constitution de lexiques qualifies par la syntaxe (la thematisation, le propos, la determination et autres).

14

Afzali, Said Abdoul Razeq. "Analyse morphosyntaxique automatique du Dari (persan d'Afghanistan) et mise au point d'un système d'interrogation de bases de données textuelles en langage naturel." Paris 5, 1986. http://www.theses.fr/1986PA05H042.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail entre dans le cadre d'une étude de linguistique automatique appliquée au dari (persan d’Afghanistan) et comprend les points suivants : I. Un certain nombre de précisions sur la situation géographique, historique et linguistique de l’Afghanistan. II. Toute étude linguistique et périinformatique permettant de réaliser une interrogation en dari d'une base de données textuelle. Cela comprend : -une transcription du dari compatible avec les contraintes des claviers d'ordinateurs. -une énumération exhaustive de tous les mots fonctionnels du dari (prépositions, conjonctions, articles, pronoms, locutions prépositives et conjonctives). -une étude de la suffixation des substantifs, adjectifs, verbes et adverbes. -une description des règles permettant de "normaliser" les mots sémantiques (substantifs, adjectifs, verbes) du dari. -la constitution d'une base de textes de 60000 mots. III. Une étude détaillée du problème du filtrage syntaxique et des hyper formes composées. Vingt-cinq filtres sont construits et ont été testes sur une partie importante et suffisamment représentative du corpus. De ce fait, lorsque les formes courtes binaires et ternaires fournissent des mots composés, on a la certitude qu'ils ne font pas partie de formes plus longues susceptibles de modifier leur statut. Elles peuvent donc être directement intégrées au système spirit. Enfin, les formes longues peuvent obtenues par itération des formes courtes. Une pré-étude de cette particularité est effectuée.

15

Abbé, Adeline. "Analyse de données textuelles d'un forum médical pour évaluer le ressenti exprimé par les internautes au sujet des antidépresseurs et des anxyolitiques." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS385/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’analyse de donnée textuelle est facilitée par l’utilisation du text mining (TM) permettant l’automatisation de l’analyse de contenu et possède de nombreuses applications en santé. L’une d’entre elles est l’utilisation du TM pour explorer le contenu des messages échangés sur Internet.Nous avons effectué une revue de la littérature systématique afin d’identifier les applications du TM en santé mentale. De plus, le TM a permis d’explorer les préoccupations des utilisateurs du forum Doctissimo.com au sujet des antidépresseurs et anxiolytiques entre 2013 et 2015 via l’analyse des fréquences des mots, des cooccurrences, de la modélisation thématique (LDA) et de la popularité des thèmes.Les quatre applications du TM en santé mentale sont l’analyse des récits des patients (psychopathologie), le ressenti exprimé sur Internet, le contenu des dossiers médicaux, et les thèmes de la littérature médicale. Quatre grands thèmes ont été identifiés sur le forum: le sevrage (le plus fréquent), l’escitalopram, l’anxiété de l’effet du traitement et les effets secondaires. Alors que les effets indésirables des traitements est un sujet qui a tendance à décroitre, les interrogations sur les effets du sevrage et le changement de traitement sont grandissantes et associées aux antidépresseurs.L’analyse du contenu d’Internet permet de comprendre les préoccupations des patients et le soutien, et améliorer l’adhérence au traitement
Analysis of textual data is facilitated by the use of text mining (TM) allowing to automate content analysis, and is implemented in several application in healthcare. These include the use of TM to explore the content of posts shared online.We performed a systematique literature review to identify the application of TM in psychiatry. In addition, we used TM to explore users’ concerns of an online forum dedicated to antidepressants and anxiolytics between 2013 and 2015 analysing words frequency, cooccurences, topic models (LDA) and popularity of topics.The four TM applications in psychiatry retrieved are the analysis of patients' narratives (psychopathology), feelings expressed online, content of medical records, and biomedical literature screening. Four topics are identified on the forum: withdrawals (most frequent), escitalopram, anxiety related to treatment effect and secondary effects. While concerns around secondary effects of treatment declined, questions about withdrawals effects and changing medication increased related to several antidepressants.Content analysis of online textual data allow us to better understand major concerns of patients, support provided, and to improve the adherence of treatment

16

Loubier, Eloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Phd thesis, Université Paul Sabatier - Toulouse III, 2009. http://tel.archives-ouvertes.fr/tel-00423655.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement.
Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique.
L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles.
Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives.
Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive.
Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent.

17

Loubier, Éloïse. "Analyse et visualisation de données relationnelles par morphing de graphe prenant en compte la dimension temporelle." Toulouse 3, 2009. http://thesesups.ups-tlse.fr/2264/.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Avec la mondialisation, l'entreprise doit faire face aux menaces de plus en plus fortes de la concurrence et à l'accélération des flux d'information. Pour cela, elle est amenée à rester continuellement informée des innovations, des stratégies de la concurrence et de l'état du marché tout en gardant la maîtrise de son environnement. Le développement d'Internet et la globalisation ont à la fois renforcé cette exigence, et fourni les moyens de collecter l'information qui, une fois synthétisée, prend souvent une forme relationnelle. Pour analyser le relationnel, le recours à la visualisation par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s'approprier une forme de connaissance difficile à appréhender autrement. Nos travaux conduisent à l'élaboration des techniques graphiques permettant la compréhension des activités humaines, de leurs interactions mais aussi de leur évolution, dans une perspective décisionnelle. Nous concevons un outil alliant simplicité d'utilisation et précision d'analyse se basant sur deux types de visualisations complémentaires : statique et dynamique. L'aspect statique de notre modèle de visualisation repose sur un espace de représentation, dans lequel les préceptes de la théorie des graphes sont appliqués. Le recours à des sémiologies spécifiques telles que le choix de formes de représentation, de granularité, de couleurs significatives permet une visualisation plus juste et plus précise de l'ensemble des données. L'utilisateur étant au cœur de nos préoccupations, notre contribution repose sur l'apport de fonctionnalités spécifiques, qui favorisent l'identification et l'analyse détaillée de structures de graphes. Nous proposons des algorithmes qui permettent de cibler le rôle des données au sein de la structure, d'analyser leur voisinage, tels que le filtrage, le k-core, la transitivité, de retourner aux documents sources, de partitionner le graphe ou de se focaliser sur ses spécificités structurelles. Une caractéristique majeure des données stratégiques est leur forte évolutivité. Or l'analyse statistique ne permet pas toujours d'étudier cette composante, d'anticiper les risques encourus, d'identifier l'origine d'une tendance, d'observer les acteurs ou termes ayant un rôle décisif au cœur de structures évolutives. Le point majeur de notre contribution pour les graphes dynamiques représentant des données à la fois relationnelles et temporelles, est le morphing de graphe. L'objectif est de faire ressortir les tendances significatives en se basant sur la représentation, dans un premier temps, d'un graphe global toutes périodes confondues puis en réalisant une animation entre les visualisations successives des graphes attachés à chaque période. Ce procédé permet d'identifier des structures ou des événements, de les situer temporellement et d'en faire une lecture prédictive. Ainsi notre contribution permet la représentation des informations, et plus particulièrement l'identification, l'analyse et la restitution des structures stratégiques sous jacentes qui relient entre eux et à des moments donnés les acteurs d'un domaine, les mots-clés et concepts qu'ils utilisent
With word wide exchanges, companies must face increasingly strong competition and masses of information flows. They have to remain continuously informed about innovations, competition strategies and markets and at the same time they have to keep the control of their environment. The Internet development and globalization reinforced this requirement and on the other hand provided means to collect information. Once summarized and synthesized, information generally is under a relational form. To analyze such a data, graph visualization brings a relevant mean to users to interpret a form of knowledge which would have been difficult to understand otherwise. The research we have carried out results in designing graphical techniques that allow understanding human activities, their interactions but also their evolution, from the decisional point of view. We also designed a tool that combines ease of use and analysis precision. It is based on two types of complementary visualizations: statics and dynamics. The static aspect of our visualization model rests on a representation space in which the precepts of the graph theory are applied. Specific semiologies such as the choice of representation forms, granularity, and significant colors allow better and precise visualizations of the data set. The user being a core component of our model, our work rests on the specification of new types of functionalities, which support the detection and the analysis of graph structures. We propose algorithms which make it possible to target the role of the data within the structure, to analyze their environment, such as the filtering tool, the k-core, and the transitivity, to go back to the documents, and to give focus on the structural specificities. One of the main characteristics of strategic data is their strong evolution. However the statistical analysis does not make it possible to study this component, to anticipate the incurred risks, to identify the origin of a trend, and to observe the actors or terms having a decisive role in the evolution structures. With regard to dynamic graphs, our major contribution is to represent relational and temporal data at the same time; which is called graph morphing. The objective is to emphasize the significant tendencies considering the representation of a graph that includes all the periods and then by carrying out an animation between successive visualizations of the graphs attached to each period. This process makes it possible to identify structures or events, to locate them temporally, and to make a predictive reading of it. Thus our contribution allows the representation of advanced information and more precisely the identification, the analysis, and the restitution of the underlying strategic structures which connect the actors of a domain, the key words, and the concepts they use; this considering the evolution feature

18

Ghalamallah, Ilhème. "Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'intelligence économique." Toulouse 3, 2009. http://www.theses.fr/2009TOU30293.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La réussite d'une entreprise est souvent conditionnée par sa capacité à identifier, collecter, traiter et diffuser de l'information à des fins stratégiques. Par ailleurs, les technologies de l'information et de la connaissance apportent des contraintes auxquelles les entreprises doivent s'adapter : un flot continu, une circulation beaucoup plus rapide, des techniques toujours plus complexes. Le risque est d'être submergé par cette information et de ne plus pouvoir distinguer l'essentiel du négligeable. En effet, avec l'avènement de la nouvelle économie dominée par le marché, la problématique industrielle et commerciale de l'entreprise est devenue très complexe. Désormais, pour être compétitive, l'entreprise doit savoir gérer son capital immatériel. L'intelligence économique (IE) est une réponse aux bouleversements de l'environnement global des entreprises et plus largement de toute organisation. Dans une économie où tout se complexifie et bouge rapidement, la gestion stratégique de l'information est devenue l'un des moteurs essentiels de la performance globale des entreprises. L'IE est une démarche et un processus organisationnel qui permet d'être plus compétitif, par la surveillance de son environnement et de sa dynamique. Dans ce contexte, nous avons constaté qu'une grande part de l'information à portée stratégique vient du relationnel : liens entre acteurs du domaine, réseaux sémantiques, alliances, fusions, acquisitions, collaborations, cooccurrences de tous ordres. Nos travaux consistent à proposer un modèle d'analyse multidimensionnelle dédiée à l'IE. Cette approche repose sur l'extraction de connaissances par l'analyse de l'évolution des données relationnelles. Nous proposons un modèle permettant de mieux comprendre l'activité des acteurs d'un domaine donné, leurs interactions mais aussi leur évolution et leur stratégie, ceci dans une perspective décisionnelle. Cette démarche repose sur la conception d'un système d'information générique d'analyse en ligne permettant d'homogénéiser et d'organiser les données textuelles sous forme relationnelle et, de là, en extraire des connaissances implicites dont le contenu et la mise en forme sont adaptés à des décideurs non spécialistes du domaine de l'extraction des connaissances
A successful business is often conditioned by its ability to identify, collect, process and disseminate information for strategic purposes. Moreover, information technology and knowledge provide constraints that companies must adapt : a continuous stream, a circulation much faster techniques increasingly complex. The risk of being swamped by this information and no longer able to distinguish the essential from the trivial. Indeed, with the advent of new economy dominated by the market, the problem of industrial and commercial enterprise is become very complex. Now, to be competitive, the company must know how to manage their intangible capital. Competitive Intelligence (CI) is a response to the upheavals of the overall business environment and more broadly to any organization. In an economy where everything moves faster and more complex, management Strategic Information has become a key driver of overall business performance. CI is a process and an organizational process that can be more competitive, by monitoring its environment and its dynamics. In this context, we found that much information has strategic significance to the relationship: links between actors in the field, semantic networks, alliances, mergers, acquisitions, collaborations, co-occurrences of all kinds. Our work consists in proposing a model of multivariate analysis dedicated to the IE. This approach is based on the extraction of knowledge by analyzing the evolution of relational databases. We offer a model for understanding the activity of actors in a given field, but also their interactions their development and strategy, this decision in perspective. This approach is based on the designing a system of generic information online analysis to homogenize and organize text data in relational form, and thence to extract implicit knowledge of the content and formatting are adapted to non-specialist decision makers in the field of knowledge extraction

19

Aouini, Mourad. "Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français." Thesis, Bourgogne Franche-Comté, 2018. http://www.theses.fr/2018UBFCC003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle
This thesis presents a non-standardized text analysis approach which consists a chain process modeling allowing the automatic annotation of texts: grammar annotation using a morphosyntactic tagging method and semantic annotation by putting in operates a system of named-entity recognition. In this context, we present a system analysis of the Middle French which is a language in the course of evolution including: spelling, the flexional system and the syntax are not stable. The texts in Middle French are mainly distinguished by the absence of normalized orthography and the geographical and chronological variability of medieval lexicons.The main objective is to highlight a system dedicated to the construction of linguistic resources, in particular the construction of electronic dictionaries, based on rules of morphology. Then, we will present the instructions that we have carried out to construct a morphosyntactic tagging which aims at automatically producing contextual analyzes using the disambiguation grammars. Finally, we will retrace the path that led us to set up local grammars to find the named entities. Hence, we were asked to create a MEDITEXT corpus of texts in Middle French between the end of the thirteenth and fifteenth centuries

20

Chartron, Ghislaine. "Analyse des corpus de données textuelles sondage de flux d'informations /." Grenoble 2 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb37612583z.

Full text

APA, Harvard, Vancouver, ISO, and other styles

21

Bouillot, Flavien. "Classification de textes : de nouvelles pondérations adaptées aux petits volumes." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS167.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Au quotidien, le réflexe de classifier est omniprésent et inconscient. Par exemple dans le processus de prise de décision où face à un élément (un objet, un événement, une personne) nous allons instinctivement chercher à rapprocher cet élément d'autres similaires afin d'adapter nos choix et nos comportements. Ce rangement dans telle ou telle catégorie repose sur les expériences passées et les caractéristiques de l'élément. Plus les expériences seront nombreuses et les caractéristiques détaillées, plus fine et pertinente sera la décision. Il en est de même lorsqu'il nous faut catégoriser un document en fonction de son contenu. Par exemple détecter s'il s'agit d'un conte pour enfants ou d'un traité de philosophie. Ce traitement est bien sûr d'autant plus efficace si nous possédons un grand nombre d'ouvrages de ces deux catégories et que l'ouvrage à classifier possède un nombre important de mots.Dans ce manuscrit nous nous intéressons à la problématique de la prise de décision lorsque justement nous disposons de peu de documents d'apprentissage et que le document possède un nombre de mots limité. Nous proposons pour cela une nouvelle approche qui repose sur de nouvelles pondérations. Elle nous permet de déterminer avec précision l'importance à accorder aux mots composant le document.Afin d'optimiser les traitements, nous proposons une approche paramétrable. Cinq paramètres rendent notre approche adaptable, quel que soit le problème de classification donné. De très nombreuses expérimentations ont été menées sur différents types de documents, dans différentes langues et dans différentes configurations. Selon les corpus, elles mettent en évidence que notre proposition nous permet d'obtenir des résultats supérieurs en comparaison avec les meilleures approches de la littérature pour traiter les problématiques de petits volumes.L'utilisation de paramètres introduit bien sur une complexité supplémentaire puisqu'il faut alors déterminer les valeurs optimales. Détecter les meilleurs paramètres et les meilleurs algorithmes est une tâche compliquée dont la difficulté est théorisée au travers du théorème du No-Free-Lunch. Nous traitons cette seconde problématique en proposant une nouvelle approche de méta-classification reposant sur les notions de distances et de similarités sémantiques. Plus précisément nous proposons de nouveaux méta-descripteurs adaptés dans un contexte de classification de documents. Cette approche originale nous permet d'obtenir des résultats similaires aux meilleures approches de la littérature tout en offrant des qualités supplémentaires.Pour conclure, les travaux présentés dans ce manuscrit ont fait l'objet de diverses implémentations techniques, une dans le logiciel Weka, une dans un prototype industriel et enfin une troisième dans le logiciel de la société ayant financé ces travaux
Every day, classification is omnipresent and unconscious. For example in the process of decision when faced with something (an object, an event, a person), we will instinctively think of similar elements in order to adapt our choices and behaviors. This storage in a particular category is based on past experiences and characteristics of the element. The largest and the most accurate will be experiments, the most relevant will be the decision. It is the same when we need to categorize a document based on its content. For example detect if there is a children's story or a philosophical treatise. This treatment is of course more effective if we have a large number of works of these two categories and if books had a large number of words. In this thesis we address the problem of decision making precisely when we have few learning documents and when the documents had a limited number of words. For this we propose a new approach based on new weights. It enables us to accurately determine the weight to be given to the words which compose the document.To optimize treatment, we propose a configurable approach. Five parameters make our adaptable approach, regardless of the classification given problem. Numerous experiments have been conducted on various types of documents in different languages and in different configurations. According to the corpus, they highlight that our proposal allows us to achieve superior results in comparison with the best approaches in the literature to address the problems of small dataset. The use of parameters adds complexity since it is then necessary to determine optimitales values. Detect the best settings and best algorithms is a complicated task whose difficulty is theorized through the theorem of No-Free-Lunch. We treat this second problem by proposing a new meta-classification approach based on the concepts of distance and semantic similarities. Specifically we propose new meta-features to deal in the context of classification of documents. This original approach allows us to achieve similar results with the best approaches to literature while providing additional features. In conclusion, the work presented in this manuscript has been integrated into various technical implementations, one in the Weka software, one in a industrial prototype and a third in the product of the company that funded this work

22

Flaminio, Silvia. "(Se) représenter les barrages : (a)ménagement, concessions et controverses." Thesis, Lyon, 2018. http://www.theses.fr/2018LYSEN071/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse a pour objectif d’étudier les représentations et les récits liés aux aménagements controversés que peuvent être les barrages hydrauliques. Si la fonction symbolique des barrages a souvent été soulignée par la littérature scientifique, peu de travaux sont réellement consacrés à leurs représentations et à leurs trajectoires spatiales et temporelles. En s’inspirant d'études issues de la géographie sociale et culturelle sur les représentations et de la political ecology sur les discours, la thèse confronte différentes sources (presse, entretiens et archives), terrains (France et Australie) et approches méthodologiques (quantitatives et qualitatives) pour retracer l’évolution discursive des infrastructures hydrauliques. Les points de vue de différents acteurs sont aussi considérés: les habitants, les ingénieurs et les institutions hydrauliques, les opposants aux barrages, les administrations en charge de la protection de la nature ou encore les scientifiques qui produisent des connaissances sur l’environnement. D'un point de vue méthodologique, la thèse révèle les biais de certains matériaux et souligne l'intérêt de poursuivre leur croisement. Les résultats montrent l’évolution de waterscapes, d’espaces et de cycles hydrosociaux, par exemple les concessions progressives faites aux environnementalistes aux dépens des hydrocraties ; ils mettent aussi en avant, plus généralement, la production et la circulation de discours, notamment à l’occasion de conflits et de controverses, qui conduisent au délitement du discours prométhéen sur la nature et à la diffusion de représentations concurrentes de l'environnement
The aim of this PhD thesis is to study representations and narratives on dams, which are often controversial infrastructures. If the symbolic role of dams has been underlined in the literature, few studies actually focus on the perception of dams and their spatial and temporal trajectories. Building on the literature of social and cultural geography on representation, and the writings of political ecology on discourse, this thesis confronts different sources (newspapers, interviews and archives), study areas (in France and Australia) and methodological approaches (quantitative and qualitative) in order to follow the discursive evolution of hydraulic infrastructure. The points of view of various stakeholders are also considered: inhabitants, engineers and hydraulic institutions, opponents to dams, administrations in charge of nature protection and scientists who produce environmental knowledge. From a methodologicial perspective, the dissertation highlights the limits of certain material and illustrates the necessity to consider different sources in parallel. The results show the evolution of waterscapes, hydrosocial spaces and cycles---the gradual concessions made to environmentalists at the expense of hydraulic bureaucracies---but they also illustrate, on a broader perspective, the production and the flow of discourses on the environment---the disaggregation of a Promethean discourse on nature and the multiplication of different and sometimes opposing representations of the environment---particularly during conflicts and controversies

23

Morvan, Jérémy. "La gouvernance d'entreprise managériale : positionnement et rôle des gérants de fonds socialement responsables." Phd thesis, Université de Bretagne occidentale - Brest, 2005. http://tel.archives-ouvertes.fr/tel-00011421.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse développe une modélisation de la gouvernance de la firme fondée sur la légitimité du pouvoir.

Dans la première partie, nous développons une approche théorique de la gouvernance. Dans le premier chapitre, nous présentons la théorie de l'agence et la théorie des parties prenantes pour identifier les acteurs du processus productif. Dans un deuxième chapitre, nous cherchons à faire évoluer le paradigme en présentant un modèle de légitimité du pouvoir dans la firme.

Dans la seconde partie, nous produisons une approche empirique de la gouvernance. L'objectif est de comprendre l'imbrication des légitimités pragmatique, cognitive et morale de la firme dans sa recherche d'une adhésion des partenaires. Dans le troisième chapitre, une analyse de données textuelles permet d'identifer les attentes financières, partenariales et citoyennes de ces fonds socialement responsables (SR) en direction de l'entreprise. Dans le quatrième chapitre, nous comparons les performances de fonds et indices SR et traditionnels.

24

Tagny, Ngompe Gildas. "Méthodes D'Analyse Sémantique De Corpus De Décisions Jurisprudentielles." Thesis, IMT Mines Alès, 2020. http://www.theses.fr/2020EMAL0002.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Une jurisprudence est un corpus de décisions judiciaires représentant la manière dont sont interprétées les lois pour résoudre un contentieux. Elle est indispensable pour les juristes qui l'analysent pour comprendre et anticiper la prise de décision des juges. Son analyse exhaustive est difficile manuellement du fait de son immense volume et de la nature non-structurée des documents. L'estimation du risque judiciaire par des particuliers est ainsi impossible car ils sont en outre confrontés à la complexité du système et du langage judiciaire. L'automatisation de l'analyse des décisions permet de retrouver exhaustivement des connaissances pertinentes pour structurer la jurisprudence à des fins d'analyses descriptives et prédictives. Afin de rendre la compréhension d'une jurisprudence exhaustive et plus accessible, cette thèse aborde l'automatisation de tâches importantes pour l'analyse métier des décisions judiciaires. En premier, est étudiée l'application de modèles probabilistes d'étiquetage de séquences pour la détection des sections qui structurent les décisions de justice, d'entités juridiques, et de citations de lois. Ensuite, l'identification des demandes des parties est étudiée. L'approche proposée pour la reconnaissance des quanta demandés et accordés exploite la proximité entre les sommes d'argent et des termes-clés appris automatiquement. Nous montrons par ailleurs que le sens du résultat des juges est identifiable soit à partir de termes-clés prédéfinis soit par une classification des décisions. Enfin, pour une catégorie donnée de demandes, les situations ou circonstances factuelles où sont formulées ces demandes sont découvertes par regroupement non supervisé des décisions. A cet effet, une méthode d'apprentissage d'une distance de similarité est proposée et comparée à des distances établies. Cette thèse discute des résultats expérimentaux obtenus sur des données réelles annotées manuellement. Le mémoire propose pour finir une démonstration d'applications à l'analyse descriptive d'un grand corpus de décisions judiciaires françaises
A case law is a corpus of judicial decisions representing the way in which laws are interpreted to resolve a dispute. It is essential for lawyers who analyze it to understand and anticipate the decision-making of judges. Its exhaustive analysis is difficult manually because of its immense volume and the unstructured nature of the documents. The estimation of the judicial risk by individuals is thus impossible because they are also confronted with the complexity of the judicial system and language. The automation of decision analysis enable an exhaustive extraction of relevant knowledge for structuring case law for descriptive and predictive analyses. In order to make the comprehension of a case law exhaustive and more accessible, this thesis deals with the automation of some important tasks for the expert analysis of court decisions. First, we study the application of probabilistic sequence labeling models for the detection of the sections that structure court decisions, legal entities, and legal rules citations. Then, the identification of the demands of the parties is studied. The proposed approach for the recognition of the requested and granted quanta exploits the proximity between sums of money and automatically learned key-phrases. We also show that the meaning of the judges' result is identifiable either from predefined keywords or by a classification of decisions. Finally, for a given category of demands, the situations or factual circumstances in which those demands are made, are discovered by clustering the decisions. For this purpose, a method of learning a similarity distance is proposed and compared with established distances. This thesis discusses the experimental results obtained on manually annotated real data. Finally, the thesis proposes a demonstration of applications to the descriptive analysis of a large corpus of French court decisions

25

Lapierre, Dominique. "Diversité culturelle et religieuse dans le Devisement du monde de Marco Polo." Thesis, Normandie, 2018. http://www.theses.fr/2018NORMR117.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’objectif de cette thèse est de proposer une nouvelle lecture du Devisement du Monde – connu également sous le titre du Livre des Merveilles, La Description du Monde ou Il Milione – axée sur le regard que porte Marco Polo sur ses contemporains de l’autre bout du monde et la réception qui lui est réservée. Parti dans le contexte des croisades qui réduit l’opposition Orient/Occident à la dualité sarrasin/chrétien, le jeune Marco Polo se retrouve, au travers de ses voyages et à la cour de Kubilai Khan, dans une problématique beaucoup plus vaste, où pratiques et croyances multiples s’inscrivent dans des courants philosophiques jusqu’alors peu connus en Occident. « L’observateur des religions », comme le nomme Philippe Ménard, semble être véritablement fasciné par cette diversité culturelle et religieuse qu’il relève durant son séjour dans l’empire mongol. Tant de nouveautés sont difficiles à assimiler et surtout à rapporter. Nous nous intéressons à la forme que prennent ces descriptions à l’intérieur d’un récit aux versions et traductions multiples, dans un contexte historique et littéraire marqué par les guerres de religion et de pouvoir. Dans la poursuite des travaux de C. Dutschke et de C. Gadrat sur la réception, ce travail de recherche s’appuie sur l’étude diachronique de dix manuscrits et de six éditions du Devisement du monde datant de la première moitié du XIVe siècle jusqu’à la fin du XIXe siècle. Nous envisageons cette réception du texte, non pas sous l’angle de l’usage du récit polien par d’autres auteurs ou au regard de sa diffusion, mais à partir du texte lui-même, du paratexte ainsi que des enluminures et des illustrations. Ces éléments renseignent sur la manière dont le texte est reçu au cours des siècles, et sont porteurs des attentes du public potentiel qui évoluent elles-mêmes avec le temps. La numérisation systématique des versions/traductions retenues, ainsi que l’usage d’outils d’analyse de données textuelles permettent de concilier une lecture attentive du texte et une analyse quantitative au-delà de l’approche linéaire traditionnelle
The main goal of this dissertation is to propose a new reading and approach of Marco Polo’s Travels, also known as the Devisement du monde, the Description of the World or Il Milione. This study is based both on Marco Polo’s description of people living on the other side of the world and on the critical reception of his book. When Marco Polo left Venice, the prevailing opposition between West and East was mainly grounded in the duality opposing Christians and Saracens. However, through his travels and during his stay at Kubilai Khan’s Mongol court, the young man embraced more complex issues relating to religious beliefs and practices related to philosophical movements barely known in the Western world.“The observer of religions”, as historian P. Ménard calls him, seems to be fascinated by the cultural and religious diversity he encounters during his stay in the Mongol empire. So, many differences with his own culture were difficult to absorb and to report. In this study, we particularly focus on the many versions and translations of these descriptions, written in a context of political and religious turmoil. Following the works of C. Dutschke and C. Gadrat on the reception theory applied to the Travels, this diachronic research is founded on ten manuscripts and six editions dating from the early 14th century until the late 19th century. The impact of Marco Polo’s account is not studied here through the circulation of his Travels or according to the number of authors mentioning it in their own writings, but is rather established in relation to the text itself, along with the paratext, miniatures and illustrations. All these elements provide valuable information concerning its reception through ages, and about the expectations of the potential audience, which also evolved over time. All the versions and translations of our corpus have been digitized, and thanks to text analysis tools, we were able to reconcile close reading and data processing while analyzing the text

26

Torres, Aguilar Sergio. "Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins." Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLV081.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous présentons dans cette thèse deux modèles informatiques développés pour délivrer de l'information structurée et applicables à de grandes bases de données de textes médiévaux. Les deux modèles, l'un appliqué à la reconnaissance des entités nommées, l'autre à la détection des parties du discours diplomatique, ont suivi un apprentissage supervisé utilisant la méthode des Champs aléatoires conditionnelles (CRF) sur un corpus manuellement annoté de actes médiévaux (Corpus Burgundiae Medii Aevi ou CBMA).Notre modèle principal de reconnaissance d'entités nommées a prouvé sa robustesse lorsqu'il a été appliqué sur des échantillons de corpus de taille, chronologie et origine très variés. Le modèle secondaire détectant les parties du discours diplomatique, bien que moins performant, s'est montré valide comme outil de structuration. Ils peuvent à présent être utilisés pour l'indexation et l’étude d’une grande variété de sources diplomatiques, économisant, ainsi des considérables efforts humains.Nous avons développé différentes solutions destinées à trouver un juste équilibre entre la dépendance du modèle à son corpus d'origine et sa capacité à être appliqué à d’autres corpus. De même, différents ajouts et corrections ont été opérés sur le corpus de référence à partir de plusieurs observations de type historique et linguistique concernant les documents utilisés, ce qui a permis d'améliorer la performance initiale.Nous avons ensuite appliqué les outils ainsi générés à la reconnaissance de noms de personnes, de lieux et de parties du discours diplomatique sur des milliers d'actes du CBMA afin d'étudier différentes questions intéressant la science historique et la diplomatique. Ces études concernent la datation semi-automatique d'un cartulaire qui en était dépourvu ; l'évolution du vocabulaire spatial dans les actes du Moyen Âge Central; et l'indexation des documents à partir des modules les intégrant, notamment les formules du protocole des actes. Par ces études nous poursuivons un double objectif: illustrer différentes stratégies permettant d'abstraire et d'adapter au traitement automatique des données des méthodes de recherche classiques en Histoire ; démontrer que nos outils de traitement massif permettent la génération de connaissances pertinentes pour la science historique
In this thesis, we present two computer models to structure textual information for large databases of medieval charters. The two models, one applied to the recognition of named entities, the other to the detection of parts of the diplomatics discourse, are supervised Conditional random fields (CRF) models trained on a hand-annotated corpus of medieval charters. ( orpus Burgundiae Medii Aevi or CBMA).The main Named Entity Recognition model has proven to be robust in its application to widely varying corpora in size, chronology and origin. The secondary model detecting parts of the diplomatic discourse, although less efficient, remains valid as a structuring tool. At the moment both can be used for indexing and studying a wide variety of diplomatics sources, thus saving huge human efforts.We have developed different solutions to overcome the gap between model's dependence on its original training-set and its ability to be applied to other corpora. Similarly, various corrections and additions were made to the golden-corpus from several historical and linguistic analysis concerning writing phenomena in charters, which greatly helped to improve the initial performance.In a later step we applied our automatic tools in the recognition of names of people, places and parts of the diplomatics discourse on thousands of charters from the CBMA corpus in order to study different questions concerning historical science and diplomatics. These studies concern the semi-automatic dating of a non-dated cartulary; the evolution of the spatial vocabulary in the charters of the central Middle Ages and the indexing of charters from their scriptural modules, in particular formulae of the charter protocols. This studies has a twofold purpose: on the one hand have shown different strategies for abstracting and adapting to the automatic processing well-known methods of research in history; on the other hand, seek to provide us tools with an applicative framework to obtain relevant knowledge to the historical science using massive processing

27

Hô, Dinh Océane. "Caractérisation différentielle de forums de discussion sur le VIH en vietnamien et en français : Éléments pour la fouille comportementale du web social." Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCF022/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les discours normés que produisent les institutions sont concurrencés par les discours informels ou faiblement formalisés issus du web social. La démocratisation de la prise de parole redistribue l’autorité en matière de connaissance et modifie les processus de construction des savoirs. Ces discours spontanés sont accessibles par tous et dans des volumes exponentiels, ce qui offre aux sciences humaines et sociales de nouvelles possibilités d’exploration. Pourtant elles manquent encore de méthodologies pour appréhender ces données complexes et encore peu décrites. L’objectif de la thèse est de montrer dans quelle mesure les discours du web social peuvent compléter les discours institutionnels. Nous y développons une méthodologie de collecte et d’analyse adaptée aux spécificités des discours natifs du numérique (massivité, anonymat, volatilité, caractéristiques structurelles, etc.). Nous portons notre attention sur les forums de discussion comme environnements d’élaboration de ces discours et appliquons la méthodologie développée à une problématique sociale définie : celle de l’épidémie du VIH/SIDA au Viêt Nam. Ce terrain applicatif recouvre plusieurs enjeux de société : sanitaire et social, évolutions des moeurs, concurrence des discours. L’étude est complétée par l’analyse d’un corpus comparable de langue française, relevant des mêmes thématique, genre et discours que le corpus vietnamien, de manière à mettre en évidence les spécificités de contextes socioculturels distincts
The standard discourse produced by official organisations is confronted with the unofficial or informal discourse of the social web. Empowering people to express themselves results in a new balance of authority, when it comes to knowledge and changes the way people learn. Social web discourse is available to each and everyone and its size is growing fast, which opens up new fields for both humanities and social sciences to investigate. The latter, however, are not equipped to engage with such complex and little-analysed data. The aim of this dissertation is to investigate how far social web discourse can help supplement official discourse. In it we set out a method to collect and analyse data that is in line with the characteristics of a digital environment, namely data size, anonymity, transience, structure. We focus on forums, where such discourse is built, and test our method on a specific social issue, ie the HIV/AIDS epidemic in Vietnam. This field of investigation encompasses several related questions that have to do with health, society, the evolution of morals, the mismatch between different kinds of discourse. Our study is also grounded in the analysis of a comparable French corpus dealing with the same topic, whose genre and discourse characteristics are equivalent to those of the Vietnamese one: this two-pronged research highlights the specific features of different socio-cultural environments

28

Cherrabi, El Alaoui Nezha. "Un prisme sémantique des brevets par thésaurus interposés : positionnement, essais et applications." Electronic Thesis or Diss., Toulon, 2020. http://www.theses.fr/2020TOUL4003.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Nous vivons dans une société caractérisée par une obésité des données non raffinées disponibles dans différentes bases de données. Un écosystème où règne de l’information polluée qui empêche la transformation d’un nombre d’informations en connaissances productives, dans ce sens. les chercheurs dans le domaine de la recherche de l’information ont toujours insisté sur l’usage de l’information pertinente. Historiquement, la maitrise de l’information a été toujours l’enjeu de l’humanité pour conserver sa survie, à présent l’information doit être d’un degré de fiabilité suffisant pour éviter de polluer les connaissances. Le brevet est une source multidimensionnelle, source de premier plan en matière d’information.L’analyse instrumentée des données brevets devient une nécessité et constitue, pour les entreprises, les industriels et l’État, une ressource de mesure la plus efficace de l’activité inventive, pour une approche objective. La recherche dans les bases de données brevets est une tâche complexe pour plusieurs raisons, le nombre de brevets existants est très élevé et augmente rapidement, la recherche par mot-clé ne parvient pas à des résultats satisfaisants, les grandes entreprises ont recours à des professionnels capables de faire des recherches ciblées et efficaces, ce qui n’est pas souvent le cas pour les chercheurs universitaires, étudiants et d’autres profils. D’où la nécessité de l’intervention de la machine pour aider les experts et les non experts à mieux exploiter l’information en matière de brevets et démocratiser son usage. Ainsi, nous proposons une méthode d’accompagnement de l’usager à l’utilisation de cette documentation. Une voie qui s’appuie sur un référentiel normalisé des principes techniques imaginés par l’homme eux-mêmes décrits par des ensembles terminologiques que nous combinons avec des outils de traitement automatique des langues (TAL) pour s’absoudre des formes rédactionnelles des brevets et pour étendre les vocabulaires associés
We live in an information society, characterized by an explosion of data available on the web and in different databases. Researchers in the field of information stress the need for relevant information. Information literacy has always been the challenge for humanity to maintain its survival, now information must be of a sufficient degree of reliability to avoid polluting knowledge. The patent is a multidimensional source, a leading source of information. The instrumented analysis of patent data is becoming a necessity and constitutes, for companies, industrialists and the State, a resource for the most efficient measurement of inventive activity, for an objective approach. Searching patent databases is a complex task for several reasons, the number of existing patents is very high and increasing rapidly, keyword searches do not yield satisfactory results, large companies use professionals capable of performing targeted and efficient searches, which is often not the case for university researchers, students and other profiles.Hence the need for the machine to help experts and non-experts alike to better exploit patent information. Thus, we propose a method to accompany the user in the use of this documentation. This method is based on a standardized reference system of man-made technical principles, which are themselves described by terminology sets that we combine with natural language processing (NLP) tools to dispense with the editorial forms of patents and to extend the associated vocabularies

29

Afzali, Said Abdoul Razeq. "Analyse morphosyntaxique automatique du dari, persan d'Afghanistan, et mise au point d'un système d'interrogation de bases de données textuelles en langage naturel." Lille 3 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb375953243.

Full text

APA, Harvard, Vancouver, ISO, and other styles

30

Marine, Cadoret. "Analyse factorielle de données de catégorisation. : Application aux données sensorielles." Rennes, Agrocampus Ouest, 2010. http://www.theses.fr/2010NSARG006.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

En analyse sensorielle, les approches holistiques, dans lesquelles les objets sont considérés comme un tout, sont de plus en plus utilisées pour recueillir des données. Leur intérêt vient d'une part du fait qu'elles permettent d'acquérir d'autres types d'informations que celles obtenues par les méthodes de profil classiques et d'autre part du fait qu'elles ne demandent aucune compétence particulière, ce qui les rend réalisable par tous types de sujets. La catégorisation (ou tri libre) dans laquelle la tâche demandée aux sujets est de fournir une partition des objets, fait partie de ces approches. Cette thèse se concentre dans une première partie sur les données de catégorisation. Après avoir vu que cette méthode de recueil de données est pertinente, nous nous intéressons au traitement statistique de ces données à travers la recherche de représentations euclidiennes. La méthodologie proposée qui consiste à utiliser des méthodes factorielles telles que l'Analyse des Correspondances Multiple (ACM) ou l'Analyse Factorielle Multiple (AFM) est également enrichie d'éléments de validité. Cette méthodologie est ensuite illustrée par l'analyse de deux jeux de données obtenus à partir de bières d'une part et de parfums d'autre part. La deuxième partie est consacrée à l'étude de deux modes de recueil de données liés à la catégorisation : le Napping® catégorisé et le tri hiérarchique. Pour ces deux recueils, nous nous intéressons également au traitement des données en adoptant une démarche similaire à celle utilisée pour les données de catégorisation. Enfin, la dernière partie est consacrée à l'implémentation dans le logiciel R de différentes fonctions permettant de traiter les trois types de données que sont les données issues de catégorisation, Napping® catégorisé et tri hiérarchique
In sensory analysis, holistic approaches in which objects are considered as a whole are increasingly used to collect data. Their interest comes on a one hand from their ability to acquire other types of information as the one obtained by traditional profiling methods and on the other hand from the fact they require no special skills, which makes them feasible by all subjects. Categorization (or free sorting), in which subjects are asked to provide a partition of objects, belongs to these approaches. The first part of this work focuses on categorization data. After seeing that this method of data collection is relevant, we focus on the statistical analysis of these data through the research of Euclidean representations. The proposed methodology which consists in using factorial methods such as Multiple Correspondence Analysis (MCA) or Multiple Factor Analysis (MFA) is also enriched with elements of validity. This methodology is then illustrated by the analysis of two data sets obtained from beers on a one hand and perfumes on the other hand. The second part is devoted to the study of two data collection methods related to categorization: sorted Napping® and hierarchical sorting. For both data collections, we are also interested in statistical analysis by adopting an approach similar to the one used for categorization data. The last part is devoted to the implementation in the R software of functions to analyze the three kinds of data that are categorization data, hierarchical sorting data and sorted Napping® data

31

Gomes, Da Silva Alzennyr. "Analyse des données évolutives : application aux données d'usage du Web." Phd thesis, Université Paris Dauphine - Paris IX, 2009. http://tel.archives-ouvertes.fr/tel-00445501.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée.

32

Gomes, da Silva Alzennyr. "Analyse des données évolutives : Application aux données d'usage du Web." Paris 9, 2009. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=2009PA090047.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le nombre d'accès aux pages Web ne cesse de croître. Le Web est devenu l'une des plates-formes les plus répandues pour la diffusion et la recherche d'information. Par conséquence, beaucoup d'opérateurs de sites Web sont incités à analyser l'usage de leurs sites afin d'améliorer leur réponse vis-à-vis des attentes des internautes. Or, la manière dont un site Web est visité peut changer en fonction de divers facteurs. Les modèles d'usage doivent ainsi être mis à jour continuellement afin de refléter fidèlement le comportement des visiteurs. Ceci reste difficile quand la dimension temporelle est négligée ou simplement introduite comme un attribut numérique additionnel dans la description des données. C'est précisément sur cet aspect que se focalise la présente thèse. Pour pallier le problème d'acquisition des données réelles d'usage, nous proposons une méthodologie pour la génération automatique des données artificielles permettant la simulation des changements. Guidés par les pistes nées des analyses exploratoires, nous proposons une nouvelle approche basée sur des fenêtres non recouvrantes pour la détection et le suivi des changements sur des données évolutives. Cette approche caractérise le type de changement subi par les groupes de comportement (apparition, disparition, fusion, scission) et applique deux indices de validation basés sur l'extension de la classification pour mesurer le niveau des changements repérés à chaque pas de temps. Notre approche est totalement indépendante de la méthode de classification et peut être appliquée sur différents types de données autres que les données d'usage. Des expérimentations sur des données artificielles ainsi que sur des données réelles issues de différents domaines (académique, tourisme, commerce électronique et marketing) ont été réalisées pour l'évaluer l'efficacité de l'approche proposée
Nowadays, more and more organizations are becoming reliant on the Internet. The Web has become one of the most widespread platforms for information change and retrieval. The growing number of traces left behind user transactions (e. G. : customer purchases, user sessions, etc. ) automatically increases the importance of usage data analysis. Indeed, the way in which a web site is visited can change over time. These changes can be related to some temporal factors (day of the week, seasonality, periods of special offer, etc. ). By consequence, the usage models must be continuously updated in order to reflect the current behaviour of the visitors. Such a task remains difficult when the temporal dimension is ignored or simply introduced into the data description as a numeric attribute. It is precisely on this challenge that the present thesis is focused. In order to deal with the problem of acquisition of real usage data, we propose a methodology for the automatic generation of artificial usage data over which one can control the occurrence of changes and thus, analyse the efficiency of a change detection system. Guided by tracks born of some exploratory analyzes, we propose a tilted window approach for detecting and following-up changes on evolving usage data. In order measure the level of changes, this approach applies two external evaluation indices based on the clustering extension. The proposed approach also characterizes the changes undergone by the usage groups (e. G. Appearance, disappearance, fusion and split) at each timestamp. Moreover, the refereed approach is totally independent of the clustering method used and is able to manage different kinds of data other than usage data. The effectiveness of this approach is evaluated on artificial data sets of different degrees of complexity and also on real data sets from different domains (academic, tourism, e-business and marketing)

33

Peng, Tao. "Analyse de données loT en flux." Electronic Thesis or Diss., Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0649.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis l'avènement de l'IoT (Internet of Things), nous assistons à une augmentation sans précédent du volume des données générées par des capteurs. Pour l'imputation des données manquantes d'un capteur f, nous proposons le modèle ISTM (Incremental Space-Time Model), qui utilise la régression linéaire multiple incrémentale adaptée aux données en flux non-stationnaires. ISTM met à jour son modèle en sélectionnant : 1) les données des capteurs voisins géographiquement du capteur f, et 2) les données les plus récentes retournées par f. Pour mesurer la confiance, nous proposons un modèle générique de prédiction DTOM (Data Trustworthiness Online Model) qui s'appuie sur des méthodes ensemblistes de régression en ligne comme AddExp et BNNRW . DTOM permet de prédire des valeurs de confiance en temps réel et comporte trois phases : 1) une phase d'initialisation du modèle, 2) une phase d'estimation du score de confiance, et 3) une phase de mise à jour heuristique du régresseur. Enfin, nous nous intéressons à la prédiction dans une STS avec des sorties multiples en présence de déséquilibre, c'est à dire lorsqu'il y a plus d'instances dans un intervalle de valeurs que dans un autre. Nous proposons MORSTS, une méthode de régression ensembliste en ligne, avec les caractéristiques suivantes : 1) les sous-modèles sont à sorties multiples, 2) l'utilisation de la stratégie sensible aux coûts c'est à dire que l'instance incorrectement prédite a un poids plus élevé, et 3) le contrôle du sur-apprentissage des sous-modèles naissants par la méthode de validation croisée k-fold. Des expérimentations avec des données réelles ont été effectuées et comparées avec des techniques connues
Since the advent of the IoT (Internet of Things), we have witnessed an unprecedented growth in the amount of data generated by sensors. To exploit this data, we first need to model it, and then we need to develop analytical algorithms to process it. For the imputation of missing data from a sensor f, we propose ISTM (Incremental Space-Time Model), an incremental multiple linear regression model adapted to non-stationary data streams. ISTM updates its model by selecting: 1) data from sensors located in the neighborhood of f, and 2) the near-past most recent data gathered from f. To evaluate data trustworthiness, we propose DTOM (Data Trustworthiness Online Model), a prediction model that relies on online regression ensemble methods such as AddExp (Additive Expert) and BNNRW (Bagging NNRW) for assigning a trust score in real time. DTOM consists: 1) an initialization phase, 2) an estimation phase, and 3) a heuristic update phase. Finally, we are interested predicting multiple outputs STS in presence of imbalanced data, i.e. when there are more instances in one value interval than in another. We propose MORSTS, an online regression ensemble method, with specific features: 1) the sub-models are multiple output, 2) adoption of a cost sensitive strategy i.e. the incorrectly predicted instance has a higher weight, and 3) management of over-fitting by means of k-fold cross-validation. Experimentation with with real data has been conducted and the results were compared with reknown techniques

34

Sibony, Eric. "Analyse mustirésolution de données de classements." Thesis, Paris, ENST, 2016. http://www.theses.fr/2016ENST0036/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

35

Vidal, Jules. "Progressivité en analyse topologique de données." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS398.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’analyse topologique de donnés permet l’extraction générique et efficace de caractéristiques structurelles dans les données. Cependant, bien que ces techniques aient des complexités asymptotiques connues et raisonnables elles sont rarement interactives en pratique sur des jeux de données réels. Dans cette thèse, nous avons cherché à développer des méthodes progressives pour l’analyse topologique de données scalaires scientifiques, qui peuvent être interrompues pour fournir rapidement un résultat approché exploitable, et sont capables de l’affiner ensuite. Nous introduisons deux algorithmes progressifs pour le calcul des points critiques et du diagramme de persistance d’un champ scalaire. Ensuite, nous revisitons ce cadre progressif pour introduire un algorithme pour le calcul approché du diagramme de persistance d’un champ scalaire, avec des garanties sur l’erreur d’approximation associée. Enfin, afin d’effectuer une analyse visuelle de données d’ensemble, nous présentons un nouvel algorithme progressif pour le calcul du barycentre de Wasserstein d’un ensemble de diagrammes de persistance, une tâche notoirement coûteuse en calcul. Notre approche progressive permet d’approcher le barycentre de manière interactive. Nous étendons cette méthode à un algorithme de classification topologique de données d’ensemble, qui est progressif et capable de respecter une contrainte de temps
Topological Data Analysis (TDA) forms a collection of tools that enable the generic and efficient extraction of features in data. However, although most TDA algorithms have practicable asymptotic complexities, these methods are rarely interactive on real-life datasets, which limits their usability for interactive data analysis and visualization. In this thesis, we aimed at developing progressive methods for the TDA of scientific scalar data, that can be interrupted to swiftly provide a meaningful approximate output and that are able to refine it otherwise. First, we introduce two progressive algorithms for the computation of the critical points and the extremum-saddle persistence diagram of a scalar field. Next, we revisit this progressive framework to introduce an approximation algorithm for the persistence diagram of a scalar field, with strong guarantees on the related approximation error. Finally, in a effort to perform visual analysis of ensemble data, we present a novel progressive algorithm for the computation of the discrete Wasserstein barycenter of a set of persistence diagrams, a notoriously computationally intensive task. Our progressive approach enables the approximation of the barycenter within interactive times. We extend this method to a progressive, time-constraint, topological ensemble clustering algorithm

36

Sibony, Eric. "Analyse mustirésolution de données de classements." Electronic Thesis or Diss., Paris, ENST, 2016. http://www.theses.fr/2016ENST0036.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse introduit un cadre d’analyse multirésolution pour les données de classements. Initiée au 18e siècle dans le contexte d’élections, l’analyse des données de classements a attiré un intérêt majeur dans de nombreux domaines de la littérature scientifique : psychométrie, statistiques, économie, recherche opérationnelle, apprentissage automatique ou choix social computationel entre autres. Elle a de plus été revitalisée par des applications modernes comme les systèmes de recommandation, où le but est d’inférer les préférences des utilisateurs pour leur proposer les meilleures suggestions personnalisées. Dans ces contextes, les utilisateurs expriment leurs préférences seulement sur des petits sous-ensembles d’objets variant au sein d’un large catalogue. L’analyse de tels classements incomplets pose cependant un défi important, tant du point de vue statistique que computationnel, poussant les acteurs industriels à utiliser des méthodes qui n’exploitent qu’une partie de l’information disponible. Cette thèse introduit une nouvelle représentation pour les données, qui surmonte par construction ce double défi. Bien qu’elle repose sur des résultats de combinatoire et de topologie algébrique, ses nombreuses analogies avec l’analyse multirésolution en font un cadre naturel et efficace pour l’analyse des classements incomplets. Ne faisant aucune hypothèse sur les données, elle mène déjà à des estimateurs au-delà de l’état-de-l’art pour des petits catalogues d’objets et peut être combinée avec de nombreuses procédures de régularisation pour des larges catalogues. Pour toutes ces raisons, nous croyons que cette représentation multirésolution ouvre la voie à de nombreux développements et applications futurs
This thesis introduces a multiresolution analysis framework for ranking data. Initiated in the 18th century in the context of elections, the analysis of ranking data has attracted a major interest in many fields of the scientific literature : psychometry, statistics, economics, operations research, machine learning or computational social choice among others. It has been even more revitalized by modern applications such as recommender systems, where the goal is to infer users preferences in order to make them the best personalized suggestions. In these settings, users express their preferences only on small and varying subsets of a large catalog of items. The analysis of such incomplete rankings poses however both a great statistical and computational challenge, leading industrial actors to use methods that only exploit a fraction of available information. This thesis introduces a new representation for the data, which by construction overcomes the two aforementioned challenges. Though it relies on results from combinatorics and algebraic topology, it shares several analogies with multiresolution analysis, offering a natural and efficient framework for the analysis of incomplete rankings. As it does not involve any assumption on the data, it already leads to overperforming estimators in small-scale settings and can be combined with many regularization procedures for large-scale settings. For all those reasons, we believe that this multiresolution representation paves the way for a wide range of future developments and applications

37

Périnel, Emmanuel. "Segmentation en analyse de données symboliques : le cas de données probabilistes." Paris 9, 1996. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1996PA090079.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les méthodes de segmentation, ou d'arbre de décision, sont des techniques permettant d'expliquer une partition à priori d'une population d'objets décrite par des variables explicatives. Elles ont connu ces dernières années un net regain d'intérêt, aussi bien dans le domaine de la statistique que dans celui de l'apprentissage automatique en intelligence artificielle. Toutefois, ces méthodes sont souvent reconnues sensibles à une information dite imparfaite telle que, des erreurs de mesures, des imprécisions ou incertitudes, des jugements experts, ce phénomène résulte principalement du manque de flexibilité des langages de représentations employés pour décrire les objets étudiés, d'une part, et de la rigidité même du processus d'apprentissage (partitionnement récursif), d'autre part. Dans ce travail, nous proposons une méthodologie générale de construction d'arbre de décision appliquée à des données de nature probabiliste. Celles-ci sont représentées par des assertions probabilistes dans le contexte de l'analyse des données symboliques. Son langage de description, en offrant une représentation plus riche et complexe des objets étudiés, nous permet d'introduire plus de flexibilité dans le processus de segmentation. Le développement de l'arbre repose sur un critère de découpage basé sur la notion générale d'information ou de vraisemblance. La nature imprécise ou incertaine des données conduit, de façon naturelle, à la notion d'appartenance probabiliste des objets aux différents nœuds de l'arbre. La construction de l'arbre se présente alors sous la forme d'une succession de problèmes de mélange de lois de probabilité que l'on résout à l'aide d'un algorithme de type EM (espérance / maximisation). Nous faisons également le lien, dans un cadre probabiliste, entre la notion d'appartenance probabiliste précédente et celle consécutive à l'emploi d'une coupure souple ou floue. L'approche est illustrée sur un jeu de données médicales relatives à l'utilisation de marqueurs biologiques sur des types cellulaires, et dans l'objectif de caractériser le concept de système neuroendocrinien.

38

Aaron, Catherine. "Connexité et analyse des données non linéaires." Phd thesis, Université Panthéon-Sorbonne - Paris I, 2005. http://tel.archives-ouvertes.fr/tel-00308495.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

On s'intéresse dans cette thèse, à la mise en évidence des propriétés de connexité dans les données à analyser. Dans le cas de l'analyse des données ”classique” (i.e. linéaire), comme les surfaces de séparation des classes sont des hyperplans (des droites en dimension 2), la notion topologique sous-jacente est presque toujours la convexité. Au contraire dans tout ce qui suit, on cherche en priorité à segmenter les données en sous-ensembles (classes) connexes.

39

Darlay, Julien. "Analyse combinatoire de données : structures et optimisation." Phd thesis, Université de Grenoble, 2011. http://tel.archives-ouvertes.fr/tel-00683651.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse porte sur des problèmes d'exploration de données avec le point de vue de la recherche opérationnelle. L'exploration de données consiste en l'apprentissage de nouvelles connaissances à partir d'observations contenues dans une base de données. La nature des problèmes rencontrés dans ce domaine est proche de celle des problèmes de la recherche opérationnelle: grandes instances, objectifs complexes et difficulté algorithmique. L'exploration de données peut aussi se modéliser comme un problème d'optimisation avec un objectif partiellement connu. Cette thèse se divise en deux parties. La première est une introduction à l'exploration de données. Elle présente l'Analyse Combinatoire de Données (ACD), une méthode d'exploration de données issue de l'optimisation discrète. Cette méthode est appliquée à des données médicales originales et une extension aux problèmes d'analyse de temps de survie est proposée. L'analyse de temps de survie consiste à modéliser le temps avant un événement (typiquement un décès ou une rechute). Les heuristiques proposées utilisent des techniques classiques de recherche opérationnelle telles que la programmation linéaire en nombres entiers, la décomposition de problème, des algorithmes gloutons. La seconde partie est plus théorique et s'intéresse à deux problèmes combinatoires rencontrés dans le domaine de l'exploration de données. Le premier est un problème de partitionnement de graphes en sous-graphes denses pour l'apprentissage non supervisé. Nous montrons la complexité algorithmique de ce problème et nous proposons un algorithme polynomial basé sur la programmation dynamique lorsque le graphe est un arbre. Cet algorithme repose sur des résultats de la théorie des couplages. Le second problème est une généralisation des problèmes de couverture par les tests pour la sélection d'attributs. Les lignes d'une matrice sont coloriées en deux couleurs. L'objectif est de trouver un sous-ensemble minimum de colonnes tel que toute paire de lignes avec des couleurs différentes restent distinctes lorsque la matrice est restreinte au sous-ensemble de colonnes. Nous montrons des résultats de complexité ainsi que des bornes serrées sur la taille des solutions optimales pour différentes structures de matrices.

40

Operto, Grégory. "Analyse structurelle surfacique de données fonctionnelles cétrébrales." Aix-Marseille 3, 2009. http://www.theses.fr/2009AIX30060.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les images fonctionnelles par résonance magnétique contiennent une mesure de l'activité cérébrale en chaque point du cerveau. Si de nombreuses méthodes existent, l'analyse automatique de ces données reste un problème ouvert. Notamment, la très grande majorité des méthodes considère ces données de façon volumique, dans le domaine 3D d'acquisition. Pourtant, l'essentiel de l'activité a lieu dans le cortex, qui peut être considéré comme une surface. Considérer les données sur la surface corticale présente beaucoup d'avantages : d'une part sa géométrie peut être prise en compte dans toutes les étapes de traitement, d'autre part la prise en compte de l'ensemble du volume réduit le pouvoir de détection des tests statistiques généralement employés. Cette thèse propose ainsi une extension du champ d'application des méthodes volumiques vers le domaine surfacique en abordant la projection des données sur la surface, l'analyse multi-sujets ainsi que l'estimation de la validité des résultats
Functional data acquired by magnetic resonance contain a measure of the activity in every location of the brain. If many methods exist, the automatic analysis of these data remains an open problem. In particular, the huge majority of these methods consider these data in a volume-based fashion, in the 3D acquisition space. However, most of the activity is generated within the cortex, which can be considered as a surface. Considering the data on the cortical surface has many advantages : on one hand, its geometry can be taken into account in every processing step, on the other hand considering the whole volume reduces the detection power of usually employed statistical tests. This thesis hence proposes an extension of the application field of volume-based methods to the surface-based domain by adressing problems such as projecting data onto the surface, performing surface-based multi-subjects analysis, and estimating results validity

41

Le, Béchec Antony. "Gestion, analyse et intégration des données transcriptomiques." Rennes 1, 2007. http://www.theses.fr/2007REN1S051.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Dans le cadre de l'étude des mécanismes moléculaires impliqués dans les processus biologiques liés aux pathologies, la transcriptomique permet d’étudier l’expression de plusieurs milliers de gènes en une seule expérience. Les standards internationaux permettent actuellement de gérer la grande quantité de données générées par cette technologie et de nombreux algorithmes permettent le traitement et l’analyse des données d’expression. Le grand défi d’aujourd’hui réside dans l’interprétation des données, notamment par l’intégration de connaissances biologiques supplémentaires permettant la création d’un contexte d’étude aidant à la compréhension des mécanismes biologiques. Afin de répondre aux besoins liés à l’exploitation de ces données transcriptomiques, un environnement complet et évolutif a été développé, M@IA (Micro@rray Integrated Application), permettant de gérer les expériences de puces à ADN mais également traiter et analyser les données d’expression. Une méthode de biologie intégrative combinant de multiples sources de données a été conçue pour exploiter des listes de gènes différentiellement exprimés par l’interprétation de réseaux de gènes représentés sous forme de graphes d’interaction. Egalement, une méthode de méta-analyse de données d’expression de gènes issues de la bibliographie a permis de sélectionner et combiner des études similaires associées à la progression tumorale du foie. En conclusion, ces travaux s’intègrent totalement à l’actuel développement de la biologie intégrative, indispensable à la résolution des mécanismes physiopathologiques
Aiming at a better understanding of diseases, transcriptomic approaches allow the analysis of several thousands of genes in a single experiment. To date, international standard initiatives have allowed the utilization of large quantity of data generated using transcriptomic approaches by the whole scientific community, and a large number of algorithms are available to process and analyze the data sets. However, the major challenge remaining to tackle is now to provide biological interpretations to these large sets of data. In particular, their integration with additional biological knowledge would certainly lead to an improved understanding of complex biological mechanisms. In my thesis work, I have developed a novel and evolutive environment for the management and analysis of transcriptomic data. Micro@rray Integrated Application (M@IA) allows for management, processing and analysis of large scale expression data sets. In addition, I elaborated a computational method to combine multiple data sources and represent differentially expressed gene networks as interaction graphs. Finally, I used a meta-analysis of gene expression data extracted from the literature to select and combine similar studies associated with the progression of liver cancer. In conclusion, this work provides a novel tool and original analytical methodologies thus contributing to the emerging field of integrative biology and indispensable for a better understanding of complex pathophysiological processes

42

Abdali, Abdelkebir. "Systèmes experts et analyse de données industrielles." Lyon, INSA, 1992. http://www.theses.fr/1992ISAL0032.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'analyse du fonctionnement des Systèmes de Production Industrielle s'appuie sur des informations de natures diverses. Une bonne partie d'entre elles se présentant sous forme numérisée, on leur applique des méthodes d'analyse des données dont les résultats doivent être confrontés, puis interprétés à l'aide des autres connaissances. Notre travail s'insère dans le cadre de l'application des techniques de l'Intelligence Artificielle à la Statistique. Il vise en particulier à étudier la faisabilité et le développement d'un Système Expert Statistique dans le domaine des Systèmes de Production Industrielle. Nous avons élaboré ALADIN (Aide Logicielle pour l'Analyse de Données Industrielles), un système destiné à aider un utilisateur non-spécialiste à analyser des données recueillies sur des procédés industriels. L'architecture de ce système est flexible et allie aspect qualitatif (connaissances sur les procédés industriels et connaissances sur les méthodes statistiques et d'analyse de données) et aspect quantitatif (collection de programmes d'analyse). Pour l'instant, nous nous sommes limités aux problèmes d'Analyse en Composantes Principales. Outre l'aspect industriel, ALADIN présente l'avantage de fournir une assistance au niveau de chacun des nombreux maillons de la conduite d'une analyse de données et particulièrement en amont de l'analyse proprement dite i. E. Lors de la phase de prétraitement et de préparation des données: cette étape, toujours nécessaire compte tenu de la nature des mesures, est en effet généralement longue et fastidieuse
To analyses industrial process behavio, many kinds of information are needed. As tye ar mostly numerical, statistical and data analysis methods are well-suited to this activity. Their results must be interpreted with other knowledge about analysis prcess. Our work falls within the framework of the application of the techniques of the Artificial Intelligence to the Statistics. Its aim is to study the feasibility and the development of statistical expert systems in an industrial process field. The prototype ALADIN is a knowledge-base system designed to be an intelligent assistant to help a non-specialist user analyze data collected on industrial processes, written in Turbo-Prolong, it is coupled with the statistical package MODULAD. The architecture of this system is flexible and combing knowledge with general plants, the studied process and statistical methods. Its validation is performed on continuous manufacturing processes (cement and cast iron processes). At present time, we have limited to principal Components analysis problems

43

David, Claire. "Analyse de XML avec données non-bornées." Paris 7, 2009. http://www.theses.fr/2009PA077107.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse est motivée par la spécification et l'analyse de schémas XML, en se focalisant sur données présentes dans les documents. On s'intéresse à des structure de mots et d'arbres dont chaque position ou noeud est étiqueté à la fois par une lettre provenant d'un alphabet fini et par une donnée provenant d'un domaine potentiellement infini muni d'une relation d'égalité. Le travail de cette thèse a été de proposer et étudier des formalismes permettant de spécifier des langages de mots/d'arbres de données et dont le problème de satisfaisabilité soit décidable. Toute la difficulté est de trouver un compromis entre expressivité, décidabilité (et complexité). Une première approche consiste à étendre la logique du premier ordre à l'aide d'un prédicat binaire testant l'égalité de données. On étudie la frontière de décidabilité ainsi que la complexité du problème de satisfaisabilité pour différents fragments/extensions de cette logique et on fait le lien avec la spécification de schémas. Cette approche est élégante et générique, malheureusement les complexités obtenues extrêmement élevées. Afin d'obtenir des résultats de complexité plus raisonnables, on étudie un formalisme basé sur des combinaisons booléennes d'objets appelés "patterns". On s'intéresse encore une fois à la frontière de décidabilité et la complexité du problème de satisfaisabilité, au problème de model-checking. Les complexités obtenues sont plus encourageantes. En terme d'expressivité, ce formalisme est incomparable au précédent, on explicite les liens par rapport aux schémas XML
The motivation of the work is the specification and static analysis of schema for XML documents paying special attention to data values. We consider words and trees whose positions are labeled both by a letter from a finite alphabet and a data value from an infinite domain. Our goal is to find formalisms which offer good trade-offs between expressibility, decidability and complexity (for the satisfiability problem). We first study an extension of first-order logic with a binary predicate representing data equality. We obtain interesting some interesting results when we consider the two variable fragment. This appraoch is elegant but the complexity results are not encouraging. We proposed another formalism based data patterns which can be desired, forbidden or any boolean combination thereof. We drw precisely the decidability frontier for various fragments on this model. The complexity results that we get, while still high, seems more amenable. In terms of expressivity theses two approaches are orthogonal, the two variable fragment of the extension of FO can expressed unary key and unary foreign key while the boolean combination of data pattern can express arbitrary key but can not express foreign key

44

Carvalho, Francisco de. "Méthodes descriptives en analyse de données symboliques." Paris 9, 1992. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1992PA090025.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L'analyse des données symboliques se propose d'étendre la problématique, les méthodes et les algorithmes de l'analyse des données au traitement de connaissances souvent complexes, représentées par les objets symboliques. Dans ce cadre, nous étendons des outils de description couramment utilisés en analyse des données, tels que des histogrammes et des indices de proximité, à la description d'une base de connaissances d'objets symboliques. A partir de l'étude du potentiel de description d'un objet symbolique, nous avons étendu la notion d'histogramme aux variables choisies pour décrire une base de connaissances d'objets symboliques. Nous avons constaté l'importance de certains types de dépendance logique entre les variables sur les résultats obtenus. Nous avons également étudié l'interprétation de ces histogrammes. Pour mesurer la proximité entre les objets symboliques nous avons pu, sous l'angle du potentiel de description, adapter à ces objets les indices de proximité conçus pour les variables binaires, ainsi que l'indice de Minkowski. Cette approche nous a permis d'utiliser la même mesure de proximité indépendamment du type de variable. Nous avons étudié quelques propriétés des indices proposés et nous avons pu établir l'équivalence entre quelques-uns de ces indices. Ces indices tiennent compte des dépendances logiques entre variables. Enfin, nous avons adapté l'algorithme général de classification ascendante hiérarchique pour obtenir une classification d'objets symboliques. Par rapport aux méthodes usuelles de l'analyse des données, nous obtenons une description immédiate de chaque palier par un objet symbolique, nous avons un indice d'agrégation qui est le même aussi bien pour les singletons que pour les paliers, et nous employons un indicage basé sur le potentiel de description de l'objet symbolique décrivant le palier. Nous fournissons aussi une aide à l'interprétation de l'arbre de classification basée sur la re-description des fils de chaque nœud de l'arbre par les variables qui les discriminent

45

Royer, Jean-Jacques. "Analyse multivariable et filtrage des données régionalisées." Vandoeuvre-les-Nancy, INPL, 1988. http://www.theses.fr/1988NAN10312.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Ce travail est consacré à l'analyse multivariable et au filtrage des données régionalisées. On définit un indice de proximité entre échantillons. Une technique de filtrage basée sur l'analyse structurale, la déconvolution géostatistique, a été utilisée pour estimer la fonction de transfert ou identifier le signal de sortie. Le principe de la méthode repose sur le calcul au préalable des fonctions de covariance des signaux d'entrée et de sortie. Par ailleurs une relation théorique reliant la matrice de covariance des erreurs à la granulométrie du milieu étudié est démontrée

46

Faye, Papa Abdoulaye. "Planification et analyse de données spatio-temporelles." Thesis, Clermont-Ferrand 2, 2015. http://www.theses.fr/2015CLF22638/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La Modélisation spatio-temporelle permet la prédiction d’une variable régionalisée à des sites non observés du domaine d’étude, basée sur l’observation de cette variable en quelques sites du domaine à différents temps t donnés. Dans cette thèse, l’approche que nous avons proposé consiste à coupler des modèles numériques et statistiques. En effet en privilégiant l’approche bayésienne nous avons combiné les différentes sources d’information : l’information spatiale apportée par les observations, l’information temporelle apportée par la boîte noire ainsi que l’information a priori connue du phénomène. Ce qui permet une meilleure prédiction et une bonne quantification de l’incertitude sur la prédiction. Nous avons aussi proposé un nouveau critère d’optimalité de plans d’expérience incorporant d’une part le contrôle de l’incertitude en chaque point du domaine et d’autre part la valeur espérée du phénomène
Spatio-temporal modeling allows to make the prediction of a regionalized variable at unobserved points of a given field, based on the observations of this variable at some points of field at different times. In this thesis, we proposed a approach which combine numerical and statistical models. Indeed by using the Bayesian methods we combined the different sources of information : spatial information provided by the observations, temporal information provided by the black-box and the prior information on the phenomenon of interest. This approach allowed us to have a good prediction of the variable of interest and a good quantification of incertitude on this prediction. We also proposed a new method to construct experimental design by establishing a optimality criterion based on the uncertainty and the expected value of the phenomenon

47

Jamal, Sara. "Analyse spectrale des données du sondage Euclid." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0263.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les futurs sondages à grande échelle, comme la mission Euclid, produiront un large set de données qui nécessitera la mise en place de chaînes de traitement complètement automatisées pour analyser les données, extraire l'information et s'assurer que l'ensemble des exigences est respecté. À partir des données collectées, le redshift est une quantité essentielle à mesurer. Des méthodes distinctes pour l'estimation de redshift existent dans la littérature, mais il n'y a pas à l'heure actuelle une définition d'un critère de qualité automatisé pour juger de la fiabilité d'une mesure de redshift spectroscopique. Dans ce travail, nous avons présenté les techniques usuelles de l'analyse spectrale, comme le filtrage et l'extraction du continu, qui peuvent être réalisées en amont de l'estimation du redshift. Puis, nous nous sommes en grande partie intéressés à la problématique de prise de décision quant à l'évaluation de la fiabilité d'une mesure de redshift en développant une nouvelle méthodologie qui exploite les algorithmes de Machine Learning (ML) et les caractéristiques de la fonction de densité en probabilité du redshift (zPDF) définie dans un cadre bayésien.Notre idée consiste à quantifier, via le ML et des descripteurs des zPDFs, la fiabilité d'une mesure de redshift au sein de partitions distinctes qui décrivent différents niveaux de confiance. Par ex. une estimation de redshift obtenue à partir d'une zPDF multimodale ne dépeint pas le même niveau de confiance que celle obtenue à partir d'une zPDF unimodale. Nous estimons que cette nouvelle méthodologie pourra être exploitée dans le cadre de futurs sondages spectroscopiques à grande échelle comme Euclid
Large-scale surveys, as Euclid, will produce a large set of data that will require the development of fully automated data-processing pipelines to analyze the data, extract crucial information and ensure that all requirements are met. From a survey, the redshift is an essential quantity to measure. Distinct methods to estimate redshifts exist in the literature but there is no fully-automated definition of a reliability criterion for redshift measurements. In this work, we first explored common techniques of spectral analysis, as filtering and continuum extraction, that could be used as preprocessing to improve the accuracy of spectral features measurements, then focused on developing a new methodology to automate the reliability assessment of spectroscopic redshift measurements by exploiting Machine Learning (ML) algorithms and features of the posterior redshift probability distribution function (PDF). Our idea consists in quantifying, through ML and zPDFs descriptors, the reliability of a redshift measurement into distinct partitions that describe different levels of confidence. For example, a multimodal zPDF refers to multiple (plausible) redshift solutions possibly with similar probabilities, while a strong unimodal zPDF with a low dispersion and a unique and prominent peak depicts of a more "reliable" redshift estimate. We assess that this new methodology could be very promising for next-generation large spectroscopic surveys on the ground and space such as Euclid and WFIRST

48

Bobin, Jérôme. "Diversité morphologique et analyse de données multivaluées." Paris 11, 2008. http://www.theses.fr/2008PA112121.

Full text

APA, Harvard, Vancouver, ISO, and other styles

49

Lambert, Thierry. "Réalisation d'un logiciel d'analyse de données." Paris 11, 1986. http://www.theses.fr/1986PA112274.

Full text

APA, Harvard, Vancouver, ISO, and other styles

50

Fraisse, Bernard. "Automatisation, traitement du signal et recueil de données en diffraction x et analyse thermique : Exploitation, analyse et représentation des données." Montpellier 2, 1995. http://www.theses.fr/1995MON20152.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La recherche en chimie du solide necessite l'utilisation et la maitrise de techniques indispensables telles que la diffraction des rayons x et l'analyse thermique. Tout en ameliorant leurs performances, l'automatisation des appareils classiques permet a un grand nombre de laboratoires d'acceder a ces techniques pour un cout modeste. Cette derniere n'a pu etre envisagee qu'apres le developpement d'outils informatiques, en particulier les bibliotheques de communication entre le micro-ordinateur et les differents peripheriques. Les logiciels d'acquisition, d'exploitation, de representation tridimensionnelle et de comparaison des diffractogrammes de rayons x avec ceux contenus dans un fichier de references, ont ete concus et ecrits au laboratoire. De plus, la realisation de chambres de mesures autorise l'enregistrement des diffractogrammes en fonction de la temperature. L'experience acquise a pu etre appliquee a l'analyse thermique: les logiciels ecrits permettent respectivement l'acquisition et l'exploitation des diagrammes d'analyse thermique, directe et differentielle

Dissertations / Theses on the topic 'Analyse de données textuellees'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles