Добірка наукової літератури з теми "Regroupement de flux de données textuelles"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Regroupement de flux de données textuelles".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "Regroupement de flux de données textuelles"

1

Ganassali, Stéphane. "Faire parler les mots : vers un cadre méthodologique pour l’analyse thématique des réponses aux questions ouvertes." Décisions Marketing N° 51, no. 3 (August 1, 2008): 55–67. http://dx.doi.org/10.3917/dm.051.0055.

Повний текст джерела
Анотація:
Cet article vise à fournir aux chercheurs et aux praticiens un guide méthodologique pour mener leurs analyses thématiques sur les données textuelles issues de réponses aux questions ouvertes. Quatre types de méthodes sont présentées, à employer en fonction du volume du corpus et de la pré-existence d’une grille de codification (ou « code-book »). S’appuyant sur deux cas réels (dont l’un exploite 4 936 réponses), l’article propose une illustration concrète des techniques suivantes : tableau des réponses, analyse de contenu automatisée, analyse factorielle des cooccurrences et regroupement par dictionnaire thématique à partir d’une réduction lexicale. L’extraction des verbatims est évoquée enfin comme une illustration possible des résultats issus des analyses préalablement présentées.
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Feltgen, Quentin, Georgeta Cislaru, and Christophe Benzitoun. "Étude linguistique et statistique des unités de performance écrite : le cas de et." SHS Web of Conferences 138 (2022): 10001. http://dx.doi.org/10.1051/shsconf/202213810001.

Повний текст джерела
Анотація:
Cet article aborde la question de la segmentation par des pauses du flux de production écrite enregistré en temps réel et de la motivation linguistique et statistique de l’emplacement des pauses. En effet, les pauses segmentant des séquences textuelles linguistiquement analysables, il est crucial de comprendre si des contraintes régulières en fixent les frontières. Nous avons choisi de nous pencher sur le cas de la conjonction et, en vertu de la diversité sémantique et morphosyntaxique des relations qu’elle sémiotise. Après avoir mis en perspective les résultats d’une analyse de corpus antérieure, nous procédons à une annotation manuelle des occurrences en départageant les emplois extra- et intraphrastiques de et dans un corpus de textes courts produits par des adultes (étudiants). Une méthode d’analyse statistique est ensuite appliquée aux données annotées pour tester les attentes statistiques en termes d’emplacement des pauses. Cette analyse permet de faire ressortir des différences de segmentation en fonction du type d’emploi de et.
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Hoareau, Émilie, Blandine Ageron, and Marc Bidan. "Supply Chain Unicorn Hunt: The Elusive Quest for HR." Revue de gestion des ressources humaines N° 128, no. 2 (June 27, 2023): 60–79. http://dx.doi.org/10.3917/grhu.128.0060.

Повний текст джерела
Анотація:
Cette article se situe à la confluence des corpus théoriques du management des ressources humaines et du management de la supply chain. Face à la pénurie de ressources humaines dans le domaine du management de la logistique et de la supply chain, nous formulons en effet les questions suivantes, 1) Quel est le profil type de cette ressource managériale visiblement devenue rare ? 2) Quelles sont les compétences clés requises ? Pour répondre à ces questions, nous nous appuyons sur la littérature en SCM traitant des compétences et une enquête menée auprès de 156 managers français évoluant dans le champ de la logistique et du SCM. Nos résultats sont issus d’une analyse des données textuelles. Ils mettent en lumière 3 profils types qu’il est possible de qualifier de portrait type : le chef de projet, le manager des relations et le manager des flux. Cette analyse textuelle a également montré l’existence de 6 blocs de compétences clés que nous avons qualifiées de « facettes » du métier (initiative, investigation, médiation, vision, harmonisation et technique). Sur le fond, il est apparu que ces facettes ne se manifestent pas de la même façon en fonction des caractéristiques du manager, de son organisation et/ou de son poste. Dès lors, nous discutons d’indicateurs positifs dans la lutte contre la pénurie de talents à destination des responsables RH en soulignant l’importance du contexte. Nous concluons sur les limites et perspectives.
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Witt, Jeffrey C. "Finding Relatedness: pathways for detecting textual relatedness in the medieval scholastic corpus." Méthodos 24 (2024). https://doi.org/10.4000/12xql.

Повний текст джерела
Анотація:
Pour montrer l’importance de préparer d’abord les éditions historiques sous forme de données textuelles, tout en laissant la présentation (que ce soit sous forme imprimée ou sur le Web) comme une tâche secondaire en aval, cet article identifie les résultats bénéfiques pour la recherche qui peuvent être obtenus grâce à l’analyse informatique lorsqu’un tel corpus de données textuelles est à portée de main. En mettant l’accent sur la profonde intertextualité caractéristique du corpus scolastique médiéval, il passe en revue trois méthodes distinctes pour détecter différentes formes de relation textuelle au sein du corpus : les intersections de n-grammes, les “document embeddings” et la convolution. Dans chaque cas, une attention particulière est accordée à la façon dont la disponibilité d'un “knowledge graph” spécifique à un domaine nous aide à la fois à préparer correctement le corpus pour l'analyse et à visualiser les résultats de manière à améliorer la recherche. Ces résultats incluent l’observation des tendances dans les pratiques de citation dans différents genres et sous-genres du corpus, le regroupement automatique des questions par similarité et la détection d’une réutilisation textuelle soutenue et non citée.
Стилі APA, Harvard, Vancouver, ISO та ін.
5

MAÎTRE, Elliot, Max CHEVALIER, Bernard DOUSSET, Jean-Philippe GITTO, and Olivier TESTE. "Étude de l’influence des représentations textuelles sur la détection d’évènements dans des flux de données." Revue ouverte d’ingénierie des systèmes d’information 4, Special (2024). http://dx.doi.org/10.21494/iste.op.2024.1139.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
6

Görmar, Maximilian. "La reconnaissance d’entités nommées dans les éditions numériques à l’exemple du récit de voyage du pharmacien Wagener." Théia, no. 1 (November 26, 2024). http://dx.doi.org/10.35562/theia.53.

Повний текст джерела
Анотація:
Dans le domaine des éditions numériques savantes, les applications de l’intelligence artificielle (IA) et de l’apprentissage automatique gagnent de plus en plus d’influence. De nos jours, la transcription ainsi que l’annotation de textes peuvent être facilitées par des outils puissants tels que Transkribus, avec lesquels des modèles d’IA peuvent être entraînés pour effectuer une reconnaissance de texte manuscrit (HTR). Dans une deuxième étape, les données textuelles peuvent être traitées par des logiciels conçus pour le Traitement du langage naturel (NLP) afin d’extraire et d’annoter des caractéristiques syntaxiques, morphologiques ainsi que des informations sémantiques. Par exemple, il est possible de baliser des personnes, des lieux et des organisations via la Reconnaissance d’entités nommées (NER), ce qui est particulièrement pertinent pour les éditions numériques de sources historiques.Ces considérations sont l’une des principales préoccupations du projet de recherche et d’édition « Grand Tour digital » à la Bibliothèque Herzog August de Wolfenbüttel. Il vise à établir la faisabilité des méthodes d’IA pour l’édition savante de sources historiques et à adapter de telles méthodes dans un flux de travail complet et durable qui pourrait être applicable à d’autres projets également. Ce faisant, nous devons identifier les possibilités et, plus important encore, les défis potentiels de la technologie en ce qui concerne son adaptabilité aux sources historiques. Cet article présente un travail réalisable grâce à la NER en utilisant l’exemple d’un récit de voyage du milieu du xviie siècle écrit par un jeune apothicaire itinérant qui a voyagé dans la région baltique, à travers le nord de l’Allemagne, faisant fonction de laquais dans la suite du jeune duc Ferdinand Albrecht Ier de Brunswick-Wolfenbüttel-Bevern, en Suisse et en France.En observant ce processus, apparaîtront certains problèmes et difficultés liés aux particularités des textes de l’époque moderne par rapport aux textes contemporains pour lesquels pratiquement tous les outils de NLP et de NER ont été initialement conçus. Tout d’abord, les textes actuels sont orthographiquement et grammaticalement beaucoup plus normalisés que de nombreux textes anciens. À l’époque moderne, par exemple, le même scribe pouvait utiliser différentes orthographes du même mot sur la même page. De plus, de nombreux scribes et leurs textes étaient multilingues plutôt que monolingues, et même les noms de personnes ou de lieux pouvaient parfois être donnés dans différentes langues et versions, par exemple le prénom allemand Johannes ou Hans pouvait parfois apparaître dans sa forme française Jean même si la même personne était visée.Il existe plusieurs approches pour atténuer ces difficultés et celles qui y sont liées, dont certaines seront évaluées dans cet article. La première consiste à utiliser des techniques d’apprentissage automatique pour former des modèles NER spécifiquement sur des textes de la période et de la langue qui nous intéressent. Le problème est qu’il existe, en général, très peu de jeux de données d’entraînement disponibles à partir de textes historiques qui peuvent être utilisés pour former des modèles spécialisés. Une autre approche est l’utilisation de gazetiers ou de dictionnaires de noms avec lesquels le programme peut reconnaître certains tokens comme des noms. Encore une fois, il existe relativement peu de ressources pour les textes de l’époque moderne par rapport aux textes contemporains et surtout les noms de personnes montrent une grande variété et sont souvent très spécifiques à des textes individuels. Ainsi, l’approche basée sur le dictionnaire ou les règles ne peut être utilisée de manière significative que pour des entités qui existent sur une période relativement longue et peuvent apparaître, par conséquent, dans un plus grand nombre de textes, comme des lieux ou des organisations. Une troisième manière de faire face aux problèmes posés par les sources historiques pour la NER consiste en la combinaison des deux approches décrites ci-dessus. C’est possible avec certaines applications de NLP, par exemple spaCy, qui a été utilisé dans l’étude entre autre pour cette raison.Dans l’ensemble, cet article présente une étude de cas pour l’application de méthodes NER aux éditions numériques savantes de textes de l’époque moderne. Il analyse les possibilités et les défis de cette entreprise et propose des solutions en cas de difficultés. Si ces réflexions peuvent être utiles à d’autres projets, elles sont encore à un stade préliminaire et nécessitent des tests et des améliorations supplémentaires.
Стилі APA, Harvard, Vancouver, ISO та ін.

Дисертації з теми "Regroupement de flux de données textuelles"

1

Chartron, Ghislaine. "Analyse des corpus de données textuelles, sondage de flux d'informations." Paris 7, 1988. http://www.theses.fr/1988PA077211.

Повний текст джерела
Анотація:
Realisation d'un outil d'extraction des concepts significatifs d'un corpus quelconque de documents "homogenes", l'originalite defaut de respecter les exigences d'un univers ouvert: l'outil a ete appele lexinet. Les traitements ont ete developpes dans la perspective de traiter des sources d'informations diverses en un temps limite, sans s'appuyer sur des lexiques preetablis. Les techniques employees associent des methodes linguistiques elementaires, des methodes statistiques et l'intervention d'un expert humain, specialiste du domaine traite
Стилі APA, Harvard, Vancouver, ISO та ін.
2

Tagny, Ngompe Gildas. "Méthodes D'Analyse Sémantique De Corpus De Décisions Jurisprudentielles." Thesis, IMT Mines Alès, 2020. http://www.theses.fr/2020EMAL0002.

Повний текст джерела
Анотація:
Une jurisprudence est un corpus de décisions judiciaires représentant la manière dont sont interprétées les lois pour résoudre un contentieux. Elle est indispensable pour les juristes qui l'analysent pour comprendre et anticiper la prise de décision des juges. Son analyse exhaustive est difficile manuellement du fait de son immense volume et de la nature non-structurée des documents. L'estimation du risque judiciaire par des particuliers est ainsi impossible car ils sont en outre confrontés à la complexité du système et du langage judiciaire. L'automatisation de l'analyse des décisions permet de retrouver exhaustivement des connaissances pertinentes pour structurer la jurisprudence à des fins d'analyses descriptives et prédictives. Afin de rendre la compréhension d'une jurisprudence exhaustive et plus accessible, cette thèse aborde l'automatisation de tâches importantes pour l'analyse métier des décisions judiciaires. En premier, est étudiée l'application de modèles probabilistes d'étiquetage de séquences pour la détection des sections qui structurent les décisions de justice, d'entités juridiques, et de citations de lois. Ensuite, l'identification des demandes des parties est étudiée. L'approche proposée pour la reconnaissance des quanta demandés et accordés exploite la proximité entre les sommes d'argent et des termes-clés appris automatiquement. Nous montrons par ailleurs que le sens du résultat des juges est identifiable soit à partir de termes-clés prédéfinis soit par une classification des décisions. Enfin, pour une catégorie donnée de demandes, les situations ou circonstances factuelles où sont formulées ces demandes sont découvertes par regroupement non supervisé des décisions. A cet effet, une méthode d'apprentissage d'une distance de similarité est proposée et comparée à des distances établies. Cette thèse discute des résultats expérimentaux obtenus sur des données réelles annotées manuellement. Le mémoire propose pour finir une démonstration d'applications à l'analyse descriptive d'un grand corpus de décisions judiciaires françaises
A case law is a corpus of judicial decisions representing the way in which laws are interpreted to resolve a dispute. It is essential for lawyers who analyze it to understand and anticipate the decision-making of judges. Its exhaustive analysis is difficult manually because of its immense volume and the unstructured nature of the documents. The estimation of the judicial risk by individuals is thus impossible because they are also confronted with the complexity of the judicial system and language. The automation of decision analysis enable an exhaustive extraction of relevant knowledge for structuring case law for descriptive and predictive analyses. In order to make the comprehension of a case law exhaustive and more accessible, this thesis deals with the automation of some important tasks for the expert analysis of court decisions. First, we study the application of probabilistic sequence labeling models for the detection of the sections that structure court decisions, legal entities, and legal rules citations. Then, the identification of the demands of the parties is studied. The proposed approach for the recognition of the requested and granted quanta exploits the proximity between sums of money and automatically learned key-phrases. We also show that the meaning of the judges' result is identifiable either from predefined keywords or by a classification of decisions. Finally, for a given category of demands, the situations or factual circumstances in which those demands are made, are discovered by clustering the decisions. For this purpose, a method of learning a similarity distance is proposed and compared with established distances. This thesis discusses the experimental results obtained on manually annotated real data. Finally, the thesis proposes a demonstration of applications to the descriptive analysis of a large corpus of French court decisions
Стилі APA, Harvard, Vancouver, ISO та ін.
3

Peignier, Sergio. "Subspace clustering on static datasets and dynamic data streams using bio-inspired algorithms." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI071/document.

Повний текст джерела
Анотація:
Une tâche importante qui a été étudiée dans le contexte de données à forte dimensionnalité est la tâche connue sous le nom de subspace clustering. Le subspace clustering est généralement reconnu comme étant plus compliqué que le clustering standard, étant donné que cette tâche vise à détecter des groupes d’objets similaires entre eux (clusters), et qu’en même temps elle vise à trouver les sous-espaces où apparaissent ces similitudes. Le subspace clustering, ainsi que le clustering traditionnel ont été récemment étendus au traitement de flux de données en mettant à jour les modèles de clustering de façon incrémentale. Les différents algorithmes qui ont été proposés dans la littérature, reposent sur des bases algorithmiques très différentes. Parmi ces approches, les algorithmes évolutifs ont été sous-explorés, même si ces techniques se sont avérées très utiles pour traiter d’autres problèmes NP-difficiles. L’objectif de cette thèse a été de tirer parti des nouvelles connaissances issues de l’évolution afin de concevoir des algorithmes évolutifs qui traitent le problème du subspace clustering sur des jeux de données statiques ainsi que sur des flux de données dynamiques. Chameleoclust, le premier algorithme développé au cours de ce projet, tire partie du grand degré de liberté fourni par des éléments bio-inspirés tels qu’un génome de longueur variable, l’existence d’éléments fonctionnels et non fonctionnels et des opérateurs de mutation incluant des réarrangements chromosomiques. KymeroClust, le deuxième algorithme conçu dans cette thèse, est un algorithme de k-medianes qui repose sur un mécanisme évolutif important: la duplication et la divergence des gènes. SubMorphoStream, le dernier algorithme développé ici, aborde le problème du subspace clustering sur des flux de données dynamiques. Cet algorithme repose sur deux mécanismes qui jouent un rôle clef dans l’adaptation rapide des bactéries à des environnements changeants: l’amplification de gènes et l’absorption de matériel génétique externe. Ces algorithmes ont été comparés aux principales techniques de l’état de l’art, et ont obtenu des résultats compétitifs. En outre, deux applications appelées EvoWave et EvoMove ont été développés pour évaluer la capacité de ces algorithmes à résoudre des problèmes réels. EvoWave est une application d’analyse de signaux Wi-Fi pour détecter des contextes différents. EvoMove est un compagnon musical artificiel qui produit des sons basés sur le clustering des mouvements d’un danseur, décrits par des données provenant de capteurs de déplacements
An important task that has been investigated in the context of high dimensional data is subspace clustering. This data mining task is recognized as more general and complicated than standard clustering, since it aims to detect groups of similar objects called clusters, and at the same time to find the subspaces where these similarities appear. Furthermore, subspace clustering approaches as well as traditional clustering ones have recently been extended to deal with data streams by updating clustering models in an incremental way. The different algorithms that have been proposed in the literature, rely on very different algorithmic foundations. Among these approaches, evolutionary algorithms have been under-explored, even if these techniques have proven to be valuable addressing other NP-hard problems. The aim of this thesis was to take advantage of new knowledge from evolutionary biology in order to conceive evolutionary subspace clustering algorithms for static datasets and dynamic data streams. Chameleoclust, the first algorithm developed in this work, takes advantage of the large degree of freedom provided by bio-like features such as a variable genome length, the existence of functional and non-functional elements and mutation operators including chromosomal rearrangements. KymeroClust, our second algorithm, is a k-medians based approach that relies on the duplication and the divergence of genes, a cornerstone evolutionary mechanism. SubMorphoStream, the last one, tackles the subspace clustering task over dynamic data streams. It relies on two important mechanisms that favor fast adaptation of bacteria to changing environments, namely gene amplification and foreign genetic material uptake. All these algorithms were compared to the main state-of-the-art techniques, obtaining competitive results. Results suggest that these algorithms are useful complementary tools in the analyst toolbox. In addition, two applications called EvoWave and EvoMove have been developed to assess the capacity of these algorithms to address real world problems. EvoWave is an application that handles the analysis of Wi-Fi signals to detect different contexts. EvoMove, the second one, is a musical companion that produces sounds based on the clustering of dancer moves captured using motion sensors
Стилі APA, Harvard, Vancouver, ISO та ін.
4

Girault, Thomas. "Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées." Phd thesis, Université Rennes 1, 2010. http://tel.archives-ouvertes.fr/tel-00867236.

Повний текст джерела
Анотація:
Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations...) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test.
Стилі APA, Harvard, Vancouver, ISO та ін.

Звіти організацій з теми "Regroupement de flux de données textuelles"

1

Goerzen, C., H. Kao, R. Visser, R. M. H. Dokht, and S. Venables. A comprehensive earthquake catalogue for northeastern British Columbia, 2021 and 2022. Natural Resources Canada/CMSS/Information Management, 2024. http://dx.doi.org/10.4095/332532.

Повний текст джерела
Анотація:
Ce rapport de fichier ouvert présente les résultats de la surveillance sismique globale menée dans le nord-est de la Colombie-Britannique (NE BC) en 2021 et 2022. L'effort de surveillance englobe deux zones primaires d'observation sismique : la zone de surveillance etd'atténuation sismique de Kiskatinaw (KSMMA) et la zone de condition de permis de surveillance du mouvement du sol (GMMPCA), chacune étant caractérisée par des opérations pétrolières et gazières différentes, ainsi que par des densités de population. Un flux de travail de pointe basé surl'apprentissage automatique a été utilisé pour la détection des tremblements de terre et la détermination des phases. Une étape de révision manuelle a été incluse pour garantir la qualité de toutes les détections et localisations de tremblements de terre. Du 1er janvier 2021 au 31 décembre 2022, untotal de 9655 événements sismiques ont été détectés, avec un taux mensuel moyen de 420 événements. Le KSMMA a enregistré 8468 événements au cours de cette période, caractérisés par un regroupement serré, tandis que le GMMPCA a enregistré 899 événements. Des variations dans les taux de sismicité ontété observées par rapport aux rapports précédents, potentiellement influencées par des changements dans les activités industrielles et les capacités de surveillance sismique. L'ampleur de l'exhaustivité pour le KSMMA est passée à 1,01, reflétant les changements dans le réseau de surveillancesismique, tandis que le GMMPCA a affiché une ampleur de l'exhaustivité de 1,45, légèrement supérieure à celle de la période de rapport précédente. Ce rapport souligne la nature dynamique de la sismicité induite dans le nord-est de la Colombie-Britannique, en insistant sur la nécessité d'unesurveillance continue, de mesures d'atténuation adaptatives et d'une collecte robuste de données sismiques pour éclairer la prise de décision et améliorer la préparation aux tremblements de terre.
Стилі APA, Harvard, Vancouver, ISO та ін.
Ми пропонуємо знижки на всі преміум-плани для авторів, чиї праці увійшли до тематичних добірок літератури. Зв'яжіться з нами, щоб отримати унікальний промокод!

До бібліографії