Добірка наукової літератури з теми "Extraction d'entités"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Extraction d'entités".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Дисертації з теми "Extraction d'entités":

1

Stern, Rosa. "Identification automatique d'entités pour l'enrichissement de contenus textuels." Phd thesis, Université Paris-Diderot - Paris VII, 2013. http://tel.archives-ouvertes.fr/tel-00939420.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse propose une méthode et un système d'identification d'entités (personnes, lieux, organisations) mentionnées au sein des contenus textuels produits par l'Agence France Presse dans la perspective de l'enrichissement automatique de ces contenus. Les différents domaines concernés par cette tâche ainsi que par l'objectif poursuivi par les acteurs de la publication numérique de contenus textuels sont abordés et mis en relation : Web Sémantique, Extraction d'Information et en particulier Reconnaissance d'Entités Nommées (\ren), Annotation Sémantique, Liage d'Entités. À l'issue de cette étude, le besoin industriel formulé par l'Agence France Presse fait l'objet des spécifications utiles au développement d'une réponse reposant sur des outils de Traitement Automatique du Langage. L'approche adoptée pour l'identification des entités visées est ensuite décrite : nous proposons la conception d'un système prenant en charge l'étape de \ren à l'aide de n'importe quel module existant, dont les résultats, éventuellement combinés à ceux d'autres modules, sont évalués par un module de Liage capable à la fois (i) d'aligner une mention donnée sur l'entité qu'elle dénote parmi un inventaire constitué au préalable, (ii) de repérer une dénotation ne présentant pas d'alignement dans cet inventaire et (iii) de remettre en cause la lecture dénotationnelle d'une mention (repérage des faux positifs). Le système \nomos est développé à cette fin pour le traitement de données en français. Sa conception donne également lieu à la construction et à l'utilisation de ressources ancrées dans le réseau des \ld ainsi que d'une base de connaissances riche sur les entités concernées.
2

Taillé, Bruno. "Contextualization and Generalization in Entity and Relation Extraction." Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS266.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Depuis 2018, le transfert de modèles de langue pré-entraînés et la préservation de leurs capacités de contextualisation ont permis d'atteindre des performances sans précédent sur les benchmarks de Traitement Automatique des Langues. Cependant, alors que ces modèles atteignent des scores impressionnants, leurs capacités de compréhension apparaissent assez peu développées, révélant les limites des jeux de données de référence pour identifier leurs facteurs de performance et pour mesurer précisément leur capacité de compréhension. Dans cette thèse, nous étudions la généralisation à des faits inconnus par des modèles état de l'art en Extraction d'Entités Nommées et de Relations. En effet, les benchmarks traditionnels présentent un recoupement lexical important entre les mentions et les relations utilisées pour l'entraînement et l'évaluation des modèles. Au contraire, l'intérêt principal de l'Extraction d'Information est d'extraire des informations inconnues jusqu'alors. Nous proposons plusieurs études pour séparer les performances selon le recoupement des mentions et des relations avec le jeu d'entraînement. Nous constatons que les modèles de langage pré-entraînés sont principalement bénéfiques pour détecter les mentions non connues, en particulier dans des genres de textes nouveaux. Bien que cela les rende adaptés à des cas d'utilisation concrets, il existe toujours un écart de performance important entre les mentions connues et inconnues. En particulier, même les modèles d'Extraction d'Entités et de Relations les plus récents reposent sur une heuristique de rétention superficielle, basant plus leur prédiction sur les arguments des relations que sur leur contexte
Since 2018, the transfer of entire pretrained Language Models and the preservation of their contextualization capacities enabled to reach unprecedented performance on virtually every Natural Language Processing benchmark. However, as models reach such impressive scores, their comprehension abilities still appear as shallow, which reveals limitations of benchmarks to provide useful insights on their factors of performance and to accurately measure understanding capabilities. In this thesis, we study the behaviour of state-of-the-art models regarding generalization to facts unseen during training in Entity and Relation Extraction. Indeed, traditional benchmarks present important lexical overlap between mentions and relations used for training and evaluating models, whereas the main interest of Information Extraction is to extract previously unknown information. We propose studies to separate performance based on mention and relation overlap with the training set and find that pretrained Language Models are mainly beneficial to detect unseen mentions, in particular out-of-domain. While this makes them suited for real use cases, there is still a gap in performance between seen and unseen mentions that hurts generalization to new facts. In particular, even state-of-the-art ERE models rely on a shallow retention heuristic, basing their prediction more on arguments surface forms than context
3

Wang, Zhen. "Extraction en langue chinoise d'actions spatiotemporalisées réalisées par des personnes ou des organismes." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016INAL0006.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automatiquement des sources textuelles en chinois simplifié afin de segmenter les textes en mots et de les étiqueter par catégories grammaticales, ainsi que de construire les relations syntaxiques entre les mots. Le deuxième est d'extraire des informations autour des entités et des actions qui nous intéressent à partir des textes analysés. Afin d'atteindre ces deux objectifs, nous avons traité principalement les problématiques suivantes : les ambiguïtés de segmentation, la catégorisation ; le traitement des mots inconnus dans les textes chinois ; l'ambiguïté de l'analyse syntaxique ; la reconnaissance et le typage des entités nommées. Le texte d'entrée est traité phrase par phrase. L'analyseur commence par un traitement typographique au sein des phrases afin d'identifier les écritures latines et les chiffres. Ensuite, nous segmentons la phrase en mots à l'aide de dictionnaires. Grâce aux règles linguistiques, nous créons des hypothèses de noms propres, changeons les poids des catégories ou des mots selon leur contextes gauches ou/et droits. Un modèle de langue n-gramme élaboré à partir d'un corpus d'apprentissage permet de sélectionner le meilleur résultat de segmentation et de catégorisation. Une analyse en dépendance est utilisée pour marquer les relations entre les mots. Nous effectuons une première identification d'entités nommées à la fin de l'analyse syntaxique. Ceci permet d'identifier les entités nommées en unité ou en groupe nominal et également de leur attribuer un type. Ces entités nommées sont ensuite utilisées dans l'extraction. Les règles d'extraction permettent de valider ou de changer les types des entités nommées. L'extraction des connaissances est composée des deux étapes : extraire et annoter automatiquement des contenus à partir des textes analysés ; vérifier les contenus extraits et résoudre la cohérence à travers une ontologie
We have developed an automatic analyser and an extraction module for Chinese langage processing. The analyser performs automatic Chinese word segmentation based on linguistic rules and dictionaries, part-of-speech tagging based on n-gram statistics and dependency grammar parsing. The module allows to extract information around named entities and activities. In order to achieve these goals, we have tackled the following main issues: segmentation and part-of-speech ambiguity; unknown word identification in Chinese text; attachment ambiguity in parsing. Chinese texts are analysed sentence by sentence. Given a sentence, the analyzer begins with typographic processing to identify sequences of Latin characters and numbers. Then, dictionaries are used for preliminary segmentation into words. Linguistic-based rules are used to create proper noun hypotheses and change the weight of some word categories. These rules take into account word context. An n-gram language model is created from a training corpus and selects the best word segmentation and parts-of-speech. Dependency grammar parsing is used to annotate relations between words. A first step of named entity recognition is performed after parsing. Its goal is to identify single-word named entities and noun-phrase-based named entities and to determine their semantic type. These named entities are then used in knowledge extraction. Knowledge extraction rules are used to validate named entities or to change their types. Knowledge extraction consists of two steps: automatic content extraction and tagging from analysed text; extracted contents control and ontology-based co-reference resolution
4

Ramdani, Halima. "Un système intelligent pour l'optimisation du processus de e-recrutement." Electronic Thesis or Diss., Université de Lorraine, 2021. http://www.theses.fr/2021LORR0366.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Les systèmes d'aide à la décision sont largement utilisés pour résoudre les problèmes de sélection et de prise de décision dans de nombreux domaines. Ces systèmes aident les décideurs à prendre une décision lorsque cette sélection nécessite une expertise ou des connaissances. À mesure que le numérique et les systèmes informatiques évoluent, les environnements de décision sont moins connus par les décideurs entraînant (1) des décisions prises dans l'incertain et influencées par des facteurs externes, (2) des contextes de décision de nature hétérogène. Partant de ces faits, cette thèse propose un système d'aide à la décision générique qui peut être appliqué aux problèmes d'aide à la décision dont (1) l'environnement est incertain et évolutif dans le temps (2) les objectifs du décideur sont multiples (3) le contexte de décision est rédigé en langage naturel, chacun d'eux constituant un défi. Le système que nous proposons se base sur différents modules. Le premier est un module d'extraction et d'identification des informations présentes dans le contexte rédigé en langage naturel afin de le caractériser. Ce module fait l'objet d'une première contribution : DEEP, une méthodologie pour l'extraction d'entités en se basant sur le schéma organisationnel de textes rédigés en langage naturel. Le second module du système d'aide à la décision a pour objectif de créer des groupes de textes sémantiquement proches afin de pallier le manque de données pour certains contextes sous-représentés. Il fait l'objet d'une deuxième contribution : une approche d'appariement par type d'informations entre deux textes rédigés en langage naturel. Les résultats de cette contribution sont utilisés pour agréger les données temporelles liées aux contextes de décision sémantiquement proches afin de faire une prévision des facteurs de décision. Étant donné l'évolution de l'environnement et son incertitude, une architecture hybride de réseaux de neurones convolutifs et récurrents a été choisie pour capturer les tendances et les corrélations entre les items. Enfin, ces facteurs de décision sont utilisés dans une optimisation multi-objectifs et multi-périodes pour finalement recommander au décideur un ensemble optimal de décision pour ses objectifs et ses contraintes. Nous avons expérimenté ce système d'aide à la décision dans le domaine du e-recrutement afin d'aider le recruteur (décideur) à choisir (décision) les médias (items évoluant sur le Web) optimaux (optimisation multi-objectifs) pour son offre d'emploi (contexte de décision). Pour ce faire, nous avons comparé les résultats obtenus suite à la mise en place d'une campagne de recrutement par un manager des campagnes et les résultats suite à la recommandation des canaux par le système d'aide à la décision. Nos expérimentations ont montré que le système d'aide à la décision permet un gain de temps au recruteur sur (1) la préparation des données pour la diffusion des offres d'emploi sur les canaux en utilisant la contribution DEEP, (2) l'analyse des données anciennes (3) l'analyse des données actuelles (4) la prise de décision en utilisant les recommandations. Ce système permet aussi un gain d'argent, puisque la prévision temporelle et le système de renforcement qui repose sur une correction permanente des données économise de l'argent sur les périodes où les objectifs du recruteur ne peuvent pas être atteints
Decision support systems are commonly used to solve selection and decision-making problems in a variety of domains. As digital and computer systems evolve, decision-making environments become less familiar to decision-makers, resulting in (1) decisions made under uncertainty and influenced by external factors, and (2) hybrid decision-making contexts. This thesis proposes a generic decision support system that can be used to solve problems with the following conditions: (1) the environment is uncertain and changes over time; (2) the decision-objectives makers are multiple; and (3) the decision-making context is written in natural language. The system we propose consists of several components. The first component extracts and identifies information from a natural language-written context in order to classify it. For this purpose, our first contribution is used : DEEP, a methodology for entity extraction based on the organizational patterns of a text written in natural language. The second component aims to create semantically comparable groups of texts in order to fill in data gaps for under-represented contexts. This component is our second contribution: a matching method based on the type of information contained in two natural-language texts. The results of this contribution are used to aggregate temporal data related to decision contexts that are semantically close in order to forecast decision-maker choice factors. Given dynamicity and uncertainty in the environment, a hybrid architecture of convolutional and recurrent neural networks was chosen to capture trends and correlations between items. Finally, these decision factors are used in a multi-objective, multi-period optimization to provide the decision maker with the best set of options based on his or her goals and constraints. The proposed decision support system is used in the e-recruitment domain to assist the recruiter (decision-maker) in selecting (decision) the most appropriate (multi-objective optimization) channels (items) for a job offer (context of decision). To do so, we compared the results obtained after a campaign manager implemented a recruitment campaign with the results obtained after the decision support system recommended channels. The decision support system saves the recruiter time on (1) data preparation for job posting using the DEEP contribution, (2) data analysis of historical data, (3) data analysis of current data, and (4) decision-making using the system recommendations, according to our experiments. The time forecasting and reinforcement system, which is based on continuous data rectification, saves money during periods when the recruiter's goals are not met, so this approach saves money as well
5

Caubriere, Antoine. "Du signal au concept : réseaux de neurones profonds appliqués à la compréhension de la parole." Thesis, Le Mans, 2021. https://tel.archives-ouvertes.fr/tel-03177996.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Cette thèse s’inscrit dans le cadre de l’apprentissage profond appliqué à la compréhension de la parole. Jusqu'à présent, cette tâche était réalisée par l’intermédiaire d’une chaîne de composants mettant en oeuvre, par exemple, un système de reconnaissance de la parole, puis différents traitements du langage naturel, avant d’impliquer un système de compréhension du langage sur les transcriptions automatiques enrichies. Récemment, des travaux dans le domaine de la reconnaissance de la parole ont montré qu’il était possible de produire une séquence de mots directement à partir du signal acoustique. Dans le cadre de cette thèse, il est question d’exploiter ces avancées et de les étendre pour concevoir un système composé d’un seul modèle neuronal entièrement optimisé pour la tâche de compréhension de la parole, du signal au concept. Tout d’abord, nous présentons un état de l’art décrivant les principes de l’apprentissage neuronal profond, de la reconnaissance de la parole, et de la compréhension de la parole. Nous décrivons ensuite les contributions réalisées selon trois axes principaux. Nous proposons un premier système répondant à la problématique posée et l’appliquons à une tâche de reconnaissance des entités nommées. Puis, nous proposons une stratégie de transfert d’apprentissage guidée par une approche de type curriculum learning. Cette stratégie s’appuie sur les connaissances génériques apprises afin d’améliorer les performances d’un système neuronal sur une tâche d’extraction de concepts sémantiques. Ensuite, nous effectuons une analyse des erreurs produites par notre approche, tout en étudiant le fonctionnement de l’architecture neuronale proposée. Enfin, nous mettons en place une mesure de confiance permettant d’évaluer la fiabilité d’une hypothèse produite par notre système
This thesis is part of the deep learning applied to spoken language understanding. Until now, this task was performed through a pipeline of components implementing, for example, a speech recognition system, then different natural language processing, before involving a language understanding system on enriched automatic transcriptions. Recently, work in the field of speech recognition has shown that it is possible to produce a sequence of words directly from the acoustic signal. Within the framework of this thesis, the aim is to exploit these advances and extend them to design a system composed of a single neural model fully optimized for the spoken language understanding task, from signal to concept. First, we present a state of the art describing the principles of deep learning, speech recognition, and speech understanding. Then, we describe the contributions made along three main axes. We propose a first system answering the problematic posed and apply it to a task of named entities recognition. Then, we propose a transfer learning strategy guided by a curriculum learning approach. This strategy is based on the generic knowledge learned to improve the performance of a neural system on a semantic concept extraction task. Then, we perform an analysis of the errors produced by our approach, while studying the functioning of the proposed neural architecture. Finally, we set up a confidence measure to evaluate the reliability of a hypothesis produced by our system
6

Bravo, Serrano Àlex 1984. "BeFree : a text mining system for the extraction of biomedical information from literature." Doctoral thesis, Universitat Pompeu Fabra, 2016. http://hdl.handle.net/10803/398300.

Повний текст джерела
Стилі APA, Harvard, Vancouver, ISO та ін.
Анотація:
Current biomedical research needs to leverage the large amount of information reported in scientific publications. Automated text processing, commonly known as text mining, has become an indispensable tool to identify, extract, organize and analyze the relevant biomedical information from the literature. This thesis presents the BeFree system, a text mining tool for the extraction of biomedical information to support research in the genetic basis of disease and drug toxicity. BeFree can identify entities such as genes and diseases from a vast repository of biomedical text sources. Furthermore, by exploiting shallow and deep syntactic information of text, BeFree detects relationships between genes, diseases and drugs with a performance comparable to the state-of-the-art. As a result, BeFree has been used in various applications in the biomedical field, with the aim to provide structured biomedical information for the development of knowledge and corpora resources. Furthermore, these resources are available to the scientific community for the development of novel text mining tools
Avui dia, la recerca biomèdica ha d'aprofitar i explotar la gran quantitat d'informació inclosa en publicacions científiques. El processament automàtic de text, habitualment conegut com mineria de text o text mining, és una eina essencial per tal d'identificar, extreure, organitzar i analitzar la informació biomèdica més rellevant de la literatura. Aquesta tesi presenta el sistema BeFree, una eina de text mining per l’extracció d’informació biomèdica per donar suport a la recerca de les bases genètiques de les malalties i la toxicitat de fàrmacs. BeFree pot identificar gens i malalties des d’un gran repositori de text biomèdic. D’altra banda, mitjançant informació lingüística continguda al text, BeFree pot detectar relacions entre gens, malalties i fàrmacs amb uns resultats comparables a l’estat de l’art. Com a resultat, BeFree ha sigut utilitzat en diverses aplicacions del camp biomèdic, amb l’objectiu d’oferir informació biomèdica estructurada pel desenvolupament de recursos com base de dades i corpora. A més, aquests recursos estan disponibles per la comunitat científica pel desenvolupament de noves eines de text mining.

До бібліографії