Дисертації: "Traitement automatique du language"

1

Colin, Émilie. "Traitement automatique des langues et génération automatique d'exercices de grammaire." Electronic Thesis or Diss., Université de Lorraine, 2020. http://www.theses.fr/2020LORR0059.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le thème support de cette thèse la génération de paraphrases sur support neuronal. Nos perspectives sont éducatives : créer des exercices de grammaire pour le français. La paraphrase est une opération de reformulation. Nos travaux tendent à attester que les modèles séquence vers séquence ne sont pas de simples répétiteurs mais peuvent apprendre la syntaxe. Nous avons montré, en combinant divers modèles, que la représentation de l'information sous de multiples formes (en utilisant de la donnée formelle (RDF), couplée à du texte pour l'étendre ou le réduire, ou encore seulement du texte) permet d'exploiter un corpus sous différents angles, augmentant la diversité des sorties, exploitant les leviers syntaxiques mis en place. Nous nous sommes penchée sur un problème récurrent, celui de la qualité des données, et avons obtenu des paraphrases avec une haute adéquation syntaxique (jusqu'à 98% de couverture de la demande) et un très bon niveau linguistique. Nous obtenons jusqu'à 83.97 points de BLEU*, 78.41 de plus que la moyenne de nos lignes de base, sans levier syntaxique. Ce taux indique un meilleur contrôle des sorties, pourtant variées et de bonne qualité en l'absence de levier. Nous avons ensuite travaillé depuis du texte brut en passant, pour la génération de phrases, par la production d'une représentation du sens de ce texte qui puisse servir d'entrée à la génération de paraphrases. Le passage à du texte en français était aussi pour nous un impératif. Travailler depuis du texte brut, en automatisant les procédures, nous a permis de créer un corpus de plus de 450 000 couples représentations/phrases, grâce auquel nous avons appris à générer des textes massivement corrects (92% sur la validation qualitative). Anonymiser ce qui n'est pas fonctionnel a participé notablement à la qualité des résultats (68.31 de BLEU, soit +3.96 par rapport à la ligne de base, qui était la génération depuis des données non anonymisées). La représentation formelle de l'information dans un cadre linguistique particulier à une langue est une tâche ardue. Cette thèse offre des pistes de méthodes pour automatiser cette opération. Par ailleurs, nous n'avons pu traiter que des phrases relativement courtes. L'utilisation de modèles neuronaux plus récents permettrait sans doute d'améliorer les résultats. Enfin, l'usage de traits adéquats en sortie permettrait des vérifications poussées. *BLEU (Papineni et al., 2002) : qualité d'un texte sur une échelle de 0 (pire) à 100 (meilleur)
Our perspectives are educational, to create grammar exercises for French. Paraphrasing is an operation of reformulation. Our work tends to attest that sequence-to-sequence models are not simple repeaters but can learn syntax. First, by combining various models, we have shown that the representation of information in multiple forms (using formal data (RDF), coupled with text to extend or reduce it, or only text) allows us to exploit a corpus from different angles, increasing the diversity of outputs, exploiting the syntactic levers put in place. We also addressed a recurrent problem, that of data quality, and obtained paraphrases with a high syntactic adequacy (up to 98% coverage of the demand) and a very good linguistic level. We obtain up to 83.97 points of BLEU-4*, 78.41 more than our baseline average, without syntax leverage. This rate indicates a better control of the outputs, which are varied and of good quality in the absence of syntax leverage. Our idea was to be able to work from raw text : to produce a representation of its meaning. The transition to French text was also an imperative for us. Working from plain text, by automating the procedures, allowed us to create a corpus of more than 450,000 sentence/representation pairs, thanks to which we learned to generate massively correct texts (92% on qualitative validation). Anonymizing everything that is not functional contributed significantly to the quality of the results (68.31 of BLEU, i.e. +3.96 compared to the baseline, which was the generation of text from non-anonymized data). This second work can be applied the integration of a syntax lever guiding the outputs. What was our baseline at time 1 (generate without constraint) would then be combined with a constrained model. By applying an error search, this would allow the constitution of a silver base associating representations to texts. This base could then be multiplied by a reapplication of a generation under constraint, and thus achieve the applied objective of the thesis. The formal representation of information in a language-specific framework is a challenging task. This thesis offers some ideas on how to automate this operation. Moreover, we were only able to process relatively short sentences. The use of more recent neural modelswould likely improve the results. The use of appropriate output strokes would allow for extensive checks. *BLEU : quality of a text (scale from 0 (worst) to 100 (best), Papineni et al. (2002))

2

Saadane, Houda. "Le traitement automatique de l’arabe dialectalisé : aspects méthodologiques et algorithmiques." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAL022/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

3

Millour, Alice. "Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées." Thesis, Sorbonne université, 2020. http://www.theses.fr/2020SORUL126.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les sciences participatives, et en particulier la myriadisation (crowdsourcing) bénévole, représentent un moyen peu exploité de créer des ressources langagières pour certaines langues encore peu dotées, et ce malgré la présence de locuteurs sur le Web. Nous présentons dans ce travail les expériences que nous avons menées pour permettre la myriadisation de ressources langagières dans le cadre du développement d'un outil d'annotation automatique en parties du discours. Nous avons appliqué cette méthodologie à trois langues non standardisées, en l'occurrence l'alsacien, le créole guadeloupéen et le créole mauricien. Pour des raisons historiques différentes, de multiples pratiques (ortho)graphiques co-existent en effet pour ces trois langues. Les difficultés posées par l'existence de cette variation nous ont menée à proposer diverses tâches de myriadisation permettant la collecte de corpus bruts, d’annotations en parties du discours, et de variantes graphiques.L'analyse intrinsèque et extrinsèque de ces ressources, utilisées pour le développement d'outils d'annotation automatique, montrent l'intérêt d'utiliser la myriadisation dans un cadre linguistique non standardisé : les locuteurs ne sont pas ici considérés comme un ensemble uniforme de contributeurs dont les efforts cumulés permettent d'achever une tâche particulière, mais comme un ensemble de détenteurs de connaissances complémentaires. Les ressources qu'ils produisent collectivement permettent de développer des outils plus robustes à la variation rencontrée.Les plateformes développées, les ressources langagières, ainsi que les modèles de taggers entraînés sont librement disponibles
Citizen science, in particular voluntary crowdsourcing, represents a little experimented solution to produce language resources for some languages which are still little resourced despite the presence of sufficient speakers online. We present in this work the experiments we have led to enable the crowdsourcing of linguistic resources for the development of automatic part-of-speech annotation tools. We have applied the methodology to three non-standardised languages, namely Alsatian, Guadeloupean Creole and Mauritian Creole. For different historical reasons, multiple (ortho)-graphic practices coexist for these three languages. The difficulties encountered by the presence of this variation phenomenon led us to propose various crowdsourcing tasks that allow the collection of raw corpora, part-of-speech annotations, and graphic variants. The intrinsic and extrinsic analysis of these resources, used for the development of automatic annotation tools, show the interest of using crowdsourcing in a non-standardized linguistic framework: the participants are not seen in this context a uniform set of contributors whose cumulative efforts allow the completion of a particular task, but rather as a set of holders of complementary knowledge. The resources they collectively produce make possible the development of tools that embrace the variation.The platforms developed, the language resources, as well as the models of trained taggers are freely available

4

Kessler, Rémy. "Traitement automatique d’informations appliqué aux ressources humaines." Thesis, Avignon, 2009. http://www.theses.fr/2009AVIG0167/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Depuis les années 90, Internet est au coeur du marché du travail. D’abord mobilisée sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre d’internautes dans la population. La recherche d’emploi au travers des « bourses à l’emploi électroniques » est devenu une banalité et le e-recrutement quelque chose de courant. Cette explosion d’informations pose cependant divers problèmes dans leur traitement en raison de la grande quantité d’information difficile à gérer rapidement et efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que nous avons développés dans le cadre du projet E-Gen, qui a pour but la création d’outils pour automatiser les flux d’informations lors d’un processus de recrutement. Nous nous intéressons en premier lieu à la problématique posée par le routage précis de courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients. Nous proposons l’application des méthodes d’apprentissage afin d’effectuer la classification automatique de courriels visant leur routage, en combinant techniques probabilistes et machines à vecteurs de support. Nous présentons par la suite les travaux qui ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par Internet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée afin de pouvoir la diffuser rapidement. Basé sur une combinaison de systèmes de classifieurs pilotés par un automate de Markov, le système obtient de très bons résultats. Nous proposons également les diverses stratégies que nous avons mises en place afin de fournir une première évaluation automatisée des candidatures permettant d’assister les recruteurs. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité
Since the 90s, Internet is at the heart of the labor market. First mobilized on specific expertise, its use spreads as increase the number of Internet users in the population. Seeking employment through "electronic employment bursary" has become a banality and e-recruitment something current. This information explosion poses various problems in their treatment with the large amount of information difficult to manage quickly and effectively for companies. We present in this PhD thesis, the work we have developed under the E-Gen project, which aims to create tools to automate the flow of information during a recruitment process.We interested first to the problems posed by the routing of emails. The ability of a companie to manage efficiently and at lower cost this information flows becomes today a major issue for customer satisfaction. We propose the application of learning methods to perform automatic classification of emails to their routing, combining technical and probabilistic vector machines support. After, we present work that was conducted as part of the analysis and integration of a job ads via Internet. We present a solution capable of integrating a job ad from an automatic or assisted in order to broadcast it quickly. Based on a combination of classifiers systems driven by a Markov automate, the system gets very good results. Thereafter, we present several strategies based on vectorial and probabilistic models to solve the problem of profiling candidates according to a specific job offer to assist recruiters. We have evaluated a range of measures of similarity to rank candidatures by using ROC curves. Relevance feedback approach allows to surpass our previous results on this task, difficult, diverse and higly subjective

5

Coria, Juan Manuel. "Continual Representation Learning in Written and Spoken Language." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG025.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'apprentissage automatique a récemment connu des avancées majeures, mais les modèles actuels sont généralement entraînés une fois sur une tâche cible et leurs paramètres sont rarement révisés.Ce problème affecte les performances après la mise en production car les spécifications des tâches et les données peuvent évoluer avec le temps.Pour résoudre ce problème, l'apprentissage continu propose un entraînement au fil du temps, à mesure que de nouvelles données sont disponibles.Cependant, les modèles entraînés de cette manière souffrent d'une perte de performance sur les exemples déjà vus, un phénomène appelé oubli catastrophique.De nombreuses études ont proposé différentes stratégies pour prévenir l'oubli, mais elles s'appuient souvent sur des données étiquetées rarement disponibles en pratique. Dans cette thèse, nous étudions l'apprentissage continu pour la langue écrite et parlée.Notre objectif est de concevoir des systèmes autonomes et auto-apprenants capables d'exploiter les données disponibles sur le terrain pour s'adapter aux nouveaux environnements.Contrairement aux travaux récents sur l'apprentissage de représentations à usage général, nous proposons d'exploiter des représentations adaptées à une tâche cible.En effet, ces dernières pourraient être plus faciles à interpréter et à exploiter par des méthodes non supervisés et plus robustes à l'oubli, comme le clustering. Dans ce travail, nous améliorons notre compréhension de l'apprentissage continu dans plusieurs contextes.Nous montrons que les représentations spécifiques à une tâche permettent un apprentissage continu efficace à faibles ressources, et que les prédictions d'un modèle peuvent être exploitées pour l'auto-apprentissage
Although machine learning has recently witnessed major breakthroughs, today's models are mostly trained once on a target task and then deployed, rarely (if ever) revisiting their parameters.This problem affects performance after deployment, as task specifications and data may evolve with user needs and distribution shifts.To solve this, continual learning proposes to train models over time as new data becomes available.However, models trained in this way suffer from significant performance loss on previously seen examples, a phenomenon called catastrophic forgetting.Although many studies have proposed different strategies to prevent forgetting, they often rely on labeled data, which is rarely available in practice. In this thesis, we study continual learning for written and spoken language.Our main goal is to design autonomous and self-learning systems able to leverage scarce on-the-job data to adapt to the new environments they are deployed in.Contrary to recent work on learning general-purpose representations (or embeddings), we propose to leverage representations that are tailored to a downstream task.We believe the latter may be easier to interpret and exploit by unsupervised training algorithms like clustering, that are less prone to forgetting. Throughout our work, we improve our understanding of continual learning in a variety of settings, such as the adaptation of a language model to new languages for sequence labeling tasks, or even the adaptation to a live conversation in the context of speaker diarization.We show that task-specific representations allow for effective low-resource continual learning, and that a model's own predictions can be exploited for full self-learning

6

Grandchamp, Jean-Michel. "L'argumentation dans le traitement automatique de la langue." Paris 11, 1996. http://www.theses.fr/1996PA112016.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

7

Mela, Augusta. "Traitement automatique de la coordination par et." Paris 13, 1992. http://www.theses.fr/1992PA132040.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'analyse des constructions coordonnées a toujours constitué un centre d'intérêt aussi bien en linguistique théorique qu'en linguistique computationnelle. Le phénomène de la coordination par "et" est à la fois large et subtil. Une chaîne conjonctionnelle peut apparaître à droite de presque n'importe quel élément d'une chaîne, constituant ou non-constituant mais pas n'importe où. Cela pose à la fois le problème théorique de rendre compte précisément de l'ensemble des constructions autorisées et le problème calculatoire d'analyser ces constructions le plus efficacement possible. Dans cette thèse nous dressons un inventaire des difficultés occasionnées par ces constructions; nous présentons un état de l'art: précisement nous exposons comme différents formalismes syntaxiques, (tg, gpsg, lfg, ccg) abordent ces problèmes. Nous en tirons des conséquences concernant le choix d'un cadre formel adéquat pour la description de la coordination. Nous proposons un critère de coordination base sur le pouvoir constructeur de têtes lexicales. Nous prétendons que ce critère rend compte des phénomènes structurels que sont les coordinations de constituants de même catégorie et des coordinations de plus d'un constituant, et qu'il est pertinent mais insuffisant pour la coordination de catégories différentes et la coordination à trouée qui sont des phénomènes plus sémantiques.

8

Moncecchi, Guillermo. "Recognizing speculative language in research texts." Paris 10, 2013. http://www.theses.fr/2013PA100039.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse présente une méthodologie pour résoudre des problèmes de classification, en particulier ceux concernant le classement séquentiel pour les tâches de traitement du langage naturel. Elle propose l'utilisation d'une méthode itérative, basée sur l'analyse des erreurs, pour améliorer la performance de classification. Ce sont des experts du domaine qui suggèrent l'intégration des connaissances spécifiques du domaine dans le processus d'apprentissage automatique. Nous avons appliqué et évalué la méthodologie dans deux tâches liées à la détection des phénomènes de « hedging » dans des textes scientifiques: celle de la détection de repères de « hedging » et celle de l’identification de la portée des repères détectés dans les phrases. Les résultats sont prometteurs: pour la première tâche, nous avons amélioré les résultats de base en 2,5 points en termes de F_mesure au moyen de l’intégration des informations de cooccurrence, tandis que pour la détection de la portée, l'incorporation des informations sur la syntaxe de la phrase nous a permis d'améliorer les performances de classification en F-mesure de 0,712 à un nombre final de 0,835. Par rapport à l'état de l'art des méthodes, les résultats sont compétitifs, ce qui suggère que l'approche de l'amélioration des classificateurs basée uniquement sur l’analyse des erreurs dans une partie du corpus dédiée seulement à cette tâche peut être utilisée avec succès dans d'autres tâches similaires. De plus, cette thèse propose un schéma de classes pour représenter des analyse des phrases dans une structure de donnés unique, y compris les résultats de divers analyses linguistiques. Cela nous permet de mieux gérer le processus itératif d'amélioration du classificateur, où des ensembles d'attributs différents pour l'apprentissage sont utilisés à chaque itération. Nous proposons également de stocker des attributs dans un modèle relationnel, plutôt que des structures traditionnelles à base de texte, pour faciliter l'analyse et la manipulation de données nécessaires pour l’apprentissage
This thesis presents a methodology to solve certain classification problems, particularly those involving sequential classification for Natural Language Processing tasks. It proposes the use of an iterative, error-based approach to improve classification performance, suggesting the incorporation of expert knowledge into the learning process through the use of knowledge rules. We applied and evaluated the methodology to two tasks related with the detection of hedging in scientific articles: those of hedge cue identification and hedge cue scope detection. Results are promising: for the first task, we improved baseline results by 2. 5 points in terms of F-score incorporating cue cooccurence information, while for scope detection, the incorporation of syntax information and rules for syntax scope pruning allowed us to improve classification performance from an F-score of 0. 712 to a final number of 0. 835. Compared with state-of-the-art methods, results are competitive, suggesting that the approach of improving classifiers based only on committed errors on a held out corpus could be successfully used in other, similar tasks. Additionally, this thesis proposes a class schema for representing sentence analysis in a unique structure, including the results of different linguistic analysis. This allows us to better manage the iterative process of classifier improvement, where different attribute sets for learning are used in each iteration. We also propose to store attributes in a relational model, instead of the traditional text-based structures, to facilitate learning data analysis and manipulation

9

Le, Kien Van. "Generation automatique de l'accord du participe passe." Paris 7, 1987. http://www.theses.fr/1987PA077257.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le maximum de regles d'accord du participe passe des verbes conjugues avec avoir sont reunies. Il a ete constate que ces regles sont imprecises, insuffisantes et non formelles pour un traitement systematique de l'accord du participe passe. Sont alors introduites les notions de complement d'objet direct, de determinant, de syntagme attributif, de verbe a completive, de verbe sans completive, de verbe operateur. . . Une representation formelle des constructions relatives au probleme etudie est proposee. Finalement, il est montre comment, a partir d'un terminal, il est possible de communiquer et dialoguer avec l'ordinateur par l'intermediaire du programme "generation automatique de l'accord du participe passe

10

Nasser, Eldin Safa. "Synthèse de la parole arabe : traitement automatique de l'intonation." Bordeaux 1, 2003. http://www.theses.fr/2003BOR12745.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le travail décrit dans ce mémoire porte sur la modélisation de l'intonation. Le but de cette modélisation est d'améliorer le naturel de la parole produite par un système de synthèse de la parole arabe à partir du texte. Le naturel de la parole est fortement influencé par les paramètres prosodiques que sont l'intonation, l'intensité et le rythme. Dans cette étude nous nous intéressons essentiellement à l'analyse de l'intonation en vue d'obtenir des modèles intonatifs concernant l'intonation des phrases affirmatives et interrogatives, verbales et nominales. Nous procédons par une analyse descriptive de l'intonation, suivie d'une modélisation de variations de fréquence fondamentale. Nous avons utilisé la méthode de stylisation issue de l'école hollandaise et la méthode d'analyse par synthèse pour modéliser l'intonation. Nous aboutissons à une formalisation des règles pour le calcul des contours intonatifs qui dépend du nombre et le type de syllabes qui constituent la phrase et sa modalité. Le modèle intonatif est implémenté au niveau de deux systèmes de synthèse de la parole arabe à partir du texte : système de synthèse par règle utilisant le synthétiseur par formants (KLATT) et système de synthèse concaténation utilisant les diphones. Les phrases synthétisées avec les modèles sont évaluées par un groupe d'étudiants palestiniens de l'université Alquds. Les résultats obtenus montrent que le modèle d'intonation développé est capable de produire une parole de synthèse proche du naturel sans l'utilisation d'un analyseur syntaxique.

11

Norman, Christopher. "Systematic review automation methods." Electronic Thesis or Diss., université Paris-Saclay, 2020. http://www.theses.fr/2020UPASS028.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les récentes avancées en matière d'intelligence artificielle ont vu une adoption limitée dans la communauté des auteurs de revues systématiques, et une grande partie du processus d'élaboration des revues systématiques est toujours manuelle, longue et coûteuse. Les auteurs de revues systématiques rencontrent des défis tout au long du processus d'élaboration d'une revue. Il est long et difficile de chercher, d'extraire, de collecter des données, de rédiger des manuscrits et d'effectuer des analyses statistiques. L'automatisation de la sélection d'articles a été proposé comme un moyen de réduire la charge de travail, mais son adoption a été limitée en raison de différents facteurs,notamment l'investissement important de prise en main, le manque d'accompagnement et les décalages par rapport au flux de travail. Il est nécessaire de mieux harmoniser les méthodes actuelles avec les besoins de la communauté des revues systématiques.Les études sur l'exactitude des tests diagnostiques sont rarement indexées de façon à pouvoir être facilement retrouvées dans les bases de données bibliographiques. La variabilité terminologique et l'indexation lacunaire ou incohérente des ces études sont autant de facteurs augmentant le niveau de difficulté de réalisation des revues systématiques qui s'y intéressent. Les requêtes de recherche méthodologique visant à repérer les études diagnostiques ont donc tendance à être peu précises, et leur utilisation dans les études méthodiques est déconseillée. Par conséquent, il est particulièrement nécessaire d'avoir recours à d'autres méthodes pour réduire la charge de travail dans les études méthodiques sur l'exactitude des tests diagnostiques.Dans la présente thèse, nous avons examiné l'hypothèse selon laquelle les méthodes d'automatisation peuvent offrir un moyen efficace de rendre le processus d'élaboration des revues systématique plus rapide et moins coûteux, à condition de pouvoir cerner et surmonter les obstacles à leur adoption. Les travaux réalisés montrent que les méthodes automatisées offrent un potentiel de diminution des coûts tout en améliorant la transparence et la reproductibilité du processus
Recent advances in artificial intelligence have seen limited adoption in systematic reviews,and much of the systematic review process remains manual, time-consuming, and expensive. Authors conducting systematic reviews face issues throughout the systematic review process. It is difficult and time-consuming to search and retrieve,collect data, write manuscripts, and perform statistical analyses. Screening automation has been suggested as a way to reduce the workload, but uptake has been limited due to a number of issues,including licensing, steep learning curves, lack of support, and mismatches to workflow. There is a need to better a lign current methods to the need of the systematic review community.Diagnostic test accuracy studies are seldom indexed in an easily retrievable way, and suffer from variable terminology and missing or inconsistently applied database labels. Methodological search queries to identify diagnostic studies therefore tend to have low accuracy, and are discouraged for use in systematic reviews. Consequently, there is a particular need for alternative methods to reduce the workload in systematic reviews of diagnostic test accuracy.In this thesis we have explored the hypothesis that automation methods can offer an efficient way tomake the systematic review process quicker and less expensive, provided we can identify and overcomebarriers to their adoption. Automated methods have the opportunity to make the process cheaper as well as more transparent, accountable, and reproducible

12

Hagège, Caroline. "Analyse syntaxique automatique du portugais." Clermont-Ferrand 2, 2000. http://www.theses.fr/2000CLF20028.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

13

Kervajan, LoÏc. "Contribution à la traduction automatique français/langue des signes française (LSF) au moyen de personnages virtuels : Contribution à la génération automatique de la LSF." Thesis, Aix-Marseille 1, 2011. http://www.theses.fr/2011AIX10172.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Depuis la loi du 11-02-2005 pour l’égalité des droits et des chances, les lieux ouverts au public doivent accueillir les Sourds en Langue des Signes Française (LSF). C’est dans le cadre du développement d’outils technologiques de diffusion de LSF que nous avons travaillé, plus particulièrement au niveau de la traduction automatique du français écrit vers la LSF. Notre thèse commence par un état de l’art relatif aux connaissances sur la LSF (ressources disponibles et supports d’expression de la LSF) avant d’approfondir des notions de grammaire descriptive. Notre hypothèse de travail est la suivant : la LSF est une langue et, à ce titre, la traduction automatique lui est applicable.Nous décrivons ensuite les spécifications linguistiques pour le traitement automatique, en fonction des observations mises en avant dans l’état de l’art et des propositions de nos informateurs. Nous détaillons notre méthodologie et présentons l’avancée de nos travaux autour de la formalisation des données linguistiques à partir des spécificités de la LSF dont certaines (model verbal, modification adjectivale et adverbiale, organisation des substantifs, problématiques de l’accord) ont nécessité un traitement plus approfondi. Nous présentons le cadre applicatif dans lequel nous avons travaillé : les systèmes de traduction automatique et d’animation de personnage virtuel de France Telecom R&D. Puis, après un rapide état de l’art sur les technologies avatar nous décrivons nos modalités de contrôle du moteur de synthèse de geste grâce au format d’échange mis au point. Enfin, nous terminons par nos évaluations et perspectives de recherche et de développements qui pourront suivre cette Thèse.Notre approche a donné ses premiers résultats puisque nous avons atteint notre objectif de faire fonctionner la chaîne complète de traduction : de la saisie d'un énoncé en français jusqu'à la réalisation de l'énoncé correspondant en LSF par un personnage de synthèse
Since the law was voted the 11-02-2005 for equal rights and opportunities: places open to anyone (public places, shops, internet, etc.) should welcome the Deaf in French Sign Language (FSL). We have worked on the development of technological tools to promote LSF, especially in machine translation from written French to FSL.Our thesis begins with a presentation of knowledge on FSL (theoretical resources and ways to edit FSL) and follows by further concepts of descriptive grammar. Our working hypothesis is: FSL is a language and, therefore, machine translation is relevant.We describe the language specifications for automatic processing, based on scientific knowledge and proposals of our native FSL speaker informants. We also expose our methodology, and do present the advancement of our work in the formalization of linguistic data based on the specificities of FSL which certain (verbs scheme, adjective and adverb modification, organization of nouns, agreement patterns) require further analysis.We do present the application framework in which we worked on: the machine translation system and virtual characters animation system of France Telecom R&D.After a short avatar technology presentation, we explain our control modalities of the gesture synthesis engine through the exchange format that we developed.Finally, we conclude with an evaluation, researches and developments perspectives that could follow this thesis.Our approach has produced its first results since we have achieved our goal of running the full translation chain: from the input of a sentence in French to the realization of the corresponding sentence in FSL with a synthetic character

14

Gaubert, Christian. "Stratégies et règles minimales pour un traitement automatique de l'arabe." Aix-Marseille 1, 2001. http://www.theses.fr/2001AIX10040.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses

15

Curiel, Diaz Arturo Tlacaélel. "Using formal logic to represent sign language phonetics in semi-automatic annotation tasks." Thesis, Toulouse 3, 2015. http://www.theses.fr/2015TOU30308/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse présente le développement d'un framework formel pour la représentation des Langues de Signes (LS), les langages des communautés Sourdes, dans le cadre de la construction d'un système de reconnaissance automatique. Les LS sont de langues naturelles, qui utilisent des gestes et l'espace autour du signeur pour transmettre de l'information. Cela veut dire que, à différence des langues vocales, les morphèmes en LS ne correspondent pas aux séquences de sons; ils correspondent aux séquences de postures corporelles très spécifiques, séparés par des changements tels que de mouvements. De plus, lors du discours les signeurs utilisent plusieurs parties de leurs corps (articulateurs) simultanément, ce qui est difficile à capturer avec un système de notation écrite. Cette situation difficulté leur représentation dans de taches de Traitement Automatique du Langage Naturel (TALN). Pour ces raisons, le travail présenté dans ce document a comme objectif la construction d'une représentation abstraite de la LS; plus précisément, le but est de pouvoir représenter des collections de vidéo LS (corpus) de manière formelle. En générale, il s'agit de construire une couche de représentation intermédiaire, permettant de faire de la reconnaissance automatique indépendamment des technologies de suivi et des corpus utilisés pour la recherche. Cette couche corresponde à un système de transition d'états (STE), spécialement crée pour représenter la nature parallèle des LS. En plus, elle peut-être annoté avec de formules logiques pour son analyse, à travers de la vérification de modèles. Pour représenter les propriétés à vérifier, une logique multi-modale a été choisi : la Logique Propositionnelle Dynamique (PDL). Cette logique a été originalement crée pour la spécification de programmes. De manière plus précise, PDL permit d'utilise des opérateurs modales comme [a] et , représentant <> et <>, respectivement. Une variante particulaire a été développée pour les LS : la PDL pour Langue de Signes (PDLSL), qui est interprété sur des STE représentant des corpus. Avec PDLSL, chaque articulateur du corps (comme les mains et la tête) est vu comme un agent indépendant; cela veut dire que chacun a ses propres actions et propositions possibles, et qu'il peux les exécuter pour influencer une posture gestuelle. L'utilisation du framework proposé peut aider à diminuer deux problèmes importantes qui existent dans l'étude linguistique des LS : hétérogénéité des corpus et la manque des systèmes automatiques d'aide à l'annotation. De ce fait, un chercheur peut rendre exploitables des corpus existants en les transformant vers des STE. Finalement, la création de cet outil à permit l'implémentation d'un système d'annotation semi-automatique, basé sur les principes théoriques du formalisme. Globalement, le système reçoit des vidéos LS et les transforme dans un STE valide. Ensuite, un module fait de la vérification formelle sur le STE, en utilisant une base de données de formules crée par un expert en LS. Les formules représentent des propriétés lexicales à chercher dans le STE. Le produit de ce processus, est une annotation qui peut être corrigé par des utilisateurs humains, et qui est utilisable dans des domaines d'études tels que la linguistique
This thesis presents a formal framework for the representation of Signed Languages (SLs), the languages of Deaf communities, in semi-automatic recognition tasks. SLs are complex visio-gestural communication systems; by using corporal gestures, signers achieve the same level of expressivity held by sound-based languages like English or French. However, unlike these, SL morphemes correspond to complex sequences of highly specific body postures, interleaved with postural changes: during signing, signers use several parts of their body simultaneously in order to combinatorially build phonemes. This situation, paired with an extensive use of the three-dimensional space, make them difficult to represent with tools already existent in Natural Language Processing (NLP) of vocal languages. For this reason, the current work presents the development of a formal representation framework, intended to transform SL video repositories (corpus) into an intermediate representation layer, where automatic recognition algorithms can work under better conditions. The main idea is that corpora can be described with a specialized Labeled Transition System (LTS), which can then be annotated with logic formulae for its study. A multi-modal logic was chosen as the basis of the formal language: the Propositional Dynamic Logic (PDL). This logic was originally created to specify and prove properties on computer programs. In particular, PDL uses the modal operators [a] and to denote necessity and possibility, respectively. For SLs, a particular variant based on the original formalism was developed: the PDL for Sign Language (PDLSL). With the PDLSL, body articulators (like the hands or head) are interpreted as independent agents; each articulator has its own set of valid actions and propositions, and executes them without influence from the others. The simultaneous execution of different actions by several articulators yield distinct situations, which can be searched over an LTS with formulae, by using the semantic rules of the logic. Together, the use of PDLSL and the proposed specialized data structures could help curb some of the current problems in SL study; notably the heterogeneity of corpora and the lack of automatic annotation aids. On the same vein, this may not only increase the size of the available datasets, but even extend previous results to new corpora; the framework inserts an intermediate representation layer which can serve to model any corpus, regardless of its technical limitations. With this, annotations is possible by defining with formulae the characteristics to annotate. Afterwards, a formal verification algorithm may be able to find those features in corpora, as long as they are represented as consistent LTSs. Finally, the development of the formal framework led to the creation of a semi-automatic annotator based on the presented theoretical principles. Broadly, the system receives an untreated corpus video, converts it automatically into a valid LTS (by way of some predefined rules), and then verifies human-created PDLSL formulae over the LTS. The final product, is an automatically generated sub-lexical annotation, which can be later corrected by human annotators for their use in other areas such as linguistics

16

Denoual, Etienne. "Méthodes en caractères pour le traitement automatique des langues." Phd thesis, Université Joseph Fourier (Grenoble), 2006. http://tel.archives-ouvertes.fr/tel-00107056.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.
Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.

Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.
Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.
Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.
Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.

17

Jalalzai, Hamid. "Learning from multivariate extremes : theory and application to natural language processing." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAT043.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les extrêmes apparaissent dans une grande variété de données. Par exemple,concernant les données hydrologiques, les extrêmes peuvent correspondre à des inondations, des moussons voire des sécheresses. Les données liées à l’activité humaine peuvent également conduire à des situations extrêmes, dans le cas des transactions bancaires, le montant alloué à une vente peut être considérable et dépasser les transactions courantes. Un autre exemple lié à l’activité humaine est la fréquence des mots utilisés : certains mots sont omniprésents alors que d’autres sont très rares. Qu’importe le contexte applicatif, les extrêmes qui sont rares par définition, correspondent à des données particulières. Ces événements sont notamment alarmants au vu de leur potentiel impact désastreux. Cependant, les données extrêmes sont beaucoup moins considérées dans les statistiques modernes ou les pratiques courantes d’apprentissage machine, principalement car elles sont considérablement sous représentées : ces événements se retrouvent noyés - à l’ère du ”big data” - par une vaste majorité de données classiques et non extrêmes. Ainsi, la grande majorité des outils d’apprentissage machine qui se concentrent naturellement sur une distribution dans son ensemble peut être inadaptée sur les queues de distribution où se trouvent les observations extrêmes. Dans cette thèse, les défis liés aux extrêmes sont détaillés et l’accent est mis sur le développement de méthodes dédiées à ces données. La première partie se consacre à l’apprentissage statistique dans les régions extrêmes. Dans le chapitre 4, des garanties non asymptotiques sur l’erreur d’estimation de la mesure angulaire empirique sont étudiées et permettent d’améliorer des méthodes de détection d’anomalies par minimum volume set sur la sphère. En particulier, le problème de la minimisation du risque empirique pour la classification binaire dédiée aux échantillons extrêmes est traitée au chapitre 5. L’analyse non paramétrique et les garanties qui en résultent sont détaillées. L’approche est adaptée pour traiter de nouveaux échantillons se trouvant hors de l’enveloppe convexe formée par les données rencontrées. Cette propriété d’extrapolation est l’élément clé et charnière nous permettant de concevoir de nouvelles représentations conservant un label donné et d’ainsi augmenter la quantité de données. Le chapitre 6 se concentre sur l’apprentissage de cette représentation à queue lourde (pour être précis, à variation régulière) à partir d’une distribution d’entrée. Les illustrations montrent une meilleure classification des extrêmes et conduit à la génération de phrases cohérentes. Enfin, le chapitre 7 propose d’analyser la structure de dépendance des extrêmes multivariés. En constatant que les extrêmes se concentrent au sein de groupes où les variables explicatives ont tendance à prendre –de manière récurrente–de grandes valeurs simultanément ; il en résulte un problème d’optimisation visant à identifier ces sous-groupes grâce à des moyennes pondérées des composantes
Extremes surround us and appear in a large variety of data. Natural data likethe ones related to environmental sciences contain extreme measurements; inhydrology, for instance, extremes may correspond to floods and heavy rainfalls or on the contrary droughts. Data related to human activity can also lead to extreme situations; in the case of bank transactions, the money allocated to a sale may be considerable and exceed common transactions. The analysis of this phenomenon is one of the basis of fraud detection. Another example related to humans is the frequency of encountered words. Some words are ubiquitous while others are rare. No matter the context, extremes which are rare by definition, correspond to uncanny data. These events are of particular concern because of the disastrous impact they may have. Extreme data, however, are less considered in modern statistics and applied machine learning, mainly because they are substantially scarce: these events are out numbered –in an era of so-called ”big data”– by the large amount of classical and non-extreme data that corresponds to the bulk of a distribution. Thus, the wide majority of machine learning tools and literature may not be well-suited or even performant on the distributional tails where extreme observations occur. Through this dissertation, the particular challenges of working with extremes are detailed and methods dedicated to them are proposed. The first part of the thesisis devoted to statistical learning in extreme regions. In Chapter 4, non-asymptotic bounds for the empirical angular measure are studied. Here, a pre-established anomaly detection scheme via minimum volume set on the sphere, is further im-proved. Chapter 5 addresses empirical risk minimization for binary classification of extreme samples. The resulting non-parametric analysis and guarantees are detailed. The approach is particularly well suited to treat new samples falling out of the convex envelop of encountered data. This extrapolation property is key to designing new embeddings achieving label preserving data augmentation. Chapter 6 focuses on the challenge of learning the latter heavy-tailed (and to be precise regularly varying) representation from a given input distribution. Empirical results show that the designed representation allows better classification performanceon extremes and leads to the generation of coherent sentences. Lastly, Chapter7 analyses the dependence structure of multivariate extremes. By noticing that extremes tend to concentrate on particular clusters where features tend to be recurrently large simulatenously, we define an optimization problem that identifies the aformentioned subgroups through weighted means of features

18

Boulanger, Hugo. "Data augmentation and generation for natural language processing." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG019.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

De plus en plus de domaines cherchent à automatiser une partie de leur processus.Le traitement automatique des langues contient des méthodes permettant d'extraire des informations dans des textes.Ces méthodes peuvent utiliser de l'apprentissage automatique.L'apprentissage automatique nécessite des données annotées pour faire de l'extraction d'information de manière optimale.L'application de ces méthodes à de nouveaux domaines nécessite d'obtenir des données annotées liée à la tâche.Le problème que nous souhaitons résoudre est de proposer et d'étudier des méthodes de génération pour améliorer les performances de modèles appris à basse quantité de données.Nous explorons différentes méthodes avec et sans apprentissage pour générer les données nécessaires à l'apprentissage de modèles d'étiquetage.La première méthode que nous explorons est le remplissage de patrons.Cette méthode de génération de données permet de générer des données annotées en combinant des phrases à trous, les patrons, et des mentions.Nous avons montré que cette méthode permet d'améliorer les performances des modèles d'étiquetage à très petite quantité de données.Nous avons aussi étudié la quantité de données nécessaire pour l'utilisation optimale de cette méthode.La deuxième approche de génération que nous avons testé est l'utilisation de modèles de langue pour la génération couplée à l'utilisation de méthode d'apprentissage semi-supervisé.La méthode d'apprentissage semi-supervisé utilisé est le tri-training et sert à ajouter les étiquettes aux données générées.Le tri-training est testé sur plusieurs méthodes de génération utilisant différents modèles de langue pré-entraînés.Nous avons proposé une version du tri-training appelé tri-training génératif, où la génération n'est pas faite en amont, mais durant le processus de tri-training et profite de celui-ci.Nous avons testé les performances des modèles entraînés durant le processus de semi-supervision et des modèles entraîné sur les données produites par celui-ci.Dans la majeure partie des cas, les données produites permettent d'égaler les performances des modèles entraînés avec la semi-supervision.Cette méthode permet l'amélioration des performances à tous les niveaux de données testés vis-à-vis des modèles sans augmentation.La troisième piste d'étude vise à combiner certains aspects des approches précédentes.Pour cela, nous avons testé différentes approches.L'utilisation de modèles de langues pour faire du remplacement de bouts de phrase à la manière de la méthode de remplissage de patrons fut infructueuse.Nous avons testé l'addition de données générées par différentes méthodes qui ne permet pas de surpasser la meilleure des méthodes.Enfin, nous avons testé l'application de la méthode de remplissage de patrons sur les données générées avec le tri-training qui n'a pas amélioré les résultats obtenu avec le tri-training.S'il reste encore beaucoup à étudier, nous avons cependant mis en évidence des méthodes simples, comme le remplissage de patrons, et plus complexe, comme l'utilisation d'apprentissage supervisé avec des phrases générées par un modèle de langue, permettant d'améliorer les performances de modèles d'étiquetage grâce à la génération de données annotées
More and more fields are looking to automate part of their process.Automatic language processing contains methods for extracting information from texts.These methods can use machine learning.Machine learning requires annotated data to perform information extraction.Applying these methods to new domains requires obtaining annotated data related to the task.In this thesis, our goal is to study generation methods to improve the performance of learned models with low amounts of data.Different methods of generation are explored that either contain machine learning or do not, which are used to generate the data needed to learn sequence labeling models.The first method explored is pattern filling.This data generation method generates annotated data by combining sentences with slots, or patterns, with mentions.We have shown that this method improves the performance of labeling models with tiny amounts of data.The amount of data needed to use this method is also studied.The second approach tested is the use of language models for text generation alongside a semi-supervised learning method for tagging.The semi-supervised learning method used is tri-training and is used to add labels to the generated data.The tri-training is tested on several generation methods using different pre-trained language models.We proposed a version of tri-training called generative tri-training, where the generation is not done in advance but during the tri-training process and takes advantage of it.The performance of the models trained during the semi-supervision process and of the models trained on the data generated by it are tested.In most cases, the data produced match the performance of the models trained with the semi-supervision.This method allows the improvement of the performances at all the tested data levels with respect to the models without augmentation.The third avenue of study combines some aspects of the previous approaches.For this purpose, different approaches are tested.The use of language models to do sentence replacement in the manner of the pattern-filling generation method is unsuccessful.Using a set of data coming from the different generation methods is tested, which does not outperform the best method.Finally, applying the pattern-filling method to the data generated with the tri-training is tested and does not improve the results obtained with the tri-training.While much remains to be studied, we have highlighted simple methods, such as pattern filling, and more complex ones, such as the use of supervised learning with sentences generated by a language model, to improve the performance of labeling models through the generation of annotated data

19

Guibon, Dinabyll. "Recommandation automatique et adaptative d'émojis." Electronic Thesis or Diss., Aix-Marseille, 2019. http://www.theses.fr/2019AIXM0202.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Depuis leur apparition, les emojis ont une popularité grandissante dans les systèmes de communication. Ces petites images pouvant représenter une idée, un concept ou une émotion, se retrouvent disponibles aux utilisateurs dans de nombreux contextes logiciels : messagerie, courriel, forums et autres réseaux sociaux. Leur usage, en hausse constante, a entraîné l'apparition récurrente de nouveaux emojis.Le parcours de bibliothèques d'emojis ou l'utilisation de moteur de recherche intégré n'est plus suffisant pour permettre à l'utilisateur de maximiser leur utilisation ; une recommandation d'emojis adaptée est nécessaire. Pour cela nous présentons nous travaux de recherche axés sur le thème de la recommandation d'emojis. Ces travaux ont pour objectifs de créer un système de recommandation automatique d'emojis adapté à un contexte conversationnel informel et privé. Ce système doit améliorer l'expérience utilisateur et la qualité de la communication, et prendre en compte d'éventuels nouveaux emojis créés. Dans le cadre de cette thèse, nous contribuons tout d'abord en montrant les limites d'usage réel d'une prédiction d'emojis ainsi que la nécessité de prédire des notions plus générales. Nous vérifions également si l'usage réel des emojis représentant une expression faciale d'émotion correspond à l'existant théorique. Enfin, nous abordons les pistes d'évaluation d'un tel système par l'insuffisance des métriques, et l'importance d'une interface utilisateur dédiée.Pour ce faire, nous utilisons une approche orientée apprentissage automatique à la fois supervisée et non supervisée, ainsi que la conception de modèles de langues ou, plus précisément, de plongements lexicaux
The first emojis were created in 1999. Since then, their propularity constantly raised in communication systems. Being images representing either an idea, a concept, or an emotion, emojis are available to the users in multiple software contexts: instant messaging, emails, forums, and other types of social medias. Their usage grew constantly and, associated to the constant addition of new emojis, there are now more than 2,789 standard emojis since winter 2018.To access a specific emoji, scrolling through huge emoji librairies or using a emoji search engines is not enough to maximize their usage and their diversity. An emoji recommendation system is required. To answer this need, we present our research work facused on the emoji recommendation topic. The objectives are to create an emoji recommender system adapted to a private and informal conversationnal context. This system must enhance the user experience, the communication quality, and take into account possible new emerging emojis.Our first contribution is to show the limits of a emoji prediction for the real usage case, and to demonstrate the need of a more global recommandation. We also veifie the correlation between the real usage of emojis representing facial expressions and a related theory on facial expressions. We also tackle the evaluation part of this system, with the metrics' limits and the importance of a dedicated user interface.The approach is based on supervised and unsupervised machine learning, associated to language models. Several parts of this work were published in national and international conferences, including the best software award and best poster award for its social media track

20

Al, Imam Nahed Hamza. "Traitement automatique du système d'écriture de l'arabe : l'abjad et unicode." Besançon, 2008. http://www.theses.fr/2008BESA1027.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’Abjad en tant que système d’écriture du monde arabe, qui s’étend de l’océan atlantique à l’océan pacifique. L’Abjad n’est pas un alphabet au sens européen du terme. Issue de calligraphies et rencontres culturelles variées, comment ce système d’écriture est-il devenu celui des arabes ? il n’est pas l’œuvre de Mahomet, il est plus ancien que le prophète. Mais le Coran demeure le livre sacré des arabes et l’Abjad, une écriture sacrée, intouchable, inviolable. La langue arabe a une morphologie particulière fondée sur des racines et des schèmes. Aussi, un mot peut être écrit sous un grand nombre de formes, sans compter les différentes orthographes dépendant de la prononciation car il existe de nombreux dialectes et un état de diglossie qui complique les règles d’usage dans le monde musulman, malgré un arabe classique, système présent dans le coran, et que tout homme éduqué doit savoir écrire et lire. L’Abjad n’est pas seulement un problème culturel, mais aussi un problème informatique. Unicode fut une révolution dans ce domaine, en permettant de traiter la totalité de l’Abjad avec ses 943 caractères environ, sur son unique page de code. Mais Unicode demande un encodage. Trois solutions alors sont proposées : utf-8, utf-16, utf-32. Nous avons retenu utf-32 malgré des inconvénients indiscutables. En somme, l’Abjad empêche, les arabes de développer à grande échelle la diffusion de texte dans leur langue. Il devrait donc, être possible de normaliser l’Abjad, mais pour des raisons religieuses, on ne peut retenir cette solution. Car, le monde arabe ne supporterait pas qu’en quelconque façon il soit porté atteinte à l’Abjad dans lequel le Coran est écrit. Mais cela même condamne l’Abjad à rester une écriture religieuse et non un outil de communication moderne pour les affaires, la banque et le commerce
In this thesis, we sought to show the difficulties due to the religious dimension of the Abjad, the scripting of the Arabs, when implementing on computers the scripting systems of all the people in the world, following the Unicode project, and the consequences waited in NLP. First of all the Abjad is not an alphabet in the European meaning of the word, its holy scripting. This scripting is also the one of a Semitic language, endowed with a particular morphology based upon roots and schemes and many diacritics which depends upon the pronunciation of different dialects, event if the classical Arabic scripting present in the Koran is accessible to all man who can read and write. This scripting is not disappearing in the modern world, Arabic and the Abjad have succeeded in finding words to describe the concepts of the European political thought and all the ways and means to spread Islam throughout the world. The rare words borrowed from the Occident have to be accustomed into Arabic, because of its morphology with roots ands schemes with which European words cannot match. . . The Abjad is essential to translations, or high quality information research. Abjad is not only a cultural problem but also a technical, computer one : the only solution to install Arabic on Microsoft’s systems was the manual or external choice of the language. It was evident that the whole Abjad was not taken into account. Unicode was a revolution, allowing taking into account the whole Abjad with its 943 characters, but Unicode required an encoding scheme. To implement theses caracters on the machine, we made up our mind on the utf-8, in spite of its drawbacks, in particular when doing natural language processing. All attempts to normalise Abjad is to rule out for religious reasons : Abjad is the holy scripting of the Koran and that prevents to become a modern communication tool for business or trade and the cultural and religious dimension of the Abjad and the Koran are at the centre of the Arabian life and more than any other preoccupation, be it the economical development of their countries, their cultural presence on modern communication media or the implementation of automatic tools to process written information

21

Al-Shafi, Bilal. "Traitement informatique des signes diacritiques : pour une application automatique et didactique." Université de Besançon, 1996. http://www.theses.fr/1996BESA1029.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

22

Arnulphy, Béatrice. "Désignations nominales des événements : étude et extraction automatique dans les textes." Phd thesis, Université Paris Sud - Paris XI, 2012. http://tel.archives-ouvertes.fr/tel-00758062.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ma thèse a pour but l'étude des désignations nominales des événements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une démarche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles à une application particulière. Dans ce but général, de nombreuses campagnes d'extraction d'information ont été menées~: pour chaque événement considéré, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). Dès le départ, ces challenges touchent de près aux entités nommées (éléments " notables " des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'événement. Pourtant, ces travaux ne s'intéressent que peu aux mots utilisés pour décrire l'événement (particulièrement lorsqu'il s'agit d'un nom). L'événement est vu comme un tout englobant, comme la quantité et la qualité des informations qui le composent. Contrairement aux travaux en extraction d'informations générale, notre intérêt principal est porté uniquement sur la manière dont sont nommés les événements qui se produisent et particulièrement à la désignation nominale utilisée. Pour nous, l'événement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les événements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un événement peut être évoqué par une description verbale ou nominale. Dans cette thèse, nous avons réfléchi à la notion d'événement. Nous avons observé et comparé les différents aspects présentés dans l'état de l'art jusqu'à construire une définition de l'événement et une typologie des événements en général, et qui conviennent dans le cadre de nos travaux et pour les désignations nominales des événements. Nous avons aussi dégagé de nos études sur corpus différents types de formation de ces noms d'événements, dont nous montrons que chacun peut être ambigu à des titres divers. Pour toutes ces études, la composition d'un corpus annoté est une étape indispensable, nous en avons donc profité pour élaborer un guide d'annotation dédié aux désignations nominales d'événements. Nous avons étudié l'importance et la qualité des lexiques existants pour une application dans notre tâche d'extraction automatique. Nous avons aussi, par des règles d'extraction, porté intérêt au cotexte d'apparition des noms pour en déterminer l'événementialité. À la suite de ces études, nous avons extrait un lexique pondéré en événementialité (dont la particularité est d'être dédié à l'extraction des événements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de représenter des événements. Utilisée comme indice pour l'extraction des noms d'événements, cette pondération permet d'extraire des noms qui ne sont pas présents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillé sur des traits d'apprentissage contextuels en partie fondés sur la syntaxe pour extraire de noms d'événements.

23

Fernandez, Sabido Silvia. "Applications exploratoires des modèles de spins au Traitement Automatique de la Langue." Phd thesis, Université Henri Poincaré - Nancy I, 2009. http://tel.archives-ouvertes.fr/tel-00412369.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse nous avons exploré la capacité des modèles magnétiques de la physique statistique à extraire l'information essentielle contenue dans les textes. Les documents ont été représentés comme des ensembles d'unités en interaction magnétique, l'intensité de telles interactions a été mesurée et utilisée pour calculer de quantités qui sont des indices de l'importance de l'information portée. Nous proposons deux nouvelles méthodes. Premièrement, nous avons étudié un modèle de spins qui nous a permis d'introduire l'énergie textuelle d'un document. Cette quantité a été utilisée comme indicatrice de pertinence et appliquée à une vaste palette de tâches telles que le résumé automatique, la recherche d'information, la classification de documents et la segmentation thématique. Par ailleurs, et de façon encore exploratoire, nous proposons un deuxième algorithme qui définie un couplage grammatical pour conserver les termes importants et produire des contractions. De cette façon, la compression d'une phrase est l'état fondamental de la chaîne de termes. Comme cette compression n'est pas forcement bonne, il a été intéressant de produire des variantes en permettant des fluctuations thermiques. Nous avons fait des simulations Métropolis Monte-Carlo avec le but de trouver l'état fondamental de ce système qui est analogue au verre de spin. Les deux systèmes, utilisant des méthodes numériques, restent indépendants de la langue.

24

Fernández, Sabido Silvia Fidelina Berche Bertrand Torres Moreno Juan-Manuel. "Applications exploratoires des modèles de spins au traitement automatique de la langue." S. l. : S. n, 2009. http://www.scd.uhp-nancy.fr/docnum/SCD_T_2009_0055_FERNANDEZ-SABIDO.pdf.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

25

Fernández, Sabido Silvia Fidelina. "Applications exploratoires des modèles de spins au traitement automatique de la langue." Thesis, Nancy 1, 2009. http://www.theses.fr/2009NAN10055/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse nous avons exploré la capacité des modèles magnétiques de la physique statistique à extraire l'information essentielle contenue dans les textes. Les documents ont été représentés comme des ensembles d'unités en interaction magnétique, l'intensité de telles interactions a été mesurée et utilisée pour calculer de quantités qui sont des indices de l'importance de l'information portée. Nous proposons deux nouvelles méthodes. Premièrement, nous avons étudié un modèle de spins qui nous a permis d'introduire l'énergie textuelle d'un document. Cette quantité a été utilisée comme indicatrice de pertinence et appliquée à une vaste palette de tâches telles que le résumé automatique, la recherche d'information, la classification de documents et la segmentation thématique. Par ailleurs, et de façon encore exploratoire, nous proposons un deuxième algorithme qui définie un couplage grammatical pour conserver les termes importants et produire des contractions. De cette façon, la compression d'une phrase est l'état fondamental de la chaîne de termes. Comme cette compression n'est pas forcement bonne, il a été intéressant de produire des variantes en permettant des fluctuations thermiques. Nous avons fait des simulations Métropolis Monte-Carlo avec le but de trouver l'état fondamental de ce système qui est analogue au verre de spin
In this thesis we explored the ability of magnetic models of statistical physics to extract the essential information contained in texts. Documents are represented as sets of interacting magnetic units, the intensity of such interactions are measured and they are used to calculate quantities that are evidence of the importance of information scope. We propose two new methods. Firstly, we studied a spin model which allowed us to introduce the textual energy. This quantity was used as an indicator of information relevance. Several adaptations were necessary to adapt the energy calculation to a wide range of tasks such as summarisation, information retrieval, document classification and thematic segmentation. Furthermore, and even exploratory, we propose a second algorithm that defines a grammatical coupling between types of terms to retain the important terms and produce contractions. In this way, the compression of a sentence is the ground state of the chain of terms. As this compression is not necessarily good, it was interesting produce variants by thermal fluctuations. We have done simulations Metropolis Monte-Carlo with the aim of finding the ground state of this system that is analogous to spin glass

26

Gaschi, Félix. "Understanding and Evaluating Unsupervised Cross-lingual Embeddings in the General and in the Clinical Domains." Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0347.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les données labellisées et non labellisées sont plus souvent disponibles en anglais que dans d'autres langues. Dans le domaine clinique, les données non anglaises peuvent être encore plus rares. Les représentations, ou plongements lexicaux, multilingues peuvent avoir deux propriétés utiles dans cette situation. La première est l'alignement multilingue, où les représentations de différentes langues partagent le même espace latent. Plus concrètement, les mots qui sont la traduction l'un de l'autre doivent avoir des représentations similaires. La deuxième propriété est l'apprentissage par transfert cross-lingue : il permet à un modèle d'être entraîné sur une tâche supervisée dans une langue et de fournir de bons résultats pour la même tâche dans une autre langue, sans avoir besoin de données annotées dans cette langue. Cette thèse aborde certaines lacunes dans la littérature concernant la compréhension des représentations multilingues. Elle étudie notamment le lien entre l'alignement multilingue et le transfert cross-lingue, en montrant que les modèles, comme mBERT et XLM-R, qui peuvent effectuer ce transfert cross-lingue produisent des représentations qui ont une forme plus forte d'alignement multilingue que d'autres représentations qui ont été explicitement entraînés pour un tel alignement. Est également révélée la forte corrélation entre les capacités de transfert cross-lingue et l'alignement multilingue, ce qui suggère que ces deux propriétés multilingues sont liées. Ce lien permet d'améliorer le transfert cross-lingue pour les petits modèles en améliorant simplement l'alignement, ce qui peut leur permettre d'égaler les performances de grands modèles, mais seulement pour une tâche de bas niveau comme l'étiquetage POS, en raison de l'impact du fine-tuning lui-même sur l'alignement multilingue. Tout en se concentrant principalement sur le domaine général, cette thèse évalue finalement le transfert multilingue dans le domaine clinique. Elle montre que les méthodes basées sur la traduction peuvent atteindre des performances similaires à celles du transfert multilingue, mais qu'elles nécessitent plus de soin dans leur conception. Et bien qu'elles puissent tirer parti de modèles linguistiques cliniques monolingues, ceux-ci ne garantissent pas de meilleurs résultats que les larges modèles multilingues à usage général, que ce soit avec le transfert cross-lingue ou par traduction
Labeled and unlabeled data are more often available in English than in other languages. In the clinical domain, non-English data can be even more scarce. Multilingual word representations can have two properties that can help with this situation. The first one is multilingual alignment, where representations from different languages share the same latent space. More concretely, words that are translations of each other must have similar representations, which is useful for cross-lingual information retrieval. The second property is cross-lingual transfer learning: it allows a model to be trained on a supervised task in one language, and to provide good results for the same task in another language, without the need for any labeled data in that language. This thesis addresses some gaps in the literature regarding the understanding of multilingual embeddings. It namely studies the link between multilingual alignment and cross-lingual transfer, showing that models, like mBERT and XLM-R, that can perform cross-lingual transfer produce representations that have a stronger form of multilingual alignment than word embeddings that were explicitly trained for such alignment. It also finds a high correlation between cross-lingual transfer abilities and multilingual alignment suggesting that both multilingual properties are linked. This link allows to improve cross-lingual transfer for smaller models by simply improving alignment, which can allow them to match the performances of larger models but only for a low-level task like POS-tagging, due to the impact of fine-tuning itself on multilingual alignment. While mainly focusing on the general domain, this thesis eventually evaluates cross-lingual transfer in the clinical domain. It shows that translation-based methods can achieve similar performance to cross-lingual transfer but require more care in their design. While they can take advantage of monolingual clinical language models, those do not guarantee better results than large general-purpose multilingual models, whether with cross-lingual transfer or translation

27

Knyazeva, Elena. "Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues." Thesis, Université Paris-Saclay (ComUE), 2018. http://www.theses.fr/2018SACLS134/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique
Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation

28

Samson, Juan Sarah Flora. "Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM061/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les langues en Malaisie meurent à un rythme alarmant. A l'heure actuelle, 15 langues sont en danger alors que deux langues se sont éteintes récemment. Une des méthodes pour sauvegarder les langues est de les documenter, mais c'est une tâche fastidieuse lorsque celle-ci est effectuée manuellement.Un système de reconnaissance automatique de la parole (RAP) serait utile pour accélérer le processus de documentation de ressources orales. Cependant, la construction des systèmes de RAP pour une langue cible nécessite une grande quantité de données d'apprentissage comme le suggèrent les techniques actuelles de l'état de l'art, fondées sur des approches empiriques. Par conséquent, il existe de nombreux défis à relever pour construire des systèmes de transcription pour les langues qui possèdent des quantités de données limitées.L'objectif principal de cette thèse est d'étudier les effets de l'utilisation de données de langues étroitement liées, pour construire un système de RAP pour les langues à faibles ressources en Malaisie. Des études antérieures ont montré que les méthodes inter-lingues et multilingues pourraient améliorer les performances des systèmes de RAP à faibles ressources. Dans cette thèse, nous essayons de répondre à plusieurs questions concernant ces approches: comment savons-nous si une langue est utile ou non dans un processus d'apprentissage trans-lingue ? Comment la relation entre la langue source et la langue cible influence les performances de la reconnaissance de la parole ? La simple mise en commun (pooling) des données d'une langue est-elle une approche optimale ?Notre cas d'étude est l'iban, une langue peu dotée de l'île de Bornéo. Nous étudions les effets de l'utilisation des données du malais, une langue locale dominante qui est proche de l'iban, pour développer un système de RAP pour l'iban, sous différentes contraintes de ressources. Nous proposons plusieurs approches pour adapter les données du malais afin obtenir des modèles de prononciation et des modèles acoustiques pour l'iban.Comme la contruction d'un dictionnaire de prononciation à partir de zéro nécessite des ressources humaines importantes, nous avons développé une approche semi-supervisée pour construire rapidement un dictionnaire de prononciation pour l'iban. Celui-ci est fondé sur des techniques d'amorçage, pour améliorer la correspondance entre les données du malais et de l'iban.Pour augmenter la performance des modèles acoustiques à faibles ressources, nous avons exploré deux techniques de modélisation : les modèles de mélanges gaussiens à sous-espaces (SGMM) et les réseaux de neurones profonds (DNN). Nous avons proposé, dans ce cadre, des méthodes de transfert translingue pour la modélisation acoustique permettant de tirer profit d'une grande quantité de langues “proches” de la langue cible d'intérêt. Les résultats montrent que l'utilisation de données du malais est bénéfique pour augmenter les performances des systèmes de RAP de l'iban. Par ailleurs, nous avons également adapté les modèles SGMM et DNN au cas spécifique de la transcription automatique de la parole non native (très présente en Malaisie). Nous avons proposé une approche fine de fusion pour obtenir un SGMM multi-accent optimal. En outre, nous avons développé un modèle DNN spécifique pour la parole accentuée. Les deux approches permettent des améliorations significatives de la précision du système de RAP. De notre étude, nous observons que les modèles SGMM et, de façon plus surprenante, les modèles DNN sont très performants sur des jeux de données d'apprentissage en quantité limités
Languages in Malaysia are dying in an alarming rate. As of today, 15 languages are in danger while two languages are extinct. One of the methods to save languages is by documenting languages, but it is a tedious task when performed manually.Automatic Speech Recognition (ASR) system could be a tool to help speed up the process of documenting speeches from the native speakers. However, building ASR systems for a target language requires a large amount of training data as current state-of-the-art techniques are based on empirical approach. Hence, there are many challenges in building ASR for languages that have limited data available.The main aim of this thesis is to investigate the effects of using data from closely-related languages to build ASR for low-resource languages in Malaysia. Past studies have shown that cross-lingual and multilingual methods could improve performance of low-resource ASR. In this thesis, we try to answer several questions concerning these approaches: How do we know which language is beneficial for our low-resource language? How does the relationship between source and target languages influence speech recognition performance? Is pooling language data an optimal approach for multilingual strategy?Our case study is Iban, an under-resourced language spoken in Borneo island. We study the effects of using data from Malay, a local dominant language which is close to Iban, for developing Iban ASR under different resource constraints. We have proposed several approaches to adapt Malay data to obtain pronunciation and acoustic models for Iban speech.Building a pronunciation dictionary from scratch is time consuming, as one needs to properly define the sound units of each word in a vocabulary. We developed a semi-supervised approach to quickly build a pronunciation dictionary for Iban. It was based on bootstrapping techniques for improving Malay data to match Iban pronunciations.To increase the performance of low-resource acoustic models we explored two acoustic modelling techniques, the Subspace Gaussian Mixture Models (SGMM) and Deep Neural Networks (DNN). We performed cross-lingual strategies using both frameworks for adapting out-of-language data to Iban speech. Results show that using Malay data is beneficial for increasing the performance of Iban ASR. We also tested SGMM and DNN to improve low-resource non-native ASR. We proposed a fine merging strategy for obtaining an optimal multi-accent SGMM. In addition, we developed an accent-specific DNN using native speech data. After applying both methods, we obtained significant improvements in ASR accuracy. From our study, we observe that using SGMM and DNN for cross-lingual strategy is effective when training data is very limited

29

Muller, Benjamin. "How Can We Make Language Models Better at Handling the Diversity and Variability of Natural Languages ?" Electronic Thesis or Diss., Sorbonne université, 2022. http://www.theses.fr/2022SORUS399.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ces dernières années, le passage à l’échelle (scaling) des modèles de langues basés sur l’apprentissage profond — principalement en termes de taille de modèle, de taille de l’ensemble de données d’entraînement et de puissance de calcul d’entraînement — est devenu l’une des principales forces motrices des progrès empiriques en Traitement Automatique du Langage (TAL). Comme l’illustrent les exemples de (Peters et al., 2018b; Devlin et al., 2018a; Brown et al., 2020;Zhang et al., 2022; Chowdhery et al., 2022), cela conduit à de meilleures performances en apprentissage supervisé ainsi qu’à de meilleures capacités de zero-shot (i.e. sans données annotées pour une tâche dans une langue donnée) et de few-shot (i.e. pour une quantité très limitée de données annotées) et cela pour une grande variété de tâches. Dans cette thèse, nous travaillons avec des modèles monolingues et multilingues de type BERT (Devlin et al., 2018a). Pour répondre à notre principale question de recherche: “Comment rendre les modèles de langue meilleurs face à la diversité et la variabilité des langues?” Nous explorons trois directions principales.1. Analyses comportementales (behavioral) et structurelles des modèles de langues 2. Approche de réduction des différences de domaine 3. Approche par technique d’adaptation. Tout d’abord, les modèles de langues de type BERT sont des objets complexes. La première étape de cette thèse a été de mener des analyses approfondies pour comprendre le comportement de ces modèles dans différents scénarios d’entraînement et de test (behavioral analysis). Ces analyses ont été enrichies par des études structurelles des modèles en décrivant leur fonctionnement interne. Ensuite, nous nous sommes concentrés sur une approche de réduction de l’écart entre les domaines. Dans cette approche, l’objectif est de rendre les données hautement variables hors domaine plus similaires aux données d’apprentissage. Enfin, nous présentons des techniques d’adaptation qui modélisent directement les données hors-domaine ou dans une langue différente des données d’apprentissage
Deep Learning for NLP has led to impressive empirical progress in recent years. In essence, this progress is based on better contextualized representations that can be easily used for a wide variety of tasks. However, these models usually require substantial computing power and large amounts of raw textual data. This makes language’s inherent diversity and variability a vivid challenge in NLP. We focus on the following: How can we make language models better at handling the variability and diversity of natural languages?. First, we explore the generalizability of language models by building and analyzing one of the first large-scale replication of a BERT model for a non-English language. Our results raise the question of using these language models on highly-variable domains such as these found online. Focusing on lexical normalization, we show that this task can be approached with BERT-like models. However, we show that it only partially helps downstream performance. In consequence, we focus on adaptation techniques using what we refer to as representation transfer and explore challenging settings such as the zero-shot setting, low-resource languages. We show that multilingual language models can be adapted and used efficiently with low-resource languages, even with the ones unseen during pretraining, and that the script is a critical component in this adaptation

30

Pho, Van-Minh. "Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112192/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ces dernières années ont connu un renouveau des Environnements Informatiques pour l'Apprentissage Humain. Afin que ces environnements soient largement utilisés par les enseignants et les apprenants, ils doivent fournir des moyens pour assister les enseignants dans leur tâche de génération d'exercices. Parmi ces exercices, les Questionnaires à Choix Multiples (QCM) sont très présents. Cependant, la rédaction d'items à choix multiples évaluant correctement le niveau d'apprentissage des apprenants est une tâche complexe. Des consignes ont été développées pour rédiger manuellement des items, mais une évaluation automatique de la qualité des items constituerait un outil pratique pour les enseignants.Nous nous sommes intéressés à l'évaluation automatique de la qualité des distracteurs (mauvais choix de réponse). Pour cela, nous avons étudié les caractéristiques des distracteurs pertinents à partir de consignes de rédaction de QCM. Cette étude nous a conduits à considérer que l'homogénéité des distracteurs et de la réponse est un critère important pour valider les distracteurs. L'homogénéité est d'ordre syntaxique et sémantique. Nous avons validé la définition de l'homogénéité par une analyse de corpus de QCM, et nous avons proposé des méthodes de reconnaissance automatique de l'homogénéité syntaxique et sémantique à partir de cette analyse.Nous nous sommes ensuite focalisé sur l'homogénéité sémantique des distracteurs. Pour l'estimer automatiquement, nous avons proposé un modèle d'ordonnancement par apprentissage, combinant différentes mesures d'homogénéité sémantique. L'évaluation du modèle a montré que notre méthode est plus efficace que les travaux existants pour estimer l'homogénéité sémantique des distracteurs
Recent years have seen a revival of Intelligent Tutoring Systems. In order to make these systems widely usable by teachers and learners, they have to provide means to assist teachers in their task of exercise generation. Among these exercises, multiple-choice tests are very common. However, writing Multiple-Choice Questions (MCQ) that correctly assess a learner's level is a complex task. Guidelines were developed to manually write MCQs, but an automatic evaluation of MCQ quality would be a useful tool for teachers.We are interested in automatic evaluation of distractor (wrong answer choice) quality. To do this, we studied characteristics of relevant distractors from multiple-choice test writing guidelines. This study led us to assume that homogeneity between distractors and answer is an important criterion to validate distractors. Homogeneity is both syntactic and semantic. We validated the definition of homogeneity by a MCQ corpus analysis, and we proposed methods for automatic recognition of syntactic and semantic homogeneity based on this analysis.Then, we focused our work on distractor semantic homogeneity. To automatically estimate it, we proposed a ranking model by machine learning, combining different semantic homogeneity measures. The evaluation of the model showed that our method is more efficient than existing work to estimate distractor semantic homogeneity

31

Thollard, Franck. "Inférence grammaticale probabiliste pour l'apprentissage de la syntaxe en traitement de la langue naturelle." Saint-Etienne, 2000. http://www.theses.fr/2000STET4010.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objectif de la thèse consiste à utiliser les langages formels pour modéliser la langue naturelle. Les techniques utilisées en reconnaissance de la langue naturelle estiment la probabilité d'un mot étant donnée son contexte. En raison de l'information structurelle qu'elle contiennent, les grammaires formelles semblent bien adaptées à cette tâche. Nous étudions les automates déterministes et probabilistes (PDFA). Une théorie formelle de ces objets est proposée. Nous montrons par ailleurs que les automates probabilistes peuvent être appris dans un cadre d'apprentissage dérivé de l'identification à la limite proposé par Gold. Nous proposons ensuite un nouvel algorithme (MDI) basé sur un calcul efficace de la divergence de Kullback-Leibler entre automates. L'algorithme MDI cherche à inférer un PDFA compromis entre la divergence par rapport aux données d'apprentissage et une petite taille. Une étude expérimentale montre que l'algorithme MDI améliore significativement le pouvoir de prédiction de l'algorithme de référence du domaine : ALERGIA. Ces expérimentations montrent par ailleurs l'importance du lissage lors de la modélisation de la langue naturelle

32

Rouabhi, Miloud. "Analyse sémantico-cognitive de prépositions en vue d'un traitement automatique." Thesis, Sorbonne université, 2019. http://www.theses.fr/2019SORUL032.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette étude vise à unifier dans une même approche les descriptions données par une sémantique cognitive et les représentations associées, et étudiées par une sémantique formelle. La sémantique cognitive a pour but d’associer des schèmes aux significations des unités analysées. La sémantique formelle consiste à étudier les modes de représentation de ces schèmes et les relations avec les observables. Notre étude s’appuie et s’insère dans le modèle général développé à l’université Paris-Sorbonne dans le groupe LaLIC (Langages, Logiques, Informatique et Cognition), il s’agit d’utiliser le modèle de la GAC (Grammaire Applicative et Cognitive) et de la GRACE (GRammaire Applicative Cognitive et Enonciative) ; ces deux modèles font appel d’une part à la topologie et d’autre part à la logique combinatoire en vue d’un traitement automatique de la signification. Nous avons choisi d’étudier le problème des prépositions et plus spécialement des trois prépositions : dans, sous et à du français et de leur équivalents en arabe ; cela nous à conduit à rechercher des invariants associés à ces trois prépositions ou relateurs, la préposition dans renvoie à l’intériorité d’un lieu, qu’il soit spatial, temporel, spatio-temporel, notionnel ou d’activité ; la préposition sous renvoie à un lieu déterminé ou engendré par un autre lieu dont on prend la fermeture ; quand à la préposition à renvoie à la fermeture d’un lieu. Le lieu est un lieu cognitif abstrait, suffisamment général qui, selon le contexte peut prendre des valeurs plus particulières
This study aims to unify in a single approach the descriptions given by cognitive semantics and associated representations, studied by formal semantics. Cognitive semantics consists to associate the meanings of the analyzed with schemes. Formal semantics consists in studying the modes of representation of these schemes and the relations to the observables. Our study is based on the general model developed at the Paris-Sorbonne University in the LaLIC group, using the GAC model (Applicative and Cognitive Grammar) and GRACE (GRammar Applicative Cognitive and Enunciative), these two models use the one hand to the topology and on the other hand to the combinatory logic in order to an automatic processing of meanings. We have chosen to study the problem of the three prepositions: dans, sous and à of French and their equivalences in Arabic, this leads us to search for invariants associated with these three prepositions or relators, the preposition dans refers to the interiority of a place, be it spatial, temporal, spatial-temporal, notional or activity and the preposition sous refers to a specific place or generated by another place whose closing is taken. The preposition à refers to the closing of a place, here the place is cognitive or abstract place, sufficiently general that according to the context can take more particular values

33

Shang, Guokan. "Spoken Language Understanding for Abstractive Meeting Summarization Unsupervised Abstractive Meeting Summarization with Multi-Sentence Compression and Budgeted Submodular Maximization. Energy-based Self-attentive Learning of Abstractive Communities for Spoken Language Understanding Speaker-change Aware CRF for Dialogue Act Classification." Thesis, Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAX011.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Grâce aux progrès impressionnants qui ont été réalisés dans la transcription du langage parlé, il est de plus en plus possible d'exploiter les données transcrites pour des tâches qui requièrent la compréhension de ce que l'on dit dans une conversation. Le travail présenté dans cette thèse, réalisé dans le cadre d'un projet consacré au développement d'un assistant de réunion, contribue aux efforts en cours pour apprendre aux machines à comprendre les dialogues des réunions multipartites. Nous nous sommes concentrés sur le défi de générer automatiquement les résumés abstractifs de réunion.Nous présentons tout d'abord nos résultats sur le Résumé Abstractif de Réunion (RAR), qui consiste à prendre une transcription de réunion comme entrée et à produire un résumé abstractif comme sortie. Nous introduisons une approche entièrement non-supervisée pour cette tâche, basée sur la compression multi-phrases et la maximisation sous-modulaire budgétisée. Nous tirons également parti des progrès récents en vecteurs de mots et dégénérescence de graphes appliqués au TAL, afin de prendre en compte les connaissances sémantiques extérieures et de concevoir de nouvelles mesures de diversité et d'informativité.Ensuite, nous discutons de notre travail sur la Classification en Actes de Dialogue (CAD), dont le but est d'attribuer à chaque énoncé d'un discours une étiquette qui représente son intention communicative. La CAD produit des annotations qui sont utiles pour une grande variété de tâches, y compris le RAR. Nous proposons une couche neuronale modifiée de Champ Aléatoire Conditionnel (CAC) qui prend en compte non seulement la séquence des énoncés dans un discours, mais aussi les informations sur les locuteurs et en particulier, s'il y a eu un changement de locuteur d'un énoncé à l'autre.La troisième partie de la thèse porte sur la Détection de Communauté Abstractive (DCA), une sous-tâche du RAR, dans laquelle les énoncés d'une conversation sont regroupés selon qu'ils peuvent être résumés conjointement par une phrase abstractive commune. Nous proposons une nouvelle approche de la DCA dans laquelle nous introduisons d'abord un encodeur neuronal contextuel d'énoncé qui comporte trois types de mécanismes d'auto-attention, puis nous l'entraînons en utilisant les méta-architectures siamoise et triplette basées sur l'énergie. Nous proposons en outre une méthode d'échantillonnage générale qui permet à l'architecture triplette de capturer des motifs subtils (p. ex., des groupes qui se chevauchent et s'emboîtent)
With the impressive progress that has been made in transcribing spoken language, it is becoming increasingly possible to exploit transcribed data for tasks that require comprehension of what is said in a conversation. The work in this dissertation, carried out in the context of a project devoted to the development of a meeting assistant, contributes to ongoing efforts to teach machines to understand multi-party meeting speech. We have focused on the challenge of automatically generating abstractive meeting summaries.We first present our results on Abstractive Meeting Summarization (AMS), which aims to take a meeting transcription as input and produce an abstractive summary as output. We introduce a fully unsupervised framework for this task based on multi-sentence compression and budgeted submodular maximization. We also leverage recent advances in word embeddings and graph degeneracy applied to NLP, to take exterior semantic knowledge into account and to design custom diversity and informativeness measures.Next, we discuss our work on Dialogue Act Classification (DAC), whose goal is to assign each utterance in a discourse a label that represents its communicative intention. DAC yields annotations that are useful for a wide variety of tasks, including AMS. We propose a modified neural Conditional Random Field (CRF) layer that takes into account not only the sequence of utterances in a discourse, but also speaker information and in particular, whether there has been a change of speaker from one utterance to the next.The third part of the dissertation focuses on Abstractive Community Detection (ACD), a sub-task of AMS, in which utterances in a conversation are grouped according to whether they can be jointly summarized by a common abstractive sentence. We provide a novel approach to ACD in which we first introduce a neural contextual utterance encoder featuring three types of self-attention mechanisms and then train it using the siamese and triplet energy-based meta-architectures. We further propose a general sampling scheme that enables the triplet architecture to capture subtle patterns (e.g., overlapping and nested clusters)

34

Wurbel, Nathalie. "Dictionnaires et bases de connaissances : traitement automatique de données dictionnairiques de langue française." Aix-Marseille 3, 1995. http://www.theses.fr/1995AIX30035.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'utilisation des versions informatisees de dictionnaires courants comme sources d'informations en traitement automatique du langage naturel a ete encouragee par la masse de connaissances lexicales et semantiques qu'ils contiennent. Cependant, apres 15 annees de recherches, les resultats apparaissent decevants et n'ont pas debouche sur une evaluation des bases de connaissances dictionnairiques, ni sur l'etude des retombees de ces recherches. Nous avons realise l'evaluation d'un dictionnaire francais. En nous placant dans le cadre de la construction automatique de taxinomies, nous avons repertorie les anomalies et les imperfections des informations extraites de facon automatique dont nous donnons une classification detaillee. Ces observations ont ete utilisees pour definir un modele de dictionnaire informatise destine a la fois a des utilisateurs humains et a des systemes de traitement automatique du langage naturel, ou les informations dictionnairiques sont representees dans une base de connaissances orientee objets. Nous proposons un automate de generation de definitions, fournissant un outil puissant d'aide a la redaction pour les lexicographes

35

Petitjean, Simon. "Génération modulaire de grammaires formelles." Thesis, Orléans, 2014. http://www.theses.fr/2014ORLE2048/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les travaux présentés dans cette thèse visent à faciliter le développement de ressources pour le traitement automatique des langues. Les ressources de ce type prennent des formes très diverses, en raison de l’existence de différents niveaux d’étude de la langue (syntaxe, morphologie, sémantique,. . . ) et de différents formalismes proposés pour la description des langues à chacun de ces niveaux. Les formalismes faisant intervenir différents types de structures, un unique langage de description n’est pas suffisant : il est nécessaire pour chaque formalisme de créer un langage dédié (ou DSL), et d’implémenter un nouvel outil utilisant ce langage, ce qui est une tâche longue et complexe. Pour cette raison, nous proposons dans cette thèse une méthode pour assembler modulairement, et adapter, des cadres de développement spécifiques à des tâches de génération de ressources langagières. Les cadres de développement créés sont construits autour des concepts fondamentaux de l’approche XMG (eXtensible MetaGrammar), à savoir disposer d’un langage de description permettant la définition modulaire d’abstractions sur des structures linguistiques, ainsi que leur combinaison non-déterministe (c’est à dire au moyen des opérateurs logiques de conjonction et disjonction). La méthode se base sur l’assemblage d’un langage de description à partir de briques réutilisables, et d’après un fichier unique de spécification. L’intégralité de la chaîne de traitement pour le DSL ainsi défini est assemblée automatiquement d’après cette même spécification. Nous avons dans un premier temps validé cette approche en recréant l’outil XMG à partir de briques élémentaires. Des collaborations avec des linguistes nous ont également amené à assembler des compilateurs permettant la description de la morphologie de l’Ikota (langue bantoue) et de la sémantique (au moyen de la théorie des frames)
The work presented in this thesis aim at facilitating the development of resources for natural language processing. Resources of this type take different forms, because of the existence of several levels of linguistic description (syntax, morphology, semantics, . . . ) and of several formalisms proposed for the description of natural languages at each one of these levels. The formalisms featuring different types of structures, a unique description language is not enough: it is necessary to create a domain specific language (or DSL) for every formalism, and to implement a new tool which uses this language, which is a long a complex task. For this reason, we propose in this thesis a method to assemble in a modular way development frameworks specific to tasks of linguistic resource generation. The frameworks assembled thanks to our method are based on the fundamental concepts of the XMG (eXtensible MetaGrammar) approach, allowing the generation of tree based grammars. The method is based on the assembling of a description language from reusable bricks, and according to a unique specification file. The totality of the processing chain for the DSL is automatically assembled thanks to the same specification. In a first time, we validated this approach by recreating the XMG tool from elementary bricks. Some collaborations with linguists also brought us to assemble compilers allowing the description of morphology and semantics

36

Dutrey, Camille. "Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle." Thesis, Paris 11, 2014. http://www.theses.fr/2014PA112415/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique)
Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method)

37

Tafforeau, Jérémie. "Modèle joint pour le traitement automatique de la langue : perspectives au travers des réseaux de neurones." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0430/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les recherches en Traitement Automatique des Langues (TAL) ont identifié différents niveaux d'analyse lexicale, syntaxique et sémantique. Il en découle un découpage hiérarchique des différentes tâches à réaliser afin d'analyser un énoncé. Les systèmes classiques du TAL reposent sur des analyseurs indépendants disposés en cascade au sein de chaînes de traitement (pipelines). Cette approche présente un certain nombre de limitations : la dépendance des modèles à la sélection empirique des traits, le cumul des erreurs dans le pipeline et la sensibilité au changement de domaine. Ces limitations peuvent conduire à des pertes de performances particulièrement importantes lorsqu'il existe un décalage entre les conditions d'apprentissage des modèles et celles d'utilisation. Un tel décalage existe lors de l'analyse de transcriptions automatiques de parole spontanée comme par exemple les conversations téléphoniques enregistrées dans des centres d'appels. En effet l'analyse d'une langue non-canonique pour laquelle il existe peu de données d'apprentissage, la présence de disfluences et de constructions syntaxiques spécifiques à l'oral ainsi que la présence d'erreurs de reconnaissance dans les transcriptions automatiques mènent à une détérioration importante des performances des systèmes d'analyse. C'est dans ce cadre que se déroule cette thèse, en visant à mettre au point des systèmes d'analyse à la fois robustes et flexibles permettant de dépasser les limitations des systèmes actuels à l'aide de modèles issus de l'apprentissage par réseaux de neurones profonds
NLP researchers has identified different levels of linguistic analysis. This lead to a hierarchical division of the various tasks performed in order to analyze a text statement. The traditional approach considers task-specific models which are subsequently arranged in cascade within processing chains (pipelines). This approach has a number of limitations: the empirical selection of models features, the errors accumulation in the pipeline and the lack of robusteness to domain changes. These limitations lead to particularly high performance losses in the case of non-canonical language with limited data available such as transcriptions of conversations over phone. Disfluencies and speech-specific syntactic schemes, as well as transcription errors in automatic speech recognition systems, lead to a significant drop of performances. It is therefore necessary to develop robust and flexible systems. We intend to perform a syntactic and semantic analysis using a deep neural network multitask model while taking into account the variations of domain and/or language registers within the data

38

Dymetman, Marc. "Transformations de grammaires logiques et réversibilité en traduction automatique." Grenoble 1, 1992. http://www.theses.fr/1992GRE10097.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objet de ce travail est de décrire des conditions et des techniques permettant de transformer des grammaires logiques en des programmes d'analyse et de génération: - directement exécutables par l'interpréteur standard de Prolog; - corrects, c'est-à-dire dénotationnellement équivalents à la grammaire logique qu'ils implémentent, et complets, c'est-à-dire tels que toutes les solutions soient énumérées par retour-arrière et que le programme termine. Dans une première partie, l'accent porte sur l'utilisation bidirectionnelle (analyse et génération) d'une même grammaire dans le cadre de la traduction automatique. Nous commençons par décrire une réalisation concrète de la réversibilité dans le contexte du système de traduction CRITTER. Puis nous cherchons à éclaircir le statut théorique de certains problèmes rencontrés en pratique, et proposons une définition formelle du concept même de réversibilité. Sur cette base nous présentons un prototype de grammaire réversible plus satisfaisant des points de vue linguistique et algorithmique. Dans une seconde partie, nous étudions en détail un problème particulier important apparu dans la première partie, celui de l'élimination de la récursion gauche dans une grammaire à clauses définies (DCG). Nous proposons une solution générale à ce problème: la forme normale de Greibach généralisée (GGNF). Ce résultat, qui semble être le premier énoncé de forme normale pour les grammaires logiques (ou plus généralement d'unification), est une extension au cas des DCGs de la forme normale de Greibach classique des grammaires hors-contexte. La transformation est basée sur une généralisation des concepts mathématiques de série formelle et de système algébrique introduits par M. Schützenberger dans l'étude des grammaires régulières et hors-contexte. Cette généralisation a l'intérêt de faire apparaître clairement l'origine algébrique de la souplesse transformationnelle des grammaires logiques, et laisse plus généralement entrevoir les développements intéressants dans l'étude mathématique de la programmation logique

39

MAHMOUDI, SEYED MOHAMM. "Contribution au traitement automatique de la langue persane : analyse et reconnaissance des syntagmes nominaux." Lyon 2, 1994. http://www.theses.fr/1994LYO20070.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'objectif de cette étude consiste dans la conception et la mise au point d'un analyseur morpho-syntaxique du persan en vue des applications à l'indexation automatique et à l'enseignement des langues assisté par ordinateur (EAO). Parmi les prolongements qu'on peut attendre de cette recherche, il y a d'abord le traitement automatique de la langue naturelle dans des systèmes d'intelligence artificielle. L'apport principal de cette étude réside essentiellement dans la reconnaissance automatique des syntagmes nominaux (sn) en persan ; elle permettra par ailleurs l'analyse et la génération automatique d'une grande partie des particules de liaison d'ézafé. Chacune des phases de l'analyse est écrite par un programme en langage Prolog (Turbo-Prolog). L'ensemble des données "lexicales" nécessaires à la catégorisation des formes morpho-syntaxiques y est présenté comme une base de données
The aim of this thesis is the conception and realisation of a morpho-syntaxic parser of Persian designed for applications to automatic indexing and computer-assisted instruction (or learning) of the language (cai or cal). One of the chief extensions to this research is the automatic processing of natural language by means of artificial intelligence systems. The main interest of this contribution is to study the automatic recognition of noun phrases in Persian. Each stage of the parsing is described in a program in Prolog language (Turbo-Prolog). The whole of the lexical datas necessary for the categorisation of morpho-syntaxic forms is presented as a database

40

Chen, Lihu. "Towards efficient, general and robust entity disambiguation systems." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT017.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

La désambiguïsation des entités vise à faire correspondre les mentions dans les documents à des entités standard dans une base de connaissances donnée, ce qui est important pour diverses applications telles que l'extraction d'informations, la recherche sur le web et la réponse aux questions.Bien que le domaine soit très dynamique et que de nombreux travaux nouveaux apparaissent, trois questions sont sous-explorées par les travaux antérieurs.1) Peut-on utiliser un petit modèle pour approcher les performances d'un grand modèle ?2) Comment développer un système de désambiguïsation unique adapté à plusieurs domaines ?3) Les systèmes existants sont-ils robustes aux mots hors-vocabulaire et aux différents ordres de mots ?Sur la base de ces trois questions, nous étudions comment construire un système de désambiguïsation d'entités efficace, général et robuste. Nous appliquons également avec succès la désambiguïsation d'entités à la tâche d'achèvement de la base de connaissances, en particulier pour les entités à longue traîne
Entity disambiguation aims to map mentions in documents to standard entities in a given knowledge base, which is important for various applications such as information extraction, Web search and question answering.Although the field is very vibrant with many novel works popping up, there are three questions that are underexplored by prior work.1) Can we use a small model to approach the performance of a big model?2) How to develop a single disambiguation system adapted to multiple domains?3) Are existing systems robust to out-of-vocabulary words and different word orderings?Based on the three questions, we explore how to construct an efficient, general and robust entity disambiguation system. We also successfully apply entity disambiguation to the knowledge base completion task, especially for the long-tail entities

41

Buet, François. "Modèles neuronaux pour la simplification de parole, application au sous-titrage." Electronic Thesis or Diss., université Paris-Saclay, 2022. https://theses.hal.science/tel-03920729.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans le contexte linguistique, la simplification est généralement définie comme le processus consistant à réduire la complexité d'un texte (ou de paroles), tout en préservant au mieux son sens. Son application principale est de rendre plus aisée la compréhension et la lecture pour un utilisateur. Elle est entre autres une solution envisagée pour renforcer la lisibilité des textes auprès des sourds et malentendants (la surdité étant souvent à l'origine d'un retard dans l'apprentissage de la lecture), en particulier dans le cas du sous-titrage. Alors que les sous-titres interlinguistiques servent à diffuser les films et programmes dans d'autres langues, les sous-titres intralinguistiques sont le seul moyen, avec l'interprétation en langue des signes, par lequel sourds et malentendants peuvent accéder aux contenus audio-visuels. Or la vidéo a pris une place importante dans la société, que ce soit dans le contexte professionnel, récréatif, ou de l'éducation. Afin de garantir l'égalité des individus dans la participation à la vie publique et sociale, un certain nombre de pays dans le monde (dont la France) ont mis en oeuvre des obligations légales concernant le sous-titrage des émissions télévisées. ROSETTA (RObot de Sous-titrage Et Toute Traduction Adaptés) est un projet de recherche collaboratif privé-public, qui se propose de développer des solutions technologiques d'accessibilité pour les contenus audiovisuels en français. La présente thèse, réalisée dans le cadre de ce projet, vise à étudier la simplification automatique de la parole par des modèles neuronaux, et à l'adapter au contexte du sous-titrage intralinguistique d'émissions télévisées en français. Nos travaux portent principalement sur l'analyse de méthodes de contrôle de longueur, l'adaptation de modèles de sous-titrage aux genres télévisuels, et l'évaluation de la segmentation des sous-titres. Nous présentons notamment un nouveau corpus pour le sous-titrage créé à partir de données recueillies au cours du projet ROSETTA, ainsi qu'une nouvelle métrique pour l'évaluation des sous-titres, Sigma
In the context of linguistics, simplification is generally defined as the process consisting in reducing the complexity of a text (or speech), while preserving its meaning as much as possible. Its primary application is to make understanding and reading easier for a user. It is regarded, inter alia, as a way to enhance the legibility of texts toward deaf and hard-of-hearing people (deafness often causes a delay in reading development), in particular in the case of subtitling. While interlingual subtitles are used to disseminate movies and programs in other languages, intralingual subtitles (or captions) are the only means, with sign language interpretation, by which the deaf and hard-of-hearing can access audio-visual contents. Yet videos have taken a prominent place in society, wether for work, recreation, or education. In order to ensure the equality of people through participation in public and social life, many countries in the world (including France) have implemented legal obligations concerning television programs subtitling. ROSETTA (Subtitling RObot and Adapted Translation) is a public-private collaborative research program, seeking to develop technological accessibility solutions for audio-visual content in French. This thesis, conducted within the ROSETTA project, aims to study automatic speech simplification with neural models, and to apply it into the context of intralinguistic subtitling for French television programs. Our work mainly focuses on analysing length control methods, adapting subtitling models to television genres, and evaluating subtitles segmentation. We notably present a new subtitling corpus created from data collected as part of project ROSETTA, as well as a new metric for subtitles evaluation, Sigma

42

Sileo, Damien. "Représentations sémantiques et discursives pour la compréhension automatique du langage naturel." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30201.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les modèles computationnels pour la compréhension automatique des textes ont suscité un vif intérêt en raison de gains de performances inhabituels au cours des dernières années, certains d'entre eux conduisant à des scores d'évaluation surhumains. Ce succès a conduit à affirmer la création de représentations universelles de phrases. Dans cette thèse, nous questionnons cette affirmation au travers de deux angles complémentaires. Premièrement, les réseaux de neurones et les représentations vectorielles sont-ils suffisamment expressifs pour traiter du texte de sorte à pouvoir effectuer un large éventail de tâches complexes ? Dans cette thèse, nous présenterons les modèles neuronaux actuellement utilisés et les techniques d'entraînement associées. Nous proposons des critères pour l'expressivité de composition des représentations vectorielles et montrons que la suite d'évaluations et les encodeurs de phrases très répandus (SentEval/InferSent) sont limités dans leur expressivité ; des changements mineurs peuvent permettre de nouvelles compositions expressives et interprétables, mais pourraient ne pas suffire, ce qui peut justifier le changement de paradigme vers de nouveaux modèles basés sur les Transformers. Deuxièmement, nous aborderons la question de l'universalité dans les représentation des phrases: que cachent en réalité ces prétentions à l'universalité ? Nous décrivons quelques théories de ce qu'est le sens d'une expression textuelle, et dans une partie ultérieure de cette thèse, nous soutenons que la sémantique (contenu littéral, non situé) par rapport à la pragmatique (la partie du sens d'un texte définie par son rôle et son contexte) est prépondérante dans les données d'entraînement et d'évaluation actuelles des modèles de compréhension du langage naturel. Pour atténuer ce problème, nous montrons que la prédiction de marqueurs de discours (classification de marqueurs de discours initialement présents entre des phrases) peut être considérée comme un signal d'apprentissage centré sur la pragmatique pour la compréhension de textes. Nous construisons un nouvel ensemble de données de prédiction de marqueurs de discours qui donne des résultats nettement supérieurs aux travaux précédents. Nous proposons également un nouvel outil d'évaluation de la compréhension du langage naturel en se basant sur le discours et la pragmatique. Cet outil pourrait inciter la communauté du traitement des langues à prendre en compte les considérations pragmatiques lors de l'évaluation de modèles de compréhension du langage naturel
Computational models for automatic text understanding have gained a lot of interest due to unusual performance gains over the last few years, some of them leading to super-human scores. This success reignited some grandeur claims about artificial intelligence, such as universal sentence representation. In this thesis, we question these claims through two complementary angles. Firstly, are neural networks and vector representations expressive enough to process text and perform a wide array of complex tasks? In this thesis, we will present currently used computational neural models and their training techniques. We propose a criterion for expressive compositions and show that a popular evaluation suite and sentence encoders (SentEval/InferSent) have an expressivity bottleneck; minor changes can yield new compositions that are expressive and insightful, but might not be sufficient, which may justify the paradigm shift towards newer Transformers-based models. Secondly, we will discuss the question of universality in sentence representation: what actually lies behind these universality claims? We delineate a few theories of meaning, and in a subsequent part of this thesis, we argue that semantics (unsituated, literal content) as opposed to pragmatics (meaning as use) is preponderant in the current training and evaluation data of natural language understanding models. To alleviate that problem, we show that discourse marker prediction (classification of hidden discourse markers between sentences) can be seen as a pragmatics-centered training signal for text understanding. We build a new discourse marker prediction dataset that yields significantly better results than previous work. In addition, we propose a new discourse-based evaluation suite that could incentivize researchers to take into account pragmatic considerations when evaluating text understanding models

43

Hassoun, Mohamed. "Conception d'un dictionnaire pour le traitement automatique de l'arabe dans différents contextes d'application." Lyon 1, 1987. http://www.theses.fr/1987LYO10035.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le dictionnaire est concu pour le traitement automatique de l'arabe dans le cadre du programme de recherche samia (synthese et analyse morphologiques informatisees de l'arabe). Partant du modele linguistique concu par le programme samia (traits morphologiques, regles de contextualisation), on a cherche a definir une structuration des donnees permettant la constitution d'un dictionnaire utilisable dans les deux contextes de l'analyse et de la synthese morphologiques. On examine les conditions de consultation et d'exploitation du dictionnaire ainsi que son implementation sur le sgbd relationnel informix

44

Balicco, Laurence. "Génération de repliques en français dans une interface homme-machine en langue naturelle." Grenoble 2, 1993. http://www.theses.fr/1993GRE21025.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette recherche entre dans le cadre de la generation automatique de langue naturelle, domaine qui fut longtemps neglige, cette phase semblant plus simple que celle d'analyse de la langue. Cette these qui correspond a un premier travail sur la generation au sein du criss place le probleme de la generation automatique dans le cadre d'un homme-machine en langue naturelle. Ceci a des consequences, parmi lesquelles la generation a partir d'un contenu a exprimer en langue naturelle, une expression en langue naturelle de ce contenu aussi fidelement que possible,. . . Apres avoir etudie les differents travaux en generation, nous avons decide d'elaborer notre propre systeme de generation, en reutililisant, dans la mesure du possible, les outils developpes pour l'analyse. Ce generateur repose sur un modele linguistique utilisant des informations principalement syntaxiques et morphologiques et dans lequel sont definies des transformations linguistiques appelees operations (coordination, anaphorisation, thematisation,. . . ) donnees par le dialogue ou calculees lors de la phase de generation. Il permet la creation de plusieurs versions d'une meme replique et ainsi que, brievement, un projet europeen qui presente une application possible du generateur
This research takes place in the context of natural language generation. This field has benn neglected for a long time because it seemed a much easier phase that those of analysis. The thesis corresponds to a first work on generation in the criss team and places the problem of generation in the context of a manmachine dialogue in natural language. Some of its consequences are : generation from a logical content to be translated into natural language, this translation of the original content kept as close as possible,. . . After the study of the different works that have been done, we decided to create our own generation system, resusing when it is possible, the tools elaborated during the analyzing process. This generation process is based on a linguistic model, which uses syntactic and morphologic information and in which linguistic transformations called operations are defined (coodination, anaphorisation, thematisation,. . . ). These operations can be given by the dialogue or calulated during the generation process. The model allows the creation of several of the same utterance and therefore a best adaptation for different users. This thesis presents the studied works, essentially on the french and the english languages, the linguistic model developped, the computing model used, and a brief presentation of an european project which offers a possible application of ou

45

Kla, Régis. "Osmose : a natural language based object oriented approach with its CASE tool." Paris 1, 2004. http://www.theses.fr/2004PA010020.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Dans cette thèse nous présentons une nouvelle approche de génie logiciel orienté objet, baseé sur le langage naturel et qui se nomme OsMoSE. Nous présentons aussi son outil d'aide à la conception du même nom. Cette approche assiste l'ingénieur dans la délicate tâche de transformation des besoins initialement décrits en langage naturel, vers un ensemble de schémas conceptuel orienté objet. Entièrement basé sur une architecture de système expert, l'outil OsMoSE repose sur un ensemble de règles lui permettant de simuler le comportement d'un analyste humain lors de la phase de conception d'un système logiciel orienté objet. Pour ce faire, l'outil OsMoSE est doté d'un puissant modèle de représentation des connaissances dérivé des graphes conceptuels de SOWA. En plus de ce modèle principal, plusieurs autres sont utilisés pour transformer les connaissances initialement décrites dans les scénarios textuels, en concepts orientés objet. Le processus de transformation défini par l'approche eest incrémental et intercatif. En effet, comme le ferait un analyste humain, l'outil essaie d'abord d'obtenir une compréhension minimale de la sémantique des textes de spécification ; ensuite il essaie d'identifier des situations qui lui sont connues et à partir desquelles il pourra inférer de nouvelles informations. Ces dernières lui permettront d'appliquer ses patrons de conception afin d'obtenir un ensemble cohérent de spécifications orientées objet. Le chapitre 3 de ce document présente un état de l'art des travaux de recherche dans des domaines connexes au notre, qui sont l'ingénierie des besoins basée sur le langage naturel, le génie logiciel et les systèmes experts. Ensuite le chapitre 4 présente tous les modèles, de représentation des connaissances ou des données, utilisés par l'approche. Le chapitre 8 présente en détail une étude de cas menée à l'aide de l'outil OsMoSE. Il présente aussi certaines caractéristiques que nous qualifierons "d'effets de bord bénéfiques", car n'étant pas vraiment liées à la problématique initiale de cette thèse. Enfin, une discussion concernant les limites et les problèmes non encore résolus à ce jour, clôturera le document.

46

Gianola, Lucie. "Aspects textuels de la procédure judiciaire exploitée en analyse criminelle et perspectives pour son traitement automatique." Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1065.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’analyse criminelle est une discipline d’appui aux enquêtes pratiquée au sein de la Gendarmerie Nationale. Elle repose sur l’exploitation des documents compilés dans le dossier de procédure judiciaire (auditions, perquisitions, rapports d’expertise, données téléphoniques et bancaires, etc.) afin de synthétiser les informations collectées et de proposer un regard neuf sur les faits examinés. Si l’analyse criminelle a recours à des logiciels de visualisation de données (i. e. Analyst’s Notebook d’IBM) pour la mise en forme des hypothèses formulées, la gestion informatique et textuelle des documents de la procédure est entièrement manuelle. Or, l’analyse criminelle s’appuie entre autres sur le concept d’entités pour formaliser son travail.La présentation du contexte de recherche détaille la pratique de l’analyse criminelle ainsi que la constitution du dossier de procédure judiciaire en tant que corpustextuel.Nous proposons ensuite des perspectives pour l’adaptation des méthodes de traitement automatique de la langue (TAL) et d’extraction d’information au cas d’étude, notamment la mise en parallèle des concepts d’entité en analyse criminelle et d’entité nommée en TAL. Cette comparaison est réalisée sur les plans conceptuels et linguistiques. Une première approche de détection des entités dans les auditions de témoins est présentée.Enfin, le genre textuel étant un paramètre à prendre en compte lors de l’appli-cation de traitements automatiques à du texte, nous construisons une structuration du genre textuel « légal » en discours, genres et sous-genres par le biais d’une étude textométrique visant à caractériser différents types de textes (dont les auditions de témoins) produits par le domaine de la justice
Criminal analysis is a discipline that supports investigations practiced within the National Gendarmerie. It is based on the use of the documents compiled in the judicial procedure file (witness interviews, search warrants, expert reports, phone and bank data, etc.) to synthesize the information collected and to propose a new understanding of the facts examined. While criminal analysis uses data visualization software (i. e. IBM Analyst’s Notebook) to display the hypotheses formulated, the digital and textual management of the file documents is entirely manual. However, criminal analysis relies on entities to formalize its practice.The presentation of the research context details the practice of criminal analysis as well as the constitution of judicial procedure files as textual corpora.We then propose perspectives for the adaptation of natural language processing(NLP) and information extraction methods to the case study, including a comparison of the concepts of entity in criminal analysis and named entity in NLP. This comparison is done on the conceptual and linguistic plans. A first approach to the detection of entities in witness interviews is presented.Finally, since textual genre is a parameter to be taken into account when applying automatic processing to text, we develop a structure of the « legal » textual genre into discourse, genres, and sub-genres through a textometric study aimed at characterizing different types of texts (including witness interviews) produced by the field of justice

47

Gonzalez, Preciado Matilde. "Computer vision methods for unconstrained gesture recognition in the context of sign language annotation." Toulouse 3, 2012. http://thesesups.ups-tlse.fr/1798/.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse porte sur l'étude des méthodes de vision par ordinateur pour la reconnaissance de gestes naturels dans le contexte de l'annotation de la Langue des Signes. La langue des signes (LS) est une langue gestuelle développée par les sourds pour communiquer. Un énoncé en LS consiste en une séquence de signes réalisés par les mains, accompagnés d'expressions du visage et de mouvements du haut du corps, permettant de transmettre des informations en parallèles dans le discours. Même si les signes sont définis dans des dictionnaires, on trouve une très grande variabilité liée au contexte lors de leur réalisation. De plus, les signes sont souvent séparés par des mouvements de co-articulation. Cette extrême variabilité et l'effet de co-articulation représentent un problème important dans les recherches en traitement automatique de la LS. Il est donc nécessaire d'avoir de nombreuses vidéos annotées en LS, si l'on veut étudier cette langue et utiliser des méthodes d'apprentissage automatique. Les annotations de vidéo en LS sont réalisées manuellement par des linguistes ou experts en LS, ce qui est source d'erreur, non reproductible et extrêmement chronophage. De plus, la qualité des annotations dépend des connaissances en LS de l'annotateur. L'association de l'expertise de l'annotateur aux traitements automatiques facilite cette tâche et représente un gain de temps et de robustesse. Le but de nos recherches est d'étudier des méthodes de traitement d'images afin d'assister l'annotation des corpus vidéo: suivi des composantes corporelles, segmentation des mains, segmentation temporelle, reconnaissance de gloses. Au cours de cette thèse nous avons étudié un ensemble de méthodes permettant de réaliser l'annotation en glose. Dans un premier temps, nous cherchons à détecter les limites de début et fin de signe. Cette méthode d'annotation nécessite plusieurs traitements de bas niveau afin de segmenter les signes et d'extraire les caractéristiques de mouvement et de forme de la main. D'abord nous proposons une méthode de suivi des composantes corporelles robuste aux occultations basée sur le filtrage particulaire. Ensuite, un algorithme de segmentation des mains est développé afin d'extraire la région des mains même quand elles se trouvent devant le visage. Puis, les caractéristiques de mouvement sont utilisées pour réaliser une première segmentation temporelle des signes qui est par la suite améliorée grâce à l'utilisation de caractéristiques de forme. En effet celles-ci permettent de supprimer les limites de segmentation détectées en milieu des signes. Une fois les signes segmentés, on procède à l'extraction de caractéristiques visuelles pour leur reconnaissance en termes de gloses à l'aide de modèles phonologiques. Nous avons évalué nos algorithmes à l'aide de corpus internationaux, afin de montrer leur avantages et limitations. L'évaluation montre la robustesse de nos méthodes par rapport à la dynamique et le grand nombre d'occultations entre les différents membres. L'annotation résultante est indépendante de l'annotateur et représente un gain de robustese important
This PhD thesis concerns the study of computer vision methods for the automatic recognition of unconstrained gestures in the context of sign language annotation. Sign Language (SL) is a visual-gestural language developed by deaf communities. Continuous SL consists on a sequence of signs performed one after another involving manual and non-manual features conveying simultaneous information. Even though standard signs are defined in dictionaries, we find a huge variability caused by the context-dependency of signs. In addition signs are often linked by movement epenthesis which consists on the meaningless gesture between signs. The huge variability and the co-articulation effect represent a challenging problem during automatic SL processing. It is necessary to have numerous annotated video corpus in order to train statistical machine translators and study this language. Generally the annotation of SL video corpus is manually performed by linguists or computer scientists experienced in SL. However manual annotation is error-prone, unreproducible and time consuming. In addition de quality of the results depends on the SL annotators knowledge. Associating annotator knowledge to image processing techniques facilitates the annotation task increasing robustness and speeding up the required time. The goal of this research concerns on the study and development of image processing technique in order to assist the annotation of SL video corpus: body tracking, hand segmentation, temporal segmentation, gloss recognition. Along this PhD thesis we address the problem of gloss annotation of SL video corpus. First of all we intend to detect the limits corresponding to the beginning and end of a sign. This annotation method requires several low level approaches for performing temporal segmentation and for extracting motion and hand shape features. First we propose a particle filter based approach for robustly tracking hand and face robust to occlusions. Then a segmentation method for extracting hand when it is in front of the face has been developed. Motion is used for segmenting signs and later hand shape is used to improve the results. Indeed hand shape allows to delete limits detected in the middle of a sign. Once signs have been segmented we proceed to the gloss recognition using lexical description of signs. We have evaluated our algorithms using international corpus, in order to show their advantages and limitations. The evaluation has shown the robustness of the proposed methods with respect to high dynamics and numerous occlusions between body parts. Resulting annotation is independent on the annotator and represents a gain on annotation consistency

48

Blanvillain, Odile. "Représentation formelle de l'emploi de should en anglais contemporain, en vue d'un traitement automatique." Paris 7, 1993. http://www.theses.fr/1993PA070074.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette these a pour but de proposer une representation formelle (metalinguistique) des differents emplois de should, en anglais contemporain, dans le cadre de la theorie des operations enonciatives, et de voir ce que cette etude peut apporter a un eventuel traitement automatique du modal en contexte. Elle se donne egalement pour tache de faire ressortir le statut particulier de should par rapport a d'autres modaux ou pseudo-modaux, tels que shall, must ou ought to, par exemple, et de comprendre le jeu que permet should sur les valeurs de modalite ii et iv, dans le cas de ses emplois "ambigus". Il en ressort que la difference entre should et shall, must ou ought to est essentiellement qualitative. Par ailleurs, les differentes anbiguites possibles dans l'interpretation de should s'expliquent, cas par cas, par les caracteristiques specifiques de son fonctionnement ( valuation positive, fonctionnement particulier de la source deontique, etc). En ce qui concerne l'apport pour un eventuel traitement automatique, la mise en evidence de ces caracteristiques est feconde dans le cadre d'un travail de comprehension automatique de texte. Mais du point de vue de l'analyse syntaxique, cette etude montre, au contraire, qu'il est extremement difficile de determiner automatiquement la valeur de ce modal
The aim of this thesis is to propose a formal (metalinguistic) representation of the different uses of should, in modern english, within an utterercentered approach, and to examine how this study can contribute to a possible automatic processing of the modal, in context. Its aim is also to bring out the particular status of should in comparison with shall, must or ought to, for example, and to understand the interplay of epistemic and root modalities that allows should, in its "ambiguous" uses. It appears that the difference between should and shall, must or ought to is essentially qualitative. Besides, the different possible ambiguities in the interpretation of should can be explained, in each case, by the specific characteristics of its fonctioning (positive valuation, particularities of its deontic origin, etc. . ) concerning the contribution to a possible automatic processing, the bringing out of these characteristics can be of importance within a work of automatic comprehension of texts. But, on the syntactic point of view, on the contrary, it appears extremely difficult to determine automatically the value of the modal

49

Filhol, Michael. "Modèle descriptif des signes pour un traitement automatique des langues des signes." Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00300591.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Les approches formelles de représentation des signes des langues des signes sont majoritairement paramétriques et nous montrons en quoi celles-ci ne sont pas suffisantes dans l'optique d'une utilisation informatique. Les plus fortes raisons sont le caractère ni nécessaire ni suffisant de l'ensemble de paramètres traditionnellement utilisé, leur nature fixe alors qu'un signe est dynamique et évolue au cours du temps, et le fait que les descriptions ne rendent pas compte de l'adaptabilité des signes décrits à différents contextes, pourtant à l'origine de leur réutilisabilité et de la force de concision des langues des signes. Nous proposons Zebedee, un modèle de description en séquence d'unités temporelles décrivant chacune un ensemble de contraintes nécessaires et suffisantes, appliquées à un squelette. L'espace de signation est vu comme un espace euclidien dans lequel toute construction géométrique annexe est possible. Les dépendances entre éléments des descriptions ou sur des valeurs contextuelles sont non seulement possibles mais pertinentes, et reposent sur des considérations à la fois articulatoires, cognitives et sémantiques. Nous donnons ensuite deux processus complémentaires d'évaluation : en informatique où nous discutons l'implantation de Zebedee dans une plateforme d'animation de signeur virtuel et son utilisation pour la diffusion d'informations en gare, et en linguistique où nous décrivons l'avantage d'une base de données et les nouvelles possibilités de requêtes offertes au linguiste. En perspectives, nous citons plusieurs domaines informatiques où Zebedee sera utile et plusieurs questionnements linguistiques actuels auxquels il offre des pistes de réponse.

50

Eyango, Mouen Alexis. "Lexique interactif pour l'analyse automatique du français." Lyon 1, 1986. http://www.theses.fr/1986LYO11712.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Après avoir montré l'utilisation qui peut être faite d'un lexique en général, on montre sa place dans les systèmes d'analyse automatique des langues et son rôle au cours de l'analyse. On indique les difficultés qu'il y a à utiliser la grammaire traditionnelle pour l'analyse automatique du français et on présente le modèle linguistique en usage au laboratoire d'informatique documentaire, inspiré des travaux du groupe Sydo. Les informations fournies par le modèle linguistique sont structurées pour constituer un ensemble de traits linguistiques susceptibles d'être attribués à toute forme rencontrée dans un texte en français. On constitue un noyau de graphies fondamentales qui est conservé en permanence dans la structure lexicale. Cette dernière est conçue après une étude des dépendances fonctionnelles entre les types de données et un examen des contraintes d'intégrité. Les différentes relations sont décrites et des propositions sont faites pour la prise en compte des mots-composés dans la structure lexicale. On termine ce travail en examinant les conditions de consultation et d'exploitation du lexique et son implémentation dans le SGBD relationnel Informix

Дисертації з теми "Traitement automatique du language"

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями