Auswahl der wissenschaftlichen Literatur zum Thema „Documentation automatique des langues“

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Documentation automatique des langues" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Zeitschriftenartikel zum Thema "Documentation automatique des langues"

1

Gilloux, Michel. „Traitement automatique des langues naturelles“. Annales Des Télécommunications 44, Nr. 5-6 (Mai 1989): 301–16. http://dx.doi.org/10.1007/bf02995675.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Zemni, Bahia, Farouk Bouhadiba und Mimouna Zitouni. „Recherche cognitive et traduction automatique en jurilinguistique“. Texto Livre: Linguagem e Tecnologia 15 (18.10.2021): e27031. http://dx.doi.org/10.35699/1983-3652.2022.27031.

Der volle Inhalt der Quelle
Annotation:
De par ses caractéristiques morpho-phonologiques, morphosyntaxiques, lexicales et autres systèmes et sous-systèmes de son fonctionnement, la langue arabe représente un système de non-concaténation (ou non-enchaînement des morphèmes). Elle diffère dans ce sens des langues Indo-européennes – à systèmes de concaténation – et demeure pour ainsi dire, une langue assez complexe à gérer dans le domaine du Traitement Automatique des Langues(TAL). Ceci, surtout lorsqu’il s’agit de traduire automatiquement des faits de langue porteurs d’éléments culturels propres à cette langue. Les données examinées dans cet article sont révélatrices de hiatus quant à la traduction automatique de textes juridiques arabes vers d’autres langues telles que le français ou l’anglais. L’apparentement génétique différent des langues en question pose non seulement des problèmes d’ordre linguistique dans le passage d’une langue vers une autre, mais aussi et surtout que les textes juridiques en langue arabe sont porteurs de poids sémantiques, culturels, religieux et civilisationnels qui ne reflètent pas toujours les mêmes référents ou gestalt des langues cibles. Il en est conclu que l’intervention humaine dans ce processus de traduction est plus que nécessaire comme le révèle l’étude des cas de textes juridiques en Arabie Saoudite.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Haralambous, Yannis, und John Plaice. „Traitement automatique des langues et composition sous \Omega“. Cahiers GUTenberg, Nr. 39-40 (2001): 139–66. http://dx.doi.org/10.5802/cg.299.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Da Sylva, Lyne. „Nouveaux horizons en indexation automatique de monographies“. Documentation et bibliothèques 48, Nr. 4 (08.05.2015): 155–67. http://dx.doi.org/10.7202/1030353ar.

Der volle Inhalt der Quelle
Annotation:
Quel est l’état de la question en indexation automatique de monographies ? Bien que les premières tentatives d’indexation automatique datent du début des années 1960, elles n’ont toujours pas abouti à des systèmes satisfaisants du point de vue des indexeurs professionnels.Pourtant il y a lieu de s’interroger sur les possibilités actuelles d’indexation automatique, compte tenu du nombre croissant de documents numériques pour lesquels il serait intéressant de fournir un index comme celui qu’on trouve à la fin d’un livre (back-of-the-book index). En outre, les quinze dernières années ont vu des innovations importantes dans le domaine du traitement automatique des langues (TAL), qui pourraient avoir des applications avantageuses pour l’indexation automatique de monographies. Cet article propose de définir la problématique et d’identifier les nouvelles pistes de solutions à explorer afin de dépasser les performances des systèmes actuellement offerts pour l’indexation automatique de monographies.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Salinas, Agnès. „Traduction automatique des langues et modélisations des interactions langagières“. Langages 35, Nr. 144 (2001): 99–123. http://dx.doi.org/10.3406/lgge.2001.901.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Poibeau, Thierry. „Le traitement automatique des langues pour les sciences sociales“. Réseaux 188, Nr. 6 (2014): 25. http://dx.doi.org/10.3917/res.188.0025.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Silberztein, Max. „Linguistique et Traitement Automatique des Langues: une coopération nécessaire“. Langues & Parole 5 (30.11.2020): 43–66. http://dx.doi.org/10.5565/rev/languesparole.63.

Der volle Inhalt der Quelle
Annotation:
Aujourd’hui, la plupart des applications logicielles du Traitement Automatique des Langues (analyse du discours, extraction d’information, moteurs de recherche, etc.) analysent les textes comme étant des séquences de formes graphiques. Mais les utilisateurs de ces logiciels cherchent typiquement des unités de sens : concepts, entités, relations dans leurs textes. Il faut donc établir une relation entre les formes graphiques apparaissant dans les textes et les unités de sens qu’elles représentent. Cette mise en relation nécessite des ressources et des méthodes de traitement linguistiques, que je présente ici.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Paroubek, Patrick, und Joseph Mariani. „De l’évaluation et ses ressources en traitement automatique des langues“. Revue française de linguistique appliquée XXIV, Nr. 1 (2019): 95. http://dx.doi.org/10.3917/rfla.241.0095.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Yvon, François. „Evaluer, diagnostiquer et analyser la traduction automatique neuronale“. FORUM / Revue internationale d’interprétation et de traduction / International Journal of Interpretation and Translation 20, Nr. 2 (31.12.2022): 315–32. http://dx.doi.org/10.1075/forum.00023.yvo.

Der volle Inhalt der Quelle
Annotation:
Résumé Les outils de traduction automatique (TA) neuronale ont fait des progrès sensibles, qui qui les rendent utilisables pour un nombre croissant de domaines et de couples de langues. Cette évolution majeure des technologies de traduction invite à revisiter les méthodes de mesure de la qualité de la traduction, en particulier des mesures dites automatiques, qui jouent un rôle fondamental pour orienter les nouveaux développements de ces systèmes. Dans cet article, nous dressons un état des lieux des méthodes utilisées dans le cycle de développement des outils de traduction automatique, depuis les évaluations purement quantitatives jusqu’aux méthodologies récemment proposées pour analyser et diagnostiquer le fonctionnement de ces “boites noires” neuronales.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Frath, Pierre. „Quelle sémantique pour le tal ?“ Scolia 11, Nr. 1 (1998): 39–68. http://dx.doi.org/10.3406/scoli.1998.976.

Der volle Inhalt der Quelle
Annotation:
Le traitement automatique des langues semble largement reposer sur une vision positiviste du sens, pour laquelle un sens complexe est composé de sens plus élémentaires agencés par des règles, des prédicats abstraits ou des mécanismes. Les sémantiques de ce type produisent des univers sémantiques clos entièrement codés, particulièrement intéressants pour certaines applications en TAL. C'est le cas de la sémantique générative, dont nous étudions ici un des exemples emblématiques, celui du verbe commencer. Nous examinons ensuite un grand nombre d’occurrences du verbe begin dans divers corpus. Les résultats de cet examen nous amènent ensuite à nous interroger sur la nécessité d'une sémantique de la performance pour le traitement automatique de corpus.
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dissertationen zum Thema "Documentation automatique des langues"

1

Okabe, Shu. „Modèles faiblement supervisés pour la documentation automatique des langues“. Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG091.

Der volle Inhalt der Quelle
Annotation:
Face à la menace d'extinction de la moitié des langues parlées aujourd'hui d'ici la fin du siècle, la documentation des langues est un domaine de la linguistique notamment consacré à la collecte, annotation et archivage de données. Dans ce contexte, la documentation automatique des langues vise à outiller les linguistes pour faciliter différentes étapes de la documentation, à travers des approches de traitement automatique du langage.Dans le cadre du projet de documentation automatique CLD2025, cette thèse s'intéresse principalement à deux tâches : la segmentation en mots, identifiant les frontières des mots dans une transcription non segmentée d'une phrase enregistrée, ainsi que la génération de gloses interlinéaires, prédisant des annotations linguistiques pour chaque unité de la phrase. Pour la première, nous améliorons les performances des modèles bayésiens non paramétriques utilisés jusque là à travers une supervision faible, en nous appuyant sur des ressources disponibles de manière réaliste lors de la documentation, comme des phrases déjà segmentées ou des lexiques. Comme nous observons toujours une tendance de sur-segmentation dans nos modèles, nous introduisons un second niveau de segmentation : les morphèmes. Nos expériences avec divers types de modèles de segmentation à deux niveaux indiquent une qualité de segmentation sensiblement meilleure ; nous constatons, par ailleurs, les limites des approches uniquement statistiques pour différencier les mots des morphèmes.La seconde tâche concerne la génération de gloses, soit grammaticales, soit lexicales. Comme ces dernières ne peuvent pas être prédites en se basant seulement sur les données d'entraînement, notre modèle statistique d'étiquetage de séquences fait moduler, pour chaque phrase, les étiquettes possibles et propose une approche compétitive avec les modèles neuronaux les plus récents
In the wake of the threat of extinction of half of the languages spoken today by the end of the century, language documentation is a field of linguistics notably dedicated to the recording, annotation, and archiving of data. In this context, computational language documentation aims to devise tools for linguists to ease several documentation steps through natural language processing approaches.As part of the CLD2025 computational language documentation project, this thesis focuses mainly on two tasks: word segmentation to identify word boundaries in an unsegmented transcription of a recorded sentence and automatic interlinear glossing to predict linguistic annotations for each sentence unit.For the first task, we improve the performance of the Bayesian non-parametric models used until now through weak supervision. For this purpose, we leverage realistically available resources during documentation, such as already-segmented sentences or dictionaries. Since we still observe an over-segmenting tendency in our models, we introduce a second segmentation level: the morphemes. Our experiments with various types of two-level segmentation models indicate a slight improvement in the segmentation quality. However, we also face limitations in differentiating words from morphemes, using statistical cues only. The second task concerns the generation of either grammatical or lexical glosses. As the latter cannot be predicted using training data solely, our statistical sequence-labelling model adapts the set of possible labels for each sentence and provides a competitive alternative to the most recent neural models
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Godard, Pierre. „Unsupervised word discovery for computational language documentation“. Thesis, Université Paris-Saclay (ComUE), 2019. http://www.theses.fr/2019SACLS062/document.

Der volle Inhalt der Quelle
Annotation:
La diversité linguistique est actuellement menacée : la moitié des langues connues dans le monde pourraient disparaître d'ici la fin du siècle. Cette prise de conscience a inspiré de nombreuses initiatives dans le domaine de la linguistique documentaire au cours des deux dernières décennies, et 2019 a été proclamée Année internationale des langues autochtones par les Nations Unies, pour sensibiliser le public à cette question et encourager les initiatives de documentation et de préservation. Néanmoins, ce travail est coûteux en temps, et le nombre de linguistes de terrain, limité. Par conséquent, le domaine émergent de la documentation linguistique computationnelle (CLD) vise à favoriser le travail des linguistes à l'aide d'outils de traitement automatique. Le projet Breaking the Unwritten Language Barrier (BULB), par exemple, constitue l'un des efforts qui définissent ce nouveau domaine, et réunit des linguistes et des informaticiens. Cette thèse examine le problème particulier de la découverte de mots dans un flot non segmenté de caractères, ou de phonèmes, transcrits à partir du signal de parole dans un contexte de langues très peu dotées. Il s'agit principalement d'une procédure de segmentation, qui peut également être couplée à une procédure d'alignement lorsqu'une traduction est disponible. En utilisant deux corpus en langues bantoues correspondant à un scénario réaliste pour la linguistique documentaire, l'un en Mboshi (République du Congo) et l'autre en Myene (Gabon), nous comparons diverses méthodes monolingues et bilingues de découverte de mots sans supervision. Nous montrons ensuite que l'utilisation de connaissances linguistiques expertes au sein du formalisme des Adaptor Grammars peut grandement améliorer les résultats de la segmentation, et nous indiquons également des façons d'utiliser ce formalisme comme outil de décision pour le linguiste. Nous proposons aussi une variante tonale pour un algorithme de segmentation bayésien non-paramétrique, qui utilise un schéma de repli modifié pour capturer la structure tonale. Pour tirer parti de la supervision faible d'une traduction, nous proposons et étendons, enfin, une méthode de segmentation neuronale basée sur l'attention, et améliorons significativement la performance d'une méthode bilingue existante
Language diversity is under considerable pressure: half of the world’s languages could disappear by the end of this century. This realization has sparked many initiatives in documentary linguistics in the past two decades, and 2019 has been proclaimed the International Year of Indigenous Languages by the United Nations, to raise public awareness of the issue and foster initiatives for language documentation and preservation. Yet documentation and preservation are time-consuming processes, and the supply of field linguists is limited. Consequently, the emerging field of computational language documentation (CLD) seeks to assist linguists in providing them with automatic processing tools. The Breaking the Unwritten Language Barrier (BULB) project, for instance, constitutes one of the efforts defining this new field, bringing together linguists and computer scientists. This thesis examines the particular problem of discovering words in an unsegmented stream of characters, or phonemes, transcribed from speech in a very-low-resource setting. This primarily involves a segmentation procedure, which can also be paired with an alignment procedure when a translation is available. Using two realistic Bantu corpora for language documentation, one in Mboshi (Republic of the Congo) and the other in Myene (Gabon), we benchmark various monolingual and bilingual unsupervised word discovery methods. We then show that using expert knowledge in the Adaptor Grammar framework can vastly improve segmentation results, and we indicate ways to use this framework as a decision tool for the linguist. We also propose a tonal variant for a strong nonparametric Bayesian segmentation algorithm, making use of a modified backoff scheme designed to capture tonal structure. To leverage the weak supervision given by a translation, we finally propose and extend an attention-based neural segmentation method, improving significantly the segmentation performance of an existing bilingual method
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Guinaudeau, Camille. „Structuration automatique de flux télévisuels“. Phd thesis, INSA de Rennes, 2011. http://tel.archives-ouvertes.fr/tel-00646522.

Der volle Inhalt der Quelle
Annotation:
L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Pitzalis, Denis. „3D et sémantique : nouveaux outils pour la documentation et l'exploration du patrimoine culturel“. Paris 6, 2013. http://www.theses.fr/2013PA066642.

Der volle Inhalt der Quelle
Annotation:
Le rôle des musées et des bibliothèques a évolué passant principalement d'un lieu de collecte et de stockage à un rôle plus interactif, où les visiteurs peuvent découvrir le patrimoine et la connaissance culturelle de manière plus attrayante. En raison de ce changement, les TIC ont un rôle important à jouer, non seulement pour aider à documenter et à conserver les informations, telles que les images et les modèles 3D d'objets historiques et d'œuvres d'art, mais aussi afin de sensibiliser le grand public à l'importance de ces objets pour l'humanité. Le processus de construction d'une collection 3D touche à de nombreuses technologies et à des sources numériques différentes. Technologies telles que la photogrammétrie, la numérisation, la modélisation, la visualisation et des techniques d'interaction doivent être combinés. En outre, les formats d'échange de données deviennent essentiels pour s'assurer que les sources numériques soient parfaitement intégrables. Cette thèse vise à répondre à problématique de la documentation des œuvres d'art en proposant une méthodologie pour l'acquisition, le traitement et la documentation des objets du patrimoine et des sites archéologiques grâce à la 3D. Le principal défi est de faire comprendre aux parties prenantes que le modèle 3D doit être "adapté à l'usage" pour un très large éventail de situations : en très haute définition pour l'évaluation des conditions de conservation et les études préliminaires avant restauration; en résolution moyenne pour les catalogues web en ligne. Par conséquent, cette thèse étudie l'intégration des technologies de capture 3D, le traitement, l'intégration entre différentes sources, l'organisation sémantique de méta-données, et la provenance des données
The role of museums and libraries is shifting from that of an institution which mainly collects and stores artefacts and works of art towards a more accessible place where visitors can experience heritage and find cultural knowledge in more engaging and interactive ways. Due to this shift, ICT have an important role to play both in assisting in the documentation and preservation of information, by providing images and 3D models about historical artefacts and works of art, and in creating interactive ways to inform the general public of the significance that these objects have for humanity. The process of building a 3D collection draws on many different technologies and digital sources. From the perspective of the ICT professional, technologies such as photogrammetry, scanning, modelling, visualisation, and interaction techniques must be used jointly. Furthermore, data exchange formats become essential to ensure that the digital sources are seamlessly integrated. This PhD thesis aims to address the documentation of works of art by proposing a methodology for the acquisition, processing, and documentation of heritage objects and archaeological sites using 3D information. The main challenge is to convey the importance of 3D model that is "fit for purpose" and that is created with a specific function in mind (i. E. Very high definition and accurate models for : academic studies, monitoring conservation conditions over time and preliminary studies for restoration; medium resolution for on-line web catalogues). Hence, this PhD thesis investigate the integration of technologies for 3D capture, processing, integration between different sources, semantic organization of meta-data, and preservation of data provenance
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Lima, Ronaldo. „Contribution au traitement automatique de textes médicaux en portugais : étude du syntagme verbal“. Nice, 1995. http://www.theses.fr/1995NICE2012.

Der volle Inhalt der Quelle
Annotation:
Cette recherche consiste en une contribution au traitement automatique de textes (pneumologie allergologie) en portugais à partir de l'analyse du syntagme verbal. Il s'agit d'une étude linguistique à trois niveaux : morpho-syntaxique, syntactico-sémantique et conceptuel, ce dernier conduisant à la représentation des thèmes de compréhension (idées-clés) du domaine en question
The research work in question undertakes to analyse the verb phrase in portuguese and thus contributes to the automatic processing of medical texts. It is a linguistic study with firstly a morpho-syntactic perspective, followed by a syntactico-semantic a then a conceptual one. The later study culminates in the representation of key concepts or themes caracterizing the disciplines of allergology and pneumology
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Borges, de Faveri Claudia. „Contribution au traitement automatique de textes médicaux en portugais : étude du syntagme nominal“. Nice, 1995. http://www.theses.fr/1995NICE2013.

Der volle Inhalt der Quelle
Annotation:
Le cadre général de cette étude consiste en une description du syntagme nominal en portugais à partir d'un corpus de textes scientifiques et techniques (documents médicaux en portugais). Il s'agit d'un travail qui, tout en étant une étude linguistique au sens classique du terme, vise à dégager un ensemble de ressources linguistiques qui puissent être utilisées par la suite dans le traitement automatique des langues (TAL) notamment le traitement documentaire et la traduction par ordinateur
This study is mainly concerned with the description of the portuguese noun phrase, in a scientific and technical context provided by medical texts. Whilst being traditionally linguistic in nature, the analysis also means to bring to light a certain number of linguistic resources which may ultimately serve in langage processing activities, and in particular those of document processing a machine-aided translation
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Gauthier, Elodie. „Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain“. Thesis, Université Grenoble Alpes (ComUE), 2018. http://www.theses.fr/2018GREAM011/document.

Der volle Inhalt der Quelle
Annotation:
Depuis quelques décennies, de nombreux scientifiques alertent au sujet de la disparition des langues qui ne cesse de s'accélérer.Face au déclin alarmant du patrimoine linguistique mondial, il est urgent d'agir afin de permettre aux linguistes de terrain, a minima, de documenter les langues en leur fournissant des outils de collecte innovants et, si possible, de leur permettre de décrire ces langues grâce au traitement des données assisté par ordinateur.C'est ce que propose ce travail, en se concentrant sur trois axes majeurs du métier de linguiste de terrain : la collecte, la transcription et l'analyse.Les enregistrements audio sont primordiaux, puisqu'ils constituent le matériau source, le point de départ du travail de description. De plus, tel un instantané, ils représentent un objet précieux pour la documentation de la langue. Cependant, les outils actuels d'enregistrement n'offrent pas au linguiste la possibilité d'être efficace dans son travail et l'ensemble des appareils qu'il doit utiliser (enregistreur, ordinateur, microphone, etc.) peut devenir encombrant.Ainsi, nous avons développé LIG-AIKUMA, une application mobile de collecte de parole innovante, qui permet d'effectuer des enregistrements directement exploitables par les moteurs de reconnaissance automatique de la parole (RAP). Les fonctionnalités implémentées permettent d'enregistrer différents types de discours (parole spontanée, parole élicitée, parole lue) et de partager les enregistrements avec les locuteurs. L'application permet, en outre, la construction de corpus alignés << parole source (peu dotée)-parole cible (bien dotée) >>, << parole-image >>, << parole-vidéo >> qui présentent un intérêt fort pour les technologies de la parole, notamment pour l'apprentissage non supervisé.Bien que la collecte ait été menée de façon efficace, l'exploitation (de la transcription jusqu'à la glose, en passant par la traduction) de la totalité de ces enregistrements est impossible, tant la tâche est fastidieuse et chronophage.Afin de compléter l'aide apportée aux linguistes, nous proposons d'utiliser des techniques de traitement automatique de la langue pour lui permettre de tirer partie de la totalité de ses données collectées. Parmi celles-ci, la RAP peut être utilisée pour produire des transcriptions, d'une qualité satisfaisante, de ses enregistrements.Une fois les transcriptions obtenues, le linguiste peut s'adonner à l'analyse de ses données. Afin qu'il puisse procéder à l'étude de l'ensemble de ses corpus, nous considérons l'usage des méthodes d'alignement forcé. Nous démontrons que de telles techniques peuvent conduire à des analyses linguistiques fines. En retour, nous montrons que la modélisation de ces observations peut mener à des améliorations des systèmes de RAP
In the last few decades, many scientists were concerned with the fast extinction of languages. Faced with this alarming decline of the world's linguistic heritage, action is urgently needed to enable fieldwork linguists, at least, to document languages by providing them innovative collection tools and to enable them to describe these languages. Machine assistance might be interesting to help them in such a task.This is what we propose in this work, focusing on three pillars of the linguistic fieldwork: collection, transcription and analysis.Recordings are essential, since they are the source material, the starting point of the descriptive work. Speech recording is also a valuable object for the documentation of the language.The growing proliferation of smartphones and other interactive voice mobile devices offer new opportunities for fieldwork linguists and researchers in language documentation. Field recordings should also include ethnolinguistic material which is particularly valuable to document traditions and way of living. However, large data collections require well organized repositories to access the content, with efficient file naming and metadata conventions.Thus, we have developed LIG-AIKUMA, a free Android app running on various mobile phones and tablets. The app aims to record speech for language documentation, over an innovative way.It includes a smart generation and handling of speaker metadata as well as respeaking and parallel audio data mapping.LIG-AIKUMA proposes a range of different speech collection modes (recording, respeaking, translation and elicitation) and offers the possibility to share recordings between users. Through these modes, parallel corpora are built such as "under-resourced speech - well-resourced speech", "speech - image", "speech - video", which are also of a great interest for speech technologies, especially for unsupervised learning.After the data collection step, the fieldwork linguist transcribes these data. Nonetheless, it can not be done -currently- on the whole collection, since the task is tedious and time-consuming.We propose to use automatic techniques to help the fieldwork linguist to take advantage of all his speech collection. Along these lines, automatic speech recognition (ASR) is a way to produce transcripts of the recordings, with a decent quality.Once the transcripts are obtained (and corrected), the linguist can analyze his data. In order to analyze the whole collection collected, we consider the use of forced alignment methods. We demonstrate that such techniques can lead to fine evaluation of linguistic features. In return, we show that modeling specific features may lead to improvements of the ASR systems
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Francony, Jean Marc. „Modélisation du dialogue et représentation du contexte d'interaction dans une interface de dialogue multi-modes dont l'un des modes est dédié à la langue naturelle écrite“. Grenoble 2, 1993. http://www.theses.fr/1993GRE21038.

Der volle Inhalt der Quelle
Annotation:
Les problemes poses par la representation du contexte d'interaction dans le systeme de dialogue d'une interface homme-machine a plusieurs modes, sont a l'origines de l'etude d'un mecanisme de focalisation faisant l'objet de cette these. L'accent est mis sur l'ancrage du modele de focalisation dans la surface de l'intervention. L'ancrage du modele propose est exprime au niveau de chacun des modes, dans un modele thematique, a l'image du modele defini dans cette these pour le mode langue naturelle. Ce dernier est derive des travaux de l'ecole de linguistique formelle de prague dont sont reprioses les hypotheses concernant la fonction communicative. Le modele thematique traduit la dynamique de l'enonciation sur la representation des connaissances associee a un segment modal, en termes de degre d'activation. Ce modele est etendu a la representation du discours a partir de considerations sur la cohesion textuelle qui s'exprime dans les relations inter-enonces de type anaphorique ou elliptique. Dans cette perspective, la synergie des modes est exprimee dans un module de fusion des representations des segments. Pour le modele de focalisation, les relations de cohesion sont considerees comme des canaux le long desquels se propage l'activaton. Ce travail est a l'origine de la realisation du systeme de gestion du contexte dans le projet mmi2 (projet esprit 2474)
The problems posed by the representation of the interaction context in the dialogue systeme of a multi-modal man-machine interface are art the origin of the aim of this thesis which is a study of a focusing mechanism which. The emphasis is on the anchoring of the focusing mechanism in the intervention surface. In the model we propose, anchorage is expressed at each mode level in terms of a thematic model similar to the one we proposed for natural language in this thesis. This thematic model is based on work by the prague school of formal linguistics whose hypotheses concerning the communicative function have been adopted. The thematic model allows for an utterance to translate its enunciated dynamism into a degree of activation on its knowledge representation. This model has been extended to discourse representation on the basis of a hypothesis concerning textual cohesion (which can be found for instance in anaphorical or elliptical inter-utterance relation). From this point of view, synergy of modes can be expressed as the fusion of representations of modal segments. In the focusing model, cohesion relations are considered as pipes propagating activation. This work is at the origin of the context management system implemented in the project mmi2 (esprit project 2474)
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Moneimne, Walid. „TAO vers l'arabe : spécification d'une génération standard de l'arabe ; réalisation d'un prototype anglais-arabe à partir d'un analyseur existant“. Grenoble 1, 1989. http://www.theses.fr/1989GRE10061.

Der volle Inhalt der Quelle
Annotation:
La these se situe dans un ensemble d'etudes linguistiques et informatiques visant a voir dans quelle mesure la methode linguistique et les outils informatiques du geta s'appliquent a la langue arabe. Apres une breve synthese des etudes anterieures en traitement automatique des langues naturelles applique a l'arabe, sont rappeles les fondements de la traduction assistee par ordinateur ainsi que les aspects theoriques et methodologiques les plus marquants de l'approche suivie au geta. Cette approche consiste essentiellement a travailler simultanement a differents niveaux d'interpretation de description linguistique en programmant dans des langages specialises pour la programmation linguistique (lspls). Ensuite est montre en detail comment a ete specifie et implemente un logiciel de traduction de l'anglais vers l'arabe. Est specifiee une grammaire statique d'un sous-ensemble de la langue arabe a l'aide du formalisme des grammaires statiques (correspondances arbre-chaine). Pour specifier la grammaire du transfert est proposee une generalisation de ce formalisme aux correspondances arbre-arbre. Tout au long de la these, sont proposes des exemples et des traces d'execution permettant de suivre les principes de la methode utilisee
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Pellegrini, Thomas. „Transcription automatique de langues peu dotées“. Phd thesis, Université Paris Sud - Paris XI, 2008. http://tel.archives-ouvertes.fr/tel-00619657.

Der volle Inhalt der Quelle
Annotation:
Les technologies liées à la parole, et en particulier la reconnaissance de la parole, suscitent un grand intérêt pour un nombre croissant de langues. La très grande majorité des langues du monde ne possèdent pas de grands corpus de données nécessaires à l'élaboration des systèmes de reconnaissance à l'état de l'art, fondés sur des paradigmes probabilistes pour la plupart. Les travaux menés au cours de cette thèse ont consisté, dans un premier temps, à identifier les difficultés rencontrées lors de l'élaboration d'un système pour une langue peu dotée. Nous avons travaillé principalement sur le problème des forts taux de mots hors-vocabulaire dus au manque de textes, qui est à nos yeux le problème le plus important pour ces langues. Nous défendons l'idée que l'utilisation de sous-unités lexicales correctement sélectionnées qui peuvent être plus petites que les mots, peut amener des gains significatifs de performances. Nous avons utilisé et modifié un algorithme probabiliste qui propose des frontières de morphe, en introduisant des propriétés qui caractérisent la confusion acoustico-phonétique éventuelle entre les unités lexicales de reconnaissance. Les expériences de reconnaissance ont été menées sur deux langues différentes : l'amharique et le turc, et des gains modestes mais significatifs ont été obtenus, autour de 5% relatifs, avec des réductions relatives de taux d'OOV comprises entre 30% et 50%.
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Bücher zum Thema "Documentation automatique des langues"

1

Bouillon, Pierrette. Traitement automatique des langues naturelles. Paris: Aupelf-Uref, 1998.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Namer, Fiammetta. Morphologie, lexique et traitement automatique des langues: L'analyseur DériF. Paris: Hermès science publications, 2009.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Biskri, Ismaïl, und Adel Jebali. Traitement automatique des langues naturelles: De l'analyse à l'application. Paris: Hermès science publications, 2011.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Claude, Muller, Silberztein Max, Royauté Jean, Vitas Duško und Journées INTEX (5th : 2002 : Marseille, France), Hrsg. INTEX pour la linguistique et le traitement automatique des langues. Besançon: Presses universitaires de Franche-Comté, 2004.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Blache, Philippe. Les grammaires de propriétés: Des contraintes pour le traitement automatique des langues naturelles. Paris: Hermès science publications, 2001.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Lallich-Boidin, Geneviève. Recherche d'information et traitement de la langue: Fondements linguistiques et applications. Villeurbanne: Presses de l'Enssib, 2005.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Lallich-Boidin, Geneviève. Recherche d'information et traitement de la langue: Fondements linguistiques et applications. Villeurbanne: Presses de l'ENSSIB, 2005.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

M, Lesohin, und Lukjanenkov K, Hrsg. Introduction of elements of mathematics to linguistics. Bochum: Universitatsverlag Dr N Brockmeyer, 1990.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Anna, Dahl Deborah, Hrsg. Practical spoken dialog systems. Dordrecht: Kluwer Academic Publishing, 2004.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Blauth-Henke, Christine. Où en sont les études des langues régionales en domaine roman?: Données, méthodes, modéles de description. Tübingen: Stauffenburg Verlag, 2011.

Den vollen Inhalt der Quelle finden
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Buchteile zum Thema "Documentation automatique des langues"

1

Sagot, Benoît. „Construction de ressources lexicales pour le traitement automatique des langues“. In Lingvisticæ Investigationes Supplementa, 217–54. Amsterdam: John Benjamins Publishing Company, 2013. http://dx.doi.org/10.1075/lis.30.07sag.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Howarth, Mick. „Traduction automatique“. In Droit et langues étrangères, 135–37. Presses universitaires de Perpignan, 2000. http://dx.doi.org/10.4000/books.pupvd.5912.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
3

Chaumartin, François-Régis, und Pirmin Lemberger. „3. La représentation du sens“. In Le traitement automatique des langues, 81–121. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0081.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
4

Chaumartin, François-Régis, und Pirmin Lemberger. „2. Les bases de la linguistique informatique“. In Le traitement automatique des langues, 63–80. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0063.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
5

Chaumartin, François-Régis, und Pirmin Lemberger. „5. L’approche statistique“. In Le traitement automatique des langues, 173–226. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0173.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
6

Chaumartin, François-Régis, und Pirmin Lemberger. „6. L’art difficile de la conversation artificielle“. In Le traitement automatique des langues, 227–44. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0227.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
7

Chaumartin, François-Régis, und Pirmin Lemberger. „7. Les étapes d’un projet“. In Le traitement automatique des langues, 245–84. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0245.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
8

Chaumartin, François-Régis, und Pirmin Lemberger. „8. Perspectives et problèmes ouverts“. In Le traitement automatique des langues, 285–94. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0285.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
9

Chaumartin, François-Régis, und Pirmin Lemberger. „4. Les principales tâches du NLP“. In Le traitement automatique des langues, 123–72. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0123.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
10

Chaumartin, François-Régis, und Pirmin Lemberger. „1. Les applications et usages du NLP“. In Le traitement automatique des langues, 1–62. Dunod, 2020. http://dx.doi.org/10.3917/dunod.chaum.2020.01.0001.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen

Konferenzberichte zum Thema "Documentation automatique des langues"

1

Raynal, Céline, Vanessa Andreani, Dominique Vasseur, Zakarya Chami und Eric Hermann. „Apport du Traitement Automatique des Langues pour la catégorisation de retours d'expérience“. In Congrès Lambda Mu 20 de Maîtrise des Risques et de Sûreté de Fonctionnement, 11-13 Octobre 2016, Saint Malo, France. IMdR, 2016. http://dx.doi.org/10.4267/2042/61744.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
2

Andreani, V., E. Hermann, C. Raynal und E. Carayon. „Apport des outils de traitement automatique des langues pour l’analyse de textes procéduraux“. In Congrès Lambda Mu 19 de Maîtrise des Risques et Sûreté de Fonctionnement, Dijon, 21-23 Octobre 2014. IMdR, 2015. http://dx.doi.org/10.4267/2042/56074.

Der volle Inhalt der Quelle
APA, Harvard, Vancouver, ISO und andere Zitierweisen
Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!

Zur Bibliographie