Gotowa bibliografia na temat „Reconnaissance automatique de texte (ATR)”

Utwórz poprawne odniesienie w stylach APA, MLA, Chicago, Harvard i wielu innych

Wybierz rodzaj źródła:

Zobacz listy aktualnych artykułów, książek, rozpraw, streszczeń i innych źródeł naukowych na temat „Reconnaissance automatique de texte (ATR)”.

Przycisk „Dodaj do bibliografii” jest dostępny obok każdej pracy w bibliografii. Użyj go – a my automatycznie utworzymy odniesienie bibliograficzne do wybranej pracy w stylu cytowania, którego potrzebujesz: APA, MLA, Harvard, Chicago, Vancouver itp.

Możesz również pobrać pełny tekst publikacji naukowej w formacie „.pdf” i przeczytać adnotację do pracy online, jeśli odpowiednie parametry są dostępne w metadanych.

Artykuły w czasopismach na temat "Reconnaissance automatique de texte (ATR)"

1

Metzger, Jean-Paul, i Seyed Mohammad Mahmoudi. "Propositions Pour Une Reconnaissance Automatique des Syntagmes Nominaux du Persan". Lingvisticæ Investigationes. International Journal of Linguistics and Language Resources 20, nr 2 (1.01.1996): 381–418. http://dx.doi.org/10.1075/li.20.2.06met.

Pełny tekst źródła
Streszczenie:
RÉSUMÉ L'objet de cet article réside dans la conception globale d'un analyseur morpho-syntaxique du persan pour 1'indexation automatique. L'analyseur se limite donc à la recherche des Syntagmes Nominaux (SN), considérés comme les éléments les plus informatifs, dans le contexte d'une recherche documentaire, pour l'analyse du contenu d'un texte. La mise au point d'un tel analyseur nécessite, au préalable, une segmentation et une catégorisation correcte de toute forme lexico-syntaxique. Nous présentons très brièvement un aperçu général du traitement automatique des langues naturelles (TAL) et certaines caractéristiques de la langue persane. Puis nous essayons de donner quelques solutions générales pour la construction des règies de réécriture nécessaires pour la reconnaissance automatique des SN en persan. Les règies de réécriture ainsi élaborées sont transcrites en un programme en langage Prolog. SUMMARY The aim of this paper is the conception and realisation of a morpho-syntactic parser of persian designed for applications to automatic indexing and computer-assisted instruction of the language (CAT). One of the chief extensions to this research is the automatic processing of natural language by means of artificial intelligence systems. The main interest of this contribution is to study the automatic recognition of noun phrases in Persian. In the case of automatic indexing, the recognition of the noun phrases would allow the apprehension of the content of the document. Automatic indexing, just as manual indexing, consists of selecting in every document the most informative elements which actually are descriptors or noun phrases (NP). The setting up or conception of such a parser demands, primarily, a correct segmentation and categorisation of any lexico-syntactic forms in the corpus. After having established all the transcription rules needed for the recognition of NP, we shall then transcribe every phase of the analysis by a program in Prolog language. All the lexical data necessary for the categorisation of morpho-syntactic forms are presented as clauses of Prolog in a data-base.
Style APA, Harvard, Vancouver, ISO itp.
2

Göbel, Angela. "Faciliter l’édition numérique avec les méthodes de reconnaissance automatique de texte". Théia, nr 1 (26.11.2024). http://dx.doi.org/10.35562/theia.253.

Pełny tekst źródła
Streszczenie:
Le projet « Grand Tour digital » vise à numériser, explorer et visualiser des témoignages personnels de voyages éducatifs de l’époque moderne, mettant l’accent sur cinq textes principaux. Le projet vise à développer expérimentalement un processus éditorial novateur en utilisant Transkribus. Financé par la Deutsche Forschungsgemeinschaft (DFG) de 2022 à 2025, le projet utilise la plateforme Transkribus pour la transcription automatique de manuscrits, combinée à la reconnaissance d’entités nommées (REN) pour l’exploration et la visualisation des témoignages. Le corpus comprend 21 journaux de voyage, rédigés entre 1550 et 1770, conservés à la Bibliothèque Herzog August à Wolfenbüttel (HAB), avec une variété de voyages couvrant l’Europe, l’Empire ottoman et le Proche-Orient. La reconnaissance automatique des récits de voyage réalisée avec Transkribus fait face à des défis tels que la variété de l’écriture, l’individualité de chaque écriture, la mise en page complexe, les polices variées, l’utilisation de différentes langues et les exigences de contenu. Au cours du projet sera développé un modèle adapté à ces exigences. Le logiciel fournit des instructions utiles pour l’édition de texte, et la recherche génère des rapports d’expérience, des discussions scientifiques et des conseils pratiques sur l’outil. La transcription manuelle des pages du journal de voyage de Wagener dans Transkribus a permis d’entraîner un nouveau modèle basé sur le modèle existant « Transkribus German handwriting M1 » de l’Université de Greifswald. Ce modèle a été ajusté progressivement en transcrivant partiellement automatiquement, en corrigeant, et en réentraînant. L’objectif était d’adapter le programme aux particularités de l’écriture de Wagener, réduisant ainsi le taux d’erreur dans la reconnaissance manuscrite. Des ajustements manuels ont été apportés au marquage des champs de texte pour minimiser les erreurs de détection. L’évaluation du modèle a montré des taux d’erreur fluctuants, atteignant 2,41 % dans l’ensemble d’entraînement et 11 % dans l’ensemble de validation lors de la première itération. L’optimisation du modèle a continué avec des ajustements itératifs, élargissant le jeu de caractères entraîné. Les résultats montrent des améliorations, bien que des questions subsistent sur la meilleure façon de traiter les pages « non utilisables ». L’évaluation automatique dans Transkribus s’est concentrée sur le taux d’erreur (CER) et la précision des mots et des caractères, révélant des écarts significatifs entre les évaluations automatiques et manuelles. Malgré des améliorations dans le modèle, Transkribus atteint ses limites, avec des échecs d’ajustement conduisant à des taux d’erreur élevés. L’étude soulève des questions sur la spécificité de ces limites à Transkribus par rapport à d’autres systèmes de transcription automatisée. L’auteure suggère également d’explorer d’autres outils d’HTR tels que Kraken et Tesseract pour une comparaison approfondie. En conclusion, le succès de la reconnaissance automatisée dépend fortement de la qualité des pages, de la lisibilité du manuscrit, et de la présence de ratures. Bien que Transkribus ait joué un rôle pionnier, d’autres alternatives méritent une étude comparative pour évaluer les performances des différents outils d’HTR.
Style APA, Harvard, Vancouver, ISO itp.
3

Görmar, Maximilian. "La reconnaissance d’entités nommées dans les éditions numériques à l’exemple du récit de voyage du pharmacien Wagener". Théia, nr 1 (26.11.2024). http://dx.doi.org/10.35562/theia.53.

Pełny tekst źródła
Streszczenie:
Dans le domaine des éditions numériques savantes, les applications de l’intelligence artificielle (IA) et de l’apprentissage automatique gagnent de plus en plus d’influence. De nos jours, la transcription ainsi que l’annotation de textes peuvent être facilitées par des outils puissants tels que Transkribus, avec lesquels des modèles d’IA peuvent être entraînés pour effectuer une reconnaissance de texte manuscrit (HTR). Dans une deuxième étape, les données textuelles peuvent être traitées par des logiciels conçus pour le Traitement du langage naturel (NLP) afin d’extraire et d’annoter des caractéristiques syntaxiques, morphologiques ainsi que des informations sémantiques. Par exemple, il est possible de baliser des personnes, des lieux et des organisations via la Reconnaissance d’entités nommées (NER), ce qui est particulièrement pertinent pour les éditions numériques de sources historiques.Ces considérations sont l’une des principales préoccupations du projet de recherche et d’édition « Grand Tour digital » à la Bibliothèque Herzog August de Wolfenbüttel. Il vise à établir la faisabilité des méthodes d’IA pour l’édition savante de sources historiques et à adapter de telles méthodes dans un flux de travail complet et durable qui pourrait être applicable à d’autres projets également. Ce faisant, nous devons identifier les possibilités et, plus important encore, les défis potentiels de la technologie en ce qui concerne son adaptabilité aux sources historiques. Cet article présente un travail réalisable grâce à la NER en utilisant l’exemple d’un récit de voyage du milieu du xviie siècle écrit par un jeune apothicaire itinérant qui a voyagé dans la région baltique, à travers le nord de l’Allemagne, faisant fonction de laquais dans la suite du jeune duc Ferdinand Albrecht Ier de Brunswick-Wolfenbüttel-Bevern, en Suisse et en France.En observant ce processus, apparaîtront certains problèmes et difficultés liés aux particularités des textes de l’époque moderne par rapport aux textes contemporains pour lesquels pratiquement tous les outils de NLP et de NER ont été initialement conçus. Tout d’abord, les textes actuels sont orthographiquement et grammaticalement beaucoup plus normalisés que de nombreux textes anciens. À l’époque moderne, par exemple, le même scribe pouvait utiliser différentes orthographes du même mot sur la même page. De plus, de nombreux scribes et leurs textes étaient multilingues plutôt que monolingues, et même les noms de personnes ou de lieux pouvaient parfois être donnés dans différentes langues et versions, par exemple le prénom allemand Johannes ou Hans pouvait parfois apparaître dans sa forme française Jean même si la même personne était visée.Il existe plusieurs approches pour atténuer ces difficultés et celles qui y sont liées, dont certaines seront évaluées dans cet article. La première consiste à utiliser des techniques d’apprentissage automatique pour former des modèles NER spécifiquement sur des textes de la période et de la langue qui nous intéressent. Le problème est qu’il existe, en général, très peu de jeux de données d’entraînement disponibles à partir de textes historiques qui peuvent être utilisés pour former des modèles spécialisés. Une autre approche est l’utilisation de gazetiers ou de dictionnaires de noms avec lesquels le programme peut reconnaître certains tokens comme des noms. Encore une fois, il existe relativement peu de ressources pour les textes de l’époque moderne par rapport aux textes contemporains et surtout les noms de personnes montrent une grande variété et sont souvent très spécifiques à des textes individuels. Ainsi, l’approche basée sur le dictionnaire ou les règles ne peut être utilisée de manière significative que pour des entités qui existent sur une période relativement longue et peuvent apparaître, par conséquent, dans un plus grand nombre de textes, comme des lieux ou des organisations. Une troisième manière de faire face aux problèmes posés par les sources historiques pour la NER consiste en la combinaison des deux approches décrites ci-dessus. C’est possible avec certaines applications de NLP, par exemple spaCy, qui a été utilisé dans l’étude entre autre pour cette raison.Dans l’ensemble, cet article présente une étude de cas pour l’application de méthodes NER aux éditions numériques savantes de textes de l’époque moderne. Il analyse les possibilités et les défis de cette entreprise et propose des solutions en cas de difficultés. Si ces réflexions peuvent être utiles à d’autres projets, elles sont encore à un stade préliminaire et nécessitent des tests et des améliorations supplémentaires.
Style APA, Harvard, Vancouver, ISO itp.

Rozprawy doktorskie na temat "Reconnaissance automatique de texte (ATR)"

1

Chiffoleau, Floriane. "Understanding the automatic text recognition process : model training, ground truth and prediction errors". Electronic Thesis or Diss., Le Mans, 2024. http://www.theses.fr/2024LEMA3002.

Pełny tekst źródła
Streszczenie:
Cette thèse travaille à identifier ce qu’un modèle de reconnaissance de texte apprend pendant son entraînement, à travers l’examen du contenu de ses vérités de terrain et de ses erreurs de prédiction. L’intention principale ici est d’améliorer les connaissances sur le fonctionnement d’un réseau de neurones, avec des expériences focalisées sur des documents tapuscrits. Les méthodes utilisées se sont concentrées surtout sur l’exploration approfondie des données d’entraînement, l’observation des erreurs de prédiction des modèles et la corrélation entre les deux. Une première hypothèse, basée sur l’influence du lexique, fut non concluante. Cependant, cela a dirigé les observations vers un nouveau niveau d’étude, s’appuyant sur un niveau infralexical : les n-grammes. La distribution de ceux des données d’entraînement a été analysée et subséquemment, comparée à celle des n-grammes récupérés dans les erreurs de prédiction. Des résultats prometteurs ont conduit à une exploration approfondie, tout en passant d’un modèle de langue unique à un modèle multilingue. Des résultats concluants m’ont permis de déduire que les n-grammes pourraient effectivement être une réponse valide aux performances de reconnaissance
This thesis works on identifying what a text recognition model can learn during its training, through the examination of its ground truth’s content, and its prediction’s errors. The main intent here is to improve the knowledge of how a neural network operates, with experiments focused on typewritten documents. The methods used mostly concentrated on the thorough exploration of the training data, the observation of the model’s prediction’s errors, and the correlation between both. A first hypothesis, based on the influence of the lexicon, was inconclusive. However, it steered the observation towards a new level of study, relying on an infralexical level: the n-grams. Their training data’s distribution was analysed and subsequently compared to that of the n-grams retrieved from the prediction errors. Promising results lead to further exploration, while upgrading from single-language to multilingual model. Conclusive results enabled me to infer that the n-grams might indeed be a valid answer to recognition’s performances
Style APA, Harvard, Vancouver, ISO itp.
2

Bastos, Dos Santos José Eduardo. "L'identification de texte en images de chèques bancaires brésiliens". Compiègne, 2003. http://www.theses.fr/2003COMP1453.

Pełny tekst źródła
Streszczenie:
L'identification et la distinction textuelle dans des images de documents sont des tâches dont les solutions actueles sont fortement basées sur l'emploi des informations contextuelles, comme par exemple des informations du layout ou bien de la structure physique. Dans ce travail on a exploité une option pour cette tâche basée uniquement sur des caractéristiques extraites exclusivement des elements textuels, ce qui accorde plus d'indépendance au procès. Le travail dans sa totalité a été développé en prenant compte des élements textuels fraccionés en petits échantillons de façon à proposer une alternative pour les questions concernant l'échelle et aussi la superposition. A partir de ces échantillons on extrait un ensemble de caractéristiques chargés de fournir les données d'entrée à um classifieur dont les tâches principales sont l'extraction du texte du document ainsi que la distinction entre texte manuscrit et texte imprimé. En outre, étant donné qu'on n'utilise que des informations extraites directement des élements textuels, le procès prend un caractère plus indépendant car il ne répose sur l'emploi d'aucune heuristique ou information à priori à propos du document traité. Des résultats dans l'ordre de 93% de classification correcte démontre l'éfficacité du procès
Identifying and distinguishing text in document images are tasks whose cat!Jal solutions are mainly based on using contextual informations, like layout informations or informations from the phisical structure. Ln this research work, an alternative for this task is investigated based only in features observed from textual elements, giving more independency to the process. The hole process was developped considering textual elements fragmented in sm ail portions(samples) in order to provide an alternative solution to questions Iike scale and textual elements overlapping. From these samples, a set of features is extracted and serves as input to a classifyer maily chrged with textual extraction from the document and also the distinguish between handwritting and machine-printed text. Moreover, sinGe the only informations emplyed is observed directly from textual elements, the process assumes a character more independent as it doesn't use any heuristics nor à priori information of the treated document. Results around 93% of correct classification confirms the efficacy of the process
Style APA, Harvard, Vancouver, ISO itp.
3

Beaudette, David. "Suivi de chansons par reconnaissance automatique de parole et alignement temporel". Mémoire, Université de Sherbrooke, 2010. http://savoirs.usherbrooke.ca/handle/11143/1582.

Pełny tekst źródła
Streszczenie:
Le suivi de partition est défini comme étant la synchronisation sur ordinateur entre une partition musicale connue et le signal sonore de l'interprète de cette partition. Dans le cas particulier de la voix chantée, il y a encore place à l'amélioration des algorithmes existants, surtout pour le suivi de partition en temps réel. L'objectif de ce projet est donc d'arriver à mettre en oeuvre un logiciel suiveur de partition robuste et en temps-réel utilisant le signal numérisé de voix chantée et le texte des chansons. Le logiciel proposé utilise à la fois plusieurs caractéristiques de la voix chantée (énergie, correspondance avec les voyelles et nombre de passages par zéro du signal) et les met en correspondance avec la partition musicale en format MusicXML. Ces caractéristiques, extraites pour chaque trame, sont alignées aux unités phonétiques de la partition. En parallèle avec cet alignement à court terme, le système ajoute un deuxième niveau d'estimation plus fiable sur la position en associant une segmentation du signal en blocs de chant à des sections chantées en continu dans la partition. La performance du système est évaluée en présentant les alignements obtenus en différé sur 3 extraits de chansons interprétés par 2 personnes différentes, un homme et une femme, en anglais et en français.
Style APA, Harvard, Vancouver, ISO itp.
4

Picard, Laurent. "Prise en compte de l'environnement marin dans le processus de reconnaissance automatique de cibles sous-marines". Thesis, Brest, 2017. http://www.theses.fr/2017BRES0038/document.

Pełny tekst źródła
Streszczenie:
Au cours des dernières décennies, les avancées en termes de technologies robotiques sous-marines ont permis de réaliser des levés sur les fonds marins à l'aide de véhicules sous-marins autonomes (AUV). Ainsi, équiper un AUV avec un sonar latéral permet de scanner une vaste zone de manière rapide. Naturellement, les forces armées se sont intéressées à de tels dispositifs pour effectuer des missions de chasses aux mines rapides et sécurisées pour le facteur humain. Néanmoins, analyser des images sonar par un ordinateur plutôt que par un opérateur reste très complexe. En effet, les chaînes de reconnaissance automatique de cibles (ATR) doivent faire face à la variabilité de l'environnement marin et il a été démontré qu'une forte relation existe entre la texture d'une image et la difficulté d'y détecter des mines. Effectivement, sur des fonds fortement texturés, voire encombrés, les performances d'une chaîne ATR peuvent être très dégradées. Ainsi, intégrer des informations environnementales dans le processus apparaît comme une piste crédible pour améliorer ses performances. Ces travaux de thèse proposent d'étudier la manière de décrire cet environnement marin et comment l'intégrer dans un processus ATR. Pour répondre à ces défis, nous proposons tout d'abord une nouvelle représentation des images sonar basée sur l'utilisation du signal monogène. Ce dernier permet d'extraire des informations énergétiques, géométriques et structurelles sur la texture locale d'une image. La nature multi-échelle de cet outil permet de tenir compte de la variabilité en taille des structures sous-marines. Ensuite, le concept de dimension intrinsèque est introduit pour décrire une image sonar en termes d'homogénéité, d'anisotropie et de complexité. Ces trois descripteurs sont directement reliés à la difficulté de détection des mines sous-marines dans un fond texturé et permettent de réaliser une classification très précise des images sonar en fonds homogènes, anisotropes et complexes. De notre point de vue, la chasse aux mines sous-marines ne peut pas être réalisée de la même manière sur ces trois types de fond. En effet, leurs natures et caractéristiques propres mènent à des challenges variés pour le processus ATR. Pour le démontrer, nous proposons de réaliser un premier algorithme de détection spécifique, appliqué aux zones anisotropes, qui prend en considération les caractéristiques environnementales de ces régions
In the last decades, advances in marine robot technology allowed to perform accurate seafloor surveys by means of autonomous underwater vehicles (AUVs). Thanks to a sidescan sonar carried by an AUV, a wide area can be scanned quickly. Navies are really interested in using such vehicles for underwater mine countermeasures (MCM) purposes, in order to perform mine hunting missions rapidly and safely for human operators. Nevertheless, on-board intelligence, which intends to replace human operator for sonar image analysis, remains challenging. Current automatic target recognition (ATR) processes have to cope with the variability of the seafloor. Indeed, there is a strong relationship between the seafloor appearance on sidescan sonar images and the underwater target detection rates. Thus, embed some environmental information in the ATR process seems to be a way for achieving more effective automatic target recognition. In this thesis, we address the problem of improving the ATR process by taking into account the local environment. To this end, a new representation of sonar images is considered by use of the theory of monogenic signal. It provides a pixelwise energetic, geometric and structural information into a multi-scale framework. Then a seafloor characterization is carried out by estimating the intrinsic dimensionality of the underwater structures so as to describe sonar images in terms of homogeneity, anisotropy and complexity. These three features are directly linked to the difficulty of detecting underwater mines and enable an accurate classification of sonar images into benign, rippled or complex areas. From our point of view, underwater mine hunting cannot be performed in the same way on these three seafloor types with various challenges from an ATR point of view. To proceed with this idea, we propose to design a first specific detection algorithm for sand rippled areas. This algorithm takes into consideration an environmental description of ripples which allow to outperform classic approaches in this type of seafloor
Style APA, Harvard, Vancouver, ISO itp.
5

Delemar, Olivier. "Reconnaissance de la parole par une méthode hybride : texte imprimé : Réseaux markoviens et base de règles". Grenoble INPG, 1996. http://www.theses.fr/1996INPG0052.

Pełny tekst źródła
Streszczenie:
Parmi les differents traitements operant en reconnaissance automatique de la parole, le decodage acoustico-phonetique occupe une place privilegiee tant la robustesse dont il doit faire preuve conditionne le bon fonctionnement de l'ensemble du processus. Si les methodes stochastiques de decodage et en particulier les chaines de markov cachees se sont revelees etre les plus efficaces, de nombreux travaux ont ete menes visant a ameliorer leurs performances. Dans ce sens, les recherches se sont tournees vers des methodes hybrides de decodage, souvent avec succes. Qu'ils utilisent des reseaux neuro-mimetiques, des regles deterministes ou des modeles markoviens, le principe directeur de ces systemes hybrides est de tirer parti des avantages de chacune des methodes mises en uvre. Nous presentons dans cette these une tentative de faire cooperer des hmms et un systeme expert base sur des regles deterministes dans un processus de decodage phonetique purement ascendant, ce qui signifie que l'hybridation intervient au cur meme de l'algorithme de decodage par les chaines de markov. La mise en uvre d'une telle methode necessitant une relation stable et non equivoque entre les etats des modeles markoviens et les evenements acoustiques constituant la parole, nous avons mis au point des techniques originales de controle de la topologie des modeles et de la duree des etats. Les etudes que nous avons menees par la suite sur les modeles hybrides ont montre l'interet des regles deterministes contraignant le processus stochastique lorsque celles-ci sont suffisamment robustes pour fournir des informations pertinentes. Si le gain en terme de performance reste limite en regard du cout de traitement, notre methode d'hybridation peut etre avantageusement employee pour integrer aux chaines de markov toute donnee d'ordre deterministe
Style APA, Harvard, Vancouver, ISO itp.
6

Chen, Yong. "Analyse et interprétation d'images à l'usage des personnes non-voyantes : application à la génération automatique d'images en relief à partir d'équipements banalisés". Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080046/document.

Pełny tekst źródła
Streszczenie:
L’information visuelle est une source d’information très riche à laquelle les non-voyants et mal voyants (ou Personnes Aveugles et Malvoyantes : PAM) n’ont pas toujours accès. La présence des images constitue un réel handicap pour les PAM. Une transcription de ces images en relief peut augmenter leur accessibilité aux PAM. En prenant en compte les aspects de la cognition tactile chez les non-voyants, les règles, et les recommandations de la conception d’une image en relief, nous avons orienté notre travail sur les analyses et les comparaisons des techniques de traitement d’image numérique pour trouver les méthodes adaptées afin de créer une procédure automatique de création d’images en relief. A la fin de ce travail, nous avons testé les images en relief créées avec des non-voyants. Deux points importants ont été évalués :  Le taux de compréhension d’une image en relief ; Le temps d’exploration nécessaire.Les résultats suggèrent que les images faites par ce système sont accessibles pour les non-voyants braillistes. Le système implémenté peut être considéré comme un outil efficace de création d’image en relief :  Le système propose une possibilité de généraliser et formaliser la procédure de création d'image en relief ;  Le système donne une solution très rapide et facile.Le système peut traiter des images pédagogiques avec du contenu sémantique simplifié. Il peut donc être utilisé dans de nombreux cas d’utilisation. Par exemple, il peut être utilisé comme un outil pratique pour rendre accessible les images numériques. Il permet aussi la coopération avec d’autres modalités de présentation d’image au non-voyant, par exemple avec une carte interactive classique
Visual information is a very rich source of information to which blind and visually impaired people (BVI) not always have access. The presence of images is a real handicap for the BVI. The transcription into an embossed image may increase the accessibility of an image to BVI. Our work takes into account the aspects of tactile cognition, the rules and the recommendations for the design of an embossed image. We focused our work on the analysis and comparison of digital image processing techniques in order to find the suitable methods to create an automatic procedure for embossing images. At the end of this research, we tested the embossed images created by our system with users with blindness. In the tests, two important points were evaluated:  The degree of understanding of an embossed image; The time required for exploration.The results suggest that the images made by this system are accessible to blind users who know braille. The implemented system can be regarded as an effective tool for the creation of an embossed image. The system offers an opportunity to generalize and formalize the procedure for creating an embossed image. The system gives a very quick and easy solution.The system can process pedagogical images with simplified semantic contents. It can be used as a practical tool for making digital images accessible. It also offers the possibility of cooperation with other modalities of presentation of the image to blind people, for example a traditional interactive map
Style APA, Harvard, Vancouver, ISO itp.
7

Fell, Michael. "Traitement automatique des langues pour la recherche d'information musicale : analyse profonde de la structure et du contenu des paroles de chansons". Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4017.

Pełny tekst źródła
Streszczenie:
Les applications en Recherche d’Information Musicale et en musicologie computationnelle reposent traditionnellementsur des fonctionnalités extraites du contenu musical sous forme audio, mais ignorent la plupart du temps les paroles des chansons. Plus récemment, des améliorations dans des domaines tels que la recommandation de musique ont été apportées en tenant compte des métadonnées externes liées à la chanson. Dans cette thèse, nous soutenons que l’extraction des connaissances à partir des paroles des chansons est la prochaine étape pour améliorer l’expérience de l’utilisateur lors de l’interaction avec la musique. Pour extraire des connaissances de vastes quantités de paroles de chansons, nous montrons pour différents aspects textuels (leur structure, leur contenu et leur perception) comment les méthodes de Traitement Automatique des Langues peuvent être adaptées et appliquées avec succès aux paroles. Pour l’aspect structurel des paroles, nous en dérivons une description structurelle en introduisant un modèle qui segmente efficacement les paroles en leurs partiescaractéristiques (par exemple, intro, couplet, refrain). Puis, nous représentons le contenu des paroles en résumantles paroles d’une manière qui respecte la structure caractéristique des paroles. Enfin, sur la perception des paroles,nous étudions le problème de la détection de contenu explicite dans un texte de chanson. Cette tâche s’est avèree très difficile et nous montrons que la difficulté provienten partie de la nature subjective de la perception des paroles d’une manière ou d’une autre selon le contexte. De plus, nous abordons un autre problème de perception des paroles en présentant nos résultats préliminaires sur la reconnaissance des émotions. L’un des résultats de cette thèse a été de créer un corpus annoté, le WASABI Song Corpus, un ensemble de données de deux millions de chansons avec des annotations de paroles TAL à différents niveaux
Applications in Music Information Retrieval and Computational Musicology have traditionally relied on features extracted from the music content in the form of audio, but mostly ignored the song lyrics. More recently, improvements in fields such as music recommendation have been made by taking into account external metadata related to the song. In this thesis, we argue that extracting knowledge from the song lyrics is the next step to improve the user’s experience when interacting with music. To extract knowledge from vast amounts of song lyrics, we show for different textual aspects (their structure, content and perception) how Natural Language Processing methods can be adapted and successfully applied to lyrics. For the structuralaspect of lyrics, we derive a structural description of it by introducing a model that efficiently segments the lyricsinto its characteristic parts (e.g. intro, verse, chorus). In a second stage, we represent the content of lyrics by meansof summarizing the lyrics in a way that respects the characteristic lyrics structure. Finally, on the perception of lyricswe investigate the problem of detecting explicit content in a song text. This task proves to be very hard and we showthat the difficulty partially arises from the subjective nature of perceiving lyrics in one way or another depending onthe context. Furthermore, we touch on another problem of lyrics perception by presenting our preliminary resultson Emotion Recognition. As a result, during the course of this thesis we have created the annotated WASABI SongCorpus, a dataset of two million songs with NLP lyrics annotations on various levels
Style APA, Harvard, Vancouver, ISO itp.
8

Mohamadi, Tayeb. "Synthèse à partir du texte de visages parlants : réalisation d'un prototype et mesures d'intelligibilité bimodale". Grenoble INPG, 1993. http://www.theses.fr/1993INPG0010.

Pełny tekst źródła
Streszczenie:
Le but de cette etude est l'analyse geometrique des differentes formes de levres en francais, leur intelligibilite audiovisuelle et la realisation d'un prototype de synthetiseur de visage parlant francais. Dans ce manuscrit, nous retracons d'abord le role des levres dans la production de la parole, et l'apport de leur vision a l'intelligibilite de la parole degradee (une analyse phonetique des confusions des voyelles et des consonnes choisies, a ete faite en parallele), nous presentons les resultats d'une etude de leur geometrie et de leur mouvement qui a permis d'identifier une vingtaine de formes labiales de base appelees visemes. Ensuite, nous presentons un prototype de synthetiseur audiovisuel a partir du texte realise a partir de ce jeu de visemes et son evaluation en intelligibilite. Enfin, nous evaluons l'apport de l'intelligibilite en parole naturelle degradee de deux modeles de levres synthetiques realises a l'icp, avec une comparaison au cas naturel
Style APA, Harvard, Vancouver, ISO itp.
9

Ogun, Sewade. "Generating diverse synthetic data for ASR training data augmentation". Electronic Thesis or Diss., Université de Lorraine, 2024. http://www.theses.fr/2024LORR0116.

Pełny tekst źródła
Streszczenie:
Au cours des deux dernières décennies, le taux d'erreur des systèmes de reconnaissance automatique de la parole (RAP) a chuté drastiquement, les rendant ainsi plus utiles dans les applications réelles. Cette amélioration peut être attribuée à plusieurs facteurs, dont les nouvelles architectures utilisant des techniques d'apprentissage profond, les nouveaux algorithmes d'entraînement, les ensembles de données d'entraînement grands et diversifiés, et l'augmentation des données. En particulier, les jeux de données d'entraînement de grande taille ont été essentiels pour apprendre des représentations robustes de la parole pour les systèmes de RAP. Leur taille permet de couvrir efficacement la diversité inhérente à la parole, en terme de voix des locuteurs, de vitesse de parole, de hauteur, de réverbération et de bruit. Cependant, la taille et la diversité des jeux de données disponibles dans les langues bien dotées ne sont pas accessibles pour les langues moyennement ou peu dotées, ainsi que pour des domaines à vocabulaire spécialisé comme le domaine médical. Par conséquent, la méthode populaire pour augmenter la diversité des ensembles de données est l'augmentation des données. Avec l'augmentation récente de la naturalité et de la qualité des données synthétiques pouvant être générées par des systèmes de synthèse de la parole (TTS) et de conversion de voix (VC), ces derniers sont également devenus des options viables pour l'augmentation des données de RAP. Cependant, plusieurs problèmes limitent leur application. Premièrement, les systèmes de TTS/VC nécessitent des données de parole de haute qualité pour l'entraînement. Par conséquent, nous développons une méthode de curation d'un jeux de données à partir d'un corpus conçu pour la RAP pour l'entraînement d'un système de TTS. Cette méthode exploite la précision croissante des estimateurs de qualité non intrusifs basés sur l'apprentissage profond pour filtrer les échantillons de haute qualité. Nous explorons le filtrage du jeux de données de RAP à différents seuils pour équilibrer sa taille, le nombre de locuteurs et la qualité. Avec cette méthode, nous créons un ensemble de données interlocuteurs de haute qualité, comparable en qualité à LibriTTS. Deuxièmement, le processus de génération de données doit être contrôlable pour générer des données TTS/VC diversifiées avec des attributs spécifiques. Les systèmes TTS/VC précédents conditionnent soit le système sur l'empreinte du locuteur seule, soit utilisent des modèles discriminatifs pour apprendre les variabilités de la parole. Dans notre approche, nous concevons une architecture améliorée basée sur le flux qui apprend la distribution de différentes variables de la parole. Nous constatons que nos modifications augmentent significativement la diversité et la naturalité des énoncés générés par rapport à une référence GlowTTS, tout en étant contrôlables. Enfin, nous avons évalué l'importance de générer des données des TTS et VC diversifiées pour augmenter les données d'entraînement de RAP. Contrairement à la génération naïve des données TTS/VC, nous avons examiné indépendamment différentes approches telles que les méthodes de sélection des phrases et l'augmentation de la diversité des locuteurs, la durée des phonèmes et les contours de hauteur, en plus d'augmenter systématiquement les conditions environnementales des données générées. Nos résultats montrent que l'augmentation TTS/VC est prometteuse pour augmenter les performances de RAP dans les régimes de données faibles et moyen. En conclusion, nos expériences fournissent un aperçu des variabilités particulièrement importantes pour la RAP et révèlent une approche systématique de l'augmentation des données de RAP utilisant des données synthétiques
In the last two decades, the error rate of automatic speech recognition (ASR) systems has drastically dropped, making them more useful in real-world applications. This improvement can be attributed to several factors including new architectures using deep learning techniques, new training algorithms, large and diverse training datasets, and data augmentation. In particular, the large-scale training datasets have been pivotal to learning robust speech representations for ASR. Their large size allows them to effectively cover the inherent diversity in speech, in terms of speaker voice, speaking rate, pitch, reverberation, and noise. However, the size and diversity of datasets typically found in high-resourced languages are not available in medium- and low-resourced languages and in domains with specialised vocabulary like the medical domain. Therefore, the popular method to increase dataset diversity is through data augmentation. With the recent increase in the naturalness and quality of synthetic data that can be generated by text-to-speech (TTS) and voice conversion (VC) systems, these systems have also become viable options for ASR data augmentation. However, several problems limit their application. First, TTS/VC systems require high-quality speech data for training. Hence, we develop a method of dataset curation from an ASR-designed corpus for training a TTS system. This method leverages the increasing accuracy of deep-learning-based, non-intrusive quality estimators to filter high-quality samples. We explore filtering the ASR dataset at different thresholds to balance the size of the dataset, number of speakers, and quality. With this method, we create a high-quality multi-speaker dataset which is comparable to LibriTTS in quality. Second, the data generation process needs to be controllable to generate diverse TTS/VC data with specific attributes. Previous TTS/VC systems either condition the system on the speaker embedding alone or use discriminative models to learn the speech variabilities. In our approach, we design an improved flow-based architecture that learns the distribution of different speech variables. We find that our modifications significantly increase the diversity and naturalness of the generated utterances over a GlowTTS baseline, while being controllable. Lastly, we evaluated the significance of generating diverse TTS and VC data for augmenting ASR training data. As opposed to naively generating the TTS/VC data, we independently examined different approaches such as sentence selection methods and increasing the diversity of speakers, phoneme duration, and pitch contours, in addition to systematically increasing the environmental conditions of the generated data. Our results show that TTS/VC augmentation holds promise in increasing ASR performance in low- and medium-data regimes. In conclusion, our experiments provide insight into the variabilities that are particularly important for ASR, and reveal a systematic approach to ASR data augmentation using synthetic data
Style APA, Harvard, Vancouver, ISO itp.
10

Felhi, Mehdi. "Document image segmentation : content categorization". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0109.

Pełny tekst źródła
Streszczenie:
Dans cette thèse, nous abordons le problème de la segmentation des images de documents en proposant de nouvelles approches pour la détection et la classification de leurs contenus. Dans un premier lieu, nous étudions le problème de l'estimation d'inclinaison des documents numérisées. Le but de ce travail étant de développer une approche automatique en mesure d'estimer l'angle d'inclinaison du texte dans les images de document. Notre méthode est basée sur la méthode Maximum Gradient Difference (MGD), la R-signature et la transformée de Ridgelets. Nous proposons ensuite une approche hybride pour la segmentation des documents. Nous décrivons notre descripteur de trait qui permet de détecter les composantes de texte en se basant sur la squeletisation. La méthode est appliquée pour la segmentation des images de documents numérisés (journaux et magazines) qui contiennent du texte, des lignes et des régions de photos. Le dernier volet de la thèse est consacré à la détection du texte dans les photos et posters. Pour cela, nous proposons un ensemble de descripteurs de texte basés sur les caractéristiques du trait. Notre approche commence par l'extraction et la sélection des candidats de caractères de texte. Deux méthodes ont été établies pour regrouper les caractères d'une même ligne de texte (mot ou phrase) ; l'une consiste à parcourir en profondeur un graphe, l'autre consiste à établir un critère de stabilité d'une région de texte. Enfin, les résultats sont affinés en classant les candidats de texte en régions « texte » et « non-texte » en utilisant une version à noyau du classifieur Support Vector Machine (K-SVM)
In this thesis I discuss the document image segmentation problem and I describe our new approaches for detecting and classifying document contents. First, I discuss our skew angle estimation approach. The aim of this approach is to develop an automatic approach able to estimate, with precision, the skew angle of text in document images. Our method is based on Maximum Gradient Difference (MGD) and R-signature. Then, I describe our second method based on Ridgelet transform.Our second contribution consists in a new hybrid page segmentation approach. I first describe our stroke-based descriptor that allows detecting text and line candidates using the skeleton of the binarized document image. Then, an active contour model is applied to segment the rest of the image into photo and background regions. Finally, text candidates are clustered using mean-shift analysis technique according to their corresponding sizes. The method is applied for segmenting scanned document images (newspapers and magazines) that contain text, lines and photo regions. Finally, I describe our stroke-based text extraction method. Our approach begins by extracting connected components and selecting text character candidates over the CIE LCH color space using the Histogram of Oriented Gradients (HOG) correlation coefficients in order to detect low contrasted regions. The text region candidates are clustered using two different approaches ; a depth first search approach over a graph, and a stable text line criterion. Finally, the resulted regions are refined by classifying the text line candidates into « text» and « non-text » regions using a Kernel Support Vector Machine K-SVM classifier
Style APA, Harvard, Vancouver, ISO itp.

Części książek na temat "Reconnaissance automatique de texte (ATR)"

1

Silberztein, Max. "Reconnaissance automatique des mots d’un texte". W Lingvisticæ Investigationes Supplementa, 81. Amsterdam: John Benjamins Publishing Company, 1995. http://dx.doi.org/10.1075/lis.17.08sil.

Pełny tekst źródła
Style APA, Harvard, Vancouver, ISO itp.
Oferujemy zniżki na wszystkie plany premium dla autorów, których prace zostały uwzględnione w tematycznych zestawieniach literatury. Skontaktuj się z nami, aby uzyskać unikalny kod promocyjny!

Do bibliografii