Tesi: "Reconnaissance optique de texte"

1

Mullot, Rémy. "Segmentation d'images et extraction de primitives pour la reconnaissance optique de texte". Rouen, 1991. http://www.theses.fr/1991ROUES001.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux décrits dans ce document sont centrés sur les aspects de prétraitement des données en vue d'une fiabilisation de systèmes de reconnaissance de l'écrit. La première partie s'inscrit dans le cadre d'une étude de faisabilité concernant la lecture automatique de numéros de conteneurs. La prise en compte du type de marquage, du relief de la surface portante, de la présence de chocs ou de rouille et des conditions météorologiques lors de l'acquisition constitue une contrainte significative. Après une analyse des outils classiques de traitement de bas niveau, la démarche de localisation des zones de caractères est présentée. Ce module traite directement l'image en niveaux de gris, plaçant la binarisation en fin de traitement et uniquement sur les zones ainsi segmentées. Le seuil de binarisation est défini dynamiquement suivant l'amplitude locale des contrastes fond/caractère, sans connaissances a priori de couleur. Dès lors, chaque bloc retenu peut contenir aussi bien des caractères, que des tâches, suivant l'état du support. Une discrimination des tâches et des caractères permet de dissocier en deux phases les deux types de formes. La première ne tient compte que des grandeurs métriques de la forme. La seconde tente de reconstituer le tracé constitutif d'un caractère à partir de la notion élémentaire de trait afin de différencier un tracé cohérent (caractère) d'un tracé incohérent (tâche). Les primitives extraites peuvent être insérées sans difficulté dans un classifieur structurel classique. La deuxième partie de ce travail concerne le prétraitement des informations issues d'un système d'acquisition en ligne. Le module permet une compression des données issues d'une table à digitaliser en s'appuyant sur une polygonalisation du tracé par double moindres carrés. Un module de reconnaissance permet de vérifier l'efficacité de cette compression

2

Vincent, Nicole. "Contribution à la reconnaissance de textes multipolices". lyon, INSA, 1988. http://www.theses.fr/1988ISAL0011.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'étude se propose essentiellement l'élaboration d'un logiciel de reconnaissance multi police de textes dactylographiés et imprimés reposant uniquement sur la mise en œuvre des moyens de la micro-informatique. Après avoir fait le point sur l'état de la recherche après vingt ans d'informatique et consacré un chapitre aux problèmes actuels de la lecture optique, en particulier à celui de la segmentation, l'auteur expose l'élaboration de la méthode employée. Celle-ci définie, mise au point et testée, permet de lire treize polices parmi les plus utilisées. Elle ne comporte, pour l'uitilisateur, ni phase d'apprentissage, ni constitution de dictionnaire. Elle fait appel aux techniques arborescentes et synthétise des approches variées. La reconnaissance de l'écriture manuscrite est également abordée, elle traite de la reconnaissance des caractères isolés. Un logiciel est mis au point, à titre d'exemple, pour un type d'écriture donné. On arrive alors aux limites des possibilités actuelles de la micro-informatique, ce qui pose le problème du temps de reconnaissance. L'étude se termine par une application industrielle consacrée à la lecture optique de plaques indicatrices d'un système de transport.

3

Namane, Abderrahmane. "Degraded printed text and handwritten recognition methods : Application to automatic bank check recognition". Université Louis Pasteur (Strasbourg) (1971-2008), 2007. http://www.theses.fr/2007STR13048.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La reconnaissance des caractères est une étape importante dans tout système de reconnaissances de document. Cette reconnaissance de caractère est considérée comme un problème d'affectation et de décision de caractères, et a fait l'objet de recherches dans de nombreuses disciplines. Cette thèse porte principalement sur la reconnaissance du caractère imprimé dégradé et manuscrit. De nouvelles solutions ont été apportées au domaine de l'analyse du document image (ADI). On trouve en premier lieu, le développement de deux méthodes de reconnaissance du chiffre manuscrit, notamment, la méthode basée sur l'utilisation de la transformée de Fourier-Mellin (TFM) et la carte auto-organisatrice (CAO), et l'utilisation de la combinaison parallèle basée sur les HMMs comme classificateurs de bases, avec comme extracteur de paramètres une nouvelle technique de projection. En deuxième lieu, on trouve une nouvelle méthode de reconnaissance holistique de mots manuscrits appliquée au montant légal Français. En troisième lieu, deux travaux basés sur les réseaux de neurones ont étés réalisés sur la reconnaissance du caractère imprimé dégradé et appliqués au chèque postal Algérien. Le premier travail est basé sur la combinaison séquentielle et le deuxième a fait l'objet d'une combinaison série basé sur l'introduction d'une distance relative pour la mesure de qualité du caractère dégradé. Lors de l'élaboration de ce travail, des méthodes de prétraitement ont été aussi développées, notamment, la correction de l'inclinaison du chiffre manuscrit, la détection de la zone centrale du mot manuscrit ainsi que sa pente
Character recognition is a significant stage in all document recognition systems. Character recognition is considered as an assignment problem and decision of a given character, and is an active research subject in many disciplines. This thesis is mainly related to the recognition of degraded printed and handwritten characters. New solutions were brought to the field of document image analysis (DIA). The first solution concerns the development of two recognition methods for handwritten numeral character, namely, the method based on the use of Fourier-Mellin transform (FMT) and the self-organization map (SOM), and the parallel combination of HMM-based classifiers using as parameter extraction a new projection technique. In the second solution, one finds a new holistic recognition method of handwritten words applied to French legal amount. The third solution presents two recognition methods based on neural networks for the degraded printed character applied to the Algerian postal check. The first work is based on sequential combination and the second used a serial combination based mainly on the introduction of a relative distance for the quality measurement of the degraded character. During the development of this thesis, methods of preprocessing were also developed, in particular, the handwritten numeral slant correction, the handwritten word central zone detection and its slope

4

Saidane, Zohra. "Reconnaissance de texte dans les images et les vidéos en utilisant les réseaux de neurones à convolutions". Phd thesis, Télécom ParisTech, 2008. http://pastel.archives-ouvertes.fr/pastel-00004685.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

5

Minetto, Rodrigo. "Reconnaissance de zones de texte et suivi d'objets dans les images et les vidéos". Paris 6, 2012. http://www.theses.fr/2012PA066108.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous abordons trois problèmes de vision par ordinateur: (1) la détection et la reconnaissance d'objets de texte dans des images de scènes réelles; (2) le suivi de ces objets de texte dans une vidéo numérique, et (3) le suivi d'objets 3D rigides et arbitraires avec des amers connus dans une vidéo numérique. Pour chaque problème, nous avons développé des algorithmes innovants, qui sont au moins aussi précis et robustes que les algorithmes de l'état de l’art. Plus précisément, pour la reconnaissance de texte, nous avons développé (et largement évalué) un nouveau descripteur basé sur HOG, et dédié au traitement du texte Roman, baptisé T-HOG. Nous avons montré sa valeur en tant que post-filtre pour un détecteur de texte existant (SnooperText). Nous avons également amélioré l’algorithme SnooperText en développant une approche multi-échelle pour traiter des caractères de taille très différentes tout en limitant la sensibilité de l'algorithme aux différents artéfacts. Pour le suivi des objets de textes, nous avons décrit quatre manières de combiner la détection et le suivi, et nous avons développé un tracker particulier, basé sur un filtre particulaire exploitant le T-HOG. Pour le suivi des objets rigides, nous avons développé un nouvel algorithme précis et robuste (AFFTRACK) qui combine le KLT tracker avec une calibration améliorée de la caméra. Nous avons largement testé nos algorithmes sur plusieurs bases de données de la littérature. Nous avons également créé plusieurs bases de données (publiquement disponibles) pour l’évaluation des algorithmes de détection, suivi de textes et de suivi d'objets rigides dans les vidéos
In this thesis we address three computer vision problems: (1) the detection and recognition of flat text objects in images of real scenes; (2) the tracking of such text objects in a digital video; and (3) the tracking an arbitrary three-dimensional rigid object with known markings in a digital video. For each problem we developed innovative algorithms, which are at least as accurate and robust as other state-of-the-art algorithms. Specifically, for text recognition we developed (and extensively evaluated) a new HOG-based descriptor specialized for Roman script, which we call T-HOG, and showed its value as a post-filter for an existing text detector (SnooperText). We also improved the SnooperText algorithm by using the multi-scale technique to handle widely different letter sizes while limiting the sensitivity of the algorithm to various artifacts. For text tracking, we describe four basic ways of combining a text detector and a text tracker, and we developed a specific tracker based on a particle-filter which exploits the T-HOG recognizer. For rigid object tracking we developed a new accurate and robust algorithm (AFFTrack) that combines the KLT feature tracker with an improved camera calibration procedure. We extensively tested our algorithms on several benchmarks well-known in the literature. We also created benchmarks (publicly available) for the evaluation of text detection and tracking and rigid object tracking algorithms

6

Paquet, Thierry. "Segmentation et classification de mots en reconnaissance optique de textes manuscrits". Rouen, 1992. http://www.theses.fr/1992ROUES007.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire abordent les différentes étapes nécessaires à la réalisation d'un logiciel de reconnaissance optique de texte manuscrit provenant d'un scripteur quelconque, dans le cadre d'une application à vocabulaire limité : la lecture automatique des montants littéraux présents sur des chèques bancaires ou postaux. La localisation des mots dans l'image binarisée, première étape du traitement, est réalisée par une méthode d'analyse descendante. De cette façon, il est possible de déterminer au cours du traitement des paramètres utiles pour les traitements suivants : hauteur des corps de ligne, positions des lignes de base, positions des extensions des corps de ligne. Un modèle structurel global des mots manuscrits cursifs constitué des particularités locales rencontrées dans le mot autour de l'axe médian est proposé. Celui-ci constitue une alternative au modèle analytique en lettres séparées généralement utilisé. L'extraction des caractéristiques dans l'image du mot est effectué par un algorithme de suivi de trait qui permet l'étiquetage direct des éléments caractéristiques selon le modèle envisagé lors dans la progression dans le trait vu comme un graphe de zones. La discrimination des 30 mots du vocabulaire étudié s'effectue en deux étapes. Un critère d'aspect prenant en compte les extensions du corps de ligne et la longueur du mot permet tout d'abord de rejeter les mots du dictionnaire d'aspects fondamentalement différents. Les candidats retenus sont ensuite classés en évaluant une distance d'édition entre le graphe de traits extraits et les graphes de référence des mots candidats codés en chaîne de graphèmes. L'utilisation de règles de substitution étendues permet la prise en compte de configurations proches et notamment des liaisons entre lettres. Les résultats présentés, issus de tests effectués sur des données de laboratoire et d'images de chèques, laissent augurer de bonnes performances sur des bases de données importantes par la mise en place d'une stratégie de lecture qui n'est pas envisagée dans ce travail

7

Henry, Jean-Luc. "Reconnaissance et contexte : une approche coopérative pour la lecture de textes imprimés". Lyon, INSA, 1996. http://www.theses.fr/1996ISAL0027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La lecture optique de textes imprimés ne se base pas sur la seule reconnaissance de la forme graphique des caractères isolés ; elle repose aussi sur des informations statistiques, typographiques et contextuelles ; l'utilisation d'un étage d'analyse contextuelle, indépendant de l'étage de reconnaissance n'est pas satisfaisante. Ce travail a pour objet d'établir une coopération entre l'étage de reconnaissance et l'étage de correction contextuelle. L'étage d'analyse contextuelle qui est ensuite créé fournit à l'étage de reconnaissance les informations nécessaires afin que ce dernier puisse corriger en permanence ses critères de décision. L'objectif est d'augmenter les performances globales du système, au fur et à mesure des lectures successives. La première partie traite de la reconnaissance des caractères sans l'aide du contexte. Elle débute par une présentation des principales méthodes d'extraction et de traitement de l'information. Dans un premier temps, nous comparons les caractères de façon à isoler toutes les formes identiques du texte, qui seront appelées prototypes. Dans un deuxième temps, nous identifions ces prototypes grâce à une approche originale de reconnaissance, fondée sur une classification par voisinages adaptatifs. La deuxième partie est consacrée au traitement contextuel et aux liens entre les deux parties. L'étage d'analyse contextuelle corrige les erreurs à partir des redondances dans le texte des prototypes de caractères, des informations issues de l'étage de reconnaissance et de l'exploitation d'un dictionnaire. Le système réorganise les classes de l'espace de représentation en modifiant les paramètres qui interviennent dans le processus de reconnaissance. Le taux de reconnaissance globale doit atteindre un optimum qui ne dépend plus de la base d'apprentissage de départ, mais des choix des attributs et de la méthode de reconnaissance utilisée
The printed documents analysis is not only based on the optical character recognition, it also uses statistical, typographic and contextual information. A contextual stage, independent from the recognition does not give good results. The topic of this work is to build a cooperation between the recognition and the contextual stage. The recognition stage give information to the syntactic analysis stage in order to improve the correction process. Then, the contextual analysis stage provides necessary information to the recognition stage in order to correct its decision criteria and to improve automatically the recognition performance during the reading. This work is divided in two parts. The first part presents the character recognition only from the patterns and the second part studies the recognition with the help of contextual information mainly based on a syntactic correction. This work starts with a presentation of classic methods to extract features from patterns and to compare features descriptions. Then we introduce a pattern compacted by mutually comparing characters to collect all identical patterns on the entire text, called prototypes. In order to reconstruct the recognized text, we identify these prototypes with an original pretopological recognition approach, based on a classification by adaptive neighborhoods. The second part of this work deals with the contextual processing and the cooperation abilities between the two main stages involved in the recognition process. The contextual analysis corrects recognition errors with the pattern redundancies information and a trie dictionary. The system reorganizes pattern representation of the system by modifying parameters that intervene in the process of recognition. The global recognition rate reach an optimum that no longer depends on the training set, but on choice of features and the method of comparison used

8

Soua, Mahmoud. "Extraction hybride et description structurelle de caractères pour une reconnaissance efficace de texte dans les documents hétérogènes scannés : Méthodes et Algorithmes parallèles". Thesis, Paris Est, 2016. http://www.theses.fr/2016PESC1069/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La Reconnaissance Optique de Caractères (OCR) est un processus qui convertit les images textuelles en documents textes éditables. De nos jours, ces systèmes sont largement utilisés dans les applications de dématérialisation tels que le tri de courriers, la gestion de factures, etc. Dans ce cadre, l'objectif de cette thèse est de proposer un système OCR qui assure un meilleur compromis entre le taux de reconnaissance et la vitesse de traitement ce qui permet de faire une dématérialisation de documents fiable et temps réel. Pour assurer sa reconnaissance, le texte est d'abord extrait à partir de l'arrière-plan. Ensuite, il est segmenté en caractères disjoints qui seront décrits ultérieurement en se basant sur leurs caractéristiques structurelles. Finalement, les caractères sont reconnus suite à la mise en correspondance de leurs descripteurs avec ceux d'une base prédéfinie. L'extraction du texte, reste difficile dans les documents hétérogènes scannés avec un arrière-plan complexe et bruité où le texte risque d'être confondu avec un fond texturé/varié en couleurs ou distordu à cause du bruit de la numérisation. D'autre part, la description des caractères, extraits et segmentés, se montre souvent complexe (calcul de transformations géométriques, utilisation d'un grand nombre de caractéristiques) ou peu discriminante si les caractéristiques des caractères choisies sont sensibles à la variation de l'échelle, de la fonte, de style, etc. Pour ceci, nous adaptons la binarisation au type de documents hétérogènes scannés. Nous assurons également une description hautement discriminante entre les caractères se basant sur l'étude de la structure des caractères selon leurs projections horizontale et verticale dans l'espace. Pour assurer un traitement temps réel, nous parallélisons les algorithmes développés sur la plateforme du processeur graphique (GPU). Nos principales contributions dans notre système OCR proposé sont comme suit :Une nouvelle méthode d'extraction de texte à partir des documents hétérogènes scannés incluant des régions de texte avec un fond complexe ou homogène. Dans cette méthode, un processus d'analyse d’image est employé suivi d’une classification des régions du document en régions d’images (texte avec un fond complexe) et de textes (texte avec un fond homogène). Pour les régions de texte on extrait l'information textuelle en utilisant une méthode de classification hybride basée sur l'algorithme Kmeans (CHK) que nous avons développé. Les régions d'images sont améliorées avec une Correction Gamma (CG) avant d'appliquer CHK. Les résultats obtenus d'expérimentations, montrent que notre méthode d'extraction de texte permet d'attendre un taux de reconnaissance de caractères de 98,5% sur des documents hétérogènes scannés.Un Descripteur de Caractère Unifié basé sur l'étude de la structure des caractères. Il emploie un nombre suffisant de caractéristiques issues de l'unification des descripteurs de la projection horizontale et verticale des caractères réalisantune discrimination plus efficace. L'avantage de ce descripteur est à la fois sa haute performance et sa simplicité en termes de calcul. Il supporte la reconnaissance des reconnaissance de caractère de 100% pour une fonte et une taille données.Une parallélisation du système de reconnaissance de caractères. Le processeur graphique GPU a été employé comme une plateforme de parallélisation. Flexible et puissante, cette architecture offre une solution efficace pour l'accélération des algorithmesde traitement intensif d'images. Notre mise en oeuvre, combine les stratégies de parallélisation à fins et gros grains pour accélérer les étapes de la chaine OCR. En outre, les coûts de communication CPU-GPU sont évités et une bonne gestion mémoire est assurée. L'efficacité de notre mise en oeuvre est validée par une expérimentation approfondie
The Optical Character Recognition (OCR) is a process that converts text images into editable text documents. Today, these systems are widely used in the dematerialization applications such as mail sorting, bill management, etc. In this context, the aim of this thesis is to propose an OCR system that provides a better compromise between recognition rate and processing speed which allows to give a reliable and a real time documents dematerialization. To ensure its recognition, the text is firstly extracted from the background. Then, it is segmented into disjoint characters that are described based on their structural characteristics. Finally, the characters are recognized when comparing their descriptors with a predefined ones.The text extraction, based on binarization methods remains difficult in heterogeneous and scanned documents with a complex and noisy background where the text may be confused with a textured background or because of the noise. On the other hand, the description of characters, and the extraction of segments, are often complex using calculation of geometricaltransformations, polygon, including a large number of characteristics or gives low discrimination if the characteristics of the selected type are sensitive to variation of scale, style, etc. For this, we adapt our algorithms to the type of heterogeneous and scanned documents. We also provide a high discriminatiobn between characters that descriptionis based on the study of the structure of the characters according to their horizontal and vertical projections. To ensure real-time processing, we parallelise algorithms developed on the graphics processor (GPU). Our main contributions in our proposed OCR system are as follows:A new binarisation method for heterogeneous and scanned documents including text regions with complex or homogeneous background. In this method, an image analysis process is used followed by a classification of the document areas into images (text with a complex background) and text (text with a homogeneous background). For text regions is performed text extraction using a hybrid method based on classification algorithm Kmeans (CHK) that we have developed for this aim. This method combines local and global approaches. It improves the quality of separation text/background, while minimizing the amount of distortion for text extraction from the scanned document and noisy because of the process of digitization. The image areas are improved with Gamma Correction (CG) before applying HBK. According to our experiment, our text extraction method gives 98% of character recognition rate on heterogeneous scanned documents.A Unified Character Descriptor based on the study of the character structure. It employs a sufficient number of characteristics resulting from the unification of the descriptors of the horizontal and vertical projection of the characters for efficient discrimination. The advantage of this descriptor is both on its high performance and its simple computation. It supports the recognition of alphanumeric and multiscale characters. The proposed descriptor provides a character recognition 100% for a given Face-type and Font-size.Parallelization of the proposed character recognition system. The GPU graphics processor has been used as a platform of parallelization. Flexible and powerful, this architecture provides an effective solution for accelerating intensive image processing algorithms. Our implementation, combines coarse/fine-grained parallelization strategies to speed up the steps of the OCR chain. In addition, the CPU-GPU communication overheads are avoided and a good memory management is assured. The effectiveness of our implementation is validated through extensive experiments

9

Wolf, Christian. "Détection de textes dans des images issues d'un flux vidéo pour l'indexation sémantique". Lyon, INSA, 2003. http://theses.insa-lyon.fr/publication/2003ISAL0074/these.pdf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail entre dans le cadre de l'indexation d'images et de vidéos. Les systèmes disponibles pour chercher dans les bases des documents audiovisuels travaillent sans connaissance, ils utilisent des méthodes de traitement d'image pour extraire des caractéristiques de bas niveau. Nous utilisons le texte présent dans les images et les vidéos. Les méthodes de détection de texte présentées dans la littérature sont très simples : la plupart sont basées sur l'estimation de la texture ou sur la détection des contours suivie par l'accumulation de ces caractéristiques. Nous proposons la prise en compte des caractéristiques géométriques directement dans la phase de détection. Une première détection grossière sert à calculer une image de probabilité de texte : ensuite, pour chaque pixel, nous calculons une estimation robuste des caractéristiques géométriques de la boite de texte de laquelle elle fait éventuellement partie. Ces caractéristiques sont rajoutées aux caractéristiques de la première étape de détection. L'apprentissage se fait avec un classificateur de type "Support Vector Machines". Pour la segmentation des caractères nous proposons deux algorithmes différents : le premier algorithme est basé sur la maximisation d'un critère de contraste ; la deuxième approche exploite des connaissances a priori sur la répartition locale des pixels "texte" et "non-texte" pour aider à la décision de seuillage. Un modèle statistique (en utilisant un modèle de champs de Markov) est élaboré et intégré dans un modèle bayésien d'estimation pour obtenir une estimation de l'image originale binaire
This work situates within the framework of image and video indexation. A way to include semantic knowledge into the indexing process is to use the text included in the images and video sequences. It is rich in information but easy to use. Existing methods for text detection are simple: most of them are based on texture estimation or edge detection followed by an accumulation of these characteristics. We suggest the usage of geometrical features very early in the detection chain: a first coarse detection calculates a text "probability" image. Afterwards, for each pixel we calculate geometrical properties of the eventual surrounding text rectangle, which are added to the features of the first step and fed into a support vector machine classifier. For the application to video sequences, we propose an algorithm which detects text on a frame by frame basis, tracking the found text rectangles across multiple frames and integrating the frame robustly into a single image. We tackle the character segmentation problem and suggest two different methods: the first algorithm maximizes a criterion based on the local contrast in the image. The second approach exploits a priori knowledge on the spatial binary distribution of the pixels. This prior knowledge in the form of a Markov random field model is integrated into Bayesian estimation framework in order to obtain an estimation of the original binary image

10

Nosary, Ali. "Reconnaissance automatique de textes manuscrits par adaptation au scripteur". Rouen, 2002. http://www.theses.fr/2002ROUES007.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire abordent le problème de la reconnaissance hors-ligne de textes manuscrits. Ces travaux décrivent un système de reconnaissance de textes exploitant un principe original d'adaptation à l'écriture à reconnaître. Ce principe d'adaptation, inspiré des principaux effets contextuels observés chez un lecteur humain, est basé sur l'apprentissage,au cours de la reconnaissance, des particularités graphiques représentatives de l'écriture du scripteur (invariants du scripteur). La reconnaissance de mots procède selon une approche analytique basée sur le principe de segmentation-reconnaissance. L'adaptation en ligne du système de reconnaissance repose sur l'itération de phases de reconnaissance de mots qui permettent d'étiqueter les représentations du scripteur (allographes) sur l'ensemble du texte et de phases de réévaluation des modèles de caractères. La mise en application de notre stratégie de reconnaissance par adaptation nécessite de recourir à un schéma de reconnaissance interactif capable de faire interagir les traitements aux différents niveaux contextuels. Le modèle d'interaction retenu est basé sur le paradigme multi-agent. Les tests réalisés sur un échantillon d'une quinzaine de scripteurs tous inconnus du système montrent l'intérêt du schéma d'adaptation proposé puisque nous obtenons une amélioration de la reconnaissance, à la fois des lettres et des mots, au cours des itérations
This thesis deals with the problem of off-line handwritten text recognition. It describes a system of text recognition which exploits an original principle of adaptation to the handwriting to be recognized. The adaptation principle, inspired by contextual effects observed from a human reader, is based on the automatic learning, during the recognition, of the graphical characteristics of the handwriting (writer invariants). The word recognition proceeds according to an analytical approach based on a segmentation-recognition principle. The on-line adaptation of the recognition system relies on the iteration of two steps : a word recognition step which allows to label the writer's representations (allographes) on the whole text and a revaluation step of character models. The implementation of our adaptation strategy requires an interactive recognition scheme able to make interact treatments at various contextual levels. The interaction model retained is based on the multi-agent paradigm

11

Wolf, Christian Jolion Jean-Michel. "Détection de textes dans des images issues d'un flux vidéo pour l'indexation sémantique". Villeurbanne : Doc'INSA, 2005. http://docinsa.insa-lyon.fr/these/pont.php?id=wolf.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Thèse doctorat : Informatique : Villeurbanne, INSA : 2003.
Thèse rédigée en anglais. Introduction et conclusion générale en français. En 2ème partie, choix d'articles en français avec résumés, mots-clef et réf. bibliogr. Titre provenant de l'écran-titre. Bibliogr. p. 147-154. Publications de l'auteur p. 155-157.

12

Chen, Yong. "Analyse et interprétation d'images à l'usage des personnes non-voyantes : application à la génération automatique d'images en relief à partir d'équipements banalisés". Thesis, Paris 8, 2015. http://www.theses.fr/2015PA080046/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L’information visuelle est une source d’information très riche à laquelle les non-voyants et mal voyants (ou Personnes Aveugles et Malvoyantes : PAM) n’ont pas toujours accès. La présence des images constitue un réel handicap pour les PAM. Une transcription de ces images en relief peut augmenter leur accessibilité aux PAM. En prenant en compte les aspects de la cognition tactile chez les non-voyants, les règles, et les recommandations de la conception d’une image en relief, nous avons orienté notre travail sur les analyses et les comparaisons des techniques de traitement d’image numérique pour trouver les méthodes adaptées afin de créer une procédure automatique de création d’images en relief. A la fin de ce travail, nous avons testé les images en relief créées avec des non-voyants. Deux points importants ont été évalués :  Le taux de compréhension d’une image en relief ; Le temps d’exploration nécessaire.Les résultats suggèrent que les images faites par ce système sont accessibles pour les non-voyants braillistes. Le système implémenté peut être considéré comme un outil efficace de création d’image en relief :  Le système propose une possibilité de généraliser et formaliser la procédure de création d'image en relief ;  Le système donne une solution très rapide et facile.Le système peut traiter des images pédagogiques avec du contenu sémantique simplifié. Il peut donc être utilisé dans de nombreux cas d’utilisation. Par exemple, il peut être utilisé comme un outil pratique pour rendre accessible les images numériques. Il permet aussi la coopération avec d’autres modalités de présentation d’image au non-voyant, par exemple avec une carte interactive classique
Visual information is a very rich source of information to which blind and visually impaired people (BVI) not always have access. The presence of images is a real handicap for the BVI. The transcription into an embossed image may increase the accessibility of an image to BVI. Our work takes into account the aspects of tactile cognition, the rules and the recommendations for the design of an embossed image. We focused our work on the analysis and comparison of digital image processing techniques in order to find the suitable methods to create an automatic procedure for embossing images. At the end of this research, we tested the embossed images created by our system with users with blindness. In the tests, two important points were evaluated:  The degree of understanding of an embossed image; The time required for exploration.The results suggest that the images made by this system are accessible to blind users who know braille. The implemented system can be regarded as an effective tool for the creation of an embossed image. The system offers an opportunity to generalize and formalize the procedure for creating an embossed image. The system gives a very quick and easy solution.The system can process pedagogical images with simplified semantic contents. It can be used as a practical tool for making digital images accessible. It also offers the possibility of cooperation with other modalities of presentation of the image to blind people, for example a traditional interactive map

13

Anigbogu, Julian Chukwuka. "Reconnaissance de textes imprimés multifontes à l'aide de modèles stochastiques et métriques". Nancy 1, 1992. http://www.theses.fr/1992NAN10150.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse traite de la reconnaissance de textes imprimes (OCR) à l'aide des modèles stochastiques de type markovien cache (hmm) et des modèles métriques de type euclidien. Ce travail nous a amenés dans une première partie à développer un certain nombre d'outils pour la preclassification rapide des caractères identiques afin de réduire le nombre de formes à reconnaitre et pour l'identification automatique de la fonte dominante dans un bloc du texte. Ceux-ci ont pour but de faciliter la tache de la reconnaissance en réduisant l'espace de recherche et de permettre la restitution d'un document avec sa structure et son contenu. Dans un deuxième volet de cette thèse, nous avons étudié de manière poussée les comportements des hmms du premier et du second ordre en fonction des paramètres d'apprentissage et de reconnaissance. Ces réflexions nous ont conduits à proposer des améliorations, qui ont été apportées aux algorithmes de reconnaissance par pondération des scores de Viterbi et a travers la coopération entre les différentes méthodes de reconnaissance développées (stochastiques et métriques) par vote majoritaire. Dans une troisième partie, nous avons développé des correcteurs contextuels fondes sur des dictionnaires et sur des hmms du premier et du second ordre opérant sur des digrammes, des trigrammes et les scores du système OCR. L'ensemble nous a donne de bons résultats, souvent supérieurs à ceux des systèmes analogues

14

Yousfi, Sonia. "Embedded Arabic text detection and recognition in videos". Thesis, Lyon, 2016. http://www.theses.fr/2016LYSEI069/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse s'intéresse à la détection et la reconnaissance du texte arabe incrusté dans les vidéos. Dans ce contexte, nous proposons différents prototypes de détection et d'OCR vidéo (Optical Character Recognition) qui sont robustes à la complexité du texte arabe (différentes échelles, tailles, polices, etc.) ainsi qu'aux différents défis liés à l'environnement vidéo et aux conditions d'acquisitions (variabilité du fond, luminosité, contraste, faible résolution, etc.). Nous introduisons différents détecteurs de texte arabe qui se basent sur l'apprentissage artificiel sans aucun prétraitement. Les détecteurs se basent sur des Réseaux de Neurones à Convolution (ConvNet) ainsi que sur des schémas de boosting pour apprendre la sélection des caractéristiques textuelles manuellement conçus. Quant à notre méthodologie d'OCR, elle se passe de la segmentation en traitant chaque image de texte en tant que séquence de caractéristiques grâce à un processus de scanning. Contrairement aux méthodes existantes qui se basent sur des caractéristiques manuellement conçues, nous proposons des représentations pertinentes apprises automatiquement à partir des données. Nous utilisons différents modèles d'apprentissage profond, regroupant des Auto-Encodeurs, des ConvNets et un modèle d'apprentissage non-supervisé, qui génèrent automatiquement ces caractéristiques. Chaque modèle résulte en un système d'OCR bien spécifique. Le processus de reconnaissance se base sur une approche connexionniste récurrente pour l'apprentissage de l'étiquetage des séquences de caractéristiques sans aucune segmentation préalable. Nos modèles d'OCR proposés sont comparés à d'autres modèles qui se basent sur des caractéristiques manuellement conçues. Nous proposons, en outre, d'intégrer des modèles de langage (LM) arabes afin d'améliorer les résultats de reconnaissance. Nous introduisons différents LMs à base des Réseaux de Neurones Récurrents capables d'apprendre des longues interdépendances linguistiques. Nous proposons un schéma de décodage conjoint qui intègre les inférences du LM en parallèle avec celles de l'OCR tout en introduisant un ensemble d’hyper-paramètres afin d'améliorer la reconnaissance et réduire le temps de réponse. Afin de surpasser le manque de corpus textuels arabes issus de contenus multimédia, nous mettons au point de nouveaux corpus manuellement annotés à partir des flux TV arabes. Le corpus conçu pour l'OCR, nommé ALIF et composée de 6,532 images de texte annotées, a été publié a des fins de recherche. Nos systèmes ont été développés et évalués sur ces corpus. L’étude des résultats a permis de valider nos approches et de montrer leurs efficacité et généricité avec plus de 97% en taux de détection, 88.63% en taux de reconnaissance mots sur le corpus ALIF dépassant ainsi un des systèmes d'OCR commerciaux les mieux connus par 36 points
This thesis focuses on Arabic embedded text detection and recognition in videos. Different approaches robust to Arabic text variability (fonts, scales, sizes, etc.) as well as to environmental and acquisition condition challenges (contrasts, degradation, complex background, etc.) are proposed. We introduce different machine learning-based solutions for robust text detection without relying on any pre-processing. The first method is based on Convolutional Neural Networks (ConvNet) while the others use a specific boosting cascade to select relevant hand-crafted text features. For the text recognition, our methodology is segmentation-free. Text images are transformed into sequences of features using a multi-scale scanning scheme. Standing out from the dominant methodology of hand-crafted features, we propose to learn relevant text representations from data using different deep learning methods, namely Deep Auto-Encoders, ConvNets and unsupervised learning models. Each one leads to a specific OCR (Optical Character Recognition) solution. Sequence labeling is performed without any prior segmentation using a recurrent connectionist learning model. Proposed solutions are compared to other methods based on non-connectionist and hand-crafted features. In addition, we propose to enhance the recognition results using Recurrent Neural Network-based language models that are able to capture long-range linguistic dependencies. Both OCR and language model probabilities are incorporated in a joint decoding scheme where additional hyper-parameters are introduced to boost recognition results and reduce the response time. Given the lack of public multimedia Arabic datasets, we propose novel annotated datasets issued from Arabic videos. The OCR dataset, called ALIF, is publicly available for research purposes. As the best of our knowledge, it is first public dataset dedicated for Arabic video OCR. Our proposed solutions were extensively evaluated. Obtained results highlight the genericity and the efficiency of our approaches, reaching a word recognition rate of 88.63% on the ALIF dataset and outperforming well-known commercial OCR engine by more than 36%

15

Leroux, Manuel. "Reconnaissance de textes manuscrits à vocabulaire limité avec application à la lecture automatique des chèques". Rouen, 1991. http://www.theses.fr/1991ROUES045.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux décrits dans ce document concernent un système de reconnaissance off-line de mots manuscrits cursifs omni-scripteurs dans un vocabulaire limité appliqué à l'identification du montant littéral des chèques postaux. La première partie de ce document effectue une analyse bibliographique sur le thème: reconnaissance off-line de l'écrit manuscrit cursif. Elle s'attache à analyser les différents travaux réalisés à ce jour, dans les cinq modules qui composent un système de reconnaissance: segmentation du document, pré-traitements, représentation du texte à reconnaître, reconnaissance et post-traitements. La deuxième partie concerne les différents processus de localisation et de caractérisation des entités à reconnaître et l'approche de reconnaissance retenue pour l'identification des mots composant les sommes littérales des chèques. Les particularités de l'application et les données autorisées en entrée du processus de reconnaissance nous ont amené à élaborer une stratégie d'identification fondée sur la coopération des deux méthodes habituellement utilisées dans les systèmes de lecture automatique: les approches globale et analytique. L'approche globale effectue une reconnaissance des mots d'après leurs formes. Elle utilise une description arbitrairement appauvrie pour minimiser le problème de la variabilité de l'écriture omni-scripteurs et de la qualité d'écriture autorisée. L'approche analytique grâce à deux descriptions, la première élaborée à l'aide des lettres sûres et la deuxième constituée de toutes les lettres reconnues, complémente l'approche globale pour récupérer ses éventuels défauts. Ces deux modules de reconnaissance utilisent une entrée un même découpage des mots en segments-lettres réalisé par un processus de segmentation. La coopération entre les deux approches génère, pour chaque entité à reconnaître, des hypothèses de mots filtrées postérieurement par la grammaire particulière des montants des chèques. Tous les modules réalisés, ainsi que les approches de reconnaissance retenues sont évalués sur des données réelles issus des centres financiers de La Poste

16

Elagouni, Khaoula. "Combining neural-based approaches and linguistic knowledge for text recognition in multimedia documents". Thesis, Rennes, INSA, 2013. http://www.theses.fr/2013ISAR0013/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites
This thesis focuses on the recognition of textual clues in images and videos. In this context, OCR (optical character recognition) systems, able to recognize caption texts as well as natural scene texts captured anywhere in the environment have been designed. Novel approaches, robust to text variability (differentfonts, colors, sizes, etc.) and acquisition conditions (complex background, non uniform lighting, low resolution, etc.) have been proposed. In particular, two kinds of methods dedicated to text recognition are provided:- A segmentation-based approach that computes nonlinear separations between characters well adapted to the localmorphology of images;- Two segmentation-free approaches that integrate a multi-scale scanning scheme. The first one relies on a graph model, while the second one uses a particular connectionist recurrent model able to handle spatial constraints between characters.In addition to the originalities of each approach, two extra contributions of this work lie in the design of a character recognition method based on a neural classification model and the incorporation of some linguistic knowledge that enables to take into account the lexical context.The proposed OCR systems were tested and evaluated on two datasets: a caption texts video dataset and a natural scene texts dataset (namely the public database ICDAR 2003). Experiments have demonstrated the efficiency of our approaches and have permitted to compare their performances to those of state-of-the-art methods, highlighting their advantages and limits

17

Barrère, Killian. "Architectures de Transformer légères pour la reconnaissance de textes manuscrits anciens". Electronic Thesis or Diss., Rennes, INSA, 2023. http://www.theses.fr/2023ISAR0017.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

En reconnaissance d’écriture manuscrite, les architectures Transformer permettent de faibles taux d’erreur, mais sont difficiles à entraîner avec le peu de données annotées disponibles. Dans ce manuscrit, nous proposons des architectures Transformer légères adaptées aux données limitées. Nous introduisons une architecture rapide basée sur un encodeur Transformer, et traitant jusqu’à 60 pages par seconde. Nous proposons aussi des architectures utilisant un décodeur Transformer pour inclure l’apprentissage de la langue dans la reconnaissance des caractères. Pour entraîner efficacement nos architectures, nous proposons des algorithmes de génération de données synthétiques adaptées au style visuel des documents modernes et anciens. Nous proposons également des stratégies pour l’apprentissage avec peu de données spécifiques, et la réduction des erreurs de prédiction. Nos architectures, combinées à l’utilisation de données synthétiques et de ces stratégies, atteignent des taux d’erreur compétitifs sur des lignes de texte de documents modernes. Sur des documents anciens, elles parviennent à s’entraîner avec des nombres limités de données annotées, et surpassent les approches de l’état de l’art. En particulier, 500 lignes annotées sont suffisantes pour obtenir des taux d’erreur caractères proches de 5%
Transformer architectures deliver low error rates but are challenging to train due to limited annotated data in handwritten text recognition. We propose lightweight Transformer architectures to adapt to the limited amounts of annotated handwritten text available. We introduce a fast Transformer architecture with an encoder, processing up to 60 pages per second. We also present architectures using a Transformer decoder to incorporate language modeling into character recognition. To effectively train our architectures, we offer algorithms for generating synthetic data adapted to the visual style of modern and historical documents. Finally, we propose strategies for learning with limited data and reducing prediction errors. Our architectures, combined with synthetic data and these strategies, achieve competitive error rates on lines of text from modern documents. For historical documents, they train effectively with minimal annotated data, surpassing state-ofthe- art approaches. Remarkably, just 500 annotated lines are sufficient for character error rates close to 5%

18

Trupin, Eric. "Segmentation de documents : Application a un systeme de lecture pour non-voyants". Rouen, 1993. http://www.theses.fr/1993ROUES009.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire abordent les différentes étapes nécessaires à la lecture d'un texte dactylographié pour un non-voyant. Ces travaux s'appuient sur la conception existante et commercialisée d'un dispositif électronique de lecture de texte pour aveugles: l'appareil Delta. Le fonctionnement de celui-ci est détaillé et les diverses améliorations apportées à cet appareil sont présentées. Ce document discute ensuite d'une nouvelle génération de cet appareil équipé d'un scanner à main. Aussi une technique de segmentation d'images en blocs est mise au point, conjointement à une procédure de discrimination texte/graphique, permettant d'écrire l'image sous forme de blocs de texte. Les blocs sont détectés grâce à un balayage périodique appelé suivi de sondes, puis extraits grâce à un suivi de contour modifié qui utilise une matrice d'observation. Une procédure d'analyse des objets connexes contenus dans chaque bloc permet de distinguer le texte du graphique suivant cinq critères de discrimination et remet en cause la segmentation du bloc effectuée si des objets graphiques sont contenus dans le bloc. Ces techniques sont évaluées dans ce mémoire. Une organisation de ces blocs, appelé ordre logique, permet ensuite de les enchaîner grâce à l'intervention de l'utilisateur qui valide chaque bloc proposé. Certains séparateurs graphiques détectés dans l'image sont alors pris en compte pour améliorer l'ordre détecté et limiter le nombre de rejets par l'utilisateur des blocs proposés

19

Peyrard, Clément. "Single image super-resolution based on neural networks for text and face recognition". Thesis, Lyon, 2017. http://www.theses.fr/2017LYSEI083/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse porte sur les méthodes de super-résolution (SR) pour l’amélioration des performances des systèmes de reconnaissance automatique (OCR, reconnaissance faciale). Les méthodes de Super-Résolution (SR) permettent de générer des images haute résolution (HR) à partir d’images basse résolution (BR). Contrairement à un rééchantillonage par interpolation, elles restituent les hautes fréquences spatiales et compensent les artéfacts (flou, crénelures). Parmi elles, les méthodes d’apprentissage automatique telles que les réseaux de neurones artificiels permettent d’apprendre et de modéliser la relation entre les images BR et HR à partir d’exemples. Ce travail démontre l’intérêt des méthodes de SR à base de réseaux de neurones pour les systèmes de reconnaissance automatique. Les réseaux de neurones à convolutions sont particulièrement adaptés puisqu’ils peuvent être entraînés à extraire des caractéristiques non-linéaires bidimensionnelles pertinentes tout en apprenant la correspondance entre les espaces BR et HR. Sur des images de type documents, la méthode proposée permet d’améliorer la précision en reconnaissance de caractère de +7.85 points par rapport à une simple interpolation. La création d’une base d’images annotée et l’organisation d’une compétition internationale (ICDAR2015) ont souligné l’intérêt et la pertinence de telles approches. Pour les images de visages, les caractéristiques faciales sont cruciales pour la reconnaissance automatique. Une méthode en deux étapes est proposée dans laquelle la qualité de l’image est d’abord globalement améliorée, pour ensuite se focaliser sur les caractéristiques essentielles grâce à des modèles spécifiques. Les performances d’un système de vérification faciale se trouvent améliorées de +6.91 à +8.15 points. Enfin, pour le traitement d’images BR en conditions réelles, l’utilisation de réseaux de neurones profonds permet d’absorber la variabilité des noyaux de flous caractérisant l’image BR, et produire des images HR ayant des statistiques naturelles sans connaissance du modèle d’observation exact
This thesis is focussed on super-resolution (SR) methods for improving automatic recognition system (Optical Character Recognition, face recognition) in realistic contexts. SR methods allow to generate high resolution images from low resolution ones. Unlike upsampling methods such as interpolation, they restore spatial high frequencies and compensate artefacts such as blur or jaggy edges. In particular, example-based approaches learn and model the relationship between low and high resolution spaces via pairs of low and high resolution images. Artificial Neural Networks are among the most efficient systems to address this problem. This work demonstrate the interest of SR methods based on neural networks for improved automatic recognition systems. By adapting the data, it is possible to train such Machine Learning algorithms to produce high-resolution images. Convolutional Neural Networks are especially efficient as they are trained to simultaneously extract relevant non-linear features while learning the mapping between low and high resolution spaces. On document text images, the proposed method improves OCR accuracy by +7.85 points compared with simple interpolation. The creation of an annotated image dataset and the organisation of an international competition (ICDAR2015) highlighted the interest and the relevance of such approaches. Moreover, if a priori knowledge is available, it can be used by a suitable network architecture. For facial images, face features are critical for automatic recognition. A two step method is proposed in which image resolution is first improved, followed by specialised models that focus on the essential features. An off-the-shelf face verification system has its performance improved from +6.91 up to +8.15 points. Finally, to address the variability of real-world low-resolution images, deep neural networks allow to absorb the diversity of the blurring kernels that characterise the low-resolution images. With a single model, high-resolution images are produced with natural image statistics, without any knowledge of the actual observation model of the low-resolution image

20

Do, Thanh Ha. "Sparse representations over learned dictionary for document analysis". Electronic Thesis or Diss., Université de Lorraine, 2014. http://www.theses.fr/2014LORR0021.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous nous concentrons sur comment les représentations parcimonieuses peuvent aider à augmenter les performances pour réduire le bruit, extraire des régions de texte, reconnaissance des formes et localiser des symboles dans des documents graphiques. Pour ce faire, tout d'abord, nous donnons une synthèse des représentations parcimonieuses et ses applications en traitement d'images. Ensuite, nous présentons notre motivation pour l'utilisation de dictionnaires d'apprentissage avec des algorithmes efficaces pour les construire. Après avoir décrit l'idée générale des représentations parcimonieuses et du dictionnaire d'apprentissage, nous présentons nos contributions dans le domaine de la reconnaissance de symboles et du traitement des documents en les comparants aux travaux de l'état de l'art. Ces contributions s'emploient à répondre aux questions suivantes: La première question est comment nous pouvons supprimer le bruit des images où il n'existe aucune hypothèse sur le modèle de bruit sous-jacent à ces images ? La deuxième question est comment les représentations parcimonieuses sur le dictionnaire d'apprentissage peuvent être adaptées pour séparer le texte du graphique dans des documents? La troisième question est comment nous pouvons appliquer la représentation parcimonieuse à reconnaissance de symboles? Nous complétons cette thèse en proposant une approche de localisation de symboles dans les documents graphiques qui utilise les représentations parcimonieuses pour coder un vocabulaire visuel
In this thesis, we focus on how sparse representations can help to increase the performance of noise removal, text region extraction, pattern recognition and spotting symbols in graphical documents. To do that, first of all, we give a survey of sparse representations and its applications in image processing. Then, we present the motivation of building learning dictionary and efficient algorithms for constructing a learning dictionary. After describing the general idea of sparse representations and learned dictionary, we bring some contributions in the field of symbol recognition and document processing that achieve better performances compared to the state-of-the-art. These contributions begin by finding the answers to the following questions. The first question is how we can remove the noise of a document when we have no assumptions about the model of noise found in these images? The second question is how sparse representations over learned dictionary can separate the text/graphic parts in the graphical document? The third question is how we can apply the sparse representation for symbol recognition? We complete this thesis by proposing an approach of spotting symbols that use sparse representations for the coding of a visual vocabulary

21

Kanoun, Slim. "Identification et analyse de textes arabes par approche affixale". Rouen, 2002. http://www.theses.fr/2002ROUES040.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés dans ce mémoire abordent les problèmes liés à la différenciation et la reconnaissance de textes en mode hors-ligne dans des documents multilingues arabe et latin. La première partie de ces travaux concerne une méthode de différenciation entre les textes arabes et les textes latins dans les deux natures imprimée et manuscrite. La deuxième partie propose une nouvelle approche, appelée approche affixale, pour la reconnaissance de mots et l'analyse de textes arabes. Cette approche se distingue par la modélisation d'entités morphosyntaxiques (morphèmes de base du mot) en intégrant les aspects morpho-phonologiques du vocabulaire arabe dans le processus de reconnaissance par rapport aux approches classiques qui procèdent par la modélisation d'entités graphiques (mot, lettre, pseudo mot). Les tests réalisés montrent bien l'apport de l'approche au niveau de la simplification de la reconnaissance et la caractérisation morphosyntaxique des mots dans un texte arabe
The presented work in this memory tackles the problems involved in differentiation and text recognition in off-line mode in Arabic and Latin multilingual documents. The first part of this work relates to a method of differentiation between Arabic texts and Latin texts in two natures printed and handwritten. The second part proposes a new approach, called affixal approach, for Arabic word recognition and text analysis. This approach is characterized by modelling from morph-syntactic entities (word basic morphemes) by integrating the morpho-phonological aspects of Arabic vocabulary in the recognition process compared to the traditional approaches which proceed by the modelling of grahic entities (word, letter, pseudo word). The tests carried out show well the contribution of the approach on the recognition simplification and the morph-syntactic categorization of the words in an Arabic text

22

Do, Thanh Ha. "Sparse representations over learned dictionary for document analysis". Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0021/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous nous concentrons sur comment les représentations parcimonieuses peuvent aider à augmenter les performances pour réduire le bruit, extraire des régions de texte, reconnaissance des formes et localiser des symboles dans des documents graphiques. Pour ce faire, tout d'abord, nous donnons une synthèse des représentations parcimonieuses et ses applications en traitement d'images. Ensuite, nous présentons notre motivation pour l'utilisation de dictionnaires d'apprentissage avec des algorithmes efficaces pour les construire. Après avoir décrit l'idée générale des représentations parcimonieuses et du dictionnaire d'apprentissage, nous présentons nos contributions dans le domaine de la reconnaissance de symboles et du traitement des documents en les comparants aux travaux de l'état de l'art. Ces contributions s'emploient à répondre aux questions suivantes: La première question est comment nous pouvons supprimer le bruit des images où il n'existe aucune hypothèse sur le modèle de bruit sous-jacent à ces images ? La deuxième question est comment les représentations parcimonieuses sur le dictionnaire d'apprentissage peuvent être adaptées pour séparer le texte du graphique dans des documents? La troisième question est comment nous pouvons appliquer la représentation parcimonieuse à reconnaissance de symboles? Nous complétons cette thèse en proposant une approche de localisation de symboles dans les documents graphiques qui utilise les représentations parcimonieuses pour coder un vocabulaire visuel
In this thesis, we focus on how sparse representations can help to increase the performance of noise removal, text region extraction, pattern recognition and spotting symbols in graphical documents. To do that, first of all, we give a survey of sparse representations and its applications in image processing. Then, we present the motivation of building learning dictionary and efficient algorithms for constructing a learning dictionary. After describing the general idea of sparse representations and learned dictionary, we bring some contributions in the field of symbol recognition and document processing that achieve better performances compared to the state-of-the-art. These contributions begin by finding the answers to the following questions. The first question is how we can remove the noise of a document when we have no assumptions about the model of noise found in these images? The second question is how sparse representations over learned dictionary can separate the text/graphic parts in the graphical document? The third question is how we can apply the sparse representation for symbol recognition? We complete this thesis by proposing an approach of spotting symbols that use sparse representations for the coding of a visual vocabulary

23

Dang, Quoc Bao. "Information spotting in huge repositories of scanned document images". Thesis, La Rochelle, 2018. http://www.theses.fr/2018LAROS024/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail vise à développer un cadre générique qui est capable de produire des applications de localisation d'informations à partir d’une caméra (webcam, smartphone) dans des très grands dépôts d'images de documents numérisés et hétérogènes via des descripteurs locaux. Ainsi, dans cette thèse, nous proposons d'abord un ensemble de descripteurs qui puissent être appliqués sur des contenus aux caractéristiques génériques (composés de textes et d’images) dédié aux systèmes de recherche et de localisation d'images de documents. Nos descripteurs proposés comprennent SRIF, PSRIF, DELTRIF et SSKSRIF qui sont construits à partir de l’organisation spatiale des points d’intérêts les plus proches autour d'un point-clé pivot. Tous ces points sont extraits à partir des centres de gravité des composantes connexes de l‘image. A partir de ces points d’intérêts, des caractéristiques géométriques invariantes aux dégradations sont considérées pour construire nos descripteurs. SRIF et PSRIF sont calculés à partir d'un ensemble local des m points d’intérêts les plus proches autour d'un point d’intérêt pivot. Quant aux descripteurs DELTRIF et SSKSRIF, cette organisation spatiale est calculée via une triangulation de Delaunay formée à partir d'un ensemble de points d’intérêts extraits dans les images. Cette seconde version des descripteurs permet d’obtenir une description de forme locale sans paramètres. En outre, nous avons également étendu notre travail afin de le rendre compatible avec les descripteurs classiques de la littérature qui reposent sur l’utilisation de points d’intérêts dédiés de sorte qu'ils puissent traiter la recherche et la localisation d'images de documents à contenu hétérogène. La seconde contribution de cette thèse porte sur un système d'indexation de très grands volumes de données à partir d’un descripteur volumineux. Ces deux contraintes viennent peser lourd sur la mémoire du système d’indexation. En outre, la très grande dimensionnalité des descripteurs peut amener à une réduction de la précision de l'indexation, réduction liée au problème de dimensionnalité. Nous proposons donc trois techniques d'indexation robustes, qui peuvent toutes être employées sans avoir besoin de stocker les descripteurs locaux dans la mémoire du système. Cela permet, in fine, d’économiser la mémoire et d’accélérer le temps de recherche de l’information, tout en s’abstrayant d’une validation de type distance. Pour cela, nous avons proposé trois méthodes s’appuyant sur des arbres de décisions : « randomized clustering tree indexing” qui hérite des propriétés des kd-tree, « kmean-tree » et les « random forest » afin de sélectionner de manière aléatoire les K dimensions qui permettent de combiner la plus grande variance expliquée pour chaque nœud de l’arbre. Nous avons également proposé une fonction de hachage étendue pour l'indexation de contenus hétérogènes provenant de plusieurs couches de l'image. Comme troisième contribution de cette thèse, nous avons proposé une méthode simple et robuste pour calculer l'orientation des régions obtenues par le détecteur MSER, afin que celui-ci puisse être combiné avec des descripteurs dédiés. Comme la plupart de ces descripteurs visent à capturer des informations de voisinage autour d’une région donnée, nous avons proposé un moyen d'étendre les régions MSER en augmentant le rayon de chaque région. Cette stratégie peut également être appliquée à d'autres régions détectées afin de rendre les descripteurs plus distinctifs. Enfin, afin d'évaluer les performances de nos contributions, et en nous fondant sur l'absence d'ensemble de données publiquement disponibles pour la localisation d’information hétérogène dans des images capturées par une caméra, nous avons construit trois jeux de données qui sont disponibles pour la communauté scientifique
This work aims at developing a generic framework which is able to produce camera-based applications of information spotting in huge repositories of heterogeneous content document images via local descriptors. The targeted systems may take as input a portion of an image acquired as a query and the system is capable of returning focused portion of database image that match the query best. We firstly propose a set of generic feature descriptors for camera-based document images retrieval and spotting systems. Our proposed descriptors comprise SRIF, PSRIF, DELTRIF and SSKSRIF that are built from spatial space information of nearest keypoints around a keypoints which are extracted from centroids of connected components. From these keypoints, the invariant geometrical features are considered to be taken into account for the descriptor. SRIF and PSRIF are computed from a local set of m nearest keypoints around a keypoint. While DELTRIF and SSKSRIF can fix the way to combine local shape description without using parameter via Delaunay triangulation formed from a set of keypoints extracted from a document image. Furthermore, we propose a framework to compute the descriptors based on spatial space of dedicated keypoints e.g SURF or SIFT or ORB so that they can deal with heterogeneous-content camera-based document image retrieval and spotting. In practice, a large-scale indexing system with an enormous of descriptors put the burdens for memory when they are stored. In addition, high dimension of descriptors can make the accuracy of indexing reduce. We propose three robust indexing frameworks that can be employed without storing local descriptors in the memory for saving memory and speeding up retrieval time by discarding distance validating. The randomized clustering tree indexing inherits kd-tree, kmean-tree and random forest from the way to select K dimensions randomly combined with the highest variance dimension from each node of the tree. We also proposed the weighted Euclidean distance between two data points that is computed and oriented the highest variance dimension. The secondly proposed hashing relies on an indexing system that employs one simple hash table for indexing and retrieving without storing database descriptors. Besides, we propose an extended hashing based method for indexing multi-kinds of features coming from multi-layer of the image. Along with proposed descriptors as well indexing frameworks, we proposed a simple robust way to compute shape orientation of MSER regions so that they can combine with dedicated descriptors (e.g SIFT, SURF, ORB and etc.) rotation invariantly. In the case that descriptors are able to capture neighborhood information around MSER regions, we propose a way to extend MSER regions by increasing the radius of each region. This strategy can be also applied for other detected regions in order to make descriptors be more distinctive. Moreover, we employed the extended hashing based method for indexing multi-kinds of features from multi-layer of images. This system are not only applied for uniform feature type but also multiple feature types from multi-layers separated. Finally, in order to assess the performances of our contributions, and based on the assessment that no public dataset exists for camera-based document image retrieval and spotting systems, we built a new dataset which has been made freely and publicly available for the scientific community. This dataset contains portions of document images acquired via a camera as a query. It is composed of three kinds of information: textual content, graphical content and heterogeneous content

24

Montreuil, Florent. "Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits". Phd thesis, Rouen, 2011. http://www.theses.fr/2011ROUES047.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le traitement automatique des documents écrits est un domaine très actif dans le monde industriel. En effet, devant la masse de documents écrits à traiter, l'analyse automatique devient une nécessité mais les performances des systèmes actuels sont très variables en fonction des types de documents traités. Par exemple, le traitement des documents manuscrits non contraints reste une problématique non encore résolue à ce jour car il existe toujours deux verrous technologiques qui freinent la mise en place de systèmes fiables de traitement automatique des documents manuscrits : - la première concerne la variabilité de structure des écritures manuscrites ; - la seconde est liée à l'existence d'une grande variabilité de structures de documents. Cette thèse porte sur la résolution de ce deuxième verrou dans le cas de documents manuscrits non contraints. Pour cela, nous avons développé des méthodes fiables et robustes d'analyse de structures de documents basées sur l'utilisation de Champs Aléatoires Conditionnels. Le choix des Champs Aléatoires Conditionnels est motivé par la capacité de ces modèles graphiques à prendre en compte les relations entre les différentes entités du document (mots, phrases, blocs,. . . ) et à intégrer des connaissances contextuelles. De plus, l'utilisation d'une modélisation probabiliste douée d'apprentissage permet de s'affranchir de la variabilité inhérente des documents à traiter. L'originalité de la thèse porte également sur la proposition d'une approche hiérarchique permettant l'extraction conjointe des structures physique (segmentation du document en blocs, lignes,. . . ) et logique (interprétation fonctionnelle de la structure physique) en combinant des caractéristiques physiques de bas niveau (position, représentation graphique,. . . ) et logiques de haut niveau (détection de mots clés). Les expérimentations effectuées sur des courriers manuscrits montrent que le modèle proposé représente une solution intéressante de par son caractère discriminant et sa capacité naturelle à intégrer et à contextualiser des caractéristiques de différentes natures
The automatic processing of written documents is a very active field in the industry. Indeed, due to the mass of written documents to process, the automatic analysis becomes a necessity, but the performance of current systems is highly variable according to the types of documents processed. For example, treatment of unconstrained handwritten documents remains an unsolved issue because two technological obstacles that hinder the development of reliable automatic processing of handwritten documents : - the first is the recognition of handwritten in those documents - the second is related to the existence of widely variability in the document structures. This thesis focuses on solving the second bolt in the case of unconstrained handwritten documents. For this, we have developed reliable and robust methods to analyze document structures based on the use of Conditional Random Fields. The choice of Conditional Random Fields is motivated by the ability of these graphical models to take into account the relationships between the various entities of the document (words, phrases, blocks,. . . ) and integrate contextual knowledge. In addition, the use of probabilistic modeling gifted learning overcomes the inherent variability of the documents to be processed. The originality of the thesis also addresses the proposal of a hierarchical approach for extracting joint physical (segmentation of the document into blocks, lines, ldots) and logical (functional interpretation of the physical structure) structures by combining low-level physical features (position, graphic,. . . ) and high-level logical (keyword spotting). The experiments carried out on handwritten letters show that the proposed model represents an interesting solution because of its discriminatory character and his natural ability to integrate and contextualize the characteristics of different kinds

25

Montreuil, Florent. "Extraction de structures de documents par champs aléatoires conditionnels : application aux traitements des courriers manuscrits". Phd thesis, Université de Rouen, 2011. http://tel.archives-ouvertes.fr/tel-00652301.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le traitement automatique des documents écrits est un domaine très actif dans le monde industriel. En effet, devant la masse de documents écrits à traiter, l'analyse automatique devient une nécessité mais les performances des systèmes actuels sont très variables en fonction des types de documents traités. Par exemple, le traitement des documents manuscrits non contraints reste une problématique non encore résolue à ce jour car il existe toujours deux verrous technologiques qui freinent la mise en place de systèmes fiables de traitement automatique des documents manuscrits : - la première concerne la reconnaissance des écritures manuscrites ; - la seconde est liée à l'existence d'une grande variabilité de structures de documents. Cette thèse porte sur la résolution de ce deuxième verrou dans le cas de documents manuscrits non contraints. Pour cela, nous avons développé des méthodes fiables et robustes d'analyse de structures de documents basées sur l'utilisation de Champs Aléatoires Conditionnels. Le choix des Champs Aléatoires Conditionnels est motivé par la capacité de ces modèles graphiques à prendre en compte les relations entre les différentes entités du document (mots, phrases, blocs, ...) et à intégrer des connaissances contextuelles. De plus, l'utilisation d'une modélisation probabiliste douée d'apprentissage permet de s'affranchir de la variabilité inhérente des documents à traiter. L'originalité de la thèse porte également sur la proposition d'une approche hiérarchique permettant l'extraction conjointe des structures physique (segmentation du document en blocs, lignes, ...) et logique (interprétation fonctionnelle de la structure physique) en combinant des caractéristiques physiques de bas niveau (position, représentation graphique, ...) et logiques de haut niveau (détection de mots clés). Les expérimentations effectuées sur des courriers manuscrits montrent que le modèle proposé représente une solution intéressante de par son caractère discriminant et sa capacité naturelle à intégrer et à contextualiser des caractéristiques de différentes natures.

26

Nguyen, Chu Duc. "Localization and quality enhancement for automatic recognition of vehicle license plates in video sequences". Thesis, Ecully, Ecole centrale de Lyon, 2011. http://www.theses.fr/2011ECDL0018.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La lecture automatique de plaques d’immatriculation de véhicule est considérée comme une approche de surveillance de masse. Elle permet, grâce à la détection /localisation ainsi que la reconnaissance optique, d’identifier un véhicule dans les images ou les séquences d’images. De nombreuses applications comme le suivi du trafic, la détection de véhicules volés, le télépéage ou la gestion d’entrée / sortie des parkings utilise ce procédé. Or malgré d’important progrès enregistré depuis l’apparition des premiers prototypes en 1979 accompagné d’un taux de reconnaissance parfois impressionnant, notamment grâce aux avancés en recherche scientifique et en technologie des capteurs, les contraintes imposés pour le bon fonctionnement de tels systèmes en limitent les portées. En effet, l’utilisation optimale des techniques de localisation et de reconnaissance de plaque d’immatriculation dans les scénarii opérationnels nécessite des conditions d’éclairage contrôlées ainsi qu’une limitation dans de la pose, de vitesse ou tout simplement de type de plaque. La lecture automatique de plaques d’immatriculation reste alors un problème de recherche ouvert. La contribution majeure de cette thèse est triple. D’abord une nouvelle approche robuste de localisation de plaque d’immatriculation dans des images ou des séquences d’images est proposée. Puis, l’amélioration de la qualité des plaques localisées est traitée par une adaptation de technique de super-résolution. Finalement, un modèle unifié de localisation et de super-résolution est proposé permettant de diminuer la complexité temporelle des deux approches combinées
Automatic reading of vehicle license plates is considered an approach to mass surveillance. It allows, through the detection / localization and optical recognition to identify a vehicle in the images or video sequences. Many applications such as traffic monitoring, detection of stolen vehicles, the toll or the management of entrance/ exit parking uses this method. Yet in spite of important progress made since the appearance of the first prototype sin 1979, with a recognition rate sometimes impressive thanks to advanced science and sensor technology, the constraints imposed for the operation of such systems limit laid. Indeed, the optimal use of techniques for localizing and recognizing license plates in operational scenarios requiring controlled lighting conditions and a limitation of the pose, velocity, or simply type plate. Automatic reading of vehicle license plates then remains an open research problem. The major contribution of this thesis is threefold. First, a new approach to robust license plate localization in images or image sequences is proposed. Then, improving the quality of the plates is treated with a localized adaptation of super-resolution technique. Finally, a unified model of location and super-resolution is proposed to reduce the time complexity of both approaches combined

27

Capitaine, Thierry. "Reconnaissance optique de partitions musicales". Compiègne, 1995. http://www.theses.fr/1995COMPD852.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La reconnaissance optique de partitions musicales reste un problème complexe à cause des lignes de portées qui relient entre-elles les différents symboles. C'est pour cette raison que les démarches classiques tentent de les supprimer par l'utilisation d'algorithmes complexes ne scindant pas les symboles. Notre approche s'appuie sur une exploitation directe des positions de ces lignes et sur la création d'interlignes virtuelles en tenant compte de la signification musicale qu'elles engendrent. Afin de limiter l'influence du biais, leur détection n'apparaît qu'au niveau des mesures. Il en est de même des phases de segmentation et de reconnaissance qui peuvent alors s'appuyer sur le contexte musical local à chaque mesure. Ces lignes et interlignes définissent les limites de 2x13 cumuls perpendiculaires (clef de Fa et clef de Sol) pour détecter la présence d'informations musicales (patterns). Ces derniers sont codés par trois caractères en fonction de leur forme, de leur hauteur et largeur. L'analyse de la position de ces derniers, associée avec les règles de positionnement des symboles musicaux, permet d'obtenir une représentation sous forme de chaîne de caractères de deux classes de symboles musicaux (analyse horizontale pour les liaisons et verticale pour les autres). Ces chaînes alimentent un analyseur syntaxique qui réalise la reconnaissance finale en tenant compte de leur signification musicale. Le contrôle du nombre de temps joués associé à la tonalité de chaque mesure et de l'historique des altérations rencontrées permettent de valider la reconnaissance. Les résultats obtenus pour diverses partitions de différentes tailles et orientations valident notre approche (90% de reconnaissance pour les symboles principaux).

28

Zemirli, Zouhir. "Synthèse vocale de textes arabes voyellés". Toulouse 3, 2004. http://www.theses.fr/2004TOU30262.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous nous intéressons à l’utilité et l’utilisabilité de la structure visuelle des textes, pour leur transposition à l’oral par des systèmes de synthèse de parole (TTS). Nous proposons la synoptique d’un système qui conduit à une représentation du texte interprétable par un TTS. Nous avons partiellement réalisé le module spécifique aux stratégies d’oralisation, afin de rendre articulables la part signifiante des textes, souvent oubliée. Des spécifications ont été précisées et partiellement intégrées par un partenaire industriel. Des hypothèses prédictives quant à l’impact sur la mémorisation/compréhension de deux stratégies issues de notre modèle d’oralisation par reformulation des textes écrits pour être lus silencieusement, ont été formulées et testées. Ce travail a montré que des fonctions cognitives étaient perdues. Des prototypes, exploitant la notion d’image de page, ont été imaginés à travers des interfaces dans lesquelles la multimodalité a pour rôle de combler cette lacune
The text to speech synthesis consists in creating speech by analysis of a text which is subjected to no restriction. The object of this thesis is to describe the modeling and the taking into account of knowledge in phonetic, phonological, morpho-lexical and syntactic necessary to the development of a complete system of voice synthesis starting from diacritized arab texts. The automatic generation of the prosodico-phonetics sequence required the development of several components. The morphosyntaxic labelling "TAGGAR" carries out grammatical labelling, a marking and a syntactic grouping and the automatic insertion of the pauses. Graphemes to phonemes conversion is ensured by using lexicons, syntactic grammars, morpho-orthographical and phonological rules. A multiplicative model of prediction of the duration of the phonemes is described and a model of generation of the prosodic contours based on the accents of the words and the syntactic group is presented

29

Kesiman, Made Windu Antara. "Document image analysis of Balinese palm leaf manuscripts". Thesis, La Rochelle, 2018. http://www.theses.fr/2018LAROS013/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les collections de manuscrits sur feuilles de palmier sont devenues une partie intégrante de la culture et de la vie des peuples de l'Asie du Sud-Est. Avec l’augmentation des projets de numérisation des documents patrimoniaux à travers le monde, les collections de manuscrits sur feuilles de palmier ont finalement attiré l'attention des chercheurs en analyse d'images de documents (AID). Les travaux de recherche menés dans le cadre de cette thèse ont porté sur les manuscrits d'Indonésie, et en particulier sur les manuscrits de Bali. Nos travaux visent à proposer des méthodes d’analyse pour les manuscrits sur feuilles de palmier. En effet, ces collections offrent de nouveaux défis car elles utilisent, d’une part, un support spécifique : les feuilles de palmier, et d’autre part, un langage et un script qui n'ont jamais été analysés auparavant. Prenant en compte, le contexte et les conditions de stockage des collections de manuscrits sur feuilles de palmier à Bali, nos travaux ont pour objectif d’apporter une valeur ajoutée aux manuscrits numérisés en développant des outils pour analyser, translittérer et indexer le contenu des manuscrits sur feuilles de palmier. Ces systèmes rendront ces manuscrits plus accessibles, lisibles et compréhensibles à un public plus large ainsi que pour les chercheurs et les étudiants du monde entier. Cette thèse a permis de développer un système d’AID pour les images de documents sur feuilles de palmier, comprenant plusieurs tâches de traitement d'images : numérisation du document, construction de la vérité terrain, binarisation, segmentation des lignes de texte et des glyphes, la reconnaissance des glyphes et des mots, translittération et l’indexation de document. Nous avons ainsi créé le premier corpus et jeu de données de manuscrits balinais sur feuilles de palmier. Ce corpus est actuellement disponible pour les chercheurs en AID. Nous avons également développé un système de reconnaissance des glyphes et un système de translittération automatique des manuscrits balinais. Cette thèse propose un schéma complet de reconnaissance de glyphes spatialement catégorisé pour la translittération des manuscrits balinais sur feuilles de palmier. Le schéma proposé comprend six tâches : la segmentation de lignes de texte et de glyphes, un processus de classification de glyphes, la détection de la position spatiale pour la catégorisation des glyphes, une reconnaissance globale et catégorisée des glyphes, la sélection des glyphes et la translittération basée sur des règles phonologiques. La translittération automatique de l'écriture balinaise nécessite de mettre en œuvre des mécanismes de représentation des connaissances et des règles phonologiques. Nous proposons un système de translittération sans segmentation basée sur la méthode LSTM. Celui-ci a été testé sur des données réelles et synthétiques. Il comprend un schéma d'apprentissage à deux niveaux pouvant s’appliquer au niveau du mot et au niveau de la ligne de texte
The collection of palm leaf manuscripts is an important part of Southeast Asian people’s culture and life. Following the increasing of the digitization projects of heritage documents around the world, the collection of palm leaf manuscripts in Southeast Asia finally attracted the attention of researchers in document image analysis (DIA). The research work conducted for this dissertation focused on the heritage documents of the collection of palm leaf manuscripts from Indonesia, especially the palm leaf manuscripts from Bali. This dissertation took part in exploring DIA researches for palm leaf manuscripts collection. This collection offers new challenges for DIA researches because it uses palm leaf as writing media and also with a language and script that have never been analyzed before. Motivated by the contextual situations and real conditions of the palm leaf manuscript collections in Bali, this research tried to bring added value to digitized palm leaf manuscripts by developing tools to analyze, to transliterate and to index the content of palm leaf manuscripts. These systems aim at making palm leaf manuscripts more accessible, readable and understandable to a wider audience and, to scholars and students all over the world. This research developed a DIA system for document images of palm leaf manuscripts, that includes several image processing tasks, beginning with digitization of the document, ground truth construction, binarization, text line and glyph segmentation, ending with glyph and word recognition, transliteration and document indexing and retrieval. In this research, we created the first corpus and dataset of the Balinese palm leaf manuscripts for the DIA research community. We also developed the glyph recognition system and the automatic transliteration system for the Balinese palm leaf manuscripts. This dissertation proposed a complete scheme of spatially categorized glyph recognition for the transliteration of Balinese palm leaf manuscripts. The proposed scheme consists of six tasks: the text line and glyph segmentation, the glyph ordering process, the detection of the spatial position for glyph category, the global and categorized glyph recognition, the option selection for glyph recognition and the transliteration with phonological rules-based machine. An implementation of knowledge representation and phonological rules for the automatic transliteration of Balinese script on palm leaf manuscript is proposed. The adaptation of a segmentation-free LSTM-based transliteration system with the generated synthetic dataset and the training schemes at two different levels (word level and text line level) is also proposed

30

Duthil, Benjamin. "De l'extraction des connaissances à la recommandation". Phd thesis, Montpellier 2, 2012. http://tel.archives-ouvertes.fr/tel-00771504.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les technologies de l'information et le succès des services associés (forums, sites spécialisés, etc) ont ouvert la voie à un mode d'expression massive d'opinions sur les sujets les plus variés (e-commerce, critiques artistiques, etc). Cette profusion d'opinions constitue un véritable eldorado pour l'internaute, mais peut rapidement le conduire à une situation d'indécision car,les avis déposés peuvent être fortement disparates voire contradictoires. Pour une gestion fiable et pertinente de l'information contenue dans ces avis, il est nécessaire de mettre en place des systèmes capables de traiter directement les opinions exprimées en langage naturel afin d'en contrôler la subjectivité et de gommer les effets de lissage des traitements statistiques. La plupart des systèmes dits de recommandation ne prennent pas en compte toute la richesse sémantique des critiques et leur associent souvent des systèmes d'évaluation qui nécessitent une implication conséquente et des compétences particulières chez l'internaute. Notre objectif est de minimiser l'intervention humaine dans le fonctionnement collaboratif des systèmes de recommandation en automatisant l'exploitation des données brutes que constituent les avis en langage naturel. Notre approche non supervisée de segmentation thématique extrait les sujets d'intérêt des critiques, puis notre technique d'analyse de sentiments calcule l'opinion exprimée sur ces critères. Ces méthodes d'extraction de connaissances combinées à des outils d'analyse multicritère adaptés à la fusion d'avis d'experts ouvrent la voie à des systèmes de recommandation pertinents, fiables et personnalisés.

31

Ennaji, Abdellatif. "Classification et parallélisme en reconnaissance optique de caractères". Rouen, 1993. http://www.theses.fr/1993ROUES027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le travail présenté dans cette thèse se situe dans le cadre général de la reconnaissance automatique de texte, et aborde plus particulièrement les problèmes de classification et de reconnaissance des caractères dactylographiés multifontes. L'approche proposée repose sur la mise en coopération de trois méthodes de classification où chacune correspond a priori à un point de vue différent du caractère. Trois méthodologies différentes sont donc développées, basées sur trois représentations différentes du caractère. Le premier classifieur est un classifieur à plusieurs niveaux de décision. L'extraction des traits horizontaux et verticaux du caractère permet d'émettre des hypothèses de classes qui sont vérifiées en parcourant un arbre de décisions selon le résultat de tests appropriés. Le deuxième classifieur est basé sur une description du type chaîne de symboles obtenue à partir de l'image squelettisée du caractère. La classification est réalisée ensuite par le calcul de distances d'éditions entre la représentation du caractére à reconnaître et celles de caractères modèles. Enfin, la troisième approche est une approche connexionniste originale par réseaux d'yprels. Un réseau à structure incrémentale est construit pendant la phase d'apprentissage supervisé pour chaque classe. Le processeur élémentaire, ou yprel, utilisé a au plus deux entrées. Ces trois approches sont mises en coopération selon deux stratégies différentes et des résultats comparatifs pour ces trois approches ainsi que l'évaluation de l'apport de la coopération sont fournis sur une base de 3880 caractères de taille variable provenant de 11 fontes différentes (majuscules, minuscules et chiffres)

32

Lardier, Melody. "Système optoélectronique de reconnaissance multicapteurs par filtrage optique". Rennes 1, 2003. http://www.theses.fr/2003REN10117.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objectif de cette thèse était de concevoir un système optoélectronique de reconnaissance multi-capteurs (visible, infrarouge et radar), autour d'un corrélateur optique de type Vander Lugt. Pour améliorer les performances du corrélateur, nous avons d'une part conçu une nouvelle architecture compacte et, d'autre part, proposé de nouvelles fonctions de filtrage, sous la forme de filtres de phase pure binaires multi-références et/ou multi-classes (MBPOF) optimisés par des régions de support (ROS), permettant d'améliorer des critères de performance en détection, discrimination ou robustesse. Nous avons ensuite utilisé ces filtres pour traiter des images multi-capteurs et mettre en œuvre des techniques de fusion. Pour les images optroniques, nous avons envisagé une fusion d'images synchrones. Quant aux images radars, nous avons proposé de synthétiser une signature temporelle de séquences d'images RGD (Range Gate Doppler), en fusionnant des caractéristiques extraites par filtrage optique.

33

Benjelloun, Mohammed. "Etude théorique et expérimentale du filtrage numérique de l'image d'un texte en relief Braille pour sa transcription en texte noir". Lille 1, 1986. http://www.theses.fr/1986LIL10035.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Ce travail est consacré à l'étude des méthodes numériques de détection par acquisition du relief braille à l'aide d'une caméra et de traitement d'image dans une mémoire de trame dans le but de réaliser un nouveau système de transcription du texte braille noir. Tout d'abord, nous mettons en évidence différents problèmes posés par la reconnaissance du relief en présentant une étude statistique permettant une classification des caractères braille en fonction de la qualité d'embossage du relief compte tenu des conditions de mesures. Dans une seconde partie, nous rappelons différentes méthodes numériques qui permettent de fournir une solution théorique au problème de détection du relief braille. Nous mettons en oeuvre une première méthode de filtrage utilisant des compas directionnels (prewitt, kirsh) et des techniques de morphologie mathématique. Mais pour s'affranchir des fluctuations des niveaux de gris de la luminance dues aux propriétés photométriques des documents et pouvoir établir un seuil optimal de décision pour reconnaître l'information braille, nous définissons dans une troisième partie un modèle adapté à la forme du signal braille à l'aide de régression linéaire, capable de restituer 95% des documents dans le cas d'embossage manuel du relief et 99% de l'information dans le cas d'embossage mécanique du relief. Pour s'assurer de l'efficacité d'extraction du relief des masques fixés à régression linéaire, nous avons testé et estimé à l'aide du modèle leur robustesse face au bruit. Enfin, dans une quatrième partie , nous décrivons les particularités de l'architecture du nouveau système de transcription du texte braille en texte noir

34

Pitou, Cynthia. "Extraction d'informations textuelles au sein de documents numérisés : cas des factures". Thesis, La Réunion, 2017. http://www.theses.fr/2017LARE0015.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Le traitement automatique de documents consiste en la transformation dans un format compréhensible par un système informatique de données présentes au sein de documents et compréhensibles par l'Homme. L'analyse de document et la compréhension de documents sont les deux phases du processus de traitement automatique de documents. Étant donnée une image de document constituée de mots, de lignes et d'objets graphiques tels que des logos, l'analyse de documents consiste à extraire et isoler les mots, les lignes et les objets, puis à les regrouper au sein de blocs. Les différents blocs ainsi formés constituent la structure géométrique du document. La compréhension de documents fait correspondre à cette structure géométrique une structure logique en considérant des liaisons logiques (à gauche, à droite, au-dessus, en-dessous) entre les objets du document. Un système de traitement de documents doit être capable de : (i) localiser une information textuelle, (ii) identifier si cette information est pertinente par rapport aux autres informations contenues dans le document, (iii) extraire cette information dans un format compréhensible par un programme informatique. Pour la réalisation d'un tel système, les difficultés à surmonter sont liées à la variabilité des caractéristiques de documents, telles que le type (facture, formulaire, devis, rapport, etc.), la mise en page (police, style, agencement), la langue, la typographie et la qualité de numérisation du document. Dans ce mémoire, nous considérons en particulier des documents numérisés, également connus sous le nom d'images de documents. Plus précisément, nous nous intéressons à la localisation d'informations textuelles au sein d'images de factures, afin de les extraire à l'aide d'un moteur de reconnaissance de caractères. Les factures sont des documents très utilisés mais non standards. En effet, elles contiennent des informations obligatoires (le numéro de facture, le numéro siret de l'émetteur, les montants, etc.) qui, selon l'émetteur, peuvent être localisées à des endroits différents. Les contributions présentées dans ce mémoire s'inscrivent dans le cadre de la localisation et de l'extraction d'informations textuelles fondées sur des régions identifiées au sein d'une image de document.Tout d'abord, nous présentons une approche de décomposition d'une image de documents en sous-régions fondée sur la décomposition quadtree. Le principe de cette approche est de décomposer une image de documents en quatre sous-régions, de manière récursive, jusqu'à ce qu'une information textuelle d'intérêt soit extraite à l'aide d'un moteur de reconnaissance de caractères. La méthode fondée sur cette approche, que nous proposons, permet de déterminer efficacement les régions contenant une information d'intérêt à extraire.Dans une autre approche, incrémentale et plus flexible, nous proposons un système d'extraction d'informations textuelles qui consiste en un ensemble de régions prototypes et de chemins pour parcourir ces régions prototypes. Le cycle de vie de ce système comprend cinq étapes:- Construction d'un jeu de données synthétiques à partir d'images de factures réelles contenant les informations d'intérêts.- Partitionnement des données produites.- Détermination des régions prototypes à partir de la partition obtenue.- Détermination des chemins pour parcourir les régions prototypes, à partir du treillis de concepts d'un contexte formel convenablement construit.- Mise à jour du système de manière incrémentale suite à l'insertion de nouvelles données
Document processing is the transformation of a human understandable data in a computer system understandable format. Document analysis and understanding are the two phases of document processing. Considering a document containing lines, words and graphical objects such as logos, the analysis of such a document consists in extracting and isolating the words, lines and objects and then grouping them into blocks. The subsystem of document understanding builds relationships (to the right, left, above, below) between the blocks. A document processing system must be able to: locate textual information, identify if that information is relevant comparatively to other information contained in the document, extract that information in a computer system understandable format. For the realization of such a system, major difficulties arise from the variability of the documents characteristics, such as: the type (invoice, form, quotation, report, etc.), the layout (font, style, disposition), the language, the typography and the quality of scanning.This work is concerned with scanned documents, also known as document images. We are particularly interested in locating textual information in invoice images. Invoices are largely used and well regulated documents, but not unified. They contain mandatory information (invoice number, unique identifier of the issuing company, VAT amount, net amount, etc.) which, depending on the issuer, can take various locations in the document. The present work is in the framework of region-based textual information localization and extraction.First, we present a region-based method guided by quadtree decomposition. The principle of the method is to decompose the images of documents in four equals regions and each regions in four new regions and so on. Then, with a free optical character recognition (OCR) engine, we try to extract precise textual information in each region. A region containing a number of expected textual information is not decomposed further. Our method allows to determine accurately in document images, the regions containing text information that one wants to locate and retrieve quickly and efficiently.In another approach, we propose a textual information extraction model consisting in a set of prototype regions along with pathways for browsing through these prototype regions. The life cycle of the model comprises five steps:- Produce synthetic invoice data from real-world invoice images containing the textual information of interest, along with their spatial positions.- Partition the produced data.- Derive the prototype regions from the obtained partition clusters.- Derive pathways for browsing through the prototype regions, from the concept lattice of a suitably defined formal context.- Update incrementally the set of protype regions and the set of pathways, when one has to add additional data

35

Ghorbel, Adam. "Generalized Haar-like filters for document analysis : application to word spotting and text extraction from comics". Thesis, La Rochelle, 2016. http://www.theses.fr/2016LAROS008/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans cette thèse, nous avons proposé une approche analytique multi-échelle pour le word spotting dans les documents manuscrits. Le modèle proposé fonctionne selon deux niveaux différents. Un module de filtrage global permettant de définir plusieurs zones candidates de la requête dans le document testé. Ensuite, l’échelle de l’observation est modifiée à un niveau inférieur afin d’affiner les résultats et sélectionner uniquement ceux qui sont vraiment pertinents. Cette approche de word spotting est basée sur des familles généralisées de filtres de Haar qui s’adaptent à chaque requête pour procéder au processus de spotting et aussi sur un principe de vote qui permet de choisir l’emplacement spatial où les réponses générées par les filtres sont accumulées. Nous avons en plus proposé une autre approche pour l’extraction de texte du graphique dans les bandes dessinées. Cette approche se base essentiellement sur les caractéristiques pseudo-Haar qui sont générées par l’application des filtres généralisés de Haar sur l’image de bande dessinée. Cette approche est une approche analytique et ne nécessite aucun processus d’extraction ni des bulles ni d’autres composants
The presented thesis follows two directions. The first one disposes a technique for text and graphic separation in comics. The second one points out a learning free segmentation free word spotting framework based on the query-by-string problem for manuscript documents. The two approaches are based on human perception characteristics. Indeed, they were inspired by several characteristics of human vision such as the Preattentive processing. These characteristics guide us to introduce two multi scale approaches for two different document analysis tasks which are text extraction from comics and word spotting in manuscript document. These two approaches are based on applying generalized Haar-like filters globally on each document image whatever its type. Describing and detailing the use of such features throughout this thesis, we offer the researches of document image analysis field a new line of research that has to be more explored in future. The two approaches are layout segmentation free and the generalized Haar-like filters are applied globally on the image. Moreover, no binarization step of the processed document is done in order to avoid losing data that may influence the accuracy of the two frameworks. Indeed, any learning step is performed. Thus, we avoid the process of extraction features a priori which will be performed automatically, taking into consideration the different characteristics of the documents

36

Ghanmi, Nabil. "Segmentation d'images de documents manuscrits composites : application aux documents de chimie". Electronic Thesis or Diss., Université de Lorraine, 2016. http://www.theses.fr/2016LORR0109.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette thèse traite de la segmentation structurelle de documents issus de cahiers de chimie. Ce travail est utile pour les chimistes en vue de prendre connaissance des conditions des expériences réalisées. Les documents traités sont manuscrits, hétérogènes et multi-scripteurs. Bien que leur structure physique soit relativement simple, une succession de trois régions représentant : la formule chimique de l’expérience, le tableau des produits utilisés et un ou plusieurs paragraphes textuels décrivant le déroulement de l’expérience, les lignes limitrophes des régions portent souvent à confusion, ajouté à cela des irrégularités dans la disposition des cellules du tableau, rendant le travail de séparation un vrai défi. La méthodologie proposée tient compte de ces difficultés en opérant une segmentation à plusieurs niveaux de granularité, et en traitant la segmentation comme un problème de classification. D’abord, l’image du document est segmentée en structures linéaires à l’aide d’un lissage horizontal approprié. Le seuil horizontal combiné avec une tolérance verticale avantage le regroupement des éléments fragmentés de la formule sans trop fusionner le texte. Ces structures linéaires sont classées en Texte ou Graphique en s’appuyant sur des descripteurs structurels spécifiques, caractéristiques des deux classes. Ensuite, la segmentation est poursuivie sur les lignes textuelles pour séparer les lignes du tableau de celles de la description. Nous avons proposé pour cette classification un modèle CAC qui permet de déterminer la séquence optimale d’étiquettes associées à la séquence des lignes d’un document. Le choix de ce type de modèle a été motivé par sa capacité à absorber la variabilité des lignes et à exploiter les informations contextuelles. Enfin, pour le problème de la segmentation de tableaux en cellules, nous avons proposé une méthode hybride qui fait coopérer deux niveaux d’analyse : structurel et syntaxique. Le premier s’appuie sur la présence des lignes graphiques et de l’alignement de texte et d’espaces ; et le deuxième tend à exploiter la cohérence de la syntaxe très réglementée du contenu des cellules. Nous avons proposé, dans ce cadre, une approche contextuelle pour localiser les champs numériques dans le tableau, avec reconnaissance des chiffres isolés et connectés. La thèse étant effectuée dans le cadre d’une convention CIFRE, en collaboration avec la société eNovalys, nous avons implémenté et testé les différentes étapes du système sur une base conséquente de documents de chimie
This thesis deals with chemistry document segmentation and structure analysis. This work aims to help chemists by providing the information on the experiments which have already been carried out. The documents are handwritten, heterogeneous and multi-writers. Although their physical structure is relatively simple, since it consists of a succession of three regions representing: the chemical formula of the experiment, a table of the used products and one or more text blocks describing the experimental procedure, several difficulties are encountered. In fact, the lines located at the region boundaries and the imperfections of the table layout make the separation task a real challenge. The proposed methodology takes into account these difficulties by performing segmentation at several levels and treating the region separation as a classification problem. First, the document image is segmented into linear structures using an appropriate horizontal smoothing. The horizontal threshold combined with a vertical overlapping tolerance favor the consolidation of fragmented elements of the formula without too merge the text. These linear structures are classified in text or graphic based on discriminant structural features. Then, the segmentation is continued on text lines to separate the rows of the table from the lines of the raw text locks. We proposed for this classification, a CRF model for determining the optimal labelling of the line sequence. The choice of this kind of model has been motivated by its ability to absorb the variability of lines and to exploit contextual information. For the segmentation of table into cells, we proposed a hybrid method that includes two levels of analysis: structural and syntactic. The first relies on the presence of graphic lines and the alignment of both text and spaces. The second tends to exploit the coherence of the cell content syntax. We proposed, in this context, a Recognition-based approach using contextual knowledge to detect the numeric fields present in the table. The thesis was carried out in the framework of CIFRE, in collaboration with the eNovalys campany.We have implemented and tested all the steps of the proposed system on a consequent dataset of chemistry documents

37

Moradkhan, Romel. "Détection des points critiques d'une forme : application à la reconnaissance de caractères manuscrits". Paris 9, 1993. https://portail.bu.dauphine.fr/fileviewer/index.php?doc=1993PA090012.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La représentation de formes bidimensionnelles au moyen de leurs contours est d'un grand intérêt car beaucoup d'objets, par exemple les caractères manuscrits ou imprimés, peuvent être reconnus à partir de leur contour. La détection des points les plus significatifs (critiques) d'un contour digitalisé continue à être un domaine important de recherche du fait de sa complexité et de ces promesses. La première partie de notre travail est consacrée aux méthodes de détection des points critiques des contours digitalisés. Nous proposons deux nouvelles méthodes: la première est basée sur la notion de Co angularité; la deuxième sur la notion d'axe de symétrie. Dans la deuxième partie nous traitons du problème de la reconnaissance de caractères manuscrits à partir de leur contour. Nous avons proposé un algorithme de reconnaissance hiérarchique basé sur l'appariement structurel flexible et continu
The représentation of two-dimensional patterns by their contours is of great importance since many patterns, such as hand-written or printed characters, can be recognized by their contours. Because of its complexity the détection of dominant points of digitalized contours continues to be an important area of research. The first part of our work covers dominant point détection methods of digitalized curves (contours). After a survey of existing techniques we propose two new and efficient methods: the first is based on the notion of "co-angularity"; the second on the notion of "axis of symmetry". In the second part we focus on the problem of hand-written character récognition. We have proposed a hierarchical algorithm based on ctural matching which is both flexible and continuous

38

Loy, Wee Wang Landau I. D. "Reconnaissance en ligne de caractères alphanumériques manuscrits". S. l. : Université Grenoble 1, 2008. http://tel.archives-ouvertes.fr/tel-00297291.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

39

Ambs, Pierre. "Traitement de l'information par processeurs optiques : application à la reconnaissance de formes". Mulhouse, 1987. http://www.theses.fr/1987MULH0049.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Réalisation d'un processeur du type corrélateur incohérent basé sur un filtre holographique du type kinoform pour la reconnaissance en temps réel de traces dans une expérience de physique des particules. La transformée de Hough est une autre approche pour la reconnaissance des courbes. Son implantation optique avec une matrice d'hologrammes variant dans l'espace qui a été réalisée, permet son utilisation en temps réel pour des images de 256 fois 256 points. La robotique est l'une des applications de ce processeur

40

Yao, Jianping. "Algorithmes pour la reconnaissance de formes optique invariante aux distorsions". Toulon, 1997. http://www.theses.fr/1997TOUL0014.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'objet de cette etude est d'etendre les possibilites des correlateurs optiques coherents pour l'invariance aux distorsions, par l'amelioration d'algorithmes existants et la recherche de solutions nouvelles. La premiere partie presente une revue detaillee de la reconnaissance de formes en optique coherente. Les architectures de base des correlateurs sont d'abord examinees, en s'attachant surtout aux filtres non lineaires pour l'amelioration des performances de correlation. On etudie ensuite les deux approches classiques pour l'invariance aux distorsions : decomposition harmonique et fonction synthetique discriminante. La seconde partie est une etude approfondie du filtre harmonique radial (invariance a l'echelle), dont l'expression theorique est revue et completee, avec une nouvelle methode de selection du centre d'expansion et du rang de l'harmonique. Des solutions originales sont presentees pour ameliorer les performances, utilisant detection de contour, filtrage de phase pure, ou divers filtres non-lineaires (combinaison de filtres harmoniques ou filtre de phase a frequences selectives). Ces ameliorations seront ensuite appliquees a d'autres filtres invariants. La troisieme partie presente deux approches nouvelles pour l'invariance a plusieurs parametres. La premiere, invariante a l'echelle verticale et horizontale, est une fonction synthetique discriminante construite avec des composants de meme ordre d'une decomposition harmonique logarithmique unidimensionnelle, reduisant le nombre d'images d'apprentissage. La seconde approche realise en outre l'invariance en rotation, grace a l'estimation prealable des parametres de rotation, echelle et projection d'axe quelconque, permettant la correction de l'image avant sa correlation avec une banque de modeles aux dimensions normalisees. Cette derniere methode, qui utilise tout le contenu de l'objet, offre des performances meilleures que le filtrage harmonique invariant a un seul parametre.

41

Ben, Tara Walid. "Reconnaissance invariante sous tranformations d'intensité : étude de performances". Master's thesis, Université Laval, 2008. http://hdl.handle.net/20.500.11794/20452.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

On présente dans ce qui suit une étude détaillée de la performance du LACIF (locally adaptive contrast invariant filter), qui est à la base un filtre non linéaire invariant sous transformation linéaire d'intensité de la forme± af(x, y) + bO(x, y) ¿, où± f(x, y) ¿est l'objet à reconnaitre et± O(x, y) ¿ son support. ± a ¿ et ± b ¿ sont respectivement les facteurs multiplicatif et additif du changement d'intensité. Ainsi l'étude de performance est établie sous différents aspects et par le biais de différents outils qu'on a adopté tout au long de ce mémoire.

42

Poulard, Fabien B. "Détection de dérivation de texte". Nantes, 2011. http://www.theses.fr/2011NANT2023.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identifcation des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la défiinition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle multidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse
Thanks to the Internet, the production and publication of content is possible with ease and speed. This possibility raises the issue of controling the origins of this content. This work focuses on detecting derivation links between texts. A derivation link associates a derivative text and the pre-existing texts from which it was written. We focused on the task of identifying derivative texts given a source text for various forms of derivation. Our rst contribution is the denition of a theoretical framework denes the concept of derivation as well as a model framing the dierent forms of derivation. Then, we set up an experimental framework consisting of free software tools, evaluation corpora and evaluation metrics based on IR. The Piithie and Wikinews corpora we have developed are to our knowledge the only ones in French for the evaluation of the detection of derivation links. Finally, we explored dierent methods of detection based on the signature-based approach. In particular, we have introduced the notions of specicity and invariance to guide the choice of descriptors used to modelize the texts in the expectation of their comparison. Our results show that the choice of motivated descriptors, including linguistically motivated ones, can reduce the size of the modelization of texts, and therefore the cost of the method, while oering performances comparable to the much more voluminous state of the art approach

43

Yatim, Farhat. "Reconnaissance de caractères multifontes par une structure pluri-procédures". Lille 1, 1988. http://www.theses.fr/1988LIL10033.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La structure proposée a pour but de réduire le temps de reconnaissance de caractères dans le texte. Dans un premier temps, une méthode générale de reconnaissance multifonte a été développée, dont le premier niveau de décision est basé sur la position des points caractéristiques du squelette. Dans un second temps, deux méthodes plus rapides que la méthode générale ont été retenues et puis adaptées. Elles permettent la reconnaissance de seulement quelques caractères. Cinq procédures, qui mettent en jeu la méthode générale couplée éventuellement à l'une ou à l'autre ou aux deux méthodes rapides, sont disponibles.

44

Le, Berre Guillaume. "Vers la mitigation des biais en traitement neuronal des langues". Electronic Thesis or Diss., Université de Lorraine, 2023. http://www.theses.fr/2023LORR0074.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Il est de notoriété que les modèles d'apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l'apprentissage. Ces biais qui peuvent être définis comme de l'information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures: on peut par exemple trouver des biais dans les styles d'écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l'origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d'annotation lui-même. Ma thèse a pour sujet l'étude de ces biais et, en particulier, s'organise autour de la mitigation des effets des biais sur l'apprentissage des modèles de Traitement Automatique des Langues (TAL). J'ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais. Ma thèse s'organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d'utiliser les biais présents dans une base de données de résumé automatique afin d'augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m'intéresse à la génération automatique d'une base de données d'entraînement pour la tâche de question-réponse à choix multiples. L'intérêt d'une telle méthode de génération est qu'elle permet de ne pas faire appel à des annotateurs et donc d'éliminer les biais venant de ceux-ci dans les données. Finalement, je m'intéresse à l'entraînement d'un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu'il est possible d'augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement
It is well known that deep learning models are sensitive to biases that may be present in the data used for training. These biases, which can be defined as useless or detrimental information for the task in question, can be of different kinds: one can, for example, find biases in the writing styles used, but also much more problematic biases relating to the sex or ethnic origin of individuals. These biases can come from different sources, such as annotators who created the databases, or from the annotation process itself. My thesis deals with the study of these biases and, in particular, is organized around the mitigation of the effects of biases on the training of Natural Language Processing (NLP) models. In particular, I have worked a lot with pre-trained models such as BERT, RoBERTa or UnifiedQA which have become essential in recent years in all areas of NLP and which, despite their extensive pre-training, are very sensitive to these bias problems.My thesis is organized in three parts, each presenting a different way of managing the biases present in the data. The first part presents a method allowing to use the biases present in an automatic summary database in order to increase the variability and the controllability of the generated summaries. Then, in the second part, I am interested in the automatic generation of a training dataset for the multiple-choice question-answering task. The advantage of such a generation method is that it makes it possible not to call on annotators and therefore to eliminate the biases coming from them in the data. Finally, I am interested in training a multitasking model for optical text recognition. I show in this last part that it is possible to increase the performance of our models by using different types of data (handwritten and typed) during their training

45

Al, Falou Ayman. "Implantation optique de correlateurs multivoies appliques a la reconnaissance des formes". Rennes 1, 1999. http://www.theses.fr/1999REN10099.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

La these s'interesse a l'etude sous un angle experimental des correlateurs optiques pour la multicorrelation. Differentes solutions ont ete envisagees. La solution retenue est celle qui se prete le mieux a la realisation d'un correlateur optique compact et a plusieurs voies reconfigurables. Dans un premier temps l'etude porte sur la realisation et l'evaluation des performances de correlateurs multivoies, ou les differentes voies sont physiquement separees. Le caractere non reconfigurable de ces architectures tient a ce que l'eclatement du spectre dans le plan de fourier en voies multiples, utilise un reseau fixe en entree. Apres avoir evalue les possibilites de reconfigurabilite des differentes architectures, nous avons choisi un correlateur a filtre de phase pure. La reconfigurabilite d'une telle architecture pose de nombreux problemes. L'etude s'est alors orientee vers les architectures du type filtres composites, ou la reconfigurabilite introduite dans le plan de fourier est plus facile a mettre en uvre car faite par le biais du filtre. Les differentes references se superposent dans ce dernier, mais sont assorties d'une porteuse differente. Cela pose evidemment le probleme du codage de l'information dans le plan de fourier, probleme d'autant plus aigu que dans ce plan on procede a une binarisation. Pour optimiser au mieux ce probleme, differents schemas de gestion du plan de fourier ont ete proposes. Une adaptation des filtres composites a la correlation est realisee d'une part par les filtres composites multivoies et d'autres part par le filtre composite segmente. Les performances de ces deux algorithmes sont alors comparees. Le deuxieme qui presente des proprietes plus interessantes, est retenu dans la realisation d'un correlateur compact multivoies dont les performances en termes de nombre de correlations et de vitesse sont evaluees par des simulations et des tests optiques.

46

Bastos, Dos Santos José Eduardo. "L'identification de texte en images de chèques bancaires brésiliens". Compiègne, 2003. http://www.theses.fr/2003COMP1453.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'identification et la distinction textuelle dans des images de documents sont des tâches dont les solutions actueles sont fortement basées sur l'emploi des informations contextuelles, comme par exemple des informations du layout ou bien de la structure physique. Dans ce travail on a exploité une option pour cette tâche basée uniquement sur des caractéristiques extraites exclusivement des elements textuels, ce qui accorde plus d'indépendance au procès. Le travail dans sa totalité a été développé en prenant compte des élements textuels fraccionés en petits échantillons de façon à proposer une alternative pour les questions concernant l'échelle et aussi la superposition. A partir de ces échantillons on extrait un ensemble de caractéristiques chargés de fournir les données d'entrée à um classifieur dont les tâches principales sont l'extraction du texte du document ainsi que la distinction entre texte manuscrit et texte imprimé. En outre, étant donné qu'on n'utilise que des informations extraites directement des élements textuels, le procès prend un caractère plus indépendant car il ne répose sur l'emploi d'aucune heuristique ou information à priori à propos du document traité. Des résultats dans l'ordre de 93% de classification correcte démontre l'éfficacité du procès
Identifying and distinguishing text in document images are tasks whose cat!Jal solutions are mainly based on using contextual informations, like layout informations or informations from the phisical structure. Ln this research work, an alternative for this task is investigated based only in features observed from textual elements, giving more independency to the process. The hole process was developped considering textual elements fragmented in sm ail portions(samples) in order to provide an alternative solution to questions Iike scale and textual elements overlapping. From these samples, a set of features is extracted and serves as input to a classifyer maily chrged with textual extraction from the document and also the distinguish between handwritting and machine-printed text. Moreover, sinGe the only informations emplyed is observed directly from textual elements, the process assumes a character more independent as it doesn't use any heuristics nor à priori information of the treated document. Results around 93% of correct classification confirms the efficacy of the process

47

Elagouni, Khaoula. "Combinaison d'approches neuronales et de connaissances linguistiques pour la reconnaissance de texte dans les documents multimédias". Phd thesis, INSA de Rennes, 2013. http://tel.archives-ouvertes.fr/tel-00864923.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux de cette thèse portent sur la reconnaissance des indices textuels dans les images et les vidéos. Dans ce cadre, nous avons conçu des prototypes d'OCR (optical character recognition) capables de reconnaître tant des textes incrustés que des textes de scène acquis n'importe où au sein d'images ou de vidéos. Nous nous sommes intéressée à la définition d'approches robustes à la variabilité des textes et aux conditions d'acquisition. Plus précisément, nous avons proposé deux types de méthodes dédiées à la reconnaissance de texte : - une approche fondée sur une segmentation en caractères qui recherche des séparations non linéaires entre les caractères adaptées à la morphologie de ces derniers ; - deux approches se passant de la segmentation en intégrant un processus de scanning multi-échelles ; la première utilise un modèle de graphe pour reconnaître les textes tandis que la seconde intègre un modèle connexionniste récurrent spécifiquement développé pour gérer les contraintes spatiales entre les caractères.Outre les originalités de chacune des approches, deux contributions supplémentaires de ce travail résident dans la définition d'une reconnaissance de caractères fondée sur un modèle de classification neuronale et l'intégration de certaines connaissances linguistiques permettant de tirer profit du contexte lexical. Les différentes méthodes conçues ont été évaluées sur deux bases de documents : une base de textes incrustés dans des vidéos et une base publique de textes de scène. Les expérimentations ont permis de montrer la robustesse des approches et de comparer leurs performances à celles de l'état de l'art, mettant en évidence leurs avantages et leurs limites.

48

Chauvet, Philippe. "Système d'analyse, reconnaissance et description de documents complexes /". Paris : Ecole nationale supérieure des télécommunications, 1993. http://catalogue.bnf.fr/ark:/12148/cb35562138m.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

49

Duhem, Olivier. "Contribution à l'étude de composants de l'optique guidée associant des cristaux liquides [Texte imprimé]". Artois, 1999. http://www.theses.fr/1999ARTO0403.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les travaux présentés concernent l'étude de différentes propriétés des réseaux de Bragg photoinscrits à longue période (LPG) et des amincissements biconiques locaux (Tapers). Le premier chapitre est ainsi dévolu à l'analyse théorique complète des LPG. En plus de l'analyse classique, ce chapitre comporte un modèle permettant de comprendre le comportement d'un LPG en présence d'un milieu extérieur d'indice supérieur à la silice. Les pertes par réfraction dans la gaine nous ont contraints à développer une analyse basée sur l'emploi combinée d'une approche modale et géométrique. Cette analyse s'appuie sur la notion de mode de gaine atténué permettant de caractériser la propagation en configuration fuyante. L'approche géométrique permet de caractériser les pertes en telle configuration en fonction des coefficients de transmission de Fresnel. Le modèle établi permet ainsi d'exprimer les intensités de couplage en fonction de l'indice extérieur. Le second chapitre est consacré à l'étude expérimentale des LPG. En particulier, la photoinscription dans plusieurs fibres à maintien de polarisation a été entreprise. Un dédoublement des couplages dû aux propriétés de polarisation de coeur a été observé. Ce dédoublement permettant de rejeter une polarisation de coeur, la conception de polariseurs tout-fibrés à base de LPG a ainsi été démontré. Dans la seconde partie de ce chapitre, nous nous sommes intéressés à l'étude expérimentale des LPG en présence d'un indice supérieur à la silice. Cette étude a permis de valider notre modèle théorique. Le troisième chapitre propose une application utilisant l'association d'un cristal liquide et d'un LPG. Les résultats présentés font état d'une modulation exclusive des intensités de couplage de 20 % grâce à la réorientation électrique d'un cristal liquide nématique d'indices supérieurs à la silice (l'étude menée dans les chapitres précédents montrant la possibilité de couplages en configuration fuyante). Le dernier chapitre concerne l'étude des tapers et de leur association avec un cristal liquide également dans le but d'une modulation. Les tapers fabriqués à partir d'une soudeuse de fibres n'étant pas adiabatiques, nous nous sommes focalisés sur l'étude de l'alignement et de la réorientation du cristal liquide directement à l'interface avec le taper. Une méthode optique basée sur la visualisation des fuites latérales dans un cristal liquide d'indices supérieurs à la silice nous a permis de démontrer un alignement et une réorientation effectives à proximité de la fibre.

50

Fasquel, Jean-Baptiste. "Une méthode opto-informatique de détection et de reconnaissance d'objets d'intérêt : Application à la détection des lésions cancéreuses du foie et à la vérification en temps-réel des signatures manuscrites". Université Louis Pasteur (Strasbourg) (1971-2008), 2002. http://www.theses.fr/2002STR13234.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Compte tenu des récents progrès technologiques, les processeurs optiques s'avèrent plus rapides que des processeurs numériques spécialisés, principalement dans le cas de traitements fondés sur des filtrages linéaires. L'objectif de cette thèse est de montrer, dans un cadre applicatif, le potentiel du couplage optimisé d'un dispositif numérique spécialisé à un corrélateur optique de Vander Lugt en proposant une méthode hybride " opto-informatique " originale de détection et de reconnaissance d'objets d'intérêt. La méthode originale de détection repose sur une recombinaison statistique numérique d'une série de lissages optiques, au sein de régions d'intérêt préalablement détectées par des techniques hybrides rapides. Nous montrons que cette méthode hybride permet la détection non supervisée d'objets d'intérêt bruités et de tailles variables. Des résultats expérimentaux montrent son potentiel pour la détection rapide des lésions cancéreuses du foie. La méthode originale de reconnaissance, dédiée à la vérification rapide des signatures manuscrites, consiste à fusionner plusieurs classifieurs statistiques. Chacun d'eux repose sur une série de filtrages spécifiques implémentables optiquement et permettant de mesurer la ressemblance entre des structures constitutives de la signature analysée et de signatures de référence. Les différentes décisions ainsi que leur fusion sont effectuées par voie numérique. Les résultats expérimentaux valident la méthode hybride proposée
Due to recent technological advances, optical processors become faster than specialized digital processors, essentially for linear filterings. The purpose of this thesis is to point out, for two applications, the potential of the coupling of a specialized digital processor with a Vander Lugt optical correlator, by developping an original hybrid " opto-electronic " method for object detection and recognition. The proposed object detection method is based on the digital statistical recombination of a set of optical smoothings, within regions of interest which are previously detected using a fast hybrid technique. It is shown that this hybrid method allows the unsupervised detection of noisy objects of varying sizes. Experimental results validate its potential for the fast detection of liver tumors. The proposed object recognition method, dedicated to the fast verification of handwritten signatures, consists in several statistical classifiers. Each one is based on a set of specific optical filterings allowing to measure the similarity between underlying structures of the signature to be verified and the reference signatures. The different decisions and their fusion are performed with a digital processor. Experimental results validate the proposed hybrid object recognition method

Tesi sul tema "Reconnaissance optique de texte"

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili