Academic literature on the topic 'Handwriting text recognition'
Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles
Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Handwriting text recognition.'
Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.
You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.
Journal articles on the topic "Handwriting text recognition"
Devaraj, Anjali Yogesh, Anup S. Jain, Omisha N, and Shobana TS. "Kannada Text Recognition." International Journal for Research in Applied Science and Engineering Technology 10, no. 9 (September 30, 2022): 73–78. http://dx.doi.org/10.22214/ijraset.2022.46520.
Full textTran, Dat, Wanli Ma, and Dharmendra Sharma. "Handwriting Recognition Applications for Tablet PCs." Journal of Advanced Computational Intelligence and Intelligent Informatics 11, no. 7 (September 20, 2007): 787–92. http://dx.doi.org/10.20965/jaciii.2007.p0787.
Full textXiong, Yu-Jie, Li Liu, Shujing Lyu, Patrick S. P. Wang, and Yue Lu. "Improving Text-Independent Chinese Writer Identification with the Aid of Character Pairs." International Journal of Pattern Recognition and Artificial Intelligence 33, no. 02 (October 24, 2018): 1953001. http://dx.doi.org/10.1142/s021800141953001x.
Full textRam Kumar, R. P., A. Chandra Prasad, K. Vishnuvardhan, K. Bhuvanesh, and Sanjeev Dhama. "Automated Handwritten Text Recognition." E3S Web of Conferences 430 (2023): 01022. http://dx.doi.org/10.1051/e3sconf/202343001022.
Full textBazarkulova, Aisaule. "KAZAKH HANDWRITING RECOGNITION." Suleyman Demirel University Bulletin Natural and Technical Sciences 62, no. 1 (October 15, 2024): 88–102. https://doi.org/10.47344/sdubnts.v62i1.963.
Full textDilmurat, Halmurat, and Kurban Ubul. "Design and Realization of On-Line Uyghur Handwritten Character Collection System." Advanced Materials Research 989-994 (July 2014): 4742–46. http://dx.doi.org/10.4028/www.scientific.net/amr.989-994.4742.
Full textShonenkov, A. V., D. K. Karachev, M. Y. Novopoltsev, M. S. Potanin, D. V. Dimitrov, and A. V. Chertok. "Handwritten text generation and strikethrough characters augmentation." Computer Optics 46, no. 3 (June 2022): 455–64. http://dx.doi.org/10.18287/2412-6179-co-1049.
Full textKaur, Amrit Veer, and Amandeep Verma. "Hybrid Wavelet based Technique for Text Extraction from Images." International Journal of Advanced Research in Computer Science and Software Engineering 7, no. 9 (October 31, 2017): 24. http://dx.doi.org/10.23956/ijarcsse.v7i9.406.
Full textPittman, James A. "Handwriting Recognition: Tablet PC Text Input." Computer 40, no. 9 (September 2007): 49–54. http://dx.doi.org/10.1109/mc.2007.314.
Full textKumar, J., and A. Roy. "DograNet – a comprehensive offline dogra handwriting character dataset." Journal of Physics: Conference Series 2251, no. 1 (April 1, 2022): 012008. http://dx.doi.org/10.1088/1742-6596/2251/1/012008.
Full textDissertations / Theses on the topic "Handwriting text recognition"
Wigington, Curtis Michael. "End-to-End Full-Page Handwriting Recognition." BYU ScholarsArchive, 2018. https://scholarsarchive.byu.edu/etd/7099.
Full textElmgren, Rasmus. "Handwriting in VR as a Text Input Method." Thesis, KTH, Skolan för datavetenskap och kommunikation (CSC), 2017. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-208646.
Full textVirtual Reality (VR) applikationer har olika tillvägagångssätt för textinmatning och det finns ingen tydlig standard hur användaren matar in text i VR. Textinmatning är viktigt när användaren ska dokumentera, kommunicera eller logga in. Målet med studien var att jämföra en inmatningsmetod baserad på handskrift med det de facto standard virtuella tangentbordet och se vilken inmatningsmetod användarna föredrog. En prototyp som använde handskrift byggdes med hjälp av Tesseract för textinmatning och Unity för att skapa en virtuell miljö. Prototypen jämfördes sedan med det virtuella tangentbordet i en användarstudie. Användarstudien bestod av uppmätt tid samt antal fel, en enkät och en intervju. Enkäten grundades på användarbarhet, önskvärdhet och Sutcliffes utvärderingsheuristik av virtuella miljöer. Resultatet visar att det virtuella tangentbordet presterade bättre, handskriftsmetoden presterade endast bättre på att engagera användaren. Resultatet från intervjuerna styrkte också att handskriftsmetoden var roligare och mer engagerande att använda men inte lika användbar. Framtida studier föreslås i diskussionen samt varför användarna föredrog det virtuella tangentbordet.
Han, Changan. "Neural Network Based Off-line Handwritten Text Recognition System." FIU Digital Commons, 2011. http://digitalcommons.fiu.edu/etd/363.
Full textBluche, Théodore. "Deep Neural Networks for Large Vocabulary Handwritten Text Recognition." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112062/document.
Full textThe automatic transcription of text in handwritten documents has many applications, from automatic document processing, to indexing and document understanding. One of the most popular approaches nowadays consists in scanning the text line image with a sliding window, from which features are extracted, and modeled by Hidden Markov Models (HMMs). Associated with neural networks, such as Multi-Layer Perceptrons (MLPs) or Long Short-Term Memory Recurrent Neural Networks (LSTM-RNNs), and with a language model, these models yield good transcriptions. On the other hand, in many machine learning applications, including speech recognition and computer vision, deep neural networks consisting of several hidden layers recently produced a significant reduction of error rates. In this thesis, we have conducted a thorough study of different aspects of optical models based on deep neural networks in the hybrid neural network / HMM scheme, in order to better understand and evaluate their relative importance. First, we show that deep neural networks produce consistent and significant improvements over networks with one or two hidden layers, independently of the kind of neural network, MLP or RNN, and of input, handcrafted features or pixels. Then, we show that deep neural networks with pixel inputs compete with those using handcrafted features, and that depth plays an important role in the reduction of the performance gap between the two kinds of inputs, supporting the idea that deep neural networks effectively build hierarchical and relevant representations of their inputs, and that features are automatically learnt on the way. Despite the dominance of LSTM-RNNs in the recent literature of handwriting recognition, we show that deep MLPs achieve comparable results. Moreover, we evaluated different training criteria. With sequence-discriminative training, we report similar improvements for MLP/HMMs as those observed in speech recognition. We also show how the Connectionist Temporal Classification framework is especially suited to RNNs. Finally, the novel dropout technique to regularize neural networks was recently applied to LSTM-RNNs. We tested its effect at different positions in LSTM-RNNs, thus extending previous works, and we show that its relative position to the recurrent connections is important. We conducted the experiments on three public databases, representing two languages (English and French) and two epochs, using different kinds of neural network inputs: handcrafted features and pixels. We validated our approach by taking part to the HTRtS contest in 2014. The results of the final systems presented in this thesis, namely MLPs and RNNs, with handcrafted feature or pixel inputs, are comparable to the state-of-the-art on Rimes and IAM. Moreover, the combination of these systems outperformed all published results on the considered databases
España, Boquera Salvador. "Contributions to the joint segmentation and classification of sequences (My two cents on decoding and handwriting recognition)." Doctoral thesis, Universitat Politècnica de València, 2016. http://hdl.handle.net/10251/62215.
Full text[ES] Este trabajo se centra en problemas (como reconocimiento automático del habla (ASR) o de escritura manuscrita (HTR)) que cumplen: 1) pueden representarse (quizás aproximadamente) en términos de secuencias unidimensionales, 2) su resolución implica descomponer la secuencia en segmentos que se pueden clasificar en un conjunto finito de unidades. Las tareas de segmentación y de clasificación necesarias están tan intrínsecamente interrelacionadas ("paradoja de Sayre") que deben realizarse conjuntamente. Nos hemos inspirado en lo que algunos autores denominan "La trilogía exitosa", refereido a la sinergia obtenida cuando se tiene: - un buen formalismo, que dé lugar a buenos algoritmos; - un diseño e implementación ingeniosos y eficientes, que saquen provecho de las características del hardware; - no descuidar el "saber hacer" de la tarea, un buen preproceso y el ajuste adecuado de los diversos parámetros. Describimos y estudiamos "modelos generativos en dos etapas" sin reordenamientos (TSGMs), que incluyen no sólo los modelos ocultos de Markov (HMM), sino también modelos segmentales (SMs). Se puede obtener un decodificador de "dos pasos" considerando a la inversa un TSGM introduciendo no determinismo: 1) se genera un grafo acíclico dirigido (DAG) y 2) se utiliza conjuntamente con un modelo de lenguaje (LM). El decodificador de "un paso" es un caso particular. Se formaliza el proceso de decodificación con ecuaciones de lenguajes y semianillos, se propone el uso de redes de transición recurrente (RTNs) como forma normal de gramáticas de contexto libre (CFGs) y se utiliza el paradigma de análisis por composición de manera que el análisis de CFGs resulta una extensión del análisis de FSA. Se proponen algoritmos de composición de transductores que permite el uso de RTNs y que no necesita recurrir a composición de filtros incluso en presencia de transiciones nulas y semianillos no idempotentes. Se propone una extensa revisión de LMs y algunas contribuciones relacionadas con su interfaz, con su representación y con la evaluación de LMs basados en redes neuronales (NNLMs). Se ha realizado una revisión de SMs que incluye SMs basados en combinación de modelos generativos y discriminativos, así como un esquema general de tipos de emisión de tramas y de SMs. Se proponen versiones especializadas del algoritmo de Viterbi para modelos de léxico y que manipulan estados activos sin recurrir a estructuras de tipo diccionario, sacando provecho de la caché. Se ha propuesto una arquitectura "dataflow" para obtener reconocedores a partir de un pequeño conjunto de piezas básicas con un protocolo de serialización de DAGs. Describimos generadores de DAGs que pueden tener en cuenta restricciones sobre la segmentación, utilizar modelos segmentales no limitados a HMMs, hacer uso de los decodificadores especializados propuestos en este trabajo y utilizar un transductor de control que permite el uso de unidades dependientes del contexto. Los decodificadores de DAGs hacen uso de un interfaz bastante general de LMs que ha sido extendido para permitir el uso de RTNs. Se proponen también mejoras para reconocedores "un paso" basados en algoritmos especializados para léxicos y en la interfaz de LMs en modo "bunch", así como su paralelización. La parte experimental está centrada en HTR en diversas modalidades de adquisición (offline, bimodal). Hemos propuesto técnicas novedosas para el preproceso de escritura que evita el uso de heurísticos geométricos. En su lugar, utiliza redes neuronales. Se ha probado con HMMs hibridados con redes neuronales consiguiendo, para la base de datos IAM, algunos de los mejores resultados publicados. También podemos mencionar el uso de información de sobre-segmentación, aproximaciones sin restricción de un léxico, experimentos con datos bimodales o la combinación de HMMs híbridos con reconocedores de tipo holístico.
[CAT] Aquest treball es centra en problemes (com el reconeiximent automàtic de la parla (ASR) o de l'escriptura manuscrita (HTR)) on: 1) les dades es poden representar (almenys aproximadament) mitjançant seqüències unidimensionals, 2) cal descompondre la seqüència en segments que poden pertanyer a un nombre finit de tipus. Sovint, ambdues tasques es relacionen de manera tan estreta que resulta impossible separar-les ("paradoxa de Sayre") i s'han de realitzar de manera conjunta. Ens hem inspirat pel que alguns autors anomenen "trilogia exitosa", referit a la sinèrgia obtinguda quan prenim en compte: - un bon formalisme, que done lloc a bons algorismes; - un diseny i una implementació eficients, amb ingeni, que facen bon us de les particularitats del maquinari; - no perdre de vista el "saber fer", emprar un preprocés adequat i fer bon us dels diversos paràmetres. Descrivim i estudiem "models generatiu amb dues etapes" sense reordenaments (TSGMs), que inclouen no sols inclouen els models ocults de Markov (HMM), sinò també models segmentals (SM). Es pot obtindre un decodificador "en dues etapes" considerant a l'inrevés un TSGM introduint no determinisme: 1) es genera un graf acíclic dirigit (DAG) que 2) és emprat conjuntament amb un model de llenguatge (LM). El decodificador "d'un pas" en és un cas particular. Descrivim i formalitzem del procés de decodificació basada en equacions de llenguatges i en semianells. Proposem emprar xarxes de transició recurrent (RTNs) com forma normal de gramàtiques incontextuals (CFGs) i s'empra el paradigma d'anàlisi sintàctic mitjançant composició de manera que l'anàlisi de CFGs resulta una lleugera extensió de l'anàlisi de FSA. Es proposen algorismes de composició de transductors que poden emprar RTNs i que no necessiten recorrer a la composició amb filtres fins i tot amb transicions nul.les i semianells no idempotents. Es proposa una extensa revisió de LMs i algunes contribucions relacionades amb la seva interfície, amb la seva representació i amb l'avaluació de LMs basats en xarxes neuronals (NNLMs). S'ha realitzat una revisió de SMs que inclou SMs basats en la combinació de models generatius i discriminatius, així com un esquema general de tipus d'emissió de trames i altre de SMs. Es proposen versions especialitzades de l'algorisme de Viterbi per a models de lèxic que permeten emprar estats actius sense haver de recórrer a estructures de dades de tipus diccionari, i que trauen profit de la caché. S'ha proposat una arquitectura de flux de dades o "dataflow" per obtindre diversos reconeixedors a partir d'un xicotet conjunt de peces amb un protocol de serialització de DAGs. Descrivim generadors de DAGs capaços de tindre en compte restriccions sobre la segmentació, emprar models segmentals no limitats a HMMs, fer us dels decodificadors especialitzats proposats en aquest treball i emprar un transductor de control que permet emprar unitats dependents del contexte. Els decodificadors de DAGs fan us d'una interfície de LMs prou general que ha segut extesa per permetre l'ús de RTNs. Es proposen millores per a reconeixedors de tipus "un pas" basats en els algorismes especialitzats per a lèxics i en la interfície de LMs en mode "bunch", així com la seua paral.lelització. La part experimental està centrada en el reconeiximent d'escriptura en diverses modalitats d'adquisició (offline, bimodal). Proposem un preprocés d'escriptura manuscrita evitant l'us d'heurístics geomètrics, en el seu lloc emprem xarxes neuronals. S'han emprat HMMs hibridats amb xarxes neuronals aconseguint, per a la base de dades IAM, alguns dels millors resultats publicats. També podem mencionar l'ús d'informació de sobre-segmentació, aproximacions sense restricció a un lèxic, experiments amb dades bimodals o la combinació de HMMs híbrids amb classificadors holístics.
España Boquera, S. (2016). Contributions to the joint segmentation and classification of sequences (My two cents on decoding and handwriting recognition) [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/62215
TESIS
Premiado
Zouhar, David. "Rozpoznávání rukou psaného textu." Master's thesis, Vysoké učení technické v Brně. Fakulta informačních technologií, 2012. http://www.nusl.cz/ntk/nusl-236429.
Full textÁlvaro, Muñoz Francisco. "Mathematical Expression Recognition based on Probabilistic Grammars." Doctoral thesis, Universitat Politècnica de València, 2015. http://hdl.handle.net/10251/51665.
Full text[ES] La notación matemática es bien conocida y se utiliza en todo el mundo. La humanidad ha evolucionado desde simples métodos para representar cuentas hasta la notación formal actual capaz de modelar problemas complejos. Además, las expresiones matemáticas constituyen un idioma universal en el mundo científico, y se han creado muchos recursos que contienen matemáticas durante las últimas décadas. Sin embargo, para acceder de forma eficiente a toda esa información, los documentos científicos han de ser digitalizados o producidos directamente en formatos electrónicos. Aunque la mayoría de personas es capaz de entender y producir información matemática, introducir expresiones matemáticas en dispositivos electrónicos requiere aprender notaciones especiales o usar editores. El reconocimiento automático de expresiones matemáticas tiene como objetivo llenar ese espacio existente entre el conocimiento de una persona y la entrada que aceptan los ordenadores. De este modo, documentos impresos que contienen fórmulas podrían digitalizarse automáticamente, y la escritura se podría utilizar para introducir directamente notación matemática en dispositivos electrónicos. Esta tesis está centrada en desarrollar un método para reconocer expresiones matemáticas. En este documento proponemos un método para reconocer cualquier tipo de fórmula (impresa o manuscrita) basado en gramáticas probabilísticas. Para ello, desarrollamos el marco estadístico formal que deriva varias distribuciones de probabilidad. A lo largo del documento, abordamos la definición y estimación de todas estas fuentes de información probabilística. Finalmente, definimos el algoritmo que, dada cierta entrada, calcula globalmente la expresión matemática más probable de acuerdo al marco estadístico. Un aspecto importante de este trabajo es proporcionar una evaluación objetiva de los resultados y presentarlos usando datos públicos y medidas estándar. Por ello, estudiamos los problemas de la evaluación automática en este campo y buscamos las mejores soluciones. Asimismo, presentamos diversos experimentos usando bases de datos públicas y hemos participado en varias competiciones internacionales. Además, hemos publicado como código abierto la mayoría del software desarrollado en esta tesis. También hemos explorado algunas de las aplicaciones del reconocimiento de expresiones matemáticas. Además de las aplicaciones directas de transcripción y digitalización, presentamos dos propuestas importantes. En primer lugar, desarrollamos mucaptcha, un método para discriminar entre humanos y ordenadores mediante la escritura de expresiones matemáticas, el cual representa una novedosa aplicación del reconocimiento de fórmulas. En segundo lugar, abordamos el problema de detectar y segmentar la estructura de documentos utilizando el marco estadístico formal desarrollado en esta tesis, dado que ambos son problemas bidimensionales que pueden modelarse con gramáticas probabilísticas. El método desarrollado en esta tesis para reconocer expresiones matemáticas ha obtenido buenos resultados a diferentes niveles. Este trabajo ha producido varias publicaciones en conferencias internacionales y revistas, y ha sido premiado en competiciones internacionales.
[CAT] La notació matemàtica és ben coneguda i s'utilitza a tot el món. La humanitat ha evolucionat des de simples mètodes per representar comptes fins a la notació formal actual capaç de modelar problemes complexos. A més, les expressions matemàtiques constitueixen un idioma universal al món científic, i s'han creat molts recursos que contenen matemàtiques durant les últimes dècades. No obstant això, per accedir de forma eficient a tota aquesta informació, els documents científics han de ser digitalitzats o produïts directament en formats electrònics. Encara que la majoria de persones és capaç d'entendre i produir informació matemàtica, introduir expressions matemàtiques en dispositius electrònics requereix aprendre notacions especials o usar editors. El reconeixement automàtic d'expressions matemàtiques té per objectiu omplir aquest espai existent entre el coneixement d'una persona i l'entrada que accepten els ordinadors. D'aquesta manera, documents impresos que contenen fórmules podrien digitalitzar-se automàticament, i l'escriptura es podria utilitzar per introduir directament notació matemàtica en dispositius electrònics. Aquesta tesi està centrada en desenvolupar un mètode per reconèixer expressions matemàtiques. En aquest document proposem un mètode per reconèixer qualsevol tipus de fórmula (impresa o manuscrita) basat en gramàtiques probabilístiques. Amb aquesta finalitat, desenvolupem el marc estadístic formal que deriva diverses distribucions de probabilitat. Al llarg del document, abordem la definició i estimació de totes aquestes fonts d'informació probabilística. Finalment, definim l'algorisme que, donada certa entrada, calcula globalment l'expressió matemàtica més probable d'acord al marc estadístic. Un aspecte important d'aquest treball és proporcionar una avaluació objectiva dels resultats i presentar-los usant dades públiques i mesures estàndard. Per això, estudiem els problemes de l'avaluació automàtica en aquest camp i busquem les millors solucions. Així mateix, presentem diversos experiments usant bases de dades públiques i hem participat en diverses competicions internacionals. A més, hem publicat com a codi obert la majoria del software desenvolupat en aquesta tesi. També hem explorat algunes de les aplicacions del reconeixement d'expressions matemàtiques. A més de les aplicacions directes de transcripció i digitalització, presentem dues propostes importants. En primer lloc, desenvolupem mucaptcha, un mètode per discriminar entre humans i ordinadors mitjançant l'escriptura d'expressions matemàtiques, el qual representa una nova aplicació del reconeixement de fórmules. En segon lloc, abordem el problema de detectar i segmentar l'estructura de documents utilitzant el marc estadístic formal desenvolupat en aquesta tesi, donat que ambdós són problemes bidimensionals que poden modelar-se amb gramàtiques probabilístiques. El mètode desenvolupat en aquesta tesi per reconèixer expressions matemàtiques ha obtingut bons resultats a diferents nivells. Aquest treball ha produït diverses publicacions en conferències internacionals i revistes, i ha sigut premiat en competicions internacionals.
Álvaro Muñoz, F. (2015). Mathematical Expression Recognition based on Probabilistic Grammars [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/51665
TESIS
Serrano, Martínez-Santos Nicolás. "Interactive Transcription of Old Text Documents." Doctoral thesis, Universitat Politècnica de València, 2014. http://hdl.handle.net/10251/37979.
Full textSerrano Martínez-Santos, N. (2014). Interactive Transcription of Old Text Documents [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/37979
TESIS
Pastor, Pellicer Joan. "Neural Networks for Document Image and Text Processing." Doctoral thesis, Universitat Politècnica de València, 2017. http://hdl.handle.net/10251/90443.
Full textHoy en día, las principales librerías y archivos está invirtiendo un esfuerzo considerable en la digitalización de sus colecciones. De hecho, la mayoría están escaneando estos documentos y publicando únicamente las imágenes sin transcripciones, limitando seriamente la posibilidad de explotar estos documentos. Cuando la transcripción es necesaria, esta se realiza normalmente por expertos de forma manual, lo cual es una tarea costosa y propensa a errores. Si se utilizan sistemas de reconocimiento automático se necesita la intervención de expertos humanos para revisar y corregir la salida de estos motores de reconocimiento. Por ello, es extremadamente útil para proporcionar herramientas interactivas con el fin de generar y corregir la transcripciones. Aunque el reconocimiento de texto es el objetivo final del Análisis de Documentos, varios pasos previos (preprocesamiento) son necesarios para conseguir una buena transcripción a partir de una imagen digitalizada. La limpieza, mejora y binarización de las imágenes son las primeras etapas del proceso de reconocimiento. Además, los manuscritos históricos tienen una mayor dificultad en el preprocesamiento, puesto que pueden mostrar varios tipos de degradaciones, manchas, tinta a través del papel y demás dificultades. Por lo tanto, este tipo de documentos requiere métodos de preprocesamiento más sofisticados. En algunos casos, incluso, se precisa de la supervisión de expertos para garantizar buenos resultados en esta etapa. Una vez que las imágenes han sido limpiadas, las diferentes zonas de la imagen deben de ser localizadas: texto, gráficos, dibujos, decoraciones, letras versales, etc. Por otra parte, también es importante conocer las relaciones entre estas entidades. Estas etapas del pre-procesamiento son críticas para el rendimiento final del sistema, ya que los errores cometidos en aquí se propagarán al resto del proceso de transcripción. El objetivo principal del trabajo presentado en este documento es mejorar las principales etapas del proceso de reconocimiento completo: desde las imágenes escaneadas hasta la transcripción final. Nuestros esfuerzos se centran en aplicar técnicas de Redes Neuronales (ANNs) y aprendizaje profundo directamente sobre las imágenes de los documentos, con la intención de extraer características adecuadas para las diferentes tareas: Limpieza y Mejora de Documentos, Extracción de Líneas, Normalización de Líneas de Texto y, finalmente, transcripción del texto. Como se puede apreciar, el trabajo se centra en pequeñas mejoras en diferentes etapas del Análisis y Procesamiento de Documentos, pero también trata de abordar tareas más complejas: manuscritos históricos, o documentos que presentan degradaciones. Las ANNs y el aprendizaje profundo son uno de los temas centrales de esta tesis. Diferentes modelos neuronales convolucionales se han desarrollado para la limpieza y mejora de imágenes de documentos. También se han utilizado modelos conexionistas para la extracción de líneas: primero, para detectar puntos de interés y segmentos de texto y, agregarlos para extraer las líneas del documento; y en segundo lugar, etiquetando directamente los píxeles de la imagen para extraer la zona central del texto y así definir los límites de las líneas. Para el preproceso de las líneas de texto, es decir, la normalización del texto antes del reconocimiento final, se han utilizado modelos similares a los mencionados para detectar la zona central del texto. Las imagenes se rescalan a una altura fija dando más importancia a esta zona central. Por último, en cuanto a reconocimiento de escritura manuscrita, se han combinado técnicas de ANNs y aprendizaje profundo con Modelos Ocultos de Markov, mejorando significativamente los resultados obtenidos previamente por nuestro motor de reconocimiento. La idoneidad de todos estos enfoques han sido testeados con diferentes corpus en cada una de las tareas tratadas., obtenie
Avui en dia, les principals llibreries i arxius històrics estan invertint un esforç considerable en la digitalització de les seues col·leccions de documents. De fet, la majoria estan escanejant aquests documents i publicant únicament les imatges sense les seues transcripcions, fet que limita seriosament la possibilitat d'explotació d'aquests documents. Quan la transcripció del text és necessària, normalment aquesta és realitzada per experts de forma manual, la qual cosa és una tasca costosa i pot provocar errors. Si s'utilitzen sistemes de reconeixement automàtic es necessita la intervenció d'experts humans per a revisar i corregir l'eixida d'aquests motors de reconeixement. Per aquest motiu, és extremadament útil proporcionar eines interactives amb la finalitat de generar i corregir les transcripcions generades pels motors de reconeixement. Tot i que el reconeixement del text és l'objectiu final de l'Anàlisi de Documents, diversos passos previs (coneguts com preprocessament) són necessaris per a l'obtenció de transcripcions acurades a partir d'imatges digitalitzades. La neteja, millora i binarització de les imatges (si calen) són les primeres etapes prèvies al reconeixement. A més a més, els manuscrits històrics presenten una major dificultat d'analisi i preprocessament, perquè poden mostrar diversos tipus de degradacions, taques, tinta a través del paper i altres peculiaritats. Per tant, aquest tipus de documents requereixen mètodes de preprocessament més sofisticats. En alguns casos, fins i tot, es precisa de la supervisió d'experts per a garantir bons resultats en aquesta etapa. Una vegada que les imatges han sigut netejades, les diferents zones de la imatge han de ser localitzades: text, gràfics, dibuixos, decoracions, versals, etc. D'altra banda, també és important conéixer les relacions entre aquestes entitats i el text que contenen. Aquestes etapes del preprocessament són crítiques per al rendiment final del sistema, ja que els errors comesos en aquest moment es propagaran a la resta del procés de transcripció. L'objectiu principal del treball que estem presentant és millorar les principals etapes del procés de reconeixement, és a dir, des de les imatges escanejades fins a l'obtenció final de la transcripció del text. Els nostres esforços se centren en aplicar tècniques de Xarxes Neuronals (ANNs) i aprenentatge profund directament sobre les imatges de documents, amb la intenció d'extraure característiques adequades per a les diferents tasques analitzades: neteja i millora de documents, extracció de línies, normalització de línies de text i, finalment, transcripció. Com es pot apreciar, el treball realitzat aplica xicotetes millores en diferents etapes de l'Anàlisi de Documents, però també tracta d'abordar tasques més complexes: manuscrits històrics, o documents que presenten degradacions. Les ANNs i l'aprenentatge profund són un dels temes centrals d'aquesta tesi. Diferents models neuronals convolucionals s'han desenvolupat per a la neteja i millora de les dels documents. També s'han utilitzat models connexionistes per a la tasca d'extracció de línies: primer, per a detectar punts d'interés i segments de text i, agregar-los per a extraure les línies del document; i en segon lloc, etiquetant directament els pixels de la imatge per a extraure la zona central del text i així definir els límits de les línies. Per al preprocés de les línies de text, és a dir, la normalització del text abans del reconeixement final, s'han utilitzat models similars als utilitzats per a l'extracció de línies. Finalment, quant al reconeixement d'escriptura manuscrita, s'han combinat tècniques de ANNs i aprenentatge profund amb Models Ocults de Markov, que han millorat significativament els resultats obtinguts prèviament pel nostre motor de reconeixement. La idoneïtat de tots aquests enfocaments han sigut testejats amb diferents corpus en cadascuna de les tasques tractad
Pastor Pellicer, J. (2017). Neural Networks for Document Image and Text Processing [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/90443
TESIS
Fizaine, Florian. "Transcription de documents historiques avec des algorithmes de Deep Learning." Electronic Thesis or Diss., Bourgogne Franche-Comté, 2024. http://www.theses.fr/2024UBFCK095.
Full textOur work is part of a research project led by the Archives of the Côte-d'Or Department, the "Lettres en Lumière" project, which aims to adapt artificial intelligence algorithms to the automatic transcription of historical documents held by the Archives. At the beginning of the project, these documents were selected from the 18th century manuscripts of the Registres des Délibérations des Etats de Bourgogne.Today's most competitive approaches to automatic transcription of handwritten texts involve a two-step process: optimal segmentation of the lines of the text, followed by the actual transcription process, in which the characters are deciphered to reconstruct the words of the text.After a first chapter describing the context of the project, in the second chapter we present our study on the optimal segmentation of text lines. Our choice of line segmentation method turned on two main deep learning algorithms: Unet and MaskRCNN. This choice was based on a thorough state-of-the-art review of the various segmentation algorithms. We show that MaskRCNN, which is an instance segmentation algorithm, performs best in the case of optimized line extraction from handwritten text.Our work on line transcription, described in chapter three, led us, after a thorough study of the state of the art, to select architectures based on Transformer neural networks. We show that the Transformer TrOCR neural network, combined with our line segmentation algorithm, allows us to achieve transcriptions with a maximum error rate per character of 3.4%.While the results obtained and presented in these chapters suggest that a transcription platform usable by the general public interested in paleography could be made available in the short term, a major problem arises concerning the excessive use of computational resources related to the underlying complexity of AI algorithms. To solve this major problem, many artificial intelligence researchers are working on frugal AI.In this context, in Chapter 4, we propose an approach to line-of-text transcription based on bio-inspired neural networks. More specifically, we rely on spiking neural networks (SNNs). After a thorough study of the state of the art in such networks, we decided to use the Spikformer neural network, which we optimized for line-of-text transcription. We show that our bio-inspired approach is advantageous and promising: a maximum error rate per character of 4.2% for typed texts and 12.7% for texts simulating handwriting. This study is the first in the literature to tackle such a complex application for this type of network and demonstrates the interest in pursuing this avenue of research
Book chapters on the topic "Handwriting text recognition"
Rafique, Aftab, and M. Ishtiaq. "UOHTD: Urdu Offline Handwritten Text Dataset." In Frontiers in Handwriting Recognition, 498–511. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_34.
Full textZhang, Xiaoyi, Tianwei Wang, Jiapeng Wang, Lianwen Jin, Canjie Luo, and Yang Xue. "ChaCo: Character Contrastive Learning for Handwritten Text Recognition." In Frontiers in Handwriting Recognition, 345–59. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_24.
Full textMondal, Ajoy, and C. V. Jawahar. "Enhancing Indic Handwritten Text Recognition Using Global Semantic Information." In Frontiers in Handwriting Recognition, 360–74. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_25.
Full textMadi, Boraq, Reem Alaasam, and Jihad El-Sana. "Text Edges Guided Network for Historical Document Super Resolution." In Frontiers in Handwriting Recognition, 18–33. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_2.
Full textd’Arce, Rafael, Terence Norton, Sion Hannuna, and Nello Cristianini. "Self-attention Networks for Non-recurrent Handwritten Text Recognition." In Frontiers in Handwriting Recognition, 389–403. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_27.
Full textPao, Yoh-Han, and Gwang-Hoon Park. "Neural-Net Computing for Machine Recognition of Handwritten English Language text." In Fundamentals in Handwriting Recognition, 335–51. Berlin, Heidelberg: Springer Berlin Heidelberg, 1994. http://dx.doi.org/10.1007/978-3-642-78646-4_20.
Full textChen, Wei, Xiangdong Su, and Haoran Zhang. "Script-Level Word Sample Augmentation for Few-Shot Handwritten Text Recognition." In Frontiers in Handwriting Recognition, 316–30. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_22.
Full textKiessling, Benjamin. "CurT: End-to-End Text Line Detection in Historical Documents with Transformers." In Frontiers in Handwriting Recognition, 34–48. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_3.
Full textYu, Ming-Ming, Heng Zhang, Fei Yin, and Cheng-Lin Liu. "An Efficient Prototype-Based Model for Handwritten Text Recognition with Multi-loss Fusion." In Frontiers in Handwriting Recognition, 404–18. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_28.
Full textQiao, Zhi, Zhilong Ji, Ye Yuan, and Jinfeng Bai. "A Vision Transformer Based Scene Text Recognizer with Multi-grained Encoding and Decoding." In Frontiers in Handwriting Recognition, 198–212. Cham: Springer International Publishing, 2022. http://dx.doi.org/10.1007/978-3-031-21648-0_14.
Full textConference papers on the topic "Handwriting text recognition"
Sumathy, R., S. Narayana Swami, T. Pavan Kumar, V. Lakshmi Narasimha, and B. Premalatha. "Handwriting Text Recognition using CNN and RNN." In 2023 2nd International Conference on Applied Artificial Intelligence and Computing (ICAAIC). IEEE, 2023. http://dx.doi.org/10.1109/icaaic56838.2023.10140449.
Full textSanchez, Joan Andreu, and Umapada Pal. "Handwritten Text Recognition for Bengali." In 2016 15th International Conference on Frontiers in Handwriting Recognition (ICFHR). IEEE, 2016. http://dx.doi.org/10.1109/icfhr.2016.0105.
Full textNoubigh, Zouhaira, Anis Mezghani, and Monji Kherallah. "Transfer Learning to improve Arabic handwriting text Recognition." In 2020 21st International Arab Conference on Information Technology (ACIT). IEEE, 2020. http://dx.doi.org/10.1109/acit50332.2020.9300105.
Full textChowdhury, Sadia, Farhan Rahman Wasee, Mohammad Shafiqul Islam, and Hasan U. Zaman. "Bengali Handwriting Recognition and Conversion to Editable Text." In 2018 Second International Conference on Advances in Electronics, Computers and Communications (ICAECC). IEEE, 2018. http://dx.doi.org/10.1109/icaecc.2018.8479487.
Full textYang, Junqing, Peng Ren, and Xiaoxiao Kong. "Handwriting Text Recognition Based on Faster R-CNN." In 2019 Chinese Automation Congress (CAC). IEEE, 2019. http://dx.doi.org/10.1109/cac48633.2019.8997382.
Full textGatos, Basilis, Georgios Louloudis, and Nikolaos Stamatopoulos. "Segmentation of Historical Handwritten Documents into Text Zones and Text Lines." In 2014 14th International Conference on Frontiers in Handwriting Recognition (ICFHR). IEEE, 2014. http://dx.doi.org/10.1109/icfhr.2014.84.
Full textPotyashin, Ivan, Mariam Kaprielova, Yury Chekhovich, Alexandr Kildyakov, Temirlan Seil, Evgeny Finogeev, and Andrey Grabovoy. "HWR200: New open access dataset of handwritten texts images in Russian." In INTERNATIONAL CONFERENCE on Computational Linguistics and Intellectual Technologies. RSUH, 2023. http://dx.doi.org/10.28995/2075-7182-2023-22-452-458.
Full textGargouri, Mariem, Slim Kanoun, and Jean-Marc Ogier. "Text-Independent Writer Identification on Online Arabic Handwriting." In 2013 12th International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2013. http://dx.doi.org/10.1109/icdar.2013.93.
Full textPhan, Truyen Van, and Masaki Nakagawa. "Text/Non-text Classification in Online Handwritten Documents with Recurrent Neural Networks." In 2014 14th International Conference on Frontiers in Handwriting Recognition (ICFHR). IEEE, 2014. http://dx.doi.org/10.1109/icfhr.2014.12.
Full textPaschalakis, S., G. Filis, C. Allgrove, and M. C. Fairhurst. "Estimating wordlength for efficient text analysis." In IEE Third European Workshop on Handwriting Analysis and Recognition. IEE, 1998. http://dx.doi.org/10.1049/ic:19980695.
Full text