Accedi

Bibliografie tematiche / Erreurs de transcription

Letteratura scientifica selezionata sul tema "Erreurs de transcription"

Autore: Grafiati

Pubblicato: 8 giugno 2024

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Consulta la lista di attuali articoli, libri, tesi, atti di convegni e altre fonti scientifiche attinenti al tema "Erreurs de transcription".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Indice

Articoli di riviste
Tesi

Articoli di riviste sul tema "Erreurs de transcription":

1

Oven, Jacqueline. "Un son vous manque et tout est dépeuplé". Journal for Foreign Languages 13, n. 1 (27 dicembre 2021): 467–80. http://dx.doi.org/10.4312/vestnik.13.467-480.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Cette contribution intitulée Un son vous manque et tout est dépeuplé : les défis de la compréhension orale et de la transcription de documents oraux se propose de répertorier et d'analyser les difficultés et erreurs relevées dans les copies d'étudiants FLE en 2ème année de Licence dans le cadre du cours Français en usage 2 – Compréhension orale (corpus de 300 copies recueillies entre 2016 et 2020), qui prévoit entre autres la transcription de documents oraux. L'analyse permet de dresser un inventaire des erreurs commises en fonction de la phase, au cours de laquelle intervient cette difficulté (décodage, encodage, décodage et encodage). Les erreurs les plus fréquentes au niveau du décodage sont, d'une part, liées à des lacunes lexicales et, de l'autre, à un découpage défaillant du flux sonore, qui met l'étudiant face à des phénomènes comme l'homophonie et la paraphonie (lexicales et translexicales). L'encodage, lui, a mis en évidence deux types de difficultés : d'une part, des erreurs d'inattention (en cas de décodage réussi) et, d'autre part, des tentatives de restitution textuelle directement à partir du flux sonore (des phonèmes perçus), avec abstraction pure et simple de la phase de décodage, pour pallier la hantise de l'espace blanc. Par ailleurs, on observe au niveau du décodage et de l'encodage les difficultés des étudiants à reconnaître certains phonèmes et à tenir compte de la liaison. Enfin, des pistes, résultant d'occurences repérées dans les copies et reposant sur des considérations contrastives, sont proposées aussi bien aux étudiants qu'aux enseignants pour une meilleure approche, maîtrise et performance de ce type de savoir-faire, avec une identification des causes et domaines qui sont à la source de ces difficultés et erreurs.

2

Bonneuil, Noël. "Cohérence comptable des tableaux de la SGF : Recensements de 1851 à 1906, mouvements de la population de 1801 à 1906". Population Vol. 44, n. 4 (1 aprile 1989): 809–38. http://dx.doi.org/10.3917/popu.p1989.44n4-5.0838.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Résumé Bonneuil Noël. - Cohérence comptable des tableaux de la SGF : recensements de 1851 à 1906, mouvements de la population de 1801 à 1906 Les tableaux statistiques de la Statistique Générale de la France, et en particulier les recensements et les mouvements de population, constituent une mine de données de tout premier plan pour quiconque étudie la démographie du xixc siècle. Il faut en examiner la qualité «comptable», de sorte que d'une part les sommes suivant les lignes ou les colonnes correspondent aux totaux inscrits, d'autre part qu'un tableau déclaré comme combinaison d'autres tableaux publiés le soit effectivement, par exemple le tableau de la population par âge pour «les deux sexes réunis» comme la somme du tableau des hommes et de celui des femmes, ou bien le tableau des femmes comme la somme des tableaux des femmes classées par état civil. Des corrections sont proposées, et le processus d'erreurs analysé. Il apparaît en effet que la transcription des chiffres dépend étroitement de leurs formes, que des chiffres proches ont tendance à être confondus, que les nombres sont parfois modifiés par permutation, par omission ou par ajout. L'influence de la longueur du nombre, de la position de l'erreur dans le nombre est testée. Si aucun département n'accumule davantage qu'un autre les erreurs, en revanche, le niveau des erreurs semble retracer au fil du siècle les vicissitudes des hommes qui les inscrivaient. Ainsi, un premier pas est accompli pour assainir les données de la SGF. de 1801 à 1906, en même temps qu'un aperçu sur les rapports des hommes aux chiffres est proposé.

3

Papin, Kevin, e Gabriel Michaud. "Rétroaction corrective synchrone et écriture collaborative en ligne : perceptions d’enseignants de français langue seconde". Canadian Journal of Applied Linguistics 26, n. 2 (15 agosto 2023): 60–80. http://dx.doi.org/10.37213/cjal.2023.33027.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Avec le récent essor de l’enseignement à distance, les tâches d’écriture collaborative (ÉC), dont la contribution au développement des compétences en écriture en langue seconde (L2) a été démontrée (Elabdali, 2021), se déroulent de plus en plus en ligne. Un tel format permet à l’enseignant de fournir une rétroaction corrective écrite synchrone (RCÉS) aux apprenants, qui collaborent ensuite en temps réel sur la résolution des erreurs. Peu d’études se sont toutefois intéressées aux perceptions des enseignants dans le cadre d’un cours de français L2 en ligne. Cette étude de cas explore ainsi les perceptions d’enseignants de français L2 (N = 3) quant à la mise en place, dans leur cours de français écrit de niveau avancé, de deux tâches d’ÉC en ligne (Google Docs), lors desquelles ils fournissaient de la RCÉS à leurs apprenants (N = 46), qui collaboraient par vidéoconférence en petits groupes (Zoom). Après la réalisation des tâches, les enseignants ont partagé leurs points de vue quant aux forces et aux limites d’une telle pratique pédagogique lors d’une entrevue de groupe semi-dirigée tenue en vidéoconférence. L’analyse de contenu de la transcription de l’entrevue indique que, bien que les enseignants aient des perceptions globalement positives de cette pratique et y voient un potentiel pour l’enseignement-apprentissage du français L2, certaines préoccupations concernant l’aspect pratique et la mise en œuvre des tâches d’ÉC en ligne avec de la RCÉS ont émergé. Les implications pédagogiques quant à la manière de fournir de la RCÉS pendant de telles tâches sont discutées.

4

LaFleur, Amanda. "La politique socioculturelle de la transcription (ou de l’écrit) : la question du français louisianais". Deuxième séance : transcrire, traduire ou récrire?, n. 16-17 (22 dicembre 2010): 73–79. http://dx.doi.org/10.7202/045131ar.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Dans la polémique qui sévit parmi les ethnologues, tant chez les Anglo-Américains que dans le monde francophone, sur la meilleure façon de transcrire les phénomènes dialectaux, les adversaires ont tantôt effectué sur leurs ethnotextes un travail de linguiste, tantôt collaboré avec des linguistes pour adapter les particularités du parler de leurs informateurs. Même si certains ont fait un effort admirable pour inclure autant d’informations contextuelles que possible (avec les pauses, les rires, les gestes et les réactions), la méthode ethnologique ne devrait pas errer entre la littérature et la linguistique. Cet exposé explorera la relation entre la linguistique et la transcription dans le monde francophone et surtout les efforts faits en Louisiane pour illustrer l’importance du passage de l’oral à l’écrit dans la culture d’une société, et pour dégager les bases d’un meilleur système.

5

Parent, Sabrina. "De l’événement historique à sa transcription artistique : explorer l’espace esthétique de l’ « erreur » dansCamp de Thiaroyede Sembene Ousmane etMorts pour la Francede Doumbi-Fakoly". Contemporary French and Francophone Studies 15, n. 5 (dicembre 2011): 513–21. http://dx.doi.org/10.1080/17409292.2011.624000.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Tesi sul tema "Erreurs de transcription":

1

Saad, Chadi. "Caractérisation des erreurs de séquençage non aléatoires : application aux mosaïques et tumeurs hétérogènes". Thesis, Lille 2, 2018. http://www.theses.fr/2018LIL2S014/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

L'arrivée des technologies de séquençage d’ADN à haut-débit a représenté une révolution dans le domaine de la génomique personnalisée, en raison de leur résolution et leur faible coût. Toutefois, ces nouvelles technologies présentent un taux d’erreur élevé, qui varie entre 0,1% et 1% pour les séquenceurs de seconde génération. Cette valeur est problématique dans le cadre de la recherche de variants de faible ratio allélique, comme ce qui est observé dans le cas des tumeurs hétérogènes. En effet, un tel taux d’erreur peut mener à des milliers de faux positifs. Chaque région de l’ADN étudié doit donc être séquencée plusieurs fois, et les variants sont alors filtrés en fonction de critères basés sur leur profondeur. Malgré ces filtres, le nombre d’artefacts reste important, montrant la limite des approches conventionnelles et indiquant que certains artefacts de séquençage ne sont pas aléatoires.Dans le cadre de cette thèse, nous avons développé un algorithme exact de recherche des motifs d’ADN dégénérés sur-représentés en amont des erreurs de séquençage non aléatoires et donc potentiellement liés à leur apparition. Cet algorithme a été mis en oeuvre dans un logiciel appelé DiNAMO, qui a été testé sur des données de séquençage issues des technologies IonTorrent et Illumina.Les résultats expérimentaux ont mis en évidence plusieurs motifs, spécifiques à chacune de ces deux technologies. Nous avons ensuite montré que la prise en compte de ces motifs dans l’analyse, réduisait considérablement le taux de faux positifs. DiNAMO peut donc être utilisé en aval de chaque analyse, comme un filtre supplémentaire permettant d’améliorer l’identification des variants, en particulier des variants à faible ratio allélique
The advent of Next Generation DNA Sequencing technologies has revolutionized the field of personalized genomics through their resolution and low cost. However, these new technologies are associated with a relatively high error rate, which varies between 0.1% and 1% for second-generation sequencers. This value is problematic when searching for low allelic ratio variants, as observed in the case of heterogeneous tumors. Indeed, such error rate can lead to thousands of false positives. Each region of the studied DNA must therefore be sequenced several times, and the variants are then filtered according to criteria based on their depth. Despite these filters, the number of errors remains significant, showing the limit of conventional approaches and indicating that some sequencing errors are not random.In the context of this thesis, we have developed an exact algorithm for over-represented degenerate DNA motifs discovery on the upstream of non-random sequencing errors and thus potentially linked to their appearance. This algorithm was implemented in a software called DiNAMO, which was tested on sequencing data from IonTorrent and Illumina technologies.The experimental results revealed several motifs, specific to each of these two technologies. We then showed that taking these motifs into account in the analysis reduced significantly the false-positive rate. DiNAMO can therefore be used downstream of each analysis, as an additional filter to improve the identification of variants, especially, variants with low allelic ratio

2

Dufraux, Adrien. "Exploitation de transcriptions bruitées pour la reconnaissance automatique de la parole". Electronic Thesis or Diss., Université de Lorraine, 2022. http://www.theses.fr/2022LORR0032.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Les méthodes usuelles pour la conception d'un système de reconnaissance automatique de la parole nécessitent des jeux de données de parole transcrite de bonne qualité. Ceux-ci sont composés du signal acoustique produit par un locuteur ainsi que de la transcription mot à mot de ce qui a été dit. Pour construire un bon modèle de reconnaissance automatique il faut plusieurs milliers d'heures de parole transcrite. Le jeu de données doit être crée à partir d'un panel de locuteurs et de situations différentes pour couvrir la variabilité de la parole et de la langue. Pour créer un tel jeu de données, on demande généralement à des annotateurs humains d'écouter les signaux acoustiques et d'écrire le texte correspondant. Ce procédé coûte cher et est source d'erreurs car ce qui est dit lors d'un enregistrement en conditions réelles n'est pas toujours facilement intelligible. Des signaux mal transcrits impliquent une baisse de performance du modèle acoustique. Pour améliorer la qualité des transcriptions, plusieurs personnes peuvent annoter le même signal acoustique, mais alors le procédé coûte encore plus cher. Cette thèse prend le contre-pied de cette démarche et propose de concevoir des algorithmes permettant d'utiliser des jeux de données dont les transcriptions sont « bruitées », c'est-à-dire qu'elles contiennent des erreurs. Le but principal est donc de réduire les coûts pour construire un système de reconnaissance automatique de la parole en limitant la perte de qualité du système induite par ces erreurs.Dans un premier temps, nous présentons l'algorithme Lead2Gold. Lead2Gold est basé sur une fonction de coût qui permet d'utiliser des jeux de données dont les transcriptions contiennent des erreurs. Nous modélisons ces erreurs par un modèle de bruit simple basé au niveau des lettres. Pour une transcription présente dans le jeu de données, l'algorithme cherche un ensemble de transcriptions probablement meilleures. Nous utilisons pour cela une recherche en faisceau dans le graphe. Une telle technique de recherche n'est habituellement pas utilisée pour la formulation d'une fonction de coût. Nous montrons qu'il est possible d'ajouter explicitement de nouveaux éléments, ici un modèle de bruit, pour créer des fonctions de coût complexes. Ensuite nous améliorons la formulation de Lead2Gold pour que la fonction de coût soit modulable. Pour cela, nous utilisons des wFST. Les wFST sont des graphes dont les arcs sont pondérés et représentent des symboles. Nous pouvons composer différents graphes pour construire des fonctions de coût de façon flexible. Avec notre proposition, il devient plus facile d'ajouter de nouveaux éléments, comme un lexique, pour mieux caractériser les bonnes transcriptions. Nous montrons que l'utilisation des wFST est une bonne alternative à l'utilisation explicite de la recherche en faisceau de Lead2Gold. La formulation modulaire nous permet de proposer une nouvelle gamme de fonctions de coût modélisant les erreurs de transcription. Enfin nous procédons à une expérience de collecte de données en conditions réelles. Nous observons les différents profils d'annotateurs. Les annotateurs n'ont pas la même perception des signaux acoustiques et les erreurs qu'ils commettent peuvent être de natures différentes. Le but explicite de cette expérience est d’obtenir des transcriptions erronées et de prouver l'utilité de modéliser ces erreurs
Usual methods to design automatic speech recognition systems require speech datasets with high quality transcriptions. These datasets are composed of the acoustic signals uttered by speakers and the corresponding word-level transcripts representing what is being said. It takes several thousand hours of transcribed speech to build a good speech recognition model. The dataset must include a variety of speakers recorded in different situations in order to cover the wide variability of speech and language. To create such a system, human annotators are asked to listen to audio tracks and to write down the corresponding text. This process is costly and can lead to errors. What is beeing said in realistic settings is indeed not always easy to understand. Poorly transcribed signals cause a drop of performance of the acoustic model. To improve the quality of the transcripts, the same utterances may be transcribed by several people, but this leads to an even more expensive process.This thesis takes the opposite view. We design algorithms which can exploit datasets with “noisy” transcriptions i.e., which contain errors. The main goal of this thesis is to reduce the costs of building an automatic speech recognition system by limiting the performance drop induced by these errors.We first introduce the Lead2Gold algorithm. Lead2Gold is based on a cost function that is tolerant to datasets with noisy transcriptions. We model transcription errors at the letter level with a noise model. For each transcript in the dataset, the algorithm searches for a set of likely better transcripts relying on a beam search in a graph. This technique is usually not used to design cost functions. We show that it is possible to explicitly add new elements (here a noise model) to design complex cost functions.We then express the Lead2Gold loss in the wFST formalism. wFSTs are graphs whose edges are weighted and represent symbols. To build flexible cost functions we can compose several graphs. With our proposal, it becomes easier to add new elements, such as a lexicon, to better characterize good transcriptions. We show that using wFSTs is a good alternative to using Lead2Gold's explicit beam search. The modular formulation allows us to design a new variety of cost functions that model transcription errors.Finally, we conduct a data collection experiment in real conditions. We observe different types of annotator profiles. Annotators do not have the same perception of acoustic signals and hence can produce different types of errors. The explicit goal of this experiment is to collect transcripts with errors and to prove the usefulness of modeling these errors

3

Ghannay, Sahar. "Étude sur les représentations continues de mots appliquées à la détection automatique des erreurs de reconnaissance de la parole". Thesis, Le Mans, 2017. http://www.theses.fr/2017LEMA1019/document.

Testo completo

Gli stili APA, Harvard, Vancouver, ISO e altri

Abstract (sommario):

Nous abordons, dans cette thèse, une étude sur les représentations continues de mots (en anglais word embeddings) appliquées à la détection automatique des erreurs dans les transcriptions de la parole. Notre étude se concentre sur l’utilisation d’une approche neuronale pour améliorer la détection automatique des erreurs dans les transcriptions automatiques, en exploitant les word embeddings. L’exploitation des embeddings repose sur l’idée que la détection d’erreurs consiste à trouver les possibles incongruités linguistiques ou acoustiques au sein des transcriptions automatiques. L’intérêt est donc de trouver la représentation appropriée du mot qui permet de capturer des informations pertinentes pour pouvoir détecter ces anomalies. Notre contribution dans le cadre de cette thèse porte sur plusieurs axes. D’abord, nous commençons par une étude préliminaire dans laquelle nous proposons une architecture neuronale capable d’intégrer différents types de descripteurs, y compris les embeddings. Ensuite, nous nous focalisons sur une étude approfondie des représentations continues de mots. Cette étude porte d’une part sur l’évaluation de différents types d’embeddings linguistiques puis sur leurs combinaisons. D’autre part, elle s’intéresse aux embeddings acoustiques de mots. Puis, nous présentons une étude sur l’analyse des erreurs de classifications, qui a pour objectif de percevoir les erreurs difficiles à détecter.Finalement, nous exploitons les embeddings linguistiques et acoustiques ainsi que l’information fournie par notre système de détections d’erreurs dans plusieurs cadres applicatifs
My thesis concerns a study of continuous word representations applied to the automatic detection of speech recognition errors. Our study focuses on the use of a neural approach to improve ASR errors detection, using word embeddings. The exploitation of continuous word representations is motivated by the fact that ASR error detection consists on locating the possible linguistic or acoustic incongruities in automatic transcriptions. The aim is therefore to find the appropriate word representation which makes it possible to capture pertinent information in order to be able to detect these anomalies. Our contribution in this thesis concerns several initiatives. First, we start with a preliminary study in which we propose a neural architecture able to integrate different types of features, including word embeddings. Second, we propose a deep study of continuous word representations. This study focuses on the evaluation of different types of linguistic word embeddings and their combination in order to take advantage of their complementarities. On the other hand, it focuses on acoustic word embeddings. Then, we present a study on the analysis of classification errors, with the aim of perceiving the errors that are difficult to detect. Perspectives for improving the performance of our system are also proposed, by modeling the errors at the sentence level. Finally, we exploit the linguistic and acoustic embeddings as well as the information provided by our ASR error detection system in several downstream applications