Tesi sul tema "Identification du langage"

Segui questo link per vedere altri tipi di pubblicazioni sul tema: Identification du langage.

Cita una fonte nei formati APA, MLA, Chicago, Harvard e in molti altri stili

Scegli il tipo di fonte:

Vedi i top-50 saggi (tesi di laurea o di dottorato) per l'attività di ricerca sul tema "Identification du langage".

Accanto a ogni fonte nell'elenco di riferimenti c'è un pulsante "Aggiungi alla bibliografia". Premilo e genereremo automaticamente la citazione bibliografica dell'opera scelta nello stile citazionale di cui hai bisogno: APA, MLA, Harvard, Chicago, Vancouver ecc.

Puoi anche scaricare il testo completo della pubblicazione scientifica nel formato .pdf e leggere online l'abstract (il sommario) dell'opera se è presente nei metadati.

Vedi le tesi di molte aree scientifiche e compila una bibliografia corretta.

1

Gallant, Isabelle. "Le langage graphique des émotions : identification d'émotions exprimées par le dessin". Thesis, National Library of Canada = Bibliothèque nationale du Canada, 2001. http://www.collectionscanada.ca/obj/s4/f2/dsk3/ftp04/MQ60721.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
2

Messaoudi, Leila. "Des technolectes : présentation, identification, fonctionnement ; application linguistique à l'arabe standard". Paris 5, 1990. http://www.theses.fr/1990PA05H030.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette recherche traite de trois questions principales. Premièrement, comment pourrions-nous distinguer entre les langages spéciaux (i. E. Technolectes) et la langue commune? Deuxièmement, quels sont les moyens les plus importants pour identifier les technlectes? Troisièmement, quelles sont les procédures linguistiques en usage dans les technolectes en fonctionnement avec une attention particulière portée aux technolectes en arabe standard? (qui constitue un domaine d'application pour la présente étude et dont les données ont été collectée dans des dictionnaires et notices bilingues dans deux champs : l'agriculture et la pharmacie en francais arabe. Les résultats de l'étude montrent qu'il est des procédures linguistiques utilisées dans les technolectes ces procédures peuvent être regroupées dans deux sections : procédures formelles et procédures non-formelles. Dans le premier groupe, nous rangeons les composés et dérives ; dans le second, nous présentons des faits sémantiques tels que "le mode de désignation" (qui semble être spécifique aux technolectes) ainsi que quelques cas de relations sémiques à l'intérieur et entre les mots technolectaux. Malgrès les inconvénients de l'analyse componentielle, cette méthode s'est révélée pertinente pour l'étude de relations sémantiques telles que la synonymie, la polysémie et l'homonymie. Quant à l'approche des technolectes en arabe standard, elle a mis en valeur des difficultés dues au fait qu'un usage réel, in situ semble absent
This research deals with three main questions. The first one is : how can we distinguish between special languages (i. E. Technolects) and common language? The second one is : what are the most important ways to identify the technolects? The third one is : what kind of linguistic procedures are used in technolects at work, with a special attention paid to technolects in standard arabic? (which is an applied domain for this study with many data collected from bilingual dictionaries and notices in two fields : agriculture and chemistry in franch arabic. Results of this study show that there are some linguistic procedures which are used in technolects. These procedures can be grouped into two sections : formal procedures and non-formal procedures. In first group we range compounds and derivatives and in the second, we present semantic matters as "mode of designation" (which seems to be specific to technolects) and some cases of semic relations inside and between technolectal words. And in spite of inconvenients of "componential analysis", this method has been relevant in studying semantic relations as synonymy, polysemy and homonymy. But the analysis of technolects in standard arabic shows difficulties ought to real using in situ which seems to be missing in standard arabic
3

Vahine, Théodora. "Traitements visuels précoces du langage écrit : études chez l'enfant et l'adulte jeune". Thesis, Bordeaux, 2017. http://www.theses.fr/2017BORD0857/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L’objectif de ce travail de thèse était d’étudier l’implication des systèmes visuels magnocellulaire et parvocellulaire dans le traitement de langage écrit, spécialement dans l’identification des mots. Quatre études expérimentales ont été réalisées afin de documenter le rôle respectif de ces deux systèmes pour différentes composantes de la structure du mot écrit, la lettre (Etude 1), la longueur du mot (Etude 2) et l’enveloppe du mot (Etude 3), ainsi que le voisinage orthographique (Etude 4). La dissociation des deux sous-systèmes visuels se fondait sur leurs caractéristiques fonctionnelles spécifiques : sensibilité aux fréquences spatiales basses et au contraste de luminance pour le système magnocellulaire ; sensibilité aux fréquences spatiales moyennes et élevées et au contraste chromatique pour le système parvocellulaire. Les participants étaient des adultes jeunes normolecteurs et des enfants de 10-11 ans, lecteurs novices, afin d’envisager l’implication de chaque système visuel à deux étapes de leur développement : maturité chez l’adulte jeune ; en cours de maturation chez l’enfant. Les résultats ont confirmé le rôle prépondérant des traitements parvocellulaires, ce qui corroborait le privilège accordé au traitement des lettres et traits des lettres dans la reconnaissance visuelle des mots. Le traitement de la longueur du mot s’est en revanche révélé être une dimension sélectivement magnocellulaire. L’ensemble des résultats est discuté dans le cadre de l’approche coarse-to-fine
The main objective was to study the implication of the magnocellular and the parvocellular visual systems in written language processing, specifically in word identification. Four studies were carried out to document the respective roles of these two systems, for different components of the written word structure, the letter (Study 1), the word length (Study 2), the word shape (Study 3) and the orthographic neighborhood (Study 4). The dissociation of the two visual systems was based on their specific functional characteristics: sensitivity to low spatial frequencies and luminance contrast for the magnocellular system; and sensitivity to medium and high spatial frequencies and chromatic contrast for the parvocellular system. The participants were young adult normal readers and 10-11 years-old children, novice readers, in order to consider the involvement of each visual system at two stages of their development: mature in young adults while still maturing in the children. The results confirmed the prominent role of parvocellular processing, which was consistent with the privilege accorded to the processing of letters and letters features in visual word recognition. On the other hand, word length processing has been shown to be a selectively magnocellular dimension. All results are discussed in the framework of the coarse-to-fine approach
4

Dupoux, Emmanuel. "Identification des mots parlés : détection de phonèmes et unité prélexicale". Paris, EHESS, 1989. http://www.theses.fr/1989EHES0327.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette these a pour but d'examiner experimentalement trois hypotheses dans l' identification des mots parles. L'hypothese acoustique ou non-segmentale selon laquelle il n'y a pas de segmentation prealable du signal avant la reconnaissance des mots s'oppose aux deux autres hypotheses dites segmentales, hypotheses phonetiques ou syllabiques, pour lesquelles la reconnaissance des mots repose sur une segmentation prealable du signal en unites specifiquement linguistiques. Une serie d'experiences utilisant la detection du phoneme initial dans des listes de mots tente de determiner si la duree pertinente pour l'acces au lexique est definie en fonction de la duree, ou de la structure des mots. On utilise la technique de compression de la parole, qui permet de modifier la duree des stimuli en gardant invariante leur structure. Les resultats obtenus suggerent que les premieres etapes de l'acces au lexique dependent plus de variables structurelles que des variables durationnelles. De plus, on montre que les variables structurelles dependent du nombre de syllabes plus que du nombre de phonemes. Neanmoins, les donnees obtenues soulignent egalement l'importance des facteurs attentionnels et temporels dans l'identification des segments phonetiques. En conclusion, l'ensemble des resultats obtenus est presente en rapport aux modeles existants, dans la perspective du traitement et de l'acquisition de la parole.
5

Fourour, Nordine. "Identification et catégorisation automatique des entités nommées dans les textes français". Nantes, 2004. http://www.theses.fr/2004NANT2126.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La reconnaissance des entités nommées (EN) reste un problème pour de nombreuses applications de Traitement Automatique des Langues Naturelles. Conséquemment à une étude linguistique permettant l'émergence de paramètres définitoires opérationnels liés au concept d'entité nommée, un état de l'art du domaine et une étude en corpus fondée sur des critères graphiques et référentiels, nous présentons Nemesis, un système d'identification et de catégorisation des EN du français, fondé sur l'analyse des évidences interne et externe réalisée à l'aide de lexiques de mots déclencheurs et de règles de réécriture et comportant une phase d'apprentissage. Dans cette version minimale, Nemesis atteint environ 90% en précision et 80% en rappel. Pour augmenter le rappel, nous proposons différents modules optionnels (examen d'un contexte encore plus large et utilisation du Web comme source de nouveaux contextes) et une étude pour la réalisation d'un module de désambiguïsation et d'apprentissage de règles
Named Entity (NE) Recognition is a recurring problem in the different domain of Natural Language Processing. As a result of, a linguistic investigation allowing to set-up operational parameters defining the concept of named entity, a state of art of the domain, and a corpus investigation using referential and graphical criteria, we present Nemesis - a French named entity recognizer. This system analyzes the internal and external evidences by using grammar rules and trigger word lexicons, and includes a learning process. With these processes, Nemesis performance achieves about 90% of precision and 80% of recall. To increase the recall, we put forward optional modules (analysis of the wide context and utilization of the Web as a source of new contexts) and investigate in setting up a disambiguation and grammar rules inference module
6

Trouilleux, François. "Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français". Clermont-Ferrand 2, 2001. https://hal.archives-ouvertes.fr/tel-01152394.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
7

Stern, Rosa. "Identification automatique d'entités pour l'enrichissement de contenus textuels". Phd thesis, Université Paris-Diderot - Paris VII, 2013. http://tel.archives-ouvertes.fr/tel-00939420.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse propose une méthode et un système d'identification d'entités (personnes, lieux, organisations) mentionnées au sein des contenus textuels produits par l'Agence France Presse dans la perspective de l'enrichissement automatique de ces contenus. Les différents domaines concernés par cette tâche ainsi que par l'objectif poursuivi par les acteurs de la publication numérique de contenus textuels sont abordés et mis en relation : Web Sémantique, Extraction d'Information et en particulier Reconnaissance d'Entités Nommées (\ren), Annotation Sémantique, Liage d'Entités. À l'issue de cette étude, le besoin industriel formulé par l'Agence France Presse fait l'objet des spécifications utiles au développement d'une réponse reposant sur des outils de Traitement Automatique du Langage. L'approche adoptée pour l'identification des entités visées est ensuite décrite : nous proposons la conception d'un système prenant en charge l'étape de \ren à l'aide de n'importe quel module existant, dont les résultats, éventuellement combinés à ceux d'autres modules, sont évalués par un module de Liage capable à la fois (i) d'aligner une mention donnée sur l'entité qu'elle dénote parmi un inventaire constitué au préalable, (ii) de repérer une dénotation ne présentant pas d'alignement dans cet inventaire et (iii) de remettre en cause la lecture dénotationnelle d'une mention (repérage des faux positifs). Le système \nomos est développé à cette fin pour le traitement de données en français. Sa conception donne également lieu à la construction et à l'utilisation de ressources ancrées dans le réseau des \ld ainsi que d'une base de connaissances riche sur les entités concernées.
8

Al, Mahrous Mazen. "Génération de test fonctionnel de circuits digitaux décrits avec un langage déclaratif : Lustre". Phd thesis, Grenoble INPG, 1990. http://tel.archives-ouvertes.fr/tel-00337894.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
9

Kanoun, Slim. "Identification et analyse de textes arabes par approche affixale". Rouen, 2002. http://www.theses.fr/2002ROUES040.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux présentés dans ce mémoire abordent les problèmes liés à la différenciation et la reconnaissance de textes en mode hors-ligne dans des documents multilingues arabe et latin. La première partie de ces travaux concerne une méthode de différenciation entre les textes arabes et les textes latins dans les deux natures imprimée et manuscrite. La deuxième partie propose une nouvelle approche, appelée approche affixale, pour la reconnaissance de mots et l'analyse de textes arabes. Cette approche se distingue par la modélisation d'entités morphosyntaxiques (morphèmes de base du mot) en intégrant les aspects morpho-phonologiques du vocabulaire arabe dans le processus de reconnaissance par rapport aux approches classiques qui procèdent par la modélisation d'entités graphiques (mot, lettre, pseudo mot). Les tests réalisés montrent bien l'apport de l'approche au niveau de la simplification de la reconnaissance et la caractérisation morphosyntaxique des mots dans un texte arabe
The presented work in this memory tackles the problems involved in differentiation and text recognition in off-line mode in Arabic and Latin multilingual documents. The first part of this work relates to a method of differentiation between Arabic texts and Latin texts in two natures printed and handwritten. The second part proposes a new approach, called affixal approach, for Arabic word recognition and text analysis. This approach is characterized by modelling from morph-syntactic entities (word basic morphemes) by integrating the morpho-phonological aspects of Arabic vocabulary in the recognition process compared to the traditional approaches which proceed by the modelling of grahic entities (word, letter, pseudo word). The tests carried out show well the contribution of the approach on the recognition simplification and the morph-syntactic categorization of the words in an Arabic text
10

Duermael, Fabrice. "Référence aux actions dans des dialogues de commande homme-machine". Vandoeuvre-les-Nancy, INPL, 1994. http://docnum.univ-lorraine.fr/public/INPL_T_1994_DUERMAEL_F.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Dès que l'on propose une interface langagière pour commander une application informatique, il se pose la question des fonctions à activer en réponse de l'interprétation d'un énoncé de l'utilisateur. L’identification de ces fonctions constitue le problème de la référence aux actions. Classiquement, l'action (simple ou sous la forme d'un script de fonctions) à effectuer est dérivée directement de l'analyse syntaxico-sémantique, et les modifications que subissent les objets en sont déduites. Dans notre thèse, nous défendrons le point de vue que cette identification suppose la prise en compte d'une temporalité inhérente aux énoncés de commande. Cela amène à considérer un énoncé comme la spécification d'un état final à atteindre, à travers les ruptures de propriétés qu'il véhicule sur des objets. Nous proposons alors un modèle de construction d'objets du discours pour référer aux actions en introduisant des graphes de déroulement et des éléments de contrôle (des promoteurs) associés aux nœuds représentant des phases du déroulement. L’utilité de ces promoteurs est de prendre en compte le contexte dynamique des portions de graphes qu'ils contrôlent, de les restructurer en fonction des propriétés aspectuelles mises en présence et d'alimenter le processus de référence. Cette approche de la référence aux actions permet de traiter plus simplement un langage qui reprend certaines régularités de construction propres à un langage naturel, ce qui a pour conséquence de simplifier le modèle d'application
11

Rosá, Aiala. "Identification de opiniónes de differentes fuentes en textos en español". Thesis, Paris 10, 2011. http://www.theses.fr/2011PA100127.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Ce travail présente une étude linguistique des expressions d'opinions issues de différentes sources dans des textes en espagnol. Le travail comprend la définition d'un modèle pour les prédicats d'opinion et leurs arguments (la source, le sujet et le message), la création d'un lexique de prédicats d'opinions auxquels sont associées des informations provenant du modèle et la réalisation de trois systèmes informatiques.Le premier système, basé sur des règles contextuelles, obtient de bons résultats pour le score de F-mesure partielle: prédicat, 92%; source, 81%; sujet, 75%; message, 89%, opinion, 85%. En outre, l'identification de la source donne une valeur de 79% de F-mesure exacte. Le deuxième système, basé sur le modèle Conditional Random Fields (CRF), a été développé uniquement pour l'identification des sources, donnant une valeur de 76% de F-mesure exacte. Le troisième système, qui combine les deux techniques (règles et CRF), donne une valeur de 83% de F-mesure exacte, montrant ainsi que la combinaison permet d'obtenir des résultats intéressants.En ce qui concerne l'identification des sources, notre système, comparé à des travaux réalisés sur des corpus d'autres langues que l'espagnol, donne des résultats très satisfaisants. En effet ces différents travaux obtiennent des scores qui se situent entre 63% et 89,5%.Par ailleurs, en sus des systèmes réalisés pour l'identification de l'opinion, notre travail a débouché sur la construction de plusieurs ressources pour l'espagnol : un lexique de prédicats d'opinions, un corpus de 13000 mots avec des annotations sur les opinions et un corpus de 40000 mots avec des annotations sur les prédicats d'opinion et les sources
This work presents a study of linguistic expressions of opinion from different sources in Spanish texts. The work includes the definition of a model for opinion predicates and their arguments (source, topic and message), the creation of a lexicon of opinion predicates which have information from the model associated, and the implementation of three systems.The first system, based on contextual rules, gets good results for the F-measure score (partial match): predicate, 92%; source, 81%; topic, 75%; message, 89%; full opinion, 85%. In addition, for source identification the F-measure for exact match is 79%. The second system, based on Conditional Random Fields (CRF), was developed only for the identification of sources, giving 76% of F-measure (exact match). The third system, which combines the two techniques (rules and CRF), gives a value of 83% of F-measure (exact match), showing that the combination yields interesting results.As regards the identification of sources, our system compared to other work developed for languages ​other than Spanish, gives very satisfactory results. Indeed these works had scores that fall between 63% and 89.5%.Moreover, in addition to the systems made for the identification of opinions, our work has led to the construction of several resources for Spanish: a lexicon of opinion predicates, a 13,000 words corpus with opinions annotated and a 40,000 words corpus with opinion predicates end sources annotated
12

Roll, Patrice. "Les épilepsies humaines associées à d'autres pathologies cérébrales : identification d'un gène responsable d'une épilepsie rolandique et d'un trouble du langage". Aix-Marseille 2, 2005. http://www.theses.fr/2005AIX20653.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'épilepsie est une des maladies neurologiques les plus fréquentes. Les troubles du langage, également très fréquents, touchent 2 à 7% des enfants entrant à l'école. Dans l'épilepsie rolandique, le langage mérite une attention particulière, les décharges épileptiques impliquant les aires périsylviennes du langage. Un gène responsable d'une dyspraxie orale et de la parole associée à une épilepsie rolandique a été localisé en Xq21-q22. La mutation causale a été identifiée dans le gène SRPX2, codant pour une protéine sécrétée à domaines sushi. Cette mutation crée un site de N-glycosylation. Dans des cellules en culture, la protéine mutante est N-glycosylée et, soit sécrétée, soit retenue dans le RE et ubiquitinylée. Dans le cerveau de l'homme adulte, SRPX2 est exprimée dans les neurones de l'aire rolandique. Dans le cerveau murin, l'expression de Srpx2 apparaît dans les neurones à la naissance. Ainsi, SRPX2 serait un facteur moléculaire essentiel du langage au niveau de l'aire rolandique
Epilepsy is one of the most common neurological diseases (1-4%). Language impairments are very frequents, affecting 2-7% of children entering school. Language processing deserves particular attention in rolandic epilepsy as discharges involve the perisylvian language areas. A gene for oral and speech dyspraxia associated with rolandic epilepsy was mapped at Xq21-q22. Systematic screening identified the disease-causing mutation within the SRPX2 gene encoding a secreted sushi-repeat containing protein. The mutation created a N-glycosylation site. In cultured cells, mutant SRPX2 protein was N-glycosylated and either secreted, or retained in the endoplasmic reticulum as ubiquitin-linked derivatives. In the human adult brain, SRPX2 was expressed in neurons of the rolandic area. In the murine brain, Srpx2 protein expression appeared in neurons at birth. Altogether, our data identify SRPX2 as an important molecular agent of language processing in the rolandic area
13

Berthod, Christophe. "Identification paramétrique de grandes structures : réanalyse et méthode évolutionnaire". Phd thesis, Université de Franche-Comté, 1998. http://tel.archives-ouvertes.fr/tel-00011640.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux présentés dans ce mémoire ont pour objectif d'apporter une contribution au domaine de l'élastodynamique linéaire et plus particulièrement aux méthodes dites de recalage chargées de réconcilier le modèle analytique d'une structure avec les données expérimentales. Les techniques proposées, en matière de réanalyse et d'identification paramétrique, sont susceptibles d'être appliquées à des modèles industriels de grande taille.

Première partie : Étude de méthodes de réanalyse approchée de structures mécaniques modifiées
Lorsque les paramètres de conception du modèle varient, il est nécessaire d'effectuer une réanalyse afin d'obtenir les solutions propres (modes et fréquences) du système modifié. Une stratégie de réanalyse approchée de type Rayleigh-Ritz est présentée : elle est plus rapide et moins coûteuse qu'une réanalyse exacte, tout en offrant une précision satisfaisante grâce à l'apport des vecteurs de résidus statiques.

Deuxième partie : Application d'une méthode évolutionnaire d'optimisation au recalage de modèles
Dans cette partie, on propose d'adapter une méthode évolutionnaire au problème de l'identification paramétrique. Inspiré par les principes d'évolution des algorithmes génétiques, son fonctionnement repose sur l'information fournie par une fonction coût représentant la distance entre un modèle recalé et la structure réelle. Des opérateurs heuristiques sont introduits afin de favoriser la recherche des solutions qui minimisent la fonction.

Troisième partie : Logiciel Proto–Dynamique
Cette partie vise à présenter l'environnement de travail qui a servi à programmer les techniques formulées dans le mémoire et à réaliser les tests numériques. Proto, écrit en langage Matlab, est une plate-forme de développement regroupant des outils d'analyse et des méthodes de recalage.
14

Arias, Aguilar José Anibal André-Obrecht Régine. "Méthodes spectrales pour le traitement automatique de documents audio analyse, modélisation et détection automatique des disfluences dans le dialogue oral spontané contraintele cas du contrôle aérien /". Toulouse (Université Paul Sabatier, Toulouse 3), 2009. http://thesesups.ups-tlse.fr/436.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
15

Boudjedir, Sihem. "Le rapport à la langue de jeunes "issus" de l'immigration : de l'identité à l'origine". Thesis, Strasbourg, 2018. http://www.theses.fr/2018STRAG006.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse porte sur la rencontre du sujet avec les langues et en particulier dans un contexte socio-culturel donné marqué par une pluralité culturelle et linguistique. Elle explore le rapport du sujet à la(aux) langue(s), et plus précisément s’intéresse aux effets de côtoiement des langues sur la construction identitaire. Elle tente d’apporter un éclairage sur ce que la langue, son appropriation, son partage, sa transmission, mobilise sur le plan psychique et ouvre sur ses fonctions comme un héritage familial redoublé sur le plan culturel. Partant du lien étroit entre psychisme et culture et s’appuyant principalement sur les propositions théoriques de la psychanalyse, ce travail de recherche appréhende le sujet dans sa singularité selon une méthode d’analyse clinique d’entretiens de recherche. L’analyse des entretiens montre que dans la parole des sujets rencontrés le rapport à la langue opère un ancrage social et familial. La langue du pays d’où viennent les parents apparaît comme ‘langue d’origine’ ayant une fonction d’‘affiliation’, permettant de créer et donc de maintenir le lien à une origine familiale. En tissant les liens filiatifs dans un mouvement qui les recrée sans cesse, le rapport à la ‘langue d’origine’ inscrit dans la lignée, attitre une place dans l’ordre des généalogies et permet une ouverture vers d’autres affiliations possibles. Le rapport à la langue surgit ainsi comme une fonction qui constitue du ‘familial’ en terme de continuité et fonde une origine extérieure au sujet mais centrale dans sa construction identitaire et son sentiment d’appartenance
This dissertation focuses on the relations between the subject and languages and in particular in the given socio-cultural context marked by a cultural and linguistic plurality. It explores the link between the subject and language(s) and more precisely, the way languages border on identity construction. We try to clarify the notion of a language, its appropriation, share and transmission from the psychological point of view and its functions such as family heritage from the cultural point of view. This thesis apprehends the subject in its singularity according to the method of clinical analysis of research interviews taking the narrow link between the and the culture for its starting point and is based mainly on the theory of psychoanalysis. The analysis of interviews shows that in the words of the studied subjects the link with the language has an effect on social and family anchoring. The language of the country, that the parents come from, appears as the ‘origin language’ having ‘affiliation’ as its function and enabling to create and maintain the link with the family origins. By establishing the kinship links in a movement that recreates them endlessly, the connection with ‘the origin language’ that is a part of genealogy line, assigns a place in the genealogy order and enables the openness to some other possible affiliations. Thus, the link with the language appears as a function that constitutes ‘family’ in terms of continuity and forms an external origin for the subject, but central for the identity construction and feeling of belonging
16

Asadullah, Munshi. "Identification of Function Points in Software Specifications Using Natural Language Processing". Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112228/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La nécessité d'estimer la taille d’un logiciel pour pouvoir en estimer le coût et l’effort nécessaire à son développement est une conséquence de l'utilisation croissante des logiciels dans presque toutes les activités humaines. De plus, la nature compétitive de l’industrie du développement logiciel rend courante l’utilisation d’estimations précises de leur taille, au plus tôt dans le processus de développement. Traditionnellement, l’estimation de la taille des logiciels était accomplie a posteriori à partir de diverses mesures appliquées au code source. Cependant, avec la prise de conscience, par la communauté de l’ingénierie logicielle, que l’estimation de la taille du code est une donnée cruciale pour la maîtrise du développement et des coûts, l’estimation anticipée de la taille des logiciels est devenue une préoccupation répandue. Une fois le code écrit, l’estimation de sa taille et de son coût permettent d'effectuer des études contrastives et éventuellement de contrôler la productivité. D’autre part, les bénéfices apportés par l'estimation de la taille sont d'autant plus grands que cette estimation est effectuée tôt pendant le développement. En outre, si l’estimation de la taille peut être effectuée périodiquement au fur et à mesure de la progression de la conception et du développement, elle peut fournir des informations précieuses aux gestionnaires du projet pour suivre au mieux la progression du développement et affiner en conséquence l'allocation des ressources. Notre recherche se positionne autour des mesures d’estimation de la taille fonctionnelle, couramment appelées Analyse des Points de Fonctions, qui permettent d’estimer la taille d’un logiciel à partir des fonctionnalités qu’il doit fournir à l’utilisateur final, exprimées uniquement selon son point de vue, en excluant en particulier toute considération propre au développement. Un problème significatif de l'utilisation des points de fonction est le besoin d'avoir recours à des experts humains pour effectuer la quotation selon un ensemble de règles de comptage. Le processus d'estimation représente donc une charge de travail conséquente et un coût important. D'autre part, le fait que les règles de comptage des points de fonction impliquent nécessairement une part d'interprétation humaine introduit un facteur d'imprécision dans les estimations et rend plus difficile la reproductibilité des mesures. Actuellement, le processus d'estimation est entièrement manuel et contraint les experts humains à lire en détails l'intégralité des spécifications, une tâche longue et fastidieuse. Nous proposons de fournir aux experts humains une aide automatique dans le processus d'estimation, en identifiant dans le texte des spécifications, les endroits les plus à même de contenir des points de fonction. Cette aide automatique devrait permettre une réduction significative du temps de lecture et de réduire le coût de l'estimation, sans perte de précision. Enfin, l’identification non ambiguë des points de fonction permettra de faciliter et d'améliorer la reproductibilité des mesures. À notre connaissance, les travaux présentés dans cette thèse sont les premiers à se baser uniquement sur l’analyse du contenu textuel des spécifications, applicable dès la mise à disposition des spécifications préliminaires et en se basant sur une approche générique reposant sur des pratiques établies d'analyse automatique du langage naturel
The inevitable emergence of the necessity to estimate the size of a software thus estimating the probable cost and effort is a direct outcome of increasing need of complex and large software in almost every conceivable situation. Furthermore, due to the competitive nature of the software development industry, the increasing reliance on accurate size estimation at early stages of software development becoming a commonplace practice. Traditionally, estimation of software was performed a posteriori from the resultant source code and several metrics were in practice for the task. However, along with the understanding of the importance of code size estimation in the software engineering community, the realization of early stage software size estimation, became a mainstream concern. Once the code has been written, size and cost estimation primarily provides contrastive study and possibly productivity monitoring. On the other hand, if size estimation can be performed at an early development stage (the earlier the better), the benefits are virtually endless. The most important goals of the financial and management aspect of software development namely development cost and effort estimation can be performed even before the first line of code is being conceived. Furthermore, if size estimation can be performed periodically as the design and development progresses, it can provide valuable information to project managers in terms of progress, resource allocation and expectation management. This research focuses on functional size estimation metrics commonly known as Function Point Analysis (FPA) that estimates the size of a software in terms of the functionalities it is expected to deliver from a user’s point of view. One significant problem with FPA is the requirement of human counters, who need to follow a set of standard counting rules, making the process labour and cost intensive (the process is called Function Point Counting and the professional, either analysts or counters). Moreover, these rules, in many occasion, are open to interpretation, thus they often produce inconsistent counts. Furthermore, the process is entirely manual and requires Function Point (FP) counters to read large specification documents, making it a rather slow process. Some level of automation in the process can make a significant difference in the current counting practice. Automation of the process of identifying the FPs in a document accurately, will at least reduce the reading requirement of the counters, making the process faster and thus shall significantly reduce the cost. Moreover, consistent identification of FPs will allow the production of consistent raw function point counts. To the best of our knowledge, the works presented in this thesis is an unique attempt to analyse specification documents from early stages of the software development, using a generic approach adapted from well established Natural Language Processing (NLP) practices
17

Chabrier, Jean-Claude C. "Analyses de musiques traditionnelles : identification de systèmes acoustiques, scalaires, modaux & instrumentaux : représentation morpho-mélodique, structuro-modale & du langage instrumental". Paris (213 Av. de Versailles, 75016) : Arabesques, 1996. http://catalogue.bnf.fr/ark:/12148/cb371718879.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
18

Devilliers, Elise. "Lecture et identification des mots selon les matières comparaison de deux profils d'enfants (enfants dyslexiques et enfants normo-lecteurs) /". Nancy : Université Henri-Poincaré, 2009. http://www.scd.uhp-nancy.fr/docnum/SCDMED_MORT_2009_DEVILLIERS_ELISE.pdf.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
19

Braud, Chloé. "Identification automatique des relations discursives implicites à partir de corpus annotés et de données brutes". Sorbonne Paris Cité, 2015. https://hal.inria.fr/tel-01256884.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le développement de systèmes d'analyse discursive automatique des documents est un enjeu actuel majeur en Traitement Automatique des Langues. La difficulté principale correspond à l'étape d'identification des relations (comme Explication, Contraste. . . ) liant les segments constituant le document. En particulier, l'identification des relations dites implicites, c'est-à-dire non marquées par un connecteur discursif (comme mais, parce que. . . ), est réputée difficile car elle nécessite la prise en compte d'indices variés et correspond à des difficultés particulières dans le cadre d'un système de classification automatique. Dans cette thèse, nous utilisons des données brutes pour améliorer des systèmes d'identification automatique des relations implicites. Nous proposons d'abord d'utiliser les connecteurs pour annoter automatiquement de nouvelles données. Nous mettons en place des stratégies issues de l'adaptation de domaine qui nous permettent de gérer les différences en termes distributionnels entre données annotées automatiquement et manuellement : nous rapportons des améliorations pour des systèmes construits sur le corpus français ANNODIS et sur le corpus anglais du Penn Discourse Treebank Ensuite, nous proposons d'utiliser des représentations de mots acquises à partir de données brutes, éventuellement annotées automatiquement en connecteurs, pour enrichir la représentation des données fondées sur les mots présents dans les segments à lier. Nous rapportons des améliorations sur le corpus anglais du Penn Discourse Treebank et montrons notamment que cette méthode permet de limiter le recours à des ressources riches, disponibles seulement pour peu de langues
Building discourse parsers is currently a major challenge in Natural Language Processing. The identification of the relations (such as Explanation, Contrast. . . ) linking spans of text in the document is the main difficulty. Especially, identifying the so-called implicit relations, that is the relations that lack a discourse connective (such as but, because. . . ), is known as an hard tank sine it requires to take into account varions factors, and because it leads to specific difficulties in a classification system. In this thesis, we use raw data to improve automatic identification of implicit relations. First, we propose to use discourse markers in order to automatically annotate new data. We use domain adaptation methods to deal with the distributional differences between automatically and manually annotated data : we report improvements for systems built on the French corpus ANNODIS and on the English corpus Penn Discourse Treebank. Then, we propose to use word representations built from raw data, which may be automatically annotated with discourse markers, in order to feed a representation of the data based on the words found in the spans of text to be linked. We report improvements on the English corpus Penn Discourse Treebank, and especially we show that this method alleviates the need for rich resources, available but for a few languages
20

Capponi, Cécile. "Identification et Exploitation des Types dans un modèle de connaissances à objets". Phd thesis, Université Joseph Fourier (Grenoble), 1995. http://tel.archives-ouvertes.fr/tel-00345845.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les modèles de connaissances à objets (MCO) souffrent d'une surcharge dans l'utilisation de leur langage de représentation associé. Si ce langage a pour objectif d'être adapté à la représentation informatique d'un domaine d'application, nous montrons qu'il n'est pas pertinent de l'utiliser pour définir des structures de données, certes utiles pour la représentation du domaine, mais dépourvues de signification directe dans ce domaine (ex. une matrice dans le domaine de l'astronomie). Cette thèse propose un système de types à deux niveaux, appelé METÈO. Le premier niveau de METÈO est un langage pour l'implémentation de types abstraits de données (ADT) qui sont nécessaires à la description minimale des éléments pertinents du domaine d'application. Ainsi, METÈO libère le langage de représentation d'une tâche à laquelle il n'a pas à s'adapter. Le second niveau de METÈO traite de l'affinement des ADT opéré dans la description des objets de représentation. Nous rappelons les deux interprétations des objets de représentation: l'intension d'un objet est une tentative de description de ce que cet objet dénote dans le domaine d'application: son extension. L'équivalence généralement admise entre ces deux aspects de l'objet est une illusion, et contribue de plus à annihiler une des véritables finalités d'un modèle de connaissances: aider une caractérisation des plus précises d'un domaine d'application. Ainsi, les types du second niveau de METÈO s'attachent à la représentation et la manipulation des intensions des objets, indépendamment de leurs extensions. L'interprétation en extension des objets est effectuée par l'utilisateur, METÈO gère en interne les descriptions de ces objets alors dénuées de leur signification, et le MCO peut alors se concentrer sur la coopération entre ces deux aspects des objets, considérés non-équivalents dans cette étude. METÈO contribue ainsi à clarifier le rôle de chaque partenaire impliqué dans la construction et l'exploitation d'une base de connaissances. Plus généralement, METÈO jette un pont entre les spécificités des MCO et les techniques usuelles de programmation de structures de données manipulables. Un prototype de METÈO a été développé pour un couplage avec le MCO TROPES
21

Le, Priol Florence. "Extraction et capitalisation automatiques de connaissances à partir de documents textuels : Seek-Java : identification et interprétation de relations entre concepts". Paris 4, 2000. http://www.theses.fr/2000PA040172.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Le travail présenté dans cette thèse se situe à la frontière de plusieurs domaines : informatique, extraction d'information, acquisition de connaissances, terminologie et linguistique. A partir de conceptualisations sémantiques élaborées dans le cadre d'un modèle général de traitement des langues en rapport avec la cognition, le modèle de la grammaire applicative et cognitive (GAC), un premier système automatique a été réalisé en 1993 (jouis 93) : seek. La présente étude a repris certaines des analyses déjà présentées dans seek mais notre effort a porté d'une part, sur une réanalyse et une réorganisation des connaissances linguistiques et d'autre part, sur une nouvelle modélisation faisant usage des potentialités offertes par le langage java de façon à intégrer le modèle de la GAC dans une plate-forme appelée filtext et sa réalisation informatique contexto. Le système seek-java identifie et interprète des relations entre concepts à partir du traitement automatique de textes et fournit les résultats à la fois sous forme de graphes et d'une base de données.
22

Chakkour, Fairouz Arina. "Identification de relations sémantiques dans des textes scientifiques et techniques en exploitant le raisonnement à partir de cas". Nancy 1, 2003. http://www.theses.fr/2003NAN10192.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les énoncés en langue naturelle dans les domaines scientifiques et techniques présentent des constructions syntaxiques récurrentes. Nous proposons de mettre en oeuvre un système de raisonnement à partir de cas pour construire une interprétation d'un énoncé en langue naturelle qui puisse être exploitée par un processus de fouille de données textuelle. L'interprétation d'un énoncé, dans le contexte où nous nous situons, consiste à identifier la relation sémantique exprimée par cet énoncé et les arguments liés par cette relation. La difficulté dans l'identification des relations sémantiques est notamment liée à deux phénomènes linguistiques : la polysémie des verbes et la paraphrase. Nous nous sommes intéressée, dans un premier temps, pour illustrer et valider notre modèle, aux relations partie-de et les relations qui peuvent être confondues avec elles comme les relations d'inclusion, de possession et d'attribution. Pour l'identification des relations sémantiques, nous exploitons et appliquons les principes du raisonnement à partir de cas (RàPC). Cette approche utilise plusieurs types de connaissances : une base de cas, une hiérarchie des index et une ontologie, pour construire l'analyse. Nous avons testé le modèle proposé sur deux corpus. Le premier est un corpus de textes sur le stress professionnel, et le deuxième est le corpus AGROVOC de résumés scientifiques en agriculture
Our approach provides a semantic interpretation of an utterance in natural language, which can be used in a textual data mining process. This analysis relies on case-based reasoning principles. The semantic interpretation of an utterance consists in identifying the semantic relation expressed by this utterance and its arguments. Semantic relations have an important contribution to a sense of a texte in natural language, and they link concepts in an ontologie. The analysis in our model is based on several types of knowledge: domaine knowledge (an ontology), linguistic knowledge, (transformations and adaptation functions) and experimental knowledge (a case base). We adopt a case-based reasoning model founded on the classification principles and paths of similarity in order to guarantee the adaptability. We have tested the model on two corpuses : the first is a corpus of texts in the domain of profesionnal stress, and the second is a corpus of texts in agriculture
23

Hatier, Sylvain. "Identification et analyse linguistique du lexique scientifique transdisciplinaire. Approche outillée sur un corpus d'articles de recherche en SHS". Thesis, Université Grenoble Alpes (ComUE), 2016. http://www.theses.fr/2016GREAL027/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse s’intéresse au lexique scientifique transdisciplinaire (LST), lexique inscrit dans le genre de l’article de recherche en sciences humaines et sociales. Le LST est fréquemment mobilisé dans les écrits scientifiques et constitue ainsi un objet d’importance pour l’étude de ce genre. Ce lexique trouve également des applications concrètes tant en indexation terminologique que pour l’aide à la rédaction/compréhension de textes scientifiques. Ces différents objectifs nous amènent à adopter une approche outillée pour identifier et caractériser les unités lexicales du LST, lexique complexe à circonscrire, situé entre lexique de la langue générale et terminologie. En nous basant sur les propriétés de spécificité et de transdisciplinarité ainsi que sur l’étude des propriétés lexico-syntaxiques de ses éléments, nous élaborons une ressource du LST intégrant informations lexicales, syntaxiques et sémantiques. L’analyse de la combinatoire à l’aide d’un corpus arboré autorise ainsi une caractérisation du LST ancrée sur l’usage dans le genre de l’article de recherche. Selon cette même approche, nous identifions les acceptions nominales transdisciplinaires et proposons une classification sémantique fondée sur la combinatoire en corpus pour intégrer à notre ressource lexicale une typologie nominale sur deux niveaux. Nous montrons enfin que cette structuration du LST nous permet d’aborder la dimension phraséologique et rhétorique du LST en faisant émerger du corpus des constructions récurrentes définies par leurs propriétés syntactico-sémantiques
In this dissertation we study the French cross-disciplinary scientific lexicon (CSL), a lexicon which fall within the genre of scientific articles in humanities and social sciences. As the CSL is commonly used in scientific texts, it is a gateway of interest to explore this genre. This lexicon has also practical applications in the fields of automatic terms identification and foreign language teaching in the academic background. To this end, we apply a corpus-driven approach in order to extract and structure the CSL lexical units which are complex to circumscribe. The method relies on the cross-disciplinarity and specificity criteria and on the lexico-syntactic properties of the CSL lexical units. As a result, we designed a lexical resource which include lexical, syntactical and semantical informations. As we analyze the combinatorial properties extracted from a parsed corpus of scientific articles, we performed a CSL study based on its genre specific use. We follow the same approach to identify cross-disciplinary meanings for the CSL nouns and to design a nominal semantic classification. This two-level typology allow us to explore rhetorical and phraseological CSL properties by identifying frequent syntactico-semantic patterns
24

Parcollet, Titouan. "Quaternion neural networks A survey of quaternion neural networks - Chapter 2 Real to H-space Autoencoders for Theme Identification in Telephone Conversations - Chapter 7". Thesis, Avignon, 2019. http://www.theses.fr/2019AVIG0233.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Au cours des dernières années, l’apprentissage profond est devenu l’approche privilégiée pour le développement d’une intelligence artificielle moderne (IA). L’augmentation importante de la puissance de calcul, ainsi que la quantité sans cesse croissante de données disponibles ont fait des réseaux de neurones profonds la solution la plus performante pour la resolution de problèmes complexes. Cependant, la capacité à parfaitement représenter la multidimensionalité des données réelles reste un défi majeur pour les architectures neuronales artificielles.Pour résoudre ce problème, les réseaux de neurones basés sur les algèbres des nombres complexes et hypercomplexes ont été développés. En particulier, les réseaux de neurones de quaternions (QNN) ont été proposés pour traiter les données tridi- mensionnelles et quadridimensionnelles, sur la base des quaternions représentant des rotations dans notre espace tridimensionnel. Malheureusement, et contrairement aux réseaux de neurones à valeurs complexes qui sont de nos jours acceptés comme une alternative aux réseaux de neurones réels, les QNNs souffrent de nombreuses lacunes qui sont en partie comblées par les différents travaux détaillés par ce manuscrit.Ainsi, la thèse se compose de trois parties qui introduisent progressivement les concepts manquants, afin de faire des QNNs une alternative aux réseaux neuronaux à valeurs réelles. La premiere partie présente et répertorie les précédentes découvertes relatives aux quaternions et aux réseaux de neurones de quaternions, afin de définir une base pour la construction des QNNs modernes.La deuxième partie introduit des réseaux neuronaux de quaternions état de l’art, afin de permettre une comparaison dans des contextes identiques avec les architectures modernes traditionnelles. Plus précisément, les QNNs étaient majoritairement limités par leurs architectures trop simples, souvent composées d’une seule couche cachée comportant peu de neurones. Premièrement, les paradigmes fondamentaux, tels que les autoencodeurs et les réseaux de neurones profonds sont présentés. Ensuite, les très répandus et étudiés réseaux de neurones convolutionnels et récurrents sont étendus à l’espace des quaternions. De nombreuses experiences sur différentes applications réelles, telles que la vision par ordinateur, la compréhension du langage parlé ainsi que la reconnaissance automatique de la parole sont menées pour comparer les modèles de quaternions introduits aux réseaux neuronaux conventionnels. Dans ces contextes bien spécifiques, les QNNs ont obtenus de meilleures performances ainsi qu’une réduction importante du nombre de paramètres neuronaux nécessaires à la phase d’apprentissage.Les QNNs sont ensuite étendus à des conditions d’entrainement permettant de traiter toutes les représentations en entrée des modèles de quaternions. Dans un scénario traditionnel impliquant des QNNs, les caractéristiques d’entrée sont manuellement segmentées en quatre composants, afin de correspondre à la representation induite par les quaternions. Malheureusement, il est difficile d’assurer qu’une telle segmentation est optimale pour résoudre le problème considéré. De plus, une segmentation manuelle réduit fondamentalement l’application des QNNs à des tâches naturellement définies dans un espace à au plus quatre dimensions. De ce fait, la troisième partie de cette thèse introduit un modèle supervisé et un modèle non supervisé permettant l’extraction de caractéristiques d’entrée désentrelacées et significatives dans l’espace des quaternions, à partir de n’importe quel type de signal réel uni-dimentionnel, permettant l’utilisation des QNNs indépendamment de la dimensionnalité des vecteurs d’entrée et de la tâche considérée. Les expériences menées sur la reconnaissance de la parole et la classification de documents parlés montrent que les approches proposées sont plus performantes que les représentations traditionnelles de quaternions
In the recent years, deep learning has become the leading approach to modern artificial intelligence (AI). The important improvement in terms of processing time required for learning AI based models alongside with the growing amount of available data made of deep neural networks (DNN) the strongest solution to solve complex real-world problems. However, a major challenge of artificial neural architectures lies on better considering the high-dimensionality of the data.To alleviate this issue, neural networks (NN) based on complex and hypercomplex algebras have been developped. The natural multidimensionality of the data is elegantly embedded within complex and hypercomplex neurons composing the model. In particular, quaternion neural networks (QNN) have been proposed to deal with up to four dimensional features, based on the quaternion representation of rotations and orientations. Unfortunately, and conversely to complex-valued neural networks that are nowadays known as a strong alternative to real-valued neural networks, QNNs suffer from numerous limitations that are carrefuly addressed in the different parts detailled in this thesis.The thesis consists in three parts that gradually introduce the missing concepts of QNNs, to make them a strong alternative to real-valued NNs. The first part introduces and list previous findings on quaternion numbers and quaternion neural networks to define the context and strong basics for building elaborated QNNs.The second part introduces state-of-the-art quaternion neural networks for a fair comparison with real-valued neural architectures. More precisely, QNNs were limited by their simple architectures that were mostly composed of a single and shallow hidden layer. In this part, we propose to bridge the gap between quaternion and real-valued models by presenting different quaternion architectures. First, basic paradigms such as autoencoders and deep fully-connected neural networks are introduced. Then, more elaborated convolutional and recurrent neural networks are extended to the quaternion domain. Experiments to compare QNNs over equivalents NNs have been conducted on real-world tasks across various domains, including computer vision, spoken language understanding and speech recognition. QNNs increase performances while reducing the needed number of neural parameters compared to real-valued neural networks.Then, QNNs are extended to unconventional settings. In a conventional QNN scenario, input features are manually segmented into three or four components, enabling further quaternion processing. Unfortunately, there is no evidence that such manual segmentation is the representation that suits the most to solve the considered task. Morevover, a manual segmentation drastically reduces the field of application of QNNs to four dimensional use-cases. Therefore the third part introduces a supervised and an unsupervised model to extract meaningful and disantengled quaternion input features, from any real-valued input signal, enabling the use of QNNs regardless of the dimensionality of the considered task. Conducted experiments on speech recognition and document classification show that the proposed approaches outperform traditional quaternion features
25

Arias, Aguilar José Anibal. "Méthodes spectrales pour le traitement automatique de documents audio". Toulouse 3, 2008. http://thesesups.ups-tlse.fr/436/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les disfluences sont un phénomène apparaissant fréquemment dans toute production orale spontanée ; elles consistent en l'interruption du cours normal du discours. Elles ont donné lieu à de nombreuses études en Traitement Automatique du Langage Naturel. En effet, leur étude et leur identification précise sont primordiales, sur les plans théorique et applicatif. Cependant, la majorité des travaux de recherche sur le sujet portent sur des usages de langage quotidien : dialogues " à bâtons rompus ", demandes d'horaire, discours, etc. Mais qu'en est-il des productions orales spontanées produites dans un cadre contraint ? Aucune étude n'a à notre connaissance été menée dans ce contexte. Or, on sait que l'utilisation d'une " langue de spécialité " dans le cadre d'une tâche donnée entraîne des comportements spécifiques. Notre travail de thèse est consacré à l'étude linguistique et informatique des disfluences dans un tel cadre. Il s'agit de dialogues de contrôle de trafic aérien, aux contraintes pragmatiques et linguistiques. Nous effectuons une étude exhaustive des phénomènes de disfluences dans ce contexte. Dans un premier temps nous procédons à l'analyse fine de ces phénomènes. Ensuite, nous les modélisons à un niveau de représentation abstrait, ce qui nous permet d'obtenir les patrons correspondant aux différentes configurations observées. Enfin nous proposons une méthodologie de traitement automatique. Celle-ci consiste en plusieurs algorithmes pour identifier les différents phénomènes, même en l'absence de marqueurs explicites. Elle est intégrée dans un système de traitement automatique de la parole. Enfin, la méthodologie est validée sur un corpus de 400 énoncés
The disfluencies are a frequently occurring phenomenon in any spontaneous speech production; it consists of the interruption of the normal flow of speech. They have given rise to numerous studies in Natural Language Processing. Indeed, their study and precise identification are essential, both from a theoretical and applicative perspective. However, most of the researches about the subject relate to everyday uses of language: "small talk" dialogs, requests for schedule, speeches, etc. But what about spontaneous speech production made in a restrained framework? To our knowledge, no study has ever been carried out in this context. However, we know that using a "language specialty" in the framework of a given task leads to specific behaviours. Our thesis work is devoted to the linguistic and computational study of disfluencies within such a framework. These dialogs concern air traffic control, which entails both pragmatic and linguistic constraints. We carry out an exhaustive study of disfluencies phenomena in this context. At first we conduct a subtle analysis of these phenomena. Then we model them to a level of abstraction, which allows us to obtain the patterns corresponding to the different configurations observed. Finally we propose a methodology for automatic processing. It consists of several algorithms to identify the different phenomena, even in the absence of explicit markers. It is integrated into a system of automatic processing of speech. Eventually, the methodology is validated on a corpus of 400 sentences
26

Baur, Ruedi. "Entre identité et identification : les valeurs civiques des systèmes de représentation publics". Thesis, Strasbourg, 2016. http://www.theses.fr/2016STRAC009/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Des premières fascinations des graphistes pour les notions de systèmes, en passant par l’introduction des approches liées au « corporate design » et à la « corporate identity », le renforcement progressif du « marketing », puis le basculement vers le « branding » et la mise en valeur artificielle des marques, la recherche rend compte de l’évolution des représentations d’institutions, d’événements et de collectivités publics, entre les années 1970 et 2010. Cette chronologie des approches dominantes est analysée en écho à celle d’une série d’expérimentations personnelles liées à une approche qui se veut plus civique du design et qui permet de penser de réelles méthodes alternatives. En analysant les relations entre identification et identité, est proposé un déplacement du focus des questions de visibilité et de mise en valeur des marques vers des approches qui, à l’aide de langages visuels partagés, placent en leur centre : - l’intelligibilité des structures complexes, - la représentation des pluriels, des évolutions et des relations, - l’intégration au contexte, - la coordination des expressions multiples
Research documenting the evolution of visual representations of institutions, events and public bodies between 1970 and 2010, from designers’intitial fascination with the concept of « corporate design » and « corporate identity » systems, the progressive reinforcement of « marketing », then the switch to « branding » and the artificial values attached to brands is chronologically analysed through a series of personal experiments related to an intentionally more civic design minded approach that permits the creation of real alternative methods. Analysing the relationship between identification and identity sees a proposed shift in focus concerning brand visibility and enhancement towards approaches that, with the help of shared visual languages, places at the centre – the intelligibility of complex structures – the representation of plurality, trends and relationships, - the integration of context – the coordination of multiple expressions
27

Botha, Gerrti Reinier. "Text-based language identification for the South African languages". Pretoria : [s.n.], 2007. http://upetd.up.ac.za/thesis/available/etd-090942008-133715/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
28

Blanc, Jean-Marc. "Traitement de la prosodie par un réseau récurrent temporel : un cadre unifié pour l'identification automatique des langues, des attitudes prosodiques, et des catégories lexicales". Lyon 2, 2005. http://theses.univ-lyon2.fr/documents/lyon2/2005/blanc_jm.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La prosodie nous est directement accessible lorsque nous écoutons une langue étrangère. Quel mécanisme peut traiter la prosodie de la parole ? Un réseau récurrent temporel (TRN) vérifiant des études neurophysiologiques sur l'apprentissage de séquences par le primate a été testé pour l'identification de contours prosodiques définis sur différentes échelles réparties sur un continuum temporel. Le rythme d'une langue peut être caractérisé globalement. Le réseau TRN identifie cinq langues européennes à partir d'un cochléogramme (65%). En employant la fréquence fondamentale, le réseau reconnaît six attitudes (modes syntaxiques et émotions) et distingue les mots de fonction et de contenu, deux catégories lexicales, à l'origine de l'amorçage de la syntaxe. Lorsque le modèle est altéré de façon à amoindrir sa sensibilité temporelle, cette catégorisation ne s'effectue plus et le profil des réponses à deux tâches de traitement auditif rapide est semblable à celui d'enfants ayant des troubles spécifiques du langage, en particulier pour la syntaxe. En outre, ce modèle réplique deux discriminations prosodiques réalisées par des nouveau-nés : les langues sont distinguées en fonction de leur classe rythmique et les mots de fonction se distinguent des mots de contenu. En résumé, le réseau TRN accomplit trois tâches dans lesquelles la prosodie se définit entre un domaine global (une langue) et local (un mot) : Identification Automatique des Langues et des Attitudes Prosodiques ; Discrimination des mots de Fonction et de Contenu. Enfin, des troubles auditifs pour le traitement d'événement rapide et des troubles de la syntaxe peuvent être simulés par une déformation de la sensibilité temporelle du réseau
Prosody is directly accessible to us when hearing a foreign language. What is the mechanism implicated in the processing of speech prosody ? A Temporal Recurrent Network (TRN) inspired by neurophysiologic studies for sequences learning by primates has been tested for the identification of prosodic contours. Language rhythm can be globally defined. The TRN identify five European languages (50%) based on the automatic segmentation of speech in consonants and vowels, but also with a cochleogram (65%). With the fundamental frequency, the network identifies six prosodic attitudes (syntactic modes and emotions) and distinguishes content from function words, two lexical categories that could bootstrap syntax. When the model is distorted in order to reduce its temporal sensitivity, this categorization could not be realized, and the pattern of response to two rapid auditory processing tasks resembles that of children with Specific Language Impairment, in particular for syntax. In addition, this model replicates two experiments of prosodic discrimination realized by new-borns: languages are distinguished according to their class rhythm and function words are discriminated from content words. In brief, the TRN accomplishes three tasks where prosody is defined on different temporal domains: from language (global field) to word (local field): Automatic Identification of Languages, and prosodic attitudes; Discrimination of content and function words. Finally auditory and language specific troubles could be simulated when the temporal sensitivity of the network is weaken
29

Grosser, David. "Construction itérative de bases de connaissances descriptives et classificatoires avec la plate-forme à objets IKBS : application à la systèmatique des coraux des Mascareignes". La Réunion, 2002. http://tel.archives-ouvertes.fr/tel-00003415/fr/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
La modélisation du savoir-faire des systématiciens à l'aide de Bases de Connaissances, offre le moyen de mieux comprendre, préserver et transmettre aux générations futures les connaissances sur la biodiversité des espèces. Pour construire une base de connaissances, il est nécessaire de disposer de méthodes de gestion de connaissances, de modèles de représentation et d'outils informatiques adaptés d'une part, à la complexité des concepts manipulés par les systématiciens et d'autre part, à la richesse des descriptions des spécimens représentatifs des espèces. La plate-forme logicielle proposée, appelée IKBS, offre aux Systématiciens un environnement pour la construction de Bases de Connaissances évolutives, ainsi qu'une aide à l'identification et à la classification d'objets complexes. Elle met en œuvre une méthodologie itérative fondée sur l'approche expérimentale de nature inductive des naturalistes. Le paradigme objet utilisé pour sa réalisation favorise l'extensibilité et la réutilisabilité des composants logiciels développés. IKBS associé aux technologies multimédia et hypertextuelles a été utilisé par un groupe d'experts pour la réalisation d'une "base de connaissances sur les coraux des Mascareignes"
30

Turchet, Philippe. "Identification de ruptures de compréhension dialogique en contexte interculturel à partir d’indices corporels". Thesis, Paris 10, 2017. http://www.theses.fr/2017PA100174/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse de Sciences du langage, s’inscrit dans le contexte de la communication interculturelle et se fonde sur l’analyse d’un corpus de 184112 mots (56 locuteurs, 13 nationalités), 9155 tours de paroles dialogiques. Il s’agit de rechercher un ou plusieurs indices mimogestuels de rupture de compréhension, en l’absence de verbalisation, chez le locuteur silencieux, durant l’interaction. La PARTIE I, propose un état des lieux concernant le repérage des ruptures de compréhension, en situation d’exolinguisme. La PARTIE II, expérimentation préliminaire (méthodologie et analyse de contenu), délimite 177 « blocs-textes », où s’encapsulent des ruptures de compréhension. Un item mimo-gestuel, lié à une excentration brève et rapide du regard (ERBR), souvent répliqué, est prélevé. La PARTIE III est une expérimentation princeps qui découle de l’expérimentation préliminaire. La variable indépendante (le langage verbal) et la variable dépendante (la mimogestualité), sont inversées, pour vérifier si les ruptures de compréhension, une fois rapportées aux critères verbaux corollaires, sont directement identifiables, à partir d’attitudes mimo-gestuelles précises. L’indice (ERBR) est donc systématiquement recherché dans le corpus : sa présence, largement répliquée, en situation de rupture de compréhension, suggère donc qu’il s’agit d’un signal de non-compréhension langagière. Ainsi, une corrélation forte entre le langage verbal et la gestualité non-consciente est bien objectivée, en situation dialogique, multiculturelle : ce repérage de moments de non-compréhension, dès leur incidence, pourrait être un réel apport à la didactique des langues, dans les sociétés cosmopolites d’aujourd’hui
This PhD thesis is part of the context of intercultural communication and is based on the analysis of a corpus of 184112 words (56 speakers, 13 nationalities), 9155 turns of dialogic words. It is a question of looking for one or more mimogestual indices of rupture of comprehension, in the absence of verbalization, in the silent speaker, during the interaction. The PART I, proposes a state of the places concerning the locating of the breaks of comprehension, in situation of exolinguism. PART II, Preliminary Experimentation (Methodology and Content Analysis), delineates 177 "text-blocks", in which breaks in comprehension occur. A mimo-gestual item, linked to a short and fast eccentric look (ERBR), often replicated, is taken. PART III is a first experiment that arises from preliminary experimentation. The independent variable (the verbal language) and the dependent variable (the mimogestuality), are reversed, to check if the breaks of comprehension, once reported to the corollary verbal criteria, are directly identifiable, starting from precise mimo-gestures attitudes. The index (ERBR) is therefore systematically searched for in the corpus: its presence, which is largely replicated, in a situation of rupture of understanding, therefore suggests that it is a signal of linguistic non-comprehension. Thus, a strong correlation between verbal language and non-conscious gestuality is well objectified, in a dialogical, multicultural situation: this identification of moments of non-understanding, as soon as they have an impact, could be a real contribution to the didactics of languages, in the cosmopolitan societies of today
31

Nosary, Ali. "Reconnaissance automatique de textes manuscrits par adaptation au scripteur". Rouen, 2002. http://www.theses.fr/2002ROUES007.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux présentés dans ce mémoire abordent le problème de la reconnaissance hors-ligne de textes manuscrits. Ces travaux décrivent un système de reconnaissance de textes exploitant un principe original d'adaptation à l'écriture à reconnaître. Ce principe d'adaptation, inspiré des principaux effets contextuels observés chez un lecteur humain, est basé sur l'apprentissage,au cours de la reconnaissance, des particularités graphiques représentatives de l'écriture du scripteur (invariants du scripteur). La reconnaissance de mots procède selon une approche analytique basée sur le principe de segmentation-reconnaissance. L'adaptation en ligne du système de reconnaissance repose sur l'itération de phases de reconnaissance de mots qui permettent d'étiqueter les représentations du scripteur (allographes) sur l'ensemble du texte et de phases de réévaluation des modèles de caractères. La mise en application de notre stratégie de reconnaissance par adaptation nécessite de recourir à un schéma de reconnaissance interactif capable de faire interagir les traitements aux différents niveaux contextuels. Le modèle d'interaction retenu est basé sur le paradigme multi-agent. Les tests réalisés sur un échantillon d'une quinzaine de scripteurs tous inconnus du système montrent l'intérêt du schéma d'adaptation proposé puisque nous obtenons une amélioration de la reconnaissance, à la fois des lettres et des mots, au cours des itérations
This thesis deals with the problem of off-line handwritten text recognition. It describes a system of text recognition which exploits an original principle of adaptation to the handwriting to be recognized. The adaptation principle, inspired by contextual effects observed from a human reader, is based on the automatic learning, during the recognition, of the graphical characteristics of the handwriting (writer invariants). The word recognition proceeds according to an analytical approach based on a segmentation-recognition principle. The on-line adaptation of the recognition system relies on the iteration of two steps : a word recognition step which allows to label the writer's representations (allographes) on the whole text and a revaluation step of character models. The implementation of our adaptation strategy requires an interactive recognition scheme able to make interact treatments at various contextual levels. The interaction model retained is based on the multi-agent paradigm
32

Bouraoui, Jean-Léon Mehdi. "Analyse, modélisation et détection automatique des disfluences dans le dialogue oral spontané contraint : le cas du contrôle aérien". Phd thesis, Université Paul Sabatier - Toulouse III, 2008. http://tel.archives-ouvertes.fr/tel-00354772.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les disfluences sont un phénomène apparaissant fréquemment dans toute production orale spontanée ; elles consistent en l'interruption du cours normal du discours. Elles ont donné lieu à de nombreuses études en Traitement Automatique du Langage Naturel. En effet, leur étude et leur identification précise sont primordiales, sur les plans théorique et applicatif.
Cependant, la majorité des travaux de recherche sur le sujet portent sur des usages de langage quotidien : dialogues « à bâtons rompus », demandes d'horaire, discours, etc. Mais qu'en est-il des productions orales spontanées produites dans un cadre contraint ? Aucune étude n'a à notre connaissance été menée dans ce contexte. Or, on sait que l'utilisation d'une « langue de spécialité » dans le cadre d'une tâche donnée entraîne des comportements spécifiques.
Notre travail de thèse est consacré à l'étude linguistique et informatique des disfluences dans un tel cadre. Il s'agit de dialogues de contrôle de trafic aérien, aux contraintes pragmatiques et linguistiques. Nous effectuons une étude exhaustive des phénomènes de disfluences dans ce contexte. Dans un premier temps nous procédons à l'analyse fine de ces phénomènes. Ensuite, nous les modélisons à un niveau de représentation abstrait, ce qui nous permet d'obtenir les patrons correspondant aux différentes configurations observées. Enfin nous proposons une méthodologie de traitement automatique. Celle-ci consiste en plusieurs algorithmes pour identifier les différents phénomènes, même en l'absence de marqueurs explicites. Elle est intégrée dans un système de traitement automatique de la parole. Enfin, la méthodologie est validée sur un corpus de 400 énoncés.
33

Yin, Bo Electrical Engineering &amp Telecommunications Faculty of Engineering UNSW. "Language identification with language and feature dependency". Awarded By:University of New South Wales. Electrical Engineering & Telecommunications, 2009. http://handle.unsw.edu.au/1959.4/44045.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
The purpose of Language Identification (LID) is to identify a specific language from a spoken utterance, automatically. Language-specific characteristics are always associated with different languages. Most existing LID approaches utilise a statistical modelling process with common acoustic/phonotactic features to model specific languages while avoiding any language-specific knowledge. Great successes have been achieved in this area over past decades. However, there is still a huge gap between these languageindependent methods and the actual language-specific patterns. It is extremely useful to address these specific acoustic or semantic construction patterns, without spending huge labour on annotation which requires language-specific knowledge. Inspired by this goal, this research focuses on the language-feature dependency. Several practical methods have been proposed. Various features and modelling techniques have been studied in this research. Some of them carry out additional language-specific information without manual labelling, such as a novel duration modelling method based on articulatory features, and a novel Frequency-Modulation (FM) based feature. The performance of each individual feature is studied for each of the language-pair combinations. The similarity between languages and the contribution in identifying a language by using a particular feature are defined for the first time, in a quantitative style. These distance measures and languagedependent contributions become the foundations of the later-presented frameworks ?? language-dependent weighting and hierarchical language identification. The latter particularly provides remarkable flexibility and enhancement when identifying a relatively large number of languages and accents, due to the fact that the most discriminative feature or feature-combination is used when separating each of the languages. The proposed systems are evaluated in various corpora and task contexts including NIST language recognition evaluation tasks. The performances have been improved in various degrees. The key techniques developed for this work have also been applied to solve a different problem other than LID ?? speech-based cognitive load monitoring.
34

Droin, Nicolas. "Paysage et dépaysement dans l’œuvre de Michelangelo Antonioni : de "Blow Up" à "Identification d’une femme"". Thesis, Paris 10, 2012. http://www.theses.fr/2012PA100175/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L’œuvre d’Antonioni constitue un champ privilégié pour initier une étude du paysage dans l’art cinématographique. Notre étude se focalise sur le dépaysement cinématographique d’Antonioni, de Blow up (1966) à son retour en Italie avec Identification d’une femme (1982). Notre étude vise à marquer l’importance d’une conception mouvante et cinéplastique du paysage, intégrant la question du montage, du mouvement (de l’image et dans l’image), pour dégager les forces rythmiques, métamorphiques et plastiques de l’image-paysage au cinéma. A partir de ces forces, nous souhaitons ouvrir la question du paysage à l’aune de la notion de dépaysement. Le dépaysement constitue un matériau opérant pour penser l’image cinématographique, sa déterritorialisation, son mouvement. Dépayser le paysage entraîne chez Antonioni un dialogue avec l’Histoire de l’art qui implique de repenser les questions esthétiques majeures du XXème siècle (de l’abstraction à l’art informel, en passant par le Land Art et la performance) dans le champ d’une étude cinématographique. La question du dépaysement nécessite de proposer de nouveaux outils pour penser le paysage au cinéma. Nous proposons de nommer « entre-paysage » la constitution d’un paysage qui intègre les processus propres à l’image cinématographique dans sa plastique, en nous appuyant sur les notions d’intervalle et d’entre-image. Un « entre-paysage » cinématographique, tel qu’il est possible de le définir dans l’œuvre d’Antonioni, ouvre une mobilisation plastique de l’image-paysage qui nous permet d’interroger en retour la pratique artistique contemporaine
The work of Antonioni is a fertile field to study landscape in cinematographic art. This study focuses on Antonioni's cinematographic disorientation, from Blow up (1966) to its come-back in Italy with Identification of a woman (1982). My work aims at showing the importance of a changing and cineplastic vision of landscape which integrates the question of editing, motion (of image and inside the image itself), in order to highlight the rhythmic, metamorphic and plastic strenghts of the image-landscape in the cinema. Having shown these strenghts, I intend to interrogate the question of landscape from the notion of disorientation. Disorientation represents an operating materiel to think the cinematographic image, its deterritorialisation, its motion. Disorientating landscape in Antonioni's work leads to a dialogue with art history, which implies to rethink the major aesthethic questions of the 20th century (from abstraction to informal art, by Land-Art and performance) in the context of a cinematographic study. The question of disorientation requires new tools to rethink landscape in the cinema. I suggest to name « inter-landscape » the constitution of a landscape which integrates peculiar to image in its plastic processes relying on notions suchs as interval and inter-images. A cinematographic « inter-landscape », as can be define from the work of Antonioni, offers a plastic mobilisation of the image-landscape which allows to interrogate, in turn, contemporary artistic practice
35

Hedjem, Louisa. "Jeanne d'Arc en France : construction identitaire et identité nationale". Thesis, Sorbonne Paris Cité, 2017. http://www.theses.fr/2017USPCC046/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Cette thèse part d'une réflexion sur l'inédit hors norme mis en acte par Jeanne la Pucelle, faisant d'elle la matrice de Jeanne d'Arc. Pour saisir sa singulière spécificité paradoxale, nous postulons que les changements majeurs opérés en et par l'anomalie Jeanne la Pucelle peuvent s'expliquer par un processus adolescent à l'œuvre, un travail d'adolescence créateur. Elle est un exemple emblématique d'adolescente hors temps de l'adolescence sociale. Le langage de ses actes verbaux et comportementaux transgressifs, d'ordre narcissique phallique, laisse transparaître l'expression d'une féminité masculine, qui condense une combinatoire d'identifications et d'idéaux transmis par les figures parentales, mais remaniés. Pour ce temps pubertaire, nous postulons que la voix johannique ne signe pas l'entrée dans la psychose, mais fonctionne comme un double de soi, un interlocuteur transitionnel ouvrant à une relation de soi à soi et à l'autre ; comme un étai autorisant et stimulant une création de soi originale en son temps.Au XIXe siècle, des républicains et des nationalistes, visant à bâtir une nouvelle France fondée sur de nouvelles origines, fabriquent une position idéologique par un roman national, qui met la fonction héroïque de Jeanne d'Arc au service de l'idéalisme patriotique. Prototype du héros patriote, elle sert de support et vecteur d'identification héroïque et d'idéaux collectifs. Le nouage identification-identité-idéal à l'individuel et au collectif fait liaison pour cerner les enjeux identitaires d'un sujet en devenir et d'une nation qui se construisent, et pour répondre au besoin identitaire du sujet et à son désir de réparation de traumatisme et de préjudice
This thesis is based on thinking around the unprecedented action of the Maid of Orléans which created the Joan of Arc matrix. In order to understand this intriguing and singular specificity, we hypothesise that the major changes operated in and by the anomaly of the Maid of Orléans can be explained by the adolescent process, the work of a creating adolescent. She is emblematic of the adolescent who finds themselves developing outside of the social framework of adolescence. The language of her transgressive verbal and behavioural actions, which can be viewed as phallic-narcissistic, express a masculine femininity in which a combination of identifications and ideals passed on by the parent figures are coalesced and reworked. In a pubescent context, we hypothesis that the voices heard by Joan of Arc are not a sign of psychosis but a sort of double of herself, a transitional intermediary, opening up the development of a relationship with herself and with others; a form of support which authorises and stimulates the creation of a self that is both original and disturbing in medieval times.In the XIXth century, Republicans and Nationalists, building a new France, on new foundations, established an ideological position through national storytelling which used Joan of Arc's heroic function to further patriotic idealism. A prototype of the patriotic hero, she was to be used as a support and vector of heroic identification and shared ideals. The identification-identity-ideal nexus is deployed in both the individual and the collective: it helps to understand the identity issues, to respond to the individual's need for identity and the desire to repair the trauma and damage inflicted
36

Newman, Jacob Laurence. "Language identification using visual features". Thesis, University of East Anglia, 2011. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.539371.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
37

Varnet, Léo. "Identification des indices acoustiques utilisés lors de la compréhension de la parole dégradée". Thesis, Lyon 1, 2015. http://www.theses.fr/2015LYO10221/document.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Bien qu’il existe un large consensus de la communauté scientifique quant au rôle des indices acoustiques dans la compréhension de la parole, les mécanismes exacts permettant la transformation d’un flux acoustique continu en unités linguistiques élémentaires demeurent aujourd’hui largement méconnus. Ceci est en partie dû à l’absence d’une méthodologie efficace pour l’identification et la caractérisation des primitives auditives de la parole. Depuis les premières études de l’interface acoustico-phonétique par les Haskins Laboratories dans les années 50, différentes approches ont été proposées ; cependant, toutes sont fondamentalement limitées par l’artificialité des stimuli utilisés, les contraintes du protocole expérimental et le poids des connaissances a priori nécessaires. Le présent travail de thèse s’est intéressé { la mise en oeuvre d’une nouvelle méthode tirant parti de la situation de compréhension de parole dégradée pour mettre en évidence les indices acoustiques utilisés par l’auditeur.Dans un premier temps, nous nous sommes appuyés sur la littérature dans le domaine visuel en adaptant la méthode des Images de Classification à une tâche auditive de catégorisation de phonèmes dans le bruit. En reliant la réponse de l’auditeur { chaque essai à la configuration précise du bruit lors de cet essai, au moyen d’un Modèle Linéaire Généralisé, il est possible d’estimer le poids des différentes régions temps-fréquence dans la décision. Nous avons illustré l’efficacité de notre méthode, appelée Image de Classification Auditive, à travers deux exemples : une catégorisation /aba/-/ada/, et une catégorisation /da/-/ga/ en contexte /al/ ou /aʁ/. Notre analyse a confirmé l’implication des attaques des formants F2 et F3, déjà suggérée par de précédentes études, mais a également permis de révéler des indices inattendus. Dans un second temps, nous avons employé cette technique pour comparer les résultats de participants musiciens experts (N=19) ou dyslexiques (N=18) avec ceux de participants contrôles. Ceci nous a permis d’étudier les spécificités des stratégies d’écoute de ces différents groupes.L’ensemble des résultats suggèrent que les Images de Classification Auditives pourraient constituer une nouvelle approche, plus précise et plus naturelle, pour explorer et décrire les mécanismes { l’oeuvre au niveau de l’interface acoustico-phonétique
There is today a broad consensus in the scientific community regarding the involvement of acoustic cues in speech perception. Up to now, however, the precise mechanisms underlying the transformation from continuous acoustic stream into discrete linguistic units remain largely undetermined. This is partly due to the lack of an effective method for identifying and characterizing the auditory primitives of speech. Since the earliest studies on the acoustic–phonetic interface by the Haskins Laboratories in the 50’s, a number of approaches have been proposed; they are nevertheless inherently limited by the non-naturalness of the stimuli used, the constraints of the experimental apparatus, and the a priori knowledge needed. The present thesis aimed at introducing a new method capitalizing on the speech-in-noise situation for revealing the acoustic cues used by the listeners.As a first step, we adapted the Classification Image technique, developed in the visual domain, to a phoneme categorization task in noise. The technique relies on a Generalized Linear Model to link each participant’s response to the specific configuration of noise, on a trial-by-trail basis, thereby estimating the perceptual weighting of the different time-frequency regions for the decision. We illustrated the effectiveness of our Auditory Classification Image method through 2 examples: a /aba/-/ada/ categorization and a /da/-/ga/ categorization in context /al/ or /aʁ/. Our analysis confirmed that the F2 and F3 onsets were crucial for the tasks, as suggested in previous studies, but also revealed unexpected cues. In a second step, we relied on this new method to compare the results of musical experts (N=19) or dyslexics participants (N=18) to those of controls. This enabled us to explore the specificities of each group’s listening strategies.All the results taken together show that the Auditory Classification Image method may be a more precise and more straightforward approach to investigate the mechanisms at work at the acoustic-phonetic interface
38

Koch, Guillaume. "Catégorisation automatique de documents manuscrits : Application aux courriers entrants". Rouen, 2006. http://www.theses.fr/2006ROUES033.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les travaux présentés concernent la spécification, le développement et l’évaluation d’un système de catégorisation de documents manuscrits faiblement contraints tels que des courriers entrants. Nous démontrons qu’un système développé pour la catégorisation de documents électroniques peut être adapté à la catégorisation de documents manuscrits. Afin d’extraire les seuls mots clés nécessaires à la catégorisation, nous avons mis en place un système d’extraction de mots clés dans les documents manuscrits. Ce système d’extraction est appliqué sur chaque ligne de texte et fait appel à un moteur de reconnaissance de mots manuscrits isolés afin de réaliser conjointement la segmentation de mots et leur reconnaissance. L’intégration d’un modèle de rejet dans le système permet de prendre en compte les éléments hors-lexique lors de la reconnaissance de la ligne. Nous démontrons que malgré les performances en extraction de mots clés très en-dessous de celles des OCR, les performances en catégorisation de documents manuscrits ne sont que très peu dégradées
The work described in this document deals with the design, the development and the evaluation of a system of categorization of unconstrained handwritten documents such as handwritten incoming mails. We demonstrate that a system developed for electronic document categorization can be adapted for handwritten document categorization
39

Vaglio, Andrea. "Leveraging lyrics from audio for MIR". Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT027.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Les paroles de chansons fournissent un grand nombre d’informations sur la musique car ellescontiennent une grande partie de la sémantique des chansons. Ces informations pourraient aider les utilisateurs à naviguer facilement dans une large collection de chansons et permettre de leur offrir des recommandations personnalisées. Cependant, ces informations ne sont souvent pas disponibles sous leur forme textuelle. Les systèmes de reconnaissance de la voix chantée pourraient être utilisés pour obtenir des transcriptions directement à partir de la source audio. Ces approches sont usuellement adaptées de celles de la reconnaissance vocale. La transcription de la parole est un domaine vieux de plusieurs décennies qui a récemment connu des avancées significatives en raison des derniers développements des techniques d’apprentissage automatique. Cependant, appliqués au chant, ces algorithmes donnent des résultats peu satisfaisants et le processus de transcription des paroles reste difficile avec des complications particulières. Dans cette thèse, nous étudions plusieurs problèmes de ’Music Information Retrieval’ scientifiquement et industriellement complexes en utilisant des informations sur les paroles générées directement à partir de l’audio. L’accent est mis sur la nécessité de rendre les approches aussi pertinentes que possible dans le monde réel. Cela implique par exemple de les tester sur des ensembles de données vastes et diversifiés et d’étudier leur extensibilité. A cette fin, nous utilisons un large ensemble de données publiques possédant des annotations vocales et adaptons avec succès plusieurs des algorithmes de reconnaissance de paroles les plus performants. Nous présentons notamment, pour la première fois, un système qui détecte le contenu explicite directement à partir de l’audio. Les premières recherches sur la création d’un système d’alignement paroles audio multilingue sont également décrites. L’étude de la tâche alignement paroles-audio est complétée de deux expériences quantifiant la perception de la synchronisation de l’audio et des paroles. Une nouvelle approche phonotactique pour l’identification de la langue est également présentée. Enfin, nous proposons le premier algorithme de détection de versions employant explicitement les informations sur les paroles extraites de l’audio
Lyrics provide a lot of information about music since they encapsulate a lot of the semantics of songs. Such information could help users navigate easily through a large collection of songs and to recommend new music to them. However, this information is often unavailable in its textual form. To get around this problem, singing voice recognition systems could be used to obtain transcripts directly from the audio. These approaches are generally adapted from the speech recognition ones. Speech transcription is a decades-old domain that has lately seen significant advancements due to developments in machine learning techniques. When applied to the singing voice, however, these algorithms provide poor results. For a number of reasons, the process of lyrics transcription remains difficult. In this thesis, we investigate several scientifically and industrially difficult ’Music Information Retrieval’ problems by utilizing lyrics information generated straight from audio. The emphasis is on making approaches as relevant in real-world settings as possible. This entails testing them on vast and diverse datasets and investigating their scalability. To do so, a huge publicly available annotated lyrics dataset is used, and several state-of-the-art lyrics recognition algorithms are successfully adapted. We notably present, for the first time, a system that detects explicit content directly from audio. The first research on the creation of a multilingual lyrics-toaudio system are as well described. The lyrics-toaudio alignment task is further studied in two experiments quantifying the perception of audio and lyrics synchronization. A novel phonotactic method for language identification is also presented. Finally, we provide the first cover song detection algorithm that makes explicit use of lyrics information extracted from audio
40

Yang, Xi. "Discriminative acoustic and sequence models for GMM based automatic language identification /". View abstract or full-text, 2007. http://library.ust.hk/cgi/db/thesis.pl?ECED%202007%20YANG.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
41

Conti, Matteo. "Machine Learning Based Programming Language Identification". Bachelor's thesis, Alma Mater Studiorum - Università di Bologna, 2020. http://amslaurea.unibo.it/20875/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
L'avvento dell'era digitale ha contribuito allo sviluppo di nuovi settori tecnologici, i quali, per diretta conseguenza, hanno portato alla richiesta di nuove figure professionali capaci di assumere un ruolo chiave nel processo d'innovazione tecnologica. L'aumento di questa richiesta ha interessato particolarmente il settore dello sviluppo del software, a seguito della nascita di nuovi linguaggi di programmazione e nuovi campi a cui applicarli. La componente principale di cui è composto un software, infatti, è il codice sorgente, il quale può essere rappresentato come un archivio di uno o più file testuali contenti una serie d'istruzioni scritte in uno o più linguaggi di programmazione. Nonostante molti di questi vengano utilizzati in diversi settori tecnologici, spesso accade che due o più di questi condividano una struttura sintattica e semantica molto simile. Chiaramente questo aspetto può generare confusione nell'identificazione di questo all'interno di un frammento di codice, soprattutto se consideriamo l'eventualità che non sia specificata nemmeno l'estensione dello stesso file. Infatti, ad oggi, la maggior parte del codice disponibile online contiene informazioni relative al linguaggio di programmazione specificate manualmente. All'interno di questo elaborato ci concentreremo nel dimostrare che l'identificazione del linguaggio di programmazione di un file `generico' di codice sorgente può essere effettuata in modo automatico utilizzando algoritmi di Machine Learning e non usando nessun tipo di assunzione `a priori' sull'estensione o informazioni particolari che non riguardino il contenuto del file. Questo progetto segue la linea dettata da alcune ricerche precedenti basate sullo stesso approccio, confrontando tecniche di estrazione delle features differenti e algoritmi di classificazione con caratteristiche molto diverse, cercando di ottimizzare la fase di estrazione delle features in base al modello considerato.
42

Munday, Emma Rachel. "Language and identification in contemporary Kazakhstan". Thesis, University of Edinburgh, 2010. http://hdl.handle.net/1842/6200.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
In the years since the dissolution of the Soviet Union Central Asia has experienced wide-reaching and ongoing social change. The structures and values of all social strata have been questioned and re-evaluated in a continuing exploration of what it means to be part of the post-Soviet space. Within this space, identity formation and reformation has been a pre-eminent process for individuals, for groups of all kinds and for the newly emerging states and their leaders. Through the analysis of individual interviews and selected newspaper extracts and government policy documents this study explores the ways in which ethnic and state identities are being negotiated in Kazakhstan. Using the social identity theory framework it investigates the value and content of these identities by examining the state ideologies of language and the policies which are their expression as well as the discourses of language and identity engaged in by individuals and in the media. There is an exploration of common and conflicting themes referred to as aspects of these identities, of outgroups deemed relevant for comparison and of the roles of Kazakh and Russian in particular, alongside other languages, in relation to these identities. The study focuses on the availability to an individual of multiple possible identities of differing levels of inclusiveness. The saliency of a particular identity is demonstrated to vary according both to context and to the beliefs and goals of the individual concerned. The importance of discourse to processes of identity formation and maintenance is also described and the interaction between discourse and social context is highlighted. The ongoing construction of a Kazakhstani identity is described and the importance of group norms of hospitality, inclusiveness and interethnic accord observed. The sense of learning from other cultures and of mutual enrichment is also demonstrated. However, these themes exist in tension with those of Kazakhstan as belonging primarily to Kazakhs and of cultural oppression and loss. The multi-dimensional nature of ethnic identity is highlighted as is the difficulty, experienced by some, in maintaining a positive sense of ethnic group identity. Perceptions of the importance of language in the construction of ethnic and state identity are explored as are the tensions created by the ideological and instrumental values adhering to different languages in use in Kazakhstan.
43

Nkadimeng, Calvin. "Language identification using Gaussian mixture models". Thesis, Stellenbosch : University of Stellenbosch, 2010. http://hdl.handle.net/10019.1/4170.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Thesis (MScEng (Electrical and Electronic Engineering))--University of Stellenbosch, 2010.
ENGLISH ABSTRACT: The importance of Language Identification for African languages is seeing a dramatic increase due to the development of telecommunication infrastructure and, as a result, an increase in volumes of data and speech traffic in public networks. By automatically processing the raw speech data the vital assistance given to people in distress can be speeded up, by referring their calls to a person knowledgeable in that language. To this effect a speech corpus was developed and various algorithms were implemented and tested on raw telephone speech data. These algorithms entailed data preparation, signal processing, and statistical analysis aimed at discriminating between languages. The statistical model of Gaussian Mixture Models (GMMs) were chosen for this research due to their ability to represent an entire language with a single stochastic model that does not require phonetic transcription. Language Identification for African languages using GMMs is feasible, although there are some few challenges like proper classification and accurate study into the relationship of langauges that need to be overcome. Other methods that make use of phonetically transcribed data need to be explored and tested with the new corpus for the research to be more rigorous.
AFRIKAANSE OPSOMMING: Die belang van die Taal identifiseer vir Afrika-tale is sien ’n dramatiese toename te danke aan die ontwikkeling van telekommunikasie-infrastruktuur en as gevolg ’n toename in volumes van data en spraak verkeer in die openbaar netwerke.Deur outomaties verwerking van die ruwe toespraak gegee die noodsaaklike hulp verleen aan mense in nood kan word vinniger-up ”, deur te verwys hul oproepe na ’n persoon ingelichte in daardie taal. Tot hierdie effek van ’n toespraak corpus het ontwikkel en die verskillende algoritmes is gemplementeer en getoets op die ruwe telefoon toespraak gegee.Hierdie algoritmes behels die data voorbereiding, seinverwerking, en statistiese analise wat gerig is op onderskei tussen tale.Die statistiese model van Gauss Mengsel Modelle (GGM) was gekies is vir hierdie navorsing as gevolg van hul vermo te verteenwoordig ’n hele taal met’ n enkele stogastiese model wat nodig nie fonetiese tanscription nie. Taal identifiseer vir die Afrikatale gebruik GGM haalbaar is, alhoewel daar enkele paar uitdagings soos behoorlike klassifikasie en akkurate ondersoek na die verhouding van TALE wat moet oorkom moet word.Ander metodes wat gebruik maak van foneties getranskribeerde data nodig om ondersoek te word en getoets word met die nuwe corpus vir die ondersoek te word strenger.
44

Avenberg, Anna. "Automatic language identification of short texts". Thesis, Uppsala universitet, Avdelningen för beräkningsvetenskap, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-421032.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
The world is growing more connected through the use of online communication, exposing software and humans to all the world's languages. While devices are able to understand and share the raw data between themselves and with humans, the information itself is not expressed in a monolithic format. This causes issues both in the human to computer interaction and human to human communication. Automatic language identification (LID) is a field within artificial intelligence and natural language processing that strives to solve a part of these issues by identifying languages from text, sign language and speech. One of the challenges is to identify the short pieces of text that can be found online, such as messages, comments and posts on social media. This is due to the small amount of information they carry. The goal of this thesis has been to build a machine learning model that can identify the language for these short pieces of text. A long short-term memory (LSTM) machine learning model was built and benchmarked towards Facebook's fastText model. The results show how the LSTM model reached an accuracy of around 95% and the fastText model used as comparison reached an accuracy of 97%. The LSTM model struggled more when identifying texts shorter than 50 characters than with longer text. The classification performance of the LSTM model was also relatively poor in cases where languages were similar, like Croatian and Serbian. Both the LSTM model and the fastText model reached accuracy's above 94% which can be considered high, depending on how it is evaluated. There are however many improvements and possible future work to be considered; looking further into texts shorter than 50 characters, evaluating the model's softmax output vector values and how to handle similar languages.
45

Berkling, Kay Margarethe. "Automatic language identification with sequences of language-independent phoneme clusters /". Full text open access at:, 1996. http://content.ohsu.edu/u?/etd,204.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
46

Knudson, Ryan Charles. "Automatic Language Identification for Metadata Records: Measuring the Effectiveness of Various Approaches". Thesis, University of North Texas, 2015. https://digital.library.unt.edu/ark:/67531/metadc801895/.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Automatic language identification has been applied to short texts such as queries in information retrieval, but it has not yet been applied to metadata records. Applying this technology to metadata records, particularly their title elements, would enable creators of metadata records to obtain a value for the language element, which is often left blank due to a lack of linguistic expertise. It would also enable the addition of the language value to existing metadata records that currently lack a language value. Titles lend themselves to the problem of language identification mainly due to their shortness, a factor which increases the difficulty of accurately identifying a language. This study implemented four proven approaches to language identification as well as one open-source approach on a collection of multilingual titles of books and movies. Of the five approaches considered, a reduced N-gram frequency profile and distance measure approach outperformed all others, accurately identifying over 83% of all titles in the collection. Future plans are to offer this technology to curators of digital collections for use.
47

Foran, Jeffrey (Jeffrey Matthew) 1977. "Missing argument referent identification in natural language". Thesis, Massachusetts Institute of Technology, 1999. http://hdl.handle.net/1721.1/80532.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
Thesis (S.B. and M.Eng.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1999.
Includes bibliographical references (p. 54-55).
by Jeffrey Foran.
S.B.and M.Eng.
48

Gambardella, Maria-Elena. "Cleartext detection and language identification in ciphers". Thesis, Uppsala universitet, Institutionen för lingvistik och filologi, 2021. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-446439.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
In historical cryptology, cleartext represents text written in a known language ina cipher (a hand-written manuscript aiming at hiding the content of a message).Cleartext can give us an historical interpretation and contextualisation of themanuscript and could help researchers in cryptanalysis, but to these days thereis still no research on how to automatically detect cleartext and identifying itslanguage. In this paper, we investigate to what extent we can automaticallydistinguish cleartext from ciphertext in transcribed historical ciphers and towhat extent we are able to identify its language. We took a rule-based approachand run 7 different models using historical language models on ciphertextsprovided by the DECRYPT-Project. Our results show that using unigrams andbigrams on a word-level combined with 3-grams, 4-grams and 5-grams on acharacter-level is the best approach to tackle cleartext detection.
49

Williams, A. Lynn, e Carol Stoel-Gammon. "Identification of Speech-language Disorders in Toddlers". Digital Commons @ East Tennessee State University, 2016. https://dc.etsu.edu/etsu-works/2038.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
This session is developed by, and presenters invited by, Speech Sound Disorders in Children and Language in Infants Toddlers and Preschoolers. This invited session provides an overview of early speech/language development with a focus on identifying delay/disorders in toddlers. Types of speech/language behaviors in prelinguistic/ early linguistic development that serve as “red flags” for possible disorders will be discussed. The need for developmentally appropriate assessments will be highlighted.
50

Vindfallet, Vegar Enersen. "Language Identification Based on Detection of Phonetic Characteristics". Thesis, Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon, 2012. http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-19506.

Testo completo
Gli stili APA, Harvard, Vancouver, ISO e altri
Abstract (sommario):
This thesis has taken a closer look at the implementation of the back-end of a language recognition system. The front-end of the system is a Universal Attribute Recognizer (UAR), which is used to detect phonetic characteristics in an utterance. When a speech signal is sent through the UAR, it is decoded into a sequence of attributes which is used to generate a vector of term-count. Vector Space Modeling (VSM) have been used for training the language classifiers in the back-end. The main principle of VSM is that term-count vectors from the same language will position themselves close to eachother when they are mapped into a vector space, and this property can be exploited for recognizing languages. The implemented back-end has trained vectors space classifiers for 12 different languages, and a NIST recognition task has been performed for evaluating the recognition rate of the system. The NIST task was a verification task and the system achived a equal error rate (EER) of $6.73 %$. Tools like Support Vector Machines (SVM) and Gaussian Mixture Models (GMM) have been used in the implementation of the back-end. Thus, are quite a few parameters which can be varied and tweaked, and different experiments were conducted to investigate how these parameters would affect EER of the language recognizer. As a part test the robustness of the system, the language recognizer were exposed to a so-called out-of-set language, which is a language that the system has not been trained to handle. The system showed a poor performance at rejecting these speech segments correctly.

Vai alla bibliografia