To see the other types of publications on this topic, follow the link: Classification texte.

Dissertations / Theses on the topic 'Classification texte'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Classification texte.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Tisserant, Guillaume. "Généralisation de données textuelles adaptée à la classification automatique." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS231/document.

Full text
Abstract:
La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données
We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data
APA, Harvard, Vancouver, ISO, and other styles
2

Danuser, Hermann. "Der Text und die Texte. Über Singularisierung und Pluralisierung einer Kategorie." Bärenreiter Verlag, 1998. https://slub.qucosa.de/id/qucosa%3A36795.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Vasil'eva, Natalija. "Eigennamen in der Welt zeitgenössischer Texte." Gesellschaft für Namenkunde e.V, 2007. https://ul.qucosa.de/id/qucosa%3A31517.

Full text
Abstract:
The author presents her monography 'Proper names in the world of text' (original language Russian) in which an integrative approach is proposed, based on principles of text linguistics, narrative theory and literary onomastics. The immediate environments of proper names (microtextology) on the one hand, and the whole text as a space for realization and functioning of proper names (macrotextology) on the other hand are investigated on the material of the modern Russian fiction. Some new concepts and terms have been introduced and interpreted: onymic information, onymic anticipation and retardation (as main text strategies of name introducing), deconstructive function of proper name in text (in addition to proper name functions defined by D. LAMPING). The concept of namelessness in fiction and different metamorphoses of names in slang are also discussed.
APA, Harvard, Vancouver, ISO, and other styles
4

Lasch, Alexander. "Texte im Handlungsbereich der Religion." De Gruyter, 2011. https://tud.qucosa.de/id/qucosa%3A74840.

Full text
Abstract:
Eine Typologie für Texte, die der Domäne „Religion“ zugeordnet werden sollen, steht vor verschiedenen Problemen, die sich für Texte aus ‚profanen‘ oder ‚säkularen‘ Diskursbereichen nicht stellen. Zum einen ist die Abgrenzung zum ‚Profanen‘ oder ‚Säkularen‘ und damit die Klärung der Frage, weshalb sprachliche Einheiten als ‚religiös‘ klassifiziert werden, strittig. Zum anderen ist die kommunikative Prägung der Domäne „Religion“ alles andere als knapp zu charakterisieren – dies hängt im Wesentlichen mit der Frage danach zusammen, wer einen Text und dessen Kommunikation (oder/und dessen Vollzug) zu welcher Zeit und an welchem Ort verantwortet. Die letzte Frage betrifft die kommunikativen Besonderheiten der Situationen, in denen die Texte, die der Domäne „Religion“ zugeschrieben werden, kommuniziert werden. Da eine Kommunikationstypologie für die Domäne „Religion“ bisher fehlt, versucht dieser Artikel kommunikative Grundkonstellationen zu skizzieren, die für die linguistische Beschreibung unerlässlich sind. Es wird hier also nicht darum gehen, Textsortentraditionen verschiedener Glaubensgemeinschaften nach der Art und Weise ihrer Überlieferung oder gar ihrem Status innerhalb der Glaubensgemeinschaften zu beleuchten, sondern es wird danach gefragt, was die grundlegenden kommunikativen Konstellationen der Domäne „Religion“ sind und unter welchen Bedingungen Texte in der Domäne „Religion“ kommuniziert werden können. [Aus der Einleitung]
APA, Harvard, Vancouver, ISO, and other styles
5

Sayadi, Karim. "Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066079/document.

Full text
Abstract:
Différentes disciplines des sciences humaines telles la philologie ou la paléographie font face à des tâches complexes et fastidieuses pour l'examen des sources de données. La proposition d'approches computationnelles en humanités permet d'adresser les problématiques rencontrées telles que la lecture, l'analyse et l'archivage de façon systématique. Les modèles conceptuels élaborés reposent sur des algorithmes et ces derniers donnent lieu à des implémentations informatiques qui automatisent ces tâches fastidieuses. La première partie de la thèse vise, d'une part, à établir la structuration thématique d'un corpus, en construisant des espaces sémantiques de grande dimension. D'autre part, elle vise au suivi dynamique des thématiques qui constitue un réel défi scientifique, notamment en raison du passage à l'échelle. La seconde partie de la thèse traite de manière holistique la page d'un document numérisé sans aucune intervention préalable. Le but est d'apprendre automatiquement des représentations du trait de l'écriture ou du tracé d'un certain script par rapport au tracé d'un autre script. Il faut dans ce cadre tenir compte de l'environnement où se trouve le tracé : image, artefact, bruits dus à la détérioration de la qualité du papier, etc. Notre approche propose un empilement de réseaux de neurones auto-encodeurs afin de fournir une représentation alternative des données reçues en entrée
Different disciplines in the humanities, such as philology or palaeography, face complex and time-consuming tasks whenever it comes to examining the data sources. The introduction of computational approaches in humanities makes it possible to address issues such as semantic analysis and systematic archiving. The conceptual models developed are based on algorithms that are later hard coded in order to automate these tedious tasks. In the first part of the thesis we propose a novel method to build a semantic space based on topics modeling. In the second part and in order to classify historical documents according to their script. We propose a novel representation learning method based on stacking convolutional auto-encoder. The goal is to automatically learn plot representations of the script or the written language
APA, Harvard, Vancouver, ISO, and other styles
6

Schneider, Ulrich Johannes. "Über Tempel und Texte: ein Bildervergleich." Fink, 1999. https://ul.qucosa.de/id/qucosa%3A12768.

Full text
Abstract:
Die Epochenschwelle vom 18. zum 19. Jahrhundert besteht in einem Schritt vom historischen Rekonstruieren zum hermeneutischen Interpretieren, das jedenfalls zeigt die Geschichte der Hermeneutik und die Geschichte der Geschichtsschreibung. Historische Bilder - der Philosophie, der Mythologie, allgemein - sind damals entworfen und revidiert worden, die sich noch heute im Umgang mit der Philosophie beobachten lassen. Jener Streit um die Bedeutung von Texten für die Philosophie scheint in dieser Epochenschwelle entschieden: Das Immanenzverhältnis ersetzt das Transzendenzverhältnis. Texte sind Orte der Philosophie, nicht Mittel. Aber wie gestaltet sich diese Ersetzung? Ist sie Folge, Folgerung, bildet sie eine selbst immanente Logik, so etwas wie die Logik des historischen Bildes der Philosophie? Im folgenden wird ein Bildervergleich klären helfen, was philosophische Texte sind, auch wenn die angeführten Bilder Tempel zeigen. Beide Bilder lassen sich der für unser heutiges philosophisches Selbstverständnis entscheidenden Epochenschwelle zurechnen.
APA, Harvard, Vancouver, ISO, and other styles
7

AKAMA, HIROYUKI. "Tableau, corps, texte : etudes historiques sur la classification-recit en france au xixe siecle." Paris 1, 1992. http://www.theses.fr/1992PA010604.

Full text
Abstract:
Par l'intermediaire du "recit" qui s'appelle ideologie, l'histoire de la classification peut se diviser au xixe siecle en trois stades distinctifs qui connaissaient, chacun en propre, les incarnations figuratives -- ou non -- du "tableau-corps-texte" : 1 la rupture epistemologique du "tableau" qui relevait de l'element de l'ideologie, pour refouler les possibilites de cette derniere dans les phenomenes de "dia-textualite interieure" : 2 l'apparition de l'espace encyclopedique des savoirs qui prenait forme avec le "cone" de classification, puis avec les transformations de celui-ci, destinees a incarner les significations "positivistes" de la sociologie et de l'anthropologie ; 3 la nouvelle rupture du "tableau" par suite de laquelle ces espaces devenaient "fluides" apparaissant comme symboles de la crise anti-positiviste de la science, pour aboutir enfin a la tripartition de discours : l'hysterie, la science-fiction et l'insitut-universite
Through the "story" named ideology (of cabanis and tracy), the history of nineteenth-century "classification" can be divided into three distinctive stages having their own means to embody the complex of "table-body-text" (tableau-corps-texte). Primarily, an epistemological rupture of the "table" (tableau) which was a matter for the element of ideology, and in consequence, the phenomena of "inner dia-textuality" suppressing the possibilities of this current of thought. Secondly, the appearance of some cone-shaped encyclopedic spaces of knowledges, and their transformations to materialize the "positivist" significations of sociology and anthropology. Thirdly, another rupture of the "table" (tableau), as a result of which the spaces of knowledges became fluid to be symbols of anti-positivist crisis of science, and finally a tripartite unity of "discources" (discours) emerged : hysteria, science-fiction and institute-university
APA, Harvard, Vancouver, ISO, and other styles
8

Felhi, Mehdi. "Document image segmentation : content categorization." Thesis, Université de Lorraine, 2014. http://www.theses.fr/2014LORR0109/document.

Full text
Abstract:
Dans cette thèse, nous abordons le problème de la segmentation des images de documents en proposant de nouvelles approches pour la détection et la classification de leurs contenus. Dans un premier lieu, nous étudions le problème de l'estimation d'inclinaison des documents numérisées. Le but de ce travail étant de développer une approche automatique en mesure d'estimer l'angle d'inclinaison du texte dans les images de document. Notre méthode est basée sur la méthode Maximum Gradient Difference (MGD), la R-signature et la transformée de Ridgelets. Nous proposons ensuite une approche hybride pour la segmentation des documents. Nous décrivons notre descripteur de trait qui permet de détecter les composantes de texte en se basant sur la squeletisation. La méthode est appliquée pour la segmentation des images de documents numérisés (journaux et magazines) qui contiennent du texte, des lignes et des régions de photos. Le dernier volet de la thèse est consacré à la détection du texte dans les photos et posters. Pour cela, nous proposons un ensemble de descripteurs de texte basés sur les caractéristiques du trait. Notre approche commence par l'extraction et la sélection des candidats de caractères de texte. Deux méthodes ont été établies pour regrouper les caractères d'une même ligne de texte (mot ou phrase) ; l'une consiste à parcourir en profondeur un graphe, l'autre consiste à établir un critère de stabilité d'une région de texte. Enfin, les résultats sont affinés en classant les candidats de texte en régions « texte » et « non-texte » en utilisant une version à noyau du classifieur Support Vector Machine (K-SVM)
In this thesis I discuss the document image segmentation problem and I describe our new approaches for detecting and classifying document contents. First, I discuss our skew angle estimation approach. The aim of this approach is to develop an automatic approach able to estimate, with precision, the skew angle of text in document images. Our method is based on Maximum Gradient Difference (MGD) and R-signature. Then, I describe our second method based on Ridgelet transform.Our second contribution consists in a new hybrid page segmentation approach. I first describe our stroke-based descriptor that allows detecting text and line candidates using the skeleton of the binarized document image. Then, an active contour model is applied to segment the rest of the image into photo and background regions. Finally, text candidates are clustered using mean-shift analysis technique according to their corresponding sizes. The method is applied for segmenting scanned document images (newspapers and magazines) that contain text, lines and photo regions. Finally, I describe our stroke-based text extraction method. Our approach begins by extracting connected components and selecting text character candidates over the CIE LCH color space using the Histogram of Oriented Gradients (HOG) correlation coefficients in order to detect low contrasted regions. The text region candidates are clustered using two different approaches ; a depth first search approach over a graph, and a stable text line criterion. Finally, the resulted regions are refined by classifying the text line candidates into « text» and « non-text » regions using a Kernel Support Vector Machine K-SVM classifier
APA, Harvard, Vancouver, ISO, and other styles
9

Mazyad, Ahmad. "Contribution to automatic text classification : metrics and evolutionary algorithms." Thesis, Littoral, 2018. http://www.theses.fr/2018DUNK0487/document.

Full text
Abstract:
Cette thèse porte sur le traitement du langage naturel et l'exploration de texte, à l'intersection de l'apprentissage automatique et de la statistique. Nous nous intéressons plus particulièrement aux schémas de pondération des termes (SPT) dans le contexte de l'apprentissage supervisé et en particulier à la classification de texte. Dans la classification de texte, la tâche de classification multi-étiquettes a suscité beaucoup d'intérêt ces dernières années. La classification multi-étiquettes à partir de données textuelles peut être trouvée dans de nombreuses applications modernes telles que la classification de nouvelles où la tâche est de trouver les catégories auxquelles appartient un article de presse en fonction de son contenu textuel (par exemple, politique, Moyen-Orient, pétrole), la classification du genre musical (par exemple, jazz, pop, oldies, pop traditionnelle) en se basant sur les commentaires des clients, la classification des films (par exemple, action, crime, drame), la classification des produits (par exemple, électronique, ordinateur, accessoires). La plupart des algorithmes d'apprentissage ne conviennent qu'aux problèmes de classification binaire. Par conséquent, les tâches de classification multi-étiquettes sont généralement transformées en plusieurs tâches binaires à label unique. Cependant, cette transformation introduit plusieurs problèmes. Premièrement, les distributions des termes ne sont considérés qu'en matière de la catégorie positive et de la catégorie négative (c'est-à-dire que les informations sur les corrélations entre les termes et les catégories sont perdues). Deuxièmement, il n'envisage aucune dépendance vis-à-vis des étiquettes (c'est-à-dire que les informations sur les corrélations existantes entre les classes sont perdues). Enfin, puisque toutes les catégories sauf une sont regroupées dans une seule catégories (la catégorie négative), les tâches nouvellement créées sont déséquilibrées. Ces informations sont couramment utilisées par les SPT supervisés pour améliorer l'efficacité du système de classification. Ainsi, après avoir présenté le processus de classification de texte multi-étiquettes, et plus particulièrement le SPT, nous effectuons une comparaison empirique de ces méthodes appliquées à la tâche de classification de texte multi-étiquette. Nous constatons que la supériorité des méthodes supervisées sur les méthodes non supervisées n'est toujours pas claire. Nous montrons ensuite que ces méthodes ne sont pas totalement adaptées au problème de la classification multi-étiquettes et qu'elles ignorent beaucoup d'informations statistiques qui pourraient être utilisées pour améliorer les résultats de la classification. Nous proposons donc un nouvel SPT basé sur le gain d'information. Cette nouvelle méthode prend en compte la distribution des termes, non seulement en ce qui concerne la catégorie positive et la catégorie négative, mais également en rapport avec toutes les autres catégories. Enfin, dans le but de trouver des SPT spécialisés qui résolvent également le problème des tâches déséquilibrées, nous avons étudié les avantages de l'utilisation de la programmation génétique pour générer des SPT pour la tâche de classification de texte. Contrairement aux études précédentes, nous générons des formules en combinant des informations statistiques à un niveau microscopique (par exemple, le nombre de documents contenant un terme spécifique) au lieu d'utiliser des SPT complets. De plus, nous utilisons des informations catégoriques telles que (par exemple, le nombre de catégories dans lesquelles un terme apparaît). Des expériences sont effectuées pour mesurer l'impact de ces méthodes sur les performances du modèle. Nous montrons à travers ces expériences que les résultats sont positifs
This thesis deals with natural language processing and text mining, at the intersection of machine learning and statistics. We are particularly interested in Term Weighting Schemes (TWS) in the context of supervised learning and specifically the Text Classification (TC) task. In TC, the multi-label classification task has gained a lot of interest in recent years. Multi-label classification from textual data may be found in many modern applications such as news classification where the task is to find the categories that a newswire story belongs to (e.g., politics, middle east, oil), based on its textual content, music genre classification (e.g., jazz, pop, oldies, traditional pop) based on customer reviews, film classification (e.g. action, crime, drama), product classification (e.g. Electronics, Computers, Accessories). Traditional classification algorithms are generally binary classifiers, and they are not suited for the multi-label classification. The multi-label classification task is, therefore, transformed into multiple single-label binary tasks. However, this transformation introduces several issues. First, terms distributions are only considered in relevance to the positive and the negative categories (i.e., information on the correlations between terms and categories is lost). Second, it fails to consider any label dependency (i.e., information on existing correlations between classes is lost). Finally, since all categories but one are grouped into one category (the negative category), the newly created tasks are imbalanced. This information is commonly used by supervised TWS to improve the effectiveness of the classification system. Hence, after presenting the process of multi-label text classification, and more particularly the TWS, we make an empirical comparison of these methods applied to the multi-label text classification task. We find that the superiority of the supervised methods over the unsupervised methods is still not clear. We show then that these methods are not fully adapted to the multi-label classification problem and they ignore much statistical information that coul be used to improve the classification results. Thus, we propose a new TWS based on information gain. This new method takes into consideration the term distribution, not only regarding the positive and the negative categories but also in relevance to all classes. Finally, aiming at finding specialized TWS that also solve the issue of imbalanced tasks, we studied the benefits of using genetic programming for generating TWS for the text classification task. Unlike previous studies, we generate formulas by combining statistical information at a microscopic level (e.g., the number of documents that contain a specific term) instead of using complete TWS. Furthermore, we make use of categorical information such as (e.g., the number of categories where a term occurs). Experiments are made to measure the impact of these methods on the performance of the model. We show through these experiments that the results are positive
APA, Harvard, Vancouver, ISO, and other styles
10

Bastos, Dos Santos José Eduardo. "L'identification de texte en images de chèques bancaires brésiliens." Compiègne, 2003. http://www.theses.fr/2003COMP1453.

Full text
Abstract:
L'identification et la distinction textuelle dans des images de documents sont des tâches dont les solutions actueles sont fortement basées sur l'emploi des informations contextuelles, comme par exemple des informations du layout ou bien de la structure physique. Dans ce travail on a exploité une option pour cette tâche basée uniquement sur des caractéristiques extraites exclusivement des elements textuels, ce qui accorde plus d'indépendance au procès. Le travail dans sa totalité a été développé en prenant compte des élements textuels fraccionés en petits échantillons de façon à proposer une alternative pour les questions concernant l'échelle et aussi la superposition. A partir de ces échantillons on extrait un ensemble de caractéristiques chargés de fournir les données d'entrée à um classifieur dont les tâches principales sont l'extraction du texte du document ainsi que la distinction entre texte manuscrit et texte imprimé. En outre, étant donné qu'on n'utilise que des informations extraites directement des élements textuels, le procès prend un caractère plus indépendant car il ne répose sur l'emploi d'aucune heuristique ou information à priori à propos du document traité. Des résultats dans l'ordre de 93% de classification correcte démontre l'éfficacité du procès
Identifying and distinguishing text in document images are tasks whose cat!Jal solutions are mainly based on using contextual informations, like layout informations or informations from the phisical structure. Ln this research work, an alternative for this task is investigated based only in features observed from textual elements, giving more independency to the process. The hole process was developped considering textual elements fragmented in sm ail portions(samples) in order to provide an alternative solution to questions Iike scale and textual elements overlapping. From these samples, a set of features is extracted and serves as input to a classifyer maily chrged with textual extraction from the document and also the distinguish between handwritting and machine-printed text. Moreover, sinGe the only informations emplyed is observed directly from textual elements, the process assumes a character more independent as it doesn't use any heuristics nor à priori information of the treated document. Results around 93% of correct classification confirms the efficacy of the process
APA, Harvard, Vancouver, ISO, and other styles
11

Dalloux, Clément. "Fouille de texte et extraction d'informations dans les données cliniques." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S050.

Full text
Abstract:
Avec la mise en place d'entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour la recherche. Si une partie importante de ces données existe sous forme structurée, une grande partie des informations contenues dans les dossiers patients informatisés est disponible sous la forme de texte libre qui peut être exploité pour de nombreuses tâches. Dans ce manuscrit, deux tâches sont explorées~: la classification multi-étiquette de textes cliniques et la détection de la négation et de l'incertitude. La première est étudiée en coopération avec le centre hospitalier universitaire de Rennes, propriétaire des textes cliniques que nous exploitons, tandis que, pour la seconde, nous exploitons des textes biomédicaux librement accessibles que nous annotons et diffusons gratuitement. Afin de résoudre ces tâches, nous proposons différentes approches reposant principalement sur des algorithmes d'apprentissage profond, utilisés en situations d'apprentissage supervisé et non-supervisé
With the introduction of clinical data warehouses, more and more health data are available for research purposes. While a significant part of these data exist in structured form, much of the information contained in electronic health records is available in free text form that can be used for many tasks. In this manuscript, two tasks are explored: the multi-label classification of clinical texts and the detection of negation and uncertainty. The first is studied in cooperation with the Rennes University Hospital, owner of the clinical texts that we use, while, for the second, we use publicly available biomedical texts that we annotate and release free of charge. In order to solve these tasks, we propose several approaches based mainly on deep learning algorithms, used in supervised and unsupervised learning situations
APA, Harvard, Vancouver, ISO, and other styles
12

Janus, Wolfgang. "Texte barrierefrei gestalten – Leichte Sprache und die Annäherung zum Themenfeld jüdisches Leben." HATiKVA e.V. – Die Hoffnung Bildungs- und Begegnungsstätte für Jüdische Geschichte und Kultur Sachsen, 2016. https://slub.qucosa.de/id/qucosa%3A34837.

Full text
APA, Harvard, Vancouver, ISO, and other styles
13

Trinh, Anh Phuc. "Classifieur probabiliste et séparateur à vaste marge : application à la classification de texte et à l'étiquetage d'image." Paris 6, 2012. http://www.theses.fr/2012PA066060.

Full text
Abstract:
Cette thèse propose des estimateurs de probabilités a posteriori pour des Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie expérimentale. La première contribution que nous présentons dans cette thèse est d’introduire un classifieur probabiliste basé sur des SVM pour la classification multi-classes. L’approche que nous utilisons est l’approche 1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont entrainés. Les sorties binaires de ces classifieurs forment un espace de votes dans lequel sera prise la décision de classe. Nous introduisons un espace de vote enrichi qui permet de prendre en compte des relations entre l’ensemble des classes du problème et proposons une méthode pour apprendre à partir de cet espace binaire à estimer les probabilités a posteriori des classes. La seconde contribution concerne le problème de la classification multi-étiquettes et la prise en compte de dépendances entre étiquettes. La prédiction de sorties structurées a été ces dernières années un domaine extrêmement actif et de nombreux modèles basés sur des extensions des SVMs ou des modèles graphiques on été proposés. Nombre de ces modèles ont une complexité qui empêche toute application sur des données réelles. Nous introduisons un classifieur multi-étiquettes basé sur un formalisme de modèle graphique non dirigé. Nous proposons une méthode d’inférence approchée de complexité limitée qui permet une utilisation pratique de ces méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes mentionnés plus haut pour estimer les probabilités nécessaires au calcul d’inférence. La troisième contribution est la validation expérimentale de ces idées et algorithmes. Une première application nous permet de tester notre classifieur probabiliste multi-classes. Il s’agit du Défi DEFT 1 qui est une compétition française sur la classification de textes. Les données sur lesquelles nous avons travaillé traitent de classification en thème et en genre de corpus journalistiques. La seconde application que nous avons traitée porte sur l’étiquetage d’images en utilisant une information de dépendance entre les étiquettes. Elle correspond à une tâche proposée dans la compétition internationale ImageCLEF08 2. Nous proposons un modèle graphique adapté à cette tâche qui nous permet de valider ce modèle multi-étiquettes.
APA, Harvard, Vancouver, ISO, and other styles
14

Seidel, Wilhelm. "Schreiben im Diskurs. Über Form und Inhalt musikästhetischer Texte des 18. Jahrhunderts." Bärenreiter Verlag, 1998. https://slub.qucosa.de/id/qucosa%3A36823.

Full text
APA, Harvard, Vancouver, ISO, and other styles
15

Kempke, Matthias. "Fotos und Texte von der Visitationsreise des Leipziger Missionsdirektors Carl Ihmels nach Tanganyika: 1927." Universität Leipzig, 2006. https://ul.qucosa.de/id/qucosa%3A34425.

Full text
Abstract:
This volume lists and reproduces 328 photographs connected with the visitation by Carl Ihmels, Director of the Leipzig Mission, to Tanganyika in 1927. About 150 were taken in Tanganyika itself (mainly on the Leipzig Mission stations), a further 130 on the outward and homeward voyages (Southwest Africa, South Africa, Mozambique, Egypt); the remainder were sent to Ihmels later by Leipzig missionaries in Tanganyika. The volume is supplemented by an index and copies of reports on the visitation published in the Evangelisches-Lutherisches Missionsblatt.
APA, Harvard, Vancouver, ISO, and other styles
16

Fell, Michael. "Traitement automatique des langues pour la recherche d'information musicale : analyse profonde de la structure et du contenu des paroles de chansons." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4017.

Full text
Abstract:
Les applications en Recherche d’Information Musicale et en musicologie computationnelle reposent traditionnellementsur des fonctionnalités extraites du contenu musical sous forme audio, mais ignorent la plupart du temps les paroles des chansons. Plus récemment, des améliorations dans des domaines tels que la recommandation de musique ont été apportées en tenant compte des métadonnées externes liées à la chanson. Dans cette thèse, nous soutenons que l’extraction des connaissances à partir des paroles des chansons est la prochaine étape pour améliorer l’expérience de l’utilisateur lors de l’interaction avec la musique. Pour extraire des connaissances de vastes quantités de paroles de chansons, nous montrons pour différents aspects textuels (leur structure, leur contenu et leur perception) comment les méthodes de Traitement Automatique des Langues peuvent être adaptées et appliquées avec succès aux paroles. Pour l’aspect structurel des paroles, nous en dérivons une description structurelle en introduisant un modèle qui segmente efficacement les paroles en leurs partiescaractéristiques (par exemple, intro, couplet, refrain). Puis, nous représentons le contenu des paroles en résumantles paroles d’une manière qui respecte la structure caractéristique des paroles. Enfin, sur la perception des paroles,nous étudions le problème de la détection de contenu explicite dans un texte de chanson. Cette tâche s’est avèree très difficile et nous montrons que la difficulté provienten partie de la nature subjective de la perception des paroles d’une manière ou d’une autre selon le contexte. De plus, nous abordons un autre problème de perception des paroles en présentant nos résultats préliminaires sur la reconnaissance des émotions. L’un des résultats de cette thèse a été de créer un corpus annoté, le WASABI Song Corpus, un ensemble de données de deux millions de chansons avec des annotations de paroles TAL à différents niveaux
Applications in Music Information Retrieval and Computational Musicology have traditionally relied on features extracted from the music content in the form of audio, but mostly ignored the song lyrics. More recently, improvements in fields such as music recommendation have been made by taking into account external metadata related to the song. In this thesis, we argue that extracting knowledge from the song lyrics is the next step to improve the user’s experience when interacting with music. To extract knowledge from vast amounts of song lyrics, we show for different textual aspects (their structure, content and perception) how Natural Language Processing methods can be adapted and successfully applied to lyrics. For the structuralaspect of lyrics, we derive a structural description of it by introducing a model that efficiently segments the lyricsinto its characteristic parts (e.g. intro, verse, chorus). In a second stage, we represent the content of lyrics by meansof summarizing the lyrics in a way that respects the characteristic lyrics structure. Finally, on the perception of lyricswe investigate the problem of detecting explicit content in a song text. This task proves to be very hard and we showthat the difficulty partially arises from the subjective nature of perceiving lyrics in one way or another depending onthe context. Furthermore, we touch on another problem of lyrics perception by presenting our preliminary resultson Emotion Recognition. As a result, during the course of this thesis we have created the annotated WASABI SongCorpus, a dataset of two million songs with NLP lyrics annotations on various levels
APA, Harvard, Vancouver, ISO, and other styles
17

Wei, Zhihua. "The research on chinese text multi-label classification." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20025/document.

Full text
Abstract:
Text Classification (TC) which is an important field in information technology has many valuable applications. When facing the sea of information resources, the objects of TC are more complicated and diversity. The researches in pursuit of effective and practical TC technology are fairly challenging. More and more researchers regard that multi-label TC is more suited for many applications. This thesis analyses the difficulties and problems in multi-label TC and Chinese text representation based on a mass of algorithms for single-label TC and multi-label TC. Aiming at high dimensionality in feature space, sparse distribution in text representation and poor performance of multi-label classifier, this thesis will bring forward corresponding algorithms from different angles.Focusing on the problem of dimensionality “disaster” when Chinese texts are represented by using n-grams, two-step feature selection algorithm is constructed. The method combines filtering rare features within class and selecting discriminative features across classes. Moreover, the proper value of “n”, the strategy of feature weight and the correlation among features are discussed based on variety of experiments. Some useful conclusions are contributed to the research of n-gram representation in Chinese texts.In a view of the disadvantage in Latent Dirichlet Allocation (LDA) model, that is, arbitrarily revising the variable in smooth process, a new strategy for smoothing based on Tolerance Rough Set (TRS) is put forward. It constructs tolerant class in global vocabulary database firstly and then assigns value for out-of-vocabulary (oov) word in each class according to tolerant class.In order to improve performance of multi-label classifier and degrade computing complexity, a new TC method based on LDA model is applied for Chinese text representation. It extracts topics statistically from texts and then texts are represented by using the topic vector. It shows competitive performance both in English and in Chinese corpus.To enhance the performance of classifiers in multi-label TC, a compound classification framework is raised. It partitions the text space by computing the upper approximation and lower approximation. This algorithm decomposes a multi-label TC problem into several single-label TCs and several multi-label TCs which have less labels than original problem. That is, an unknown text should be classified by single-label classifier when it is partitioned into lower approximation space of some class. Otherwise, it should be classified by corresponding multi-label classifier.An application system TJ-MLWC (Tongji Multi-label Web Classifier) was designed. It could call the result from Search Engines directly and classify these results real-time using improved Naïve Bayes classifier. This makes the browse process more conveniently for users. Users could locate the texts interested immediately according to the class information given by TJ-MLWC
La thèse est centrée sur la Classification de texte, domaine en pleine expansion, avec de nombreuses applications actuelles et potentielles. Les apports principaux de la thèse portent sur deux points : Les spécificités du codage et du traitement automatique de la langue chinoise : mots pouvant être composés de un, deux ou trois caractères ; absence de séparation typographique entre les mots ; grand nombre d’ordres possibles entre les mots d’une phrase ; tout ceci aboutissant à des problèmes difficiles d’ambiguïté. La solution du codage en «n-grams »(suite de n=1, ou 2 ou 3 caractères) est particulièrement adaptée à la langue chinoise, car elle est rapide et ne nécessite pas les étapes préalables de reconnaissance des mots à l’aide d’un dictionnaire, ni leur séparation. La classification multi-labels, c'est-à-dire quand chaque individus peut être affecté à une ou plusieurs classes. Dans le cas des textes, on cherche des classes qui correspondent à des thèmes (topics) ; un même texte pouvant être rattaché à un ou plusieurs thème. Cette approche multilabel est plus générale : un même patient peut être atteint de plusieurs pathologies ; une même entreprise peut être active dans plusieurs secteurs industriels ou de services. La thèse analyse ces problèmes et tente de leur apporter des solutions, d’abord pour les classifieurs unilabels, puis multi-labels. Parmi les difficultés, la définition des variables caractérisant les textes, leur grand nombre, le traitement des tableaux creux (beaucoup de zéros dans la matrice croisant les textes et les descripteurs), et les performances relativement mauvaises des classifieurs multi-classes habituels
文本分类是信息科学中一个重要而且富有实际应用价值的研究领域。随着文本分类处理内容日趋复杂化和多元化,分类目标也逐渐多样化,研究有效的、切合实际应用需求的文本分类技术成为一个很有挑战性的任务,对多标签分类的研究应运而生。本文在对大量的单标签和多标签文本分类算法进行分析和研究的基础上,针对文本表示中特征高维问题、数据稀疏问题和多标签分类中分类复杂度高而精度低的问题,从不同的角度尝试运用粗糙集理论加以解决,提出了相应的算法,主要包括:针对n-gram作为中文文本特征时带来的维数灾难问题,提出了两步特征选择的方法,即去除类内稀有特征和类间特征选择相结合的方法,并就n-gram作为特征时的n值选取、特征权重的选择和特征相关性等问题在大规模中文语料库上进行了大量的实验,得出一些有用的结论。针对文本分类中运用高维特征表示文本带来的分类效率低,开销大等问题,提出了基于LDA模型的多标签文本分类算法,利用LDA模型提取的主题作为文本特征,构建高效的分类器。在PT3多标签分类转换方法下,该分类算法在中英文数据集上都表现出很好的效果,与目前公认最好的多标签分类方法效果相当。针对LDA模型现有平滑策略的随意性和武断性的缺点,提出了基于容差粗糙集的LDA语言模型平滑策略。该平滑策略首先在全局词表上构造词的容差类,再根据容差类中词的频率为每类文档的未登录词赋予平滑值。在中英文、平衡和不平衡语料库上的大量实验都表明该平滑方法显著提高了LDA模型的分类性能,在不平衡语料库上的提高尤其明显。针对多标签分类中分类复杂度高而精度低的问题,提出了一种基于可变精度粗糙集的复合多标签文本分类框架,该框架通过可变精度粗糙集方法划分文本特征空间,进而将多标签分类问题分解为若干个两类单标签分类问题和若干个标签数减少了的多标签分类问题。即,当一篇未知文本被划分到某一类文本的下近似区域时,可以直接用简单的单标签文本分类器判断其类别;当未知文本被划分在边界域时,则采用相应区域的多标签分类器进行分类。实验表明,这种分类框架下,分类的精确度和算法效率都有较大的提高。本文还设计和实现了一个基于多标签分类的网页搜索结果可视化系统(MLWC),该系统能够直接调用搜索引擎返回的搜索结果,并采用改进的Naïve Bayes多标签分类算法实现实时的搜索结果分类,使用户可以快速地定位搜索结果中感兴趣的文本。
APA, Harvard, Vancouver, ISO, and other styles
18

Moreno, Villanueva José Antonio. "El 'Essai sur l'électricité des corps' (1746) de Jean-Antoine Nollet: Primer texte sobre física eléctrica traducido al espaniol." Universität Leipzig, 1997. https://ul.qucosa.de/id/qucosa%3A33052.

Full text
APA, Harvard, Vancouver, ISO, and other styles
19

Mackert, Christoph. "„Musica est ars ex septem liberalibus una: Musiktheoretische Texte in mittelalterlichen Handschriften aus Leipziger Universitätsgebrauch." Verlag Janos Stekovics, 2010. https://ul.qucosa.de/id/qucosa%3A75002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
20

Lasch, Alexander. "Sind serielle Texte ein Gegenstand linguistischer Diskursanalyse?: Zu diskursbestätigenden und diskursverändernden ‚Lebensbeschreibungen‘ in rituellen Kontexten." Springer, 2013. https://tud.qucosa.de/id/qucosa%3A74898.

Full text
Abstract:
Wissenschaftliche Gegenstände sind zum Großteil solche, die erst aus einer bestimmten Perspektive – das heißt von einem bestimmten Sichtpunkt aus mit einer bestimmten Blickrichtung und besonderen Fokussierung –interessant werden. Perspektiven dieser Art sind u. a. theoretische Ansätze, deren Prämissen es erlauben, in einer alternativen, aber bestimmten Weise auf schon vermeintlich bekanntes Material zu blicken und einen neuen Gegenstand herauszuarbeiten. Idealerweise stellen Ansätze dieser Art auch ein Methodenrepertoire zur Verfügung und belassen es nicht bei einer groben Andeutung des neuen Blickpunktes, so dass sich an empirischen Analysen die Tauglichkeit des Ansatzes prüfen lässt.
APA, Harvard, Vancouver, ISO, and other styles
21

Daunoravičienė, Gražina. ""Baltos lankos": Texte und Interpretationen - Almanach der Musiksemiotik, Vilnius (Baltos lankos), 1997, 246 S. (litauisch) [Rezension]." Musikgeschichte in Mittel- und Osteuropa ; 5 (1999), S. 205-210, 1999. https://ul.qucosa.de/id/qucosa%3A15668.

Full text
Abstract:
Die neunte Nummer des Almanachs "Baltos lankos" ist der Musiksemiotik gewidmet. Der Almanach "Baltos lankos" wurde von dem der Gründer der französischen Semiologieschule, dem Litauer Algirdas Julius Greimas, ins Leben gerufen.
APA, Harvard, Vancouver, ISO, and other styles
22

Nurse, Derek. "Historical texts from the Swahili coast." Swahili Forum 1 (1994) S. 47-85, 1994. https://ul.qucosa.de/id/qucosa%3A11607.

Full text
Abstract:
Between 1977 and 1980 I collected a nuber of texts on the northern Kenya coast Most were tape recorded by myself fiom oral performances, a few were written down or recorded by others Most of the current collection consists of texts gathered so, plus: the Mwiini material, provided by Chuck Kisseberth, originally provided or recorded in Barawa by M I. Abasheikh, and the Bajuni \"contemporary\" verse, taken form a publicly available cassette-recording by AM. Msallarn in the 1970.
APA, Harvard, Vancouver, ISO, and other styles
23

Gasser, Wolfgang. "„Das Ende (m)einer Kindheit?“: Wissenschaft und Selbstbezüge – Jugendliche analysieren Texte und Video-Interviews zu Kindertransporten." HATiKVA e.V. – Die Hoffnung Bildungs- und Begegnungsstätte für Jüdische Geschichte und Kultur Sachsen, 2015. https://slub.qucosa.de/id/qucosa%3A34939.

Full text
APA, Harvard, Vancouver, ISO, and other styles
24

Gerhards, Simone, and Simon Schweitzer. "Auf dem Weg zu einem TEI-Austauschformat für ägyptisch-koptische Texte." Universitätsbibliothek Leipzig, 2016. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-201602.

Full text
Abstract:
Diverse ägyptologische Großprojekte (TLA: http://aaew.bbaw.de/tla; Ramses: http://ramses.ulg.ac.be/; Rubensohn: http://elephantine.smb.museum/; Karnak: http://www.cfeetk.cnrs.fr/karnak/) erstellen annotierte Korpora. Für einen Datenaustausch ist ein standardisiertes Austauschformat, das auf TEI beruht, dringend erforderlich. Dazu haben sich diese Großprojekte zusammengeschlossen, um einen gemeinsamen Vorschlag zu erarbeiten. In unserem Vortrag möchten wir den aktuellen Stand der Diskussion präsentieren: Was ist der Basistext in der Auszeichnung: hieroglyphische Annotation oder die Umschrift des Textes? Wie geht man mit den verschiedenen Schriftformaten um? Können die Metadatenangaben im Header mithilfe gemeinsamer Thesauri standardisiert werden? Was wird inline, was wird stand-off annotiert?
APA, Harvard, Vancouver, ISO, and other styles
25

Albitar, Shereen. "De l'usage de la sémantique dans la classification supervisée de textes : application au domaine médical." Thesis, Aix-Marseille, 2013. http://www.theses.fr/2013AIXM4343/document.

Full text
Abstract:
Cette thèse porte sur l’impact de l’usage de la sémantique dans le processus de la classification supervisée de textes. Cet impact est évalué au travers d’une étude expérimentale sur des documents issus du domaine médical et en utilisant UMLS (Unified Medical Language System) en tant que ressource sémantique. Cette évaluation est faite selon quatre scénarii expérimentaux d’ajout de sémantique à plusieurs niveaux du processus de classification. Le premier scénario correspond à la conceptualisation où le texte est enrichi avant indexation par des concepts correspondant dans UMLS ; le deuxième et le troisième scénario concernent l’enrichissement des vecteurs représentant les textes après indexation dans un sac de concepts (BOC – bag of concepts) par des concepts similaires. Enfin le dernier scénario utilise la sémantique au niveau de la prédiction des classes, où les concepts ainsi que les relations entre eux, sont impliqués dans la prise de décision. Le premier scénario est testé en utilisant trois des méthodes de classification: Rocchio, NB et SVM. Les trois autres scénarii sont uniquement testés en utilisant Rocchio qui est le mieux à même d’accueillir les modifications nécessaires. Au travers de ces différentes expérimentations nous avons tout d’abord montré que des améliorations significatives pouvaient être obtenues avec la conceptualisation du texte avant l’indexation. Ensuite, à partir de représentations vectorielles conceptualisées, nous avons constaté des améliorations plus modérées avec d’une part l’enrichissement sémantique de cette représentation vectorielle après indexation, et d’autre part l’usage de mesures de similarité sémantique en prédiction
The main interest of this research is the effect of using semantics in the process of supervised text classification. This effect is evaluated through an experimental study on documents related to the medical domain using the UMLS (Unified Medical Language System) as a semantic resource. This evaluation follows four scenarios involving semantics at different steps of the classification process: the first scenario incorporates the conceptualization step where text is enriched with corresponding concepts from UMLS; both the second and the third scenarios concern enriching vectors that represent text as Bag of Concepts (BOC) with similar concepts; the last scenario considers using semantics during class prediction, where concepts as well as the relations between them are involved in decision making. We test the first scenario using three popular classification techniques: Rocchio, NB and SVM. We choose Rocchio for the other scenarios for its extendibility with semantics. According to experiment, results demonstrated significant improvement in classification performance using conceptualization before indexing. Moderate improvements are reported using conceptualized text representation with semantic enrichment after indexing or with semantic text-to-text semantic similarity measures for prediction
APA, Harvard, Vancouver, ISO, and other styles
26

Krehl, Birgit. "Frühe lyrische Texte Julian Tuwims und der Große Krieg. „Sie schlagen Juden! Lustig! Ha-ha-ha!“." HATiKVA e.V. – Die Hoffnung Bildungs- und Begegnungsstätte für Jüdische Geschichte und Kultur Sachsen, 2016. https://slub.qucosa.de/id/qucosa%3A34822.

Full text
APA, Harvard, Vancouver, ISO, and other styles
27

Bitterlich, Thomas. "Die Schrift der Zivilisation in Yasmina Rezas "Der Gott des Gemetzels"." Universitätsbibliothek Leipzig, 2014. http://www.kulturtechnik-schreiben.imz.uni-erlangen.de/veranstaltungen-texte/schreiben-im-theater.shtml.

Full text
Abstract:
Wie werden Schrift und Schreiben in einem der erfolgreichsten Theatertstücke der Theatersaison 2007/2008 repräsentiert? Welche Rolle und Bedeutung wird Ihnen von der Autorin zugewiesen? Der Beitrag verweist darauf, wie verschiedene Schriftarten und Schreibweisen den dramatischen Konflikts gestalten und die Figuren konstituieren.
APA, Harvard, Vancouver, ISO, and other styles
28

Süß, Ina. "Christus im Diskurs mit Muhammad - Das Ringen um religiöse Identität: Die Auseinandersetzung der syrischen Christen mit dem Islam anhand ausgewählter Texte des Johannes Damaskenos und des Theodor Abū Qurra." Master's thesis, Universitätsverlag der Technischen Universität Chemnitz, 2013. https://monarch.qucosa.de/id/qucosa%3A20186.

Full text
Abstract:
Religion ist für viele Menschen ein wichtiger Bestandteil ihres Seins. Sie identifizieren und definieren sich über ihre Zugehörigkeit zu dieser. Jede konkurrierende Weltanschauung wird dabei meist als Bedrohung angesehen und mehr oder weniger stark in Wort, Schrift oder Tat bekämpft. Besonders die Auseinandersetzung mit dem Islam hat sich in den letzten Jahren drastisch verschärft und führt immer wieder zu heftigen verbalen oder gewalttätigen Angriffen. Das Ringen um Verständigung bzw. Abgrenzung und die damit verbundenen Konflikte und Diskussionen sind jedoch nicht neu, sondern ziehen sich wie ein roter Faden durch die Geschichte. Interessant aus heutiger Zeit ist deshalb die Erschließung der Anfangsdebatte am Entstehungsort des Islams. Auf welche Weise und mit welchen Mitteln setzten sich die unmittelbar von der arabischen Herrschaft betroffenen Christen mit der neuen Religion auseinander? Wie entwickelten sich die Argumentationsmuster in den Anfängen des Religionsdiskurses? Welche hauptsächlichen religiösen Unterschiede wurden wahrgenommen und thematisiert? Anhand einiger Texte des Johannes Damaskenos und des Theodor Abū Qurra soll diesen Fragen auf den Grund gegangen werden.
Religion is an important component of her being for many people. They identify and define themselves over her affiliation to this. Besides, every competing world view is mostly looked as a menace and is fought more or less strongly in word, writing or action. Particularly the discussion with Islam has drastically intensified during the last years and leads over and over again to fierce verbal or violent attacks. Nevertheless, the struggle around notification or demarcation and the conflicts linked with it and discussions are not new, but stretch like a red thread through the history. Therefore, interesting from today's time is the development of the beginning debate in the place of origin of Islam. In which manner and with which means did the Christians immediately affected by the Arabian rule argue with the new religion? How did the argumentation patterns develop in the beginnings of the religious discourse? Which principal religious differences were perceived and picked out as a central theme? With the help of some texts of Johannes Damaskenos and Theodor Abū Qurra should become to these questions on the reason gone.
APA, Harvard, Vancouver, ISO, and other styles
29

Mercadier, Yves. "Classification automatique de textes par réseaux de neurones profonds : application au domaine de la santé." Thesis, Montpellier, 2020. http://www.theses.fr/2020MONTS068.

Full text
Abstract:
Cette thèse porte sur l'analyse de données textuelles dans le domaine de la santé et en particulier sur la classification supervisée multi-classes de données issues de la littérature biomédicale et des médias sociaux.Une des difficultés majeures lors de l'exploration de telles données par des méthodes d'apprentissage supervisées est de posséder un jeu de données suffisant en nombre d'exemples pour l'entraînement des modèles. En effet, il est généralement nécessaire de catégoriser les données manuellement avant de réaliser l'étape d'apprentissage. La taille importante des jeux de données rend cette tâche de catégorisation très coûteuse, qu'il convient de réduire par des systèmes semi-automatiques.Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Dans cette thèse, nous évaluerons différentes approches d’apprentissage actif combinées avec des modèles d’apprentissage profond récents.Par ailleurs, lorsque l’on dispose de peu de données annotées, une possibilité d’amélioration est d’augmenter artificiellement la quantité de données pendant la phase d’entraînement du modèle, en créant de nouvelles données de manière automatique à partir des données existantes. Plus précisément, il s’agit d’injecter de la connaissance en tenant compte des propriétés invariantes des données par rapport à certaines transformations. Les données augmentées peuvent ainsi couvrir un espace d’entrée inexploré, éviter le sur-apprentissage et améliorer la généralisation du modèle. Dans cette thèse, nous proposerons et évaluerons une nouvelle approche d'augmentation de données textuelles
This Ph.D focuses on the analysis of textual data in the health domain and in particular on the supervised multi-class classification of data from biomedical literature and social media.One of the major difficulties when exploring such data by supervised learning methods is to have a sufficient number of data sets for models training. Indeed, it is generally necessary to label manually the data before performing the learning step. The large size of the data sets makes this labellisation task very expensive, which should be reduced with semi-automatic systems.In this context, active learning, in which the Oracle intervenes to choose the best examples to label, is promising. The intuition is as follows: by choosing the smartly the examples and not randomly, the models should improve with less effort for the oracle and therefore at lower cost (i.e. with less annotated examples). In this PhD, we will evaluate different active learning approaches combined with recent deep learning models.In addition, when small annotated data set is available, one possibility of improvement is to artificially increase the data quantity during the training phase, by automatically creating new data from existing data. More precisely, we inject knowledge by taking into account the invariant properties of the data with respect to certain transformations. The augmented data can thus cover an unexplored input space, avoid overfitting and improve the generalization of the model. In this Ph.D, we will propose and evaluate a new approach for textual data augmentation.These two contributions will be evaluated on different textual datasets in the medical domain
APA, Harvard, Vancouver, ISO, and other styles
30

Gräbe, Hans-Gert. "Technik und Gesellschaft. Rudolf Rochhausen zum Gedenken.: Texte und Erinnerungen zur Dahlener Tagung 2012." Hans-Gert Gräbe, 2012. https://ul.qucosa.de/id/qucosa%3A11382.

Full text
Abstract:
Band zum Gedenken an den Technikphilosophen Rudolf Rochhausen (1919-2012), der lange Jahre an der Leipziger Universität wirkte, dort u.a. seit 1975 für die Konzeption der Marxistischen Abendschule in Rohrbach (Thüringen) verantwortlich zeichnete und nach der Wende mit dem 'Rohrbacher Kreis' einen Diskursort initiierte, an dem sich Natur- und Geisteswissenschaftler auf Augenhöhe begegnen konnten.:Hans-Gert Gräbe: Vorwort Rudolf Rochhausen -- Leben und Werk Rudolf Rochhausen: Freiheit – ein Wert der Linken Michael Franzke: Ökonomisierung, Ethik und Identität der Sozialen Arbeit Kerstin Popp: Der historische Wandel der Rolle von Menschen mit Behinderung in der Gesellschaft und der Beitrag der Sonderpädagogik dazu Siegfried Bönisch, Horst Pickert: Anmerkungen zu Problemen eines marxistischen Menschenbildes Hans-Gert Gräbe: Arbeiterklasse und Intelligenz. Unabgegoltenes im \'Sozialismus des 20. Jahrhunderts\
APA, Harvard, Vancouver, ISO, and other styles
31

Usunier, Nicolas. "Apprentissage de fonctions d'ordonnancement : une étude théorique de la réduction à la classification et deux applications à la recherche d'information." Paris 6, 2006. http://www.theses.fr/2006PA066425.

Full text
Abstract:
La communauté d'apprentissage s'est récemment intéressée aux fonctions d'ordonnancement. Ces fonctions prennent en entrée un ensemble, et renvoient une liste ordonnée de ses éléments. La première partie de cette thèse présente une étude théorique sur l’apprentissage des fonctions d'ordonnancement. Nous définissons un nouveau cadre de classification binaire, dans lequel les exemples sont des variables aléatoires interdépendantes, dont la structure de dépendance est connue, alors que le cadre habituel suppose que les exemples sont indépendants. Dans ce cadre, nous établissons de nouvelles bornes sur l’erreur de généralisation pour l'ordonnancement, et retrouvons des résultats connus en classification binaire. Dans une seconde partie, nous présentons de nouveaux algorithmes d’apprentissage des fonctions d’ordonnancement, et montrons la validité de notre approche sur des données réelles issues des applications de Question/Réponse et de Résumé Automatique de Texte.
APA, Harvard, Vancouver, ISO, and other styles
32

Berio, Luciano. "Text of Texts." Bärenreiter Verlag, 1998. https://slub.qucosa.de/id/qucosa%3A36791.

Full text
APA, Harvard, Vancouver, ISO, and other styles
33

Nurse, Derek. "Historical texts from the Swahili coast (part 2)." Swahili Forum; 2 (1995), S. 41-72, 1995. https://ul.qucosa.de/id/qucosa%3A11618.

Full text
Abstract:
Historical texts from the Swahili coast (Swahili-English): Upper Pokomo Elwana, Mwiini Bajuni Pate Amu, She la Matondoni, Mwani Asili ya Mphokomu Fumo Liongo A story. Proverbs and riddles Mashairi Saidi Haji talking about poetry. Kiteko, a story Verse by MA Abdulkadir, Women`s political songs. An old woman reminisces, Mbaraka Msuri, a hadithi. Ngano A story.
APA, Harvard, Vancouver, ISO, and other styles
34

Bitterlich, Thomas. "Pinguine schreiben nicht." Universitätsbibliothek Leipzig, 2014. http://www.kulturtechnik-schreiben.imz.uni-erlangen.de/veranstaltungen-texte/schreiben-im-theater.shtml.

Full text
Abstract:
Anhand eines der erfolgreichsten Theaterstücke der Saison 2007/2008 untersucht der Beitrag die Repräsentation und Rolle von Schrift und Schreiben in Ulrich Hubs für Kinder verfassten "An der Arche um acht".
APA, Harvard, Vancouver, ISO, and other styles
35

Bitterlich, Thomas. "Können Dramen und Theateraufführungen als Schrift begriffen werden?" Universitätsbibliothek Leipzig, 2012. http://www.kulturtechnik-schreiben.imz.uni-erlangen.de/veranstaltungen-texte/schreiben-im-theater.shtml.

Full text
Abstract:
Der Artikel beschäftigt sich mit der Frage, inwiefern Theater und Drama als Schrift begriffen werden können. Dabei wird auf den Schriftbegriff Bezug genommen, der in der Diskussion um die "Kulturtechnik Schrift/Schreiben" propagiert wurde.
APA, Harvard, Vancouver, ISO, and other styles
36

Lucarelli, Rita. "Images of eternity in 3D." Universitätsbibliothek Leipzig, 2016. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-201685.

Full text
Abstract:
By using the technique of photogrammetry for the 3D visualization of ancient Egyptian coffins decorated with magical texts and iconography, this project aims at building up a new digital platform for an in-depth study of the ancient Egyptian funerary culture and its media. It has started in August 2015 through the support of a Mellon Fellowship for the Digital Humanities at UC Berkeley and up until now it has focused on ancient Egyptian coffins kept at the Phoebe A. Hearst Museum of Anthropology of UC Berkeley. The main outcome will be a digital platform that allows to display a coffin in 3D and where users will be able to pan, rotate, and zoom in on the coffin, clicking on areas of text to highlight them and view an annotated translation together with other metadata (transcription of the hieroglyphic text, bibliography, textual variants, museological data, provenance, etc.)
APA, Harvard, Vancouver, ISO, and other styles
37

El, Jed Olfa. "WebSum : système de résumé automatique de réponses des moteurs de recherche." Toulouse 3, 2006. http://www.theses.fr/2006TOU30145.

Full text
Abstract:
Cette thèse s’inscrit dans le cadre général de la recherche d’information et plus précisément, dans le cadre de la classification et l’organisation des documents Web. Notre objectif est de développer un système de résumé automatique des réponses d’un moteur de recherche dans un style encyclopédique (WebSum). Ce type de résumé vise à classer les réponses issues d’une recherche d’information à l’aide d’un moteur de recherche, selon les différents thèmes ou ce que nous appelons dans nos travaux, les facettes de la requête utilisateur. Pour réaliser cet objectif, nous proposons : Une méthode d’identification des facettes structurantes d’une requête donnée qui s’inspire du Lexique Génératif de Pustejovsky (Pustejovsky, 1995) ; Une approche de classification des réponses d’un moteur de recherche autour des différentes facettes de la requête ; Une méthode d’évaluation de la pertinence des pages Web permettant de trier, à l’intérieur d’une même facette, les réponses selon un ordre de pertinence
This thesis lies within the general framework of the information retrieval and more precisely, within the framework of the web document classification and organization. Our objective is to develop a system of automatic summarizing of the search engine answers in the encyclopaedic style (WebSum). This type of summary aims at classifying the search engine answers according to the various topics or what we call in our work, facets of the user query. To carry out this objective, we propose : - A method of identification of the facets of a given query based on the generative lexicon; - An approach of classification of the search engine answers under this various facets; - And a method of evaluation of the relevance of the web pages
APA, Harvard, Vancouver, ISO, and other styles
38

Beyer, Stefan, Biase-Dyson Camilla Di, and Nina Wagenknecht. "Annotating figurative language." Universitätsbibliothek Leipzig, 2016. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-201537.

Full text
Abstract:
Whereas past and current digital projects in ancient language studies have been concerned with the annotation of linguistic elements and metadata, there is now an increased interest in the annotation of elements above the linguistic level that are determined by context – like figurative language. Such projects bring their own set of problems (the automatisation of annotation is more difficult, for instance), but also allow us to develop new ways of examining the data. For this reason, we have attempted to take an already annotated database of Ancient Egyptian texts and develop a complementary tagging layer rather than starting from scratch with a new database. In this paper, we present our work in developing a metaphor annotation layer for the Late Egyptian text database of Projet Ramsès (Université de Liège) and in so doing address more general questions: 1) How to ‚tailor-make’ annotation layers to fit other databases? (Workflow) 2) How to make annotations that are flexible enough to be altered in the course of the annotation process? (Project design) 3) What kind of potential do such layers have for integration with existing and future annotations? (Sustainability)
APA, Harvard, Vancouver, ISO, and other styles
39

Berti, Monica. "The Digital Marmor Parium." Epigraphy Edit-a-thon : editing chronological and geographic data in ancient inscriptions ; April 20-22, 2016 / edited by Monica Berti. Leipzig, 2016. Beitrag 4, 2016. https://ul.qucosa.de/id/qucosa%3A14455.

Full text
Abstract:
The Digital Marmor Parium is a project of the Alexander von Humboldt Chair of Digital Humanities at the University of Leipzig (http://www.dh.uni-leipzig.de/wo/dmp). The aim of this work is to produce a new digital edition of the so called Marmor Parium (Parian Marble), which is a Hellenistic chronicle on a marble slab coming from the Greek island of Paros. The importance of the document is due to the fact that it preserves a Greek chronology (1581/80-299/98 BC) with a list of kings and archons accompanied by short references to historical events mainly based on the Athenian history.
APA, Harvard, Vancouver, ISO, and other styles
40

Schmidt, Annalena. "Von weißen Flecken der Erinnerungslandschaft und neuen Chancen für die Forschung. GeoBib: Eine annotierte und georeferenzierte Onlinebibliographie der Texte der frühen deutsch- und polnischsprachigen Holocaust- und Lagerliteratur (1933–1949)." HATiKVA e.V. – Die Hoffnung Bildungs- und Begegnungsstätte für Jüdische Geschichte und Kultur Sachsen, 2015. https://slub.qucosa.de/id/qucosa%3A34866.

Full text
APA, Harvard, Vancouver, ISO, and other styles
41

El, Haj Abir. "Stochastics blockmodels, classifications and applications." Thesis, Poitiers, 2019. http://www.theses.fr/2019POIT2300.

Full text
Abstract:
Cette thèse de doctorat porte sur l’analyse de réseaux pondérés, graphes finis où chaque arête est associée à un poids représentant l’intensité de sa force. Nous introduisons une extension du modèle à blocs stochastiques (SBM) binaire, appelée modèle à blocs stochastiques binomial (bSBM). Cette question est motivée par l’étude des réseaux de co-citations dans un contexte de fouille de textes où les données sont représentées par un graphe. Les noeuds sont des mots et chaque arête joignant deux mots est pondérée par le nombre de documents inclus dans le corpus citant simultanément cette paire de mots. Nous développons une méthode d’inférence basée sur l’algorithme espérance maximisation variationnel (EMV) pour estimer les paramètres du modèle proposé ainsi que pour classifier les mots du réseau. Puis nous adoptons une méthode qui repose sur la maximisation d’un critère ICL (en anglais integrated classification likelihood) pour sélectionner le modèle optimal et le nombre de clusters. D’autre part, nous développons une approche variationnelle pour traiter le réseau et nous comparons les deux approches. Des applications à des données réelles sont adoptées pour montrer l’efficacité des deux méthodes ainsi que pour les comparer. Enfin, nous développons un SBM avec plusieurs attributs pour traiter les réseaux ayant des poids associés aux noeuds. Nous motivons cette méthode par une application qui vise au développement d’un outil d’aide à la spécification de différents traitements cognitifs réalisés par le cerveau lors de la préparation à l’écriture
This PhD thesis focuses on the analysis of weighted networks, where each edge is associated to a weight representing its strength. We introduce an extension of the binary stochastic block model (SBM), called binomial stochastic block model (bSBM). This question is motivated by the study of co-citation networks in a context of text mining where data is represented by a graph. Nodes are words and each edge joining two words is weighted by the number of documents included in the corpus simultaneously citing this pair of words. We develop an inference method based on a variational maximization algorithm (VEM) to estimate the parameters of the modelas well as to classify the words of the network. Then, we adopt a method based on maximizing an integrated classification likelihood (ICL) criterion to select the optimal model and the number of clusters. Otherwise, we develop a variational approach to analyze the given network. Then we compare the two approaches. Applications based on real data are adopted to show the effectiveness of the two methods as well as to compare them. Finally, we develop a SBM model with several attributes to deal with node-weighted networks. We motivate this approach by an application that aims at the development of a tool to help the specification of different cognitive treatments performed by the brain during the preparation of the writing
APA, Harvard, Vancouver, ISO, and other styles
42

Maxey, Craig. "Free-text disease classification." Thesis, Monterey, California. Naval Postgraduate School, 2011. http://hdl.handle.net/10945/5554.

Full text
Abstract:
Approved for public release; distribution is unlimited.
Modern medicine produces data with every patient interaction. While many data elements are easily captured and analyzed, the fundamental record of the patient/clinican interaction is captured in written, free-text. This thesis provides the foundation for the Military Health System to begin building an auto classifier for ICD9 diagnostic codes based on free-text clinican notes. Support Vector Machine models are fit to approximately 84,000 free-text records providing a means to predict ICD9 codes for other free-text records. While the research conducted in this thesis does not provide a consumate ICD9 classification model, it does provide the foundation required to further more detailed analysis.
APA, Harvard, Vancouver, ISO, and other styles
43

Dzunic, Zoran Ph D. Massachusetts Institute of Technology. "Text structure-aware classification." Thesis, Massachusetts Institute of Technology, 2009. http://hdl.handle.net/1721.1/53315.

Full text
Abstract:
Thesis (S.M.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2009.
Cataloged from PDF version of thesis.
Includes bibliographical references (p. 73-76).
Bag-of-words representations are used in many NLP applications, such as text classification and sentiment analysis. These representations ignore relations across different sentences in a text and disregard the underlying structure of documents. In this work, we present a method for text classification that takes into account document structure and only considers segments that contain information relevant for a classification task. In contrast to the previous work, which assumes that relevance annotation is given, we perform the relevance prediction in an unsupervised fashion. We develop a Conditional Bayesian Network model that incorporates relevance as a hidden variable of a target classifier. Relevance and label predictions are performed jointly, optimizing the relevance component for the best result of the target classifier. Our work demonstrates that incorporating structural information in document analysis yields significant performance gains over bag-of-words approaches on some NLP tasks.
by Zoran Dzunic.
S.M.
APA, Harvard, Vancouver, ISO, and other styles
44

Baker, Simon. "Semantic text classification for cancer text mining." Thesis, University of Cambridge, 2018. https://www.repository.cam.ac.uk/handle/1810/275838.

Full text
Abstract:
Cancer researchers and oncologists benefit greatly from text mining major knowledge sources in biomedicine such as PubMed. Fundamentally, text mining depends on accurate text classification. In conventional natural language processing (NLP), this requires experts to annotate scientific text, which is costly and time consuming, resulting in small labelled datasets. This leads to extensive feature engineering and handcrafting in order to fully utilise small labelled datasets, which is again time consuming, and not portable between tasks and domains. In this work, we explore emerging neural network methods to reduce the burden of feature engineering while outperforming the accuracy of conventional pipeline NLP techniques. We focus specifically on the cancer domain in terms of applications, where we introduce two NLP classification tasks and datasets: the first task is that of semantic text classification according to the Hallmarks of Cancer (HoC), which enables text mining of scientific literature assisted by a taxonomy that explains the processes by which cancer starts and spreads in the body. The second task is that of the exposure routes of chemicals into the body that may lead to exposure to carcinogens. We present several novel contributions. We introduce two new semantic classification tasks (the hallmarks, and exposure routes) at both sentence and document levels along with accompanying datasets, and implement and investigate a conventional pipeline NLP classification approach for both tasks, performing both intrinsic and extrinsic evaluation. We propose a new approach to classification using multilevel embeddings and apply this approach to several tasks; we subsequently apply deep learning methods to the task of hallmark classification and evaluate its outcome. Utilising our text classification methods, we develop and two novel text mining tools targeting real-world cancer researchers. The first tool is a cancer hallmark text mining tool that identifies association between a search query and cancer hallmarks; the second tool is a new literature-based discovery (LBD) system designed for the cancer domain. We evaluate both tools with end users (cancer researchers) and find they demonstrate good accuracy and promising potential for cancer research.
APA, Harvard, Vancouver, ISO, and other styles
45

Ghanmi, Nabil. "Segmentation d'images de documents manuscrits composites : application aux documents de chimie." Thesis, Université de Lorraine, 2016. http://www.theses.fr/2016LORR0109/document.

Full text
Abstract:
Cette thèse traite de la segmentation structurelle de documents issus de cahiers de chimie. Ce travail est utile pour les chimistes en vue de prendre connaissance des conditions des expériences réalisées. Les documents traités sont manuscrits, hétérogènes et multi-scripteurs. Bien que leur structure physique soit relativement simple, une succession de trois régions représentant : la formule chimique de l’expérience, le tableau des produits utilisés et un ou plusieurs paragraphes textuels décrivant le déroulement de l’expérience, les lignes limitrophes des régions portent souvent à confusion, ajouté à cela des irrégularités dans la disposition des cellules du tableau, rendant le travail de séparation un vrai défi. La méthodologie proposée tient compte de ces difficultés en opérant une segmentation à plusieurs niveaux de granularité, et en traitant la segmentation comme un problème de classification. D’abord, l’image du document est segmentée en structures linéaires à l’aide d’un lissage horizontal approprié. Le seuil horizontal combiné avec une tolérance verticale avantage le regroupement des éléments fragmentés de la formule sans trop fusionner le texte. Ces structures linéaires sont classées en Texte ou Graphique en s’appuyant sur des descripteurs structurels spécifiques, caractéristiques des deux classes. Ensuite, la segmentation est poursuivie sur les lignes textuelles pour séparer les lignes du tableau de celles de la description. Nous avons proposé pour cette classification un modèle CAC qui permet de déterminer la séquence optimale d’étiquettes associées à la séquence des lignes d’un document. Le choix de ce type de modèle a été motivé par sa capacité à absorber la variabilité des lignes et à exploiter les informations contextuelles. Enfin, pour le problème de la segmentation de tableaux en cellules, nous avons proposé une méthode hybride qui fait coopérer deux niveaux d’analyse : structurel et syntaxique. Le premier s’appuie sur la présence des lignes graphiques et de l’alignement de texte et d’espaces ; et le deuxième tend à exploiter la cohérence de la syntaxe très réglementée du contenu des cellules. Nous avons proposé, dans ce cadre, une approche contextuelle pour localiser les champs numériques dans le tableau, avec reconnaissance des chiffres isolés et connectés. La thèse étant effectuée dans le cadre d’une convention CIFRE, en collaboration avec la société eNovalys, nous avons implémenté et testé les différentes étapes du système sur une base conséquente de documents de chimie
This thesis deals with chemistry document segmentation and structure analysis. This work aims to help chemists by providing the information on the experiments which have already been carried out. The documents are handwritten, heterogeneous and multi-writers. Although their physical structure is relatively simple, since it consists of a succession of three regions representing: the chemical formula of the experiment, a table of the used products and one or more text blocks describing the experimental procedure, several difficulties are encountered. In fact, the lines located at the region boundaries and the imperfections of the table layout make the separation task a real challenge. The proposed methodology takes into account these difficulties by performing segmentation at several levels and treating the region separation as a classification problem. First, the document image is segmented into linear structures using an appropriate horizontal smoothing. The horizontal threshold combined with a vertical overlapping tolerance favor the consolidation of fragmented elements of the formula without too merge the text. These linear structures are classified in text or graphic based on discriminant structural features. Then, the segmentation is continued on text lines to separate the rows of the table from the lines of the raw text locks. We proposed for this classification, a CRF model for determining the optimal labelling of the line sequence. The choice of this kind of model has been motivated by its ability to absorb the variability of lines and to exploit contextual information. For the segmentation of table into cells, we proposed a hybrid method that includes two levels of analysis: structural and syntactic. The first relies on the presence of graphic lines and the alignment of both text and spaces. The second tends to exploit the coherence of the cell content syntax. We proposed, in this context, a Recognition-based approach using contextual knowledge to detect the numeric fields present in the table. The thesis was carried out in the framework of CIFRE, in collaboration with the eNovalys campany.We have implemented and tested all the steps of the proposed system on a consequent dataset of chemistry documents
APA, Harvard, Vancouver, ISO, and other styles
46

Olin, Per. "Evaluation of text classification techniques for log file classification." Thesis, Linköpings universitet, Institutionen för datavetenskap, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:liu:diva-166641.

Full text
Abstract:
System log files are filled with logged events, status codes, and other messages. By analyzing the log files, the systems current state can be determined, and find out if something during its execution went wrong. Log file analysis has been studied for some time now, where recent studies have shown state-of-the-art performance using machine learning techniques. In this thesis, document classification solutions were tested on log files in order to classify regular system runs versus abnormal system runs. To solve this task, supervised and unsupervised learning methods were combined. Doc2Vec was used to extract document features, and Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) based architectures on the classification task. With the use of the machine learning models and preprocessing techniques the tested models yielded an f1-score and accuracy above 95% when classifying log files.
APA, Harvard, Vancouver, ISO, and other styles
47

Prabowo, Rudy. "Ontology-based automatic text classification." Thesis, University of Wolverhampton, 2005. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.418665.

Full text
Abstract:
This research investigates to what extent ontologies can be used to achieve an accurate classification performance of an automatic text classifier, called the Automatic Classification Engine (ACE). The task of the classifier is to classify Web pages with respect to the Dewey Decimal Classification (DOC) and Library of Congress Classification (LCC) schemes. In particular, this research focuses on how to 1. build a set of ontologies which can provide a mechanism to enable machine reasoning; 2. define the mappings between the ontologies and the two classification schemes; 3. implement an ontology-based classifier. The design and implementation of the classifier concentrates on developing an ontologybased classification model. Given a Web page, the classifier applies the model to carry out reasoning to determine terms - from within the Web page - which represent significant concepts. The classifier, then, uses the mappings to determine the associated DOC and LCC classes of the significant concepts, and assigns the DOC and LCC classes to the Web page. The research also investigates a number of approaches which can be applied to extend the coverage of the ontologies used in a semi-automatic way, since manually constructing ontologies is time consuming. The investigation leads to the design and implementation of a semi-automatic ontology construction system which can recognise new potential terms. By using an ontology editor, those new terms can be integrated into their associated ontologies. An experiment was conducted to validate the effectiveness of the classification model, in which the classifier classified a set of collections of Web pages. The performance of the classifier was measured, in terms of its coverage and accuracy. The experimental evidence shows that the ontology-based automatic text classification approach achieved a better level of performance over the existing approaches.
APA, Harvard, Vancouver, ISO, and other styles
48

Eriksson, Linus, and Kevin Frejdh. "Swedish biomedical text-miningand classification." Thesis, KTH, Hälsoinformatik och logistik, 2020. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-278067.

Full text
Abstract:
AbstractManual classification of text is both time consuming and expensive. However, it is anecessity within the field of biomedicine, for example to be able to quantify biomedical data.In this study, two different approaches were researched regarding the possibility of usingsmall amounts of training data, in order to create text classification models that are able tounderstand and classify biomedical texts. The study researched whether a specialized modelshould be considered a requirement for this purpose, or if a generic model might suffice. Thetwo models were based on publicly available versions, one specialized to understand Englishbiomedical texts, and the other to understand ordinary Swedish texts. The Swedish modelwas introduced to a new field of texts while the English model had to work on translatedSwedish texts.The results were quite low, but did however indicate that the method with the Swedish modelwas more reliable, performing almost twice as well as the English correspondence. The studyconcluded that there was potential in using general models as a base, and then tuning theminto more specialized fields, even with small amounts of data.KeywordsNLP, text-mining, biomedical texts, classification, labelling, models, BERT, machinelearning, FIC, ICF.
Sammanfattning Manuell klassificering av text är tidskonsumerande och kostsamt, däremot är det en nödvändighet inom exempelvis biomedicinska områden för att kunna kvantifierabehandlingen av data. I denna studie undersöktes två alternativa sätt att utan tillgång till stora mängder data, kunna framställa textklassificeringsmodeller som kan förstå och klassificerabiomedicinsk text. Studien undersökte ifall om en specialiserad modell borde anses som ettkrav för detta, eller ifall om en generisk modell kan räcka till. Båda modellerna som användesvar baserade på allmänt tillgängliga versioner, en som var tränad att förstå engelskbiomedicinsk text och en annan som var tränad att förstå vanlig svensk text. Den svenskamodellen introducerades till ett nytt område av text medan den engelska modellen arbetade påöversatta svenska texter. Resultatet visade att den svenska modellen kunde förstå och klassificera texten nästan dubbeltså effektivt som den engelska, däremot med en relativt låg grad av träffsäkerhet. Slutligenkunde slutsatsen dras att den använda metoden visade potential vid träning av modeller, ochvid brist på större datamängder borde generellt tränade modeller kunna nyttjas som bas för attsedan kunna specialiseras till andra områden. Nyckelord NLP, textbrytning, biomedicinska texter, klassificering, märkning, modeller, BERT,maskininlärning, FIC, ICF.
APA, Harvard, Vancouver, ISO, and other styles
49

Whitelaw, Casey. "Systemic features for text classification." Thesis, The University of Sydney, 2005. https://hdl.handle.net/2123/28097.

Full text
Abstract:
This thesis applies Systemic Functional Linguistics (SFL) to the automatic analysis of text. SFL is a theory that describes language use primarily in terms of meaning. While widely used for text generation, the difficulty of complete automatic SFL analysis has kept it out of the text analysis mainstream. This thesis presents a new partial analytical model for SFL, designed to allow domain—specific systemic models to be used in shallow processing for text classification. In this model, language use in a document is identified through the use of a systemic extractor, for which algorithms are presented and shown to be fast7 eflicient and scalable. Documents are then represented as a set of systemic features, which leverage SFL theory to provide more meaningful representations. These systemic features are used to perform supervised text classification using statistical machine learning algorithms. The properties of systemic features are explored in a series of case studies upon different types of text classification tasks, using different parts of SFL. Systemic features prove useful in identifying interpersonally close and distant documents; in improving the classification of financial scams; and in the identification of positive and negative opinion. As presented in this thesis, language use described by SFL can be modelled and extracted efficiently and used effectively in real—world text classification tasks.
APA, Harvard, Vancouver, ISO, and other styles
50

Gheldof, Tom. "Trismegistos." Universitätsbibliothek Leipzig, 2016. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-201617.

Full text
Abstract:
Trismegistos (TM, http://www.trismegistos.org) is a metadata platform for the study of texts from the Ancient World, coordinated and maintained by the KU Leuven research group of Ancient History. Originating from the Prosopographia Ptolemaica, TM was developed in 2005 as a database containing information about people mentioned in papyrus documents from Ptolemaic Egypt. In other related databases additional information about these texts was found: when they were written (dates), where they are stored (collections) and to which archive they belong (archives). The following years also epigraphic data were added to these databases. The TM platform has two important goals: firstly it functions as an aggregator of metadata for which it also links to other projects (e.g. Papyrological Navigator, Epigraphic Database Heidelberg), secondly it can be used as an identifying tool for all of its content such as Ancient World texts, places and people. With its unique identifying numbers and stable URI\'s, TM sets standards for and bridges the gap between different digital representations of Ancient World texts. In the future TM aims not only to expand its coverage, but also to provide new ways to study these ancient sources, for example via social network analysis trough its latest addition: Trismegistos networks ((http://www.trismegistos.org/network).
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography