Academic literature on the topic 'Fouille du texte'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Fouille du texte.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Fouille du texte":

1

Fornari, Maria Cristina. "Alfred Fouillée, ‘leitor lido’ de Nietzsche." Cadernos Nietzsche 40, no. 3 (December 2019): 55–79. http://dx.doi.org/10.1590/2316-82422019v4003mcf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Resumo: Este artigo visa a investigar as críticas que o sociólogo francês Alfred Fouillé faz a Nietzsche acerca de suas concepções morais. Apoiado nos textos de seu enteado, Jean-Marie Guyau, Fouillée contrapõe uma moral do altruísmo ao que entende ser uma moral nietzschiana: individualismo, egoísmo e violência. O texto indica os equívocos da leitura de Fouillée a partir dos próprios comentários de Nietzsche ao sociólogo francês e faz algumas aproximações entre Nietzsche e Guyau.
2

de Saint Leger, Mathilde. "Comment ont évolué les thématiques des 99 premiers numeros de BMS ? Analyse avec un logiciel de fouille de texte." Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique 100, no. 1 (October 2008): 16–33. http://dx.doi.org/10.1177/075910630810000105.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Fruchart, Mathilde, Fatima El Idrissi, Antoine Lamer, Karim Belarbi, Mohamed Lemdani, Djamel Zitouni, and Benjamin Guinhouya. "Une approche patient-centrée pour l’identification des symptômes précoces de l'endométriose - fouille de texte des réseaux sociaux en ligne." Journal of Obstetrics and Gynaecology Canada 45, no. 5 (May 2023): 356. http://dx.doi.org/10.1016/j.jogc.2023.03.050.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Aernout, E., G. Ficheur, M. Djennaoui, E. Chazard, and R. Beuscart. "Codage automatisé à partir des comptes-rendus d’actes : construction et évaluation de règles de prédiction par une méthode mixte associant fouille de texte et validation experte." Revue d'Épidémiologie et de Santé Publique 62 (March 2014): S93. http://dx.doi.org/10.1016/j.respe.2014.01.070.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Forest, Dominic. "Vers une nouvelle génération d’outils d’analyse et de recherche d’information." Documentation et bibliothèques 55, no. 2 (March 12, 2015): 77–89. http://dx.doi.org/10.7202/1029091ar.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les récents efforts visant à favoriser la diffusion et la circulation de l’information en format numérique ont contribué au phénomène de l’infobésité (information overload). Il est désormais important de concevoir des outils de recherche d’information plus adaptés aux besoins des utilisateurs afin de leur permettre de récupérer les documents pertinents répondant à leurs besoins informationnels. Dans cet article, nous ferons état, dans un premier temps, de certaines observations sur les conséquences découlant des limites des outils traditionnels en recherche d’information numérique. Dans un deuxième temps, nous exposerons les concepts et les techniques de base du domaine de la fouille de textes, en insistant sur les opérations de classification et de catégorisation automatiques. Finalement, nous montrerons comment certaines techniques de fouille de textes peuvent contribuer au développement d’une nouvelle génération d’outils de recherche d’information.
6

Baslez, Marie-Françoise. "La communauté paulinienne de Philippes à la lumière de l’archéologie historique." Thème 21, no. 1 (June 4, 2014): 191–212. http://dx.doi.org/10.7202/1025474ar.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L’importance des fouilles archéologiques de Philippes, première fondation paulinienne en Europe, ainsi que leur longue histoire, offre l’occasion de réfléchir sur les rapports entre Bible et archéologie. Le bilan historiographique met en évidence des surinterprétations et des anachronismes, afin de faire « coller » les vestiges au texte des Actes des apôtres ou, au contraire, provoquer la tradition chrétienne en avançant des hypothèses hasardeuses sur de nouvelles découvertes et les silences des textes. À Philippes, l’intérêt historique des inscriptions l’emporte sur celui des vestiges et permet de restituer un contexte religieux et culturel de la mission chrétienne dans la moyenne durée, sinon pour la période précise du passage de l’apôtre. Mais c’est surtout la construction de la mémoire de saint Paul au cours des trois premiers siècles, comme héros fondateur et martyr intercesseur, que les vestiges archéologiques permettent d’étudier.
7

Korac, Vojislav. "Istrazivanje ostataka hrama Sv. Pantelejmona u Nisu." Zbornik radova Vizantoloskog instituta, no. 39 (2001): 103–45. http://dx.doi.org/10.2298/zrvi0239103k.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
(francuski) Les principales communications concernant les fouilles de l'?glise Saint-Pant?l??m?n ayant d?j? ?t? publi?es dans le recueil de travaux consacr? ? Stefan Nemanja, le pr?sent texte propose un rapport d?taill? des derni?res fouilles et des r?sultats obtenus. Il est compl?t?, en se fondant sur les maigres vestiges architecturaux mis au jour, d'une tentative de reconstitution id?ale de la conception spatiale de l'?glise. Son rapprochement avec les plans des autres ?glises ayant eu pour fondateur Stefan Nemanja permet de conclure que le conception de l'espace et la structure de Saint-Pant?l??m?n ?tait tr?s proche de celles de l'?glise de la Vierge ? Studenica. Ce rapport sur les fouilles effectu?es contient ?galement un catalogue de trouvailles fun?raires, parures et objets utilitaires qui, au vu de leur grande valeur, appartenaient de toute ?vidence aux couches ?lev?es de la population.
8

Rey-Coquais, Jean-Paul. "Inscriptions de l'hippodrome de Tyr." Journal of Roman Archaeology 15 (2002): 325–35. http://dx.doi.org/10.1017/s104775940001401x.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
L'hippodrome de Tyr est l'un des mieux conservès du monde antique. Les malheurs du temps et la mort de l'èmir Maurice Chèhab, qui en avait dirigè la fouille, n'en ont pas encore permis la publication scientifique. Des inscriptions y ont ètè trouvèes, dont l'èmir Chèhab m'avait confiè le relevè et la publication. Les èvènements du Liban ont interrompu ces travaux. Les inscriptions de l'hippodrome sont encore inèdites; des rèvisions et quelques complèments d'information s'imposent, peut-être difficiles à effectuer ou à obtenir, car il est à craindre que plus d'un document n'ait ètè perdu ou dètèriorè durant ces annèes dramatiques. J'ai toutefois souvent eu l'occasion de faire mention des plus importantes de ces inscriptions. La bienveillante autorisation de la Direction Gènèrale des Antiquitès du Liban me permet d'en donner ici les textes eux-mêmes. Cette première prèsentation du dossier anticipe une èdition plus critique et un commentaire plus complet, qui devraient prendre place dans le deuxième volume, en prèparation, consacrè aux inscriptions dècouvertes dans les fouilles de Tyr.Ces inscriptions, peu nombreuses, forment trois groupes. L'un comprend trois mosaïques de pavement, conservèes en place, qui ont quelque peu souffert des èvènements. Un deuxième groupe est celui d'inscriptions sur fragments de colonnes, dont il n'est pas possible de dèterminer avec toute la prècision ou la certitude souhaitable les lieux de dècouverts, et dont je ne sais ce qu'elles sont devenues; ces inscriptions indiquaient les emplacements rèservès, sur les gradins, aux deux grandes factions, à d'autres groupes ou à certains personnages. Un troisième groupe est celui d'inscriptions peintes qui, près des accès et sous les galeries de l'hippodrome, marquaient les emplacements rèservès aux commerçants; dèjà difficiles à dèchiffrer avant 1975, ces inscriptions sont aujourd'hui apparemment effacèes; je n'ai pu en retrouver aucune lors de brèves visites en 1997 et 1998.
9

Alexandre-Bidon, Danièle. "La lettre volée. Apprendre à lire à l'enfant au Moyen Age." Annales. Histoire, Sciences Sociales 44, no. 4 (August 1989): 953–92. http://dx.doi.org/10.3406/ahess.1989.283634.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Peu nombreuses sont les recherches et les informations concernant l'apprentissage de la lecture durant le Moyen Age. Pourtant, les indices ne manquent pas ; mais ils sont disséminés, voire dissimulés, au sein de milliers de manuscrits encore conservés dans les bibliothèques. Leur rassemblement permet de mettre en évidence des éléments déterminants : le choix des textes de lecture réservés aux enfants tout comme la panoplie diversifiée des objets abécédaires qui leur étaient destinés, et dont certains subsistent encore, détenus au milieu d'innombrables objets dans des musées ou des dépôts, de fouille rarement accessibles aux historiens de l'éducation.
10

Choisnel, Emmanuel. "Le parcours de N. Marr, de l’archéologie arménienne à la linguistique « japhétique »." Cahiers du Centre de Linguistique et des Sciences du Langage, no. 20 (April 9, 2022): 57–76. http://dx.doi.org/10.26034/la.cdclsl.2005.1481.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette communication tente de retracer l'itinéraire intellectuel qui a conduit N. Marr à formuler, dès le début des années 1910, sa théorie linguistique dite « japhétique ». Notre analyse s'appuie essentiellement, d'une part sur l’analyse des résultats publiés par Marr des fouilles archéologiques qu'il a menées, sous le régime tsariste, en Arménie, et plus généralement en Transcaucasie : fouilles des ruines de la ville arménienne médiévale d'Ani, du temple païen de Garni (Arménie), du site ourartéen situé au bord du lac de Van, et de la découverte des vichaps, statues de pierre géantes sculptées trouvées en Arménie. Cet article resitue également, au préalable, le milieu de recherches académiques et universitaires à Saint-Pétersbourg au sein duquel Marr a mené sa carrière d'archéologue et de philologue avant la Révolution d'octobre 1917.

Dissertations / Theses on the topic "Fouille du texte":

1

Dalloux, Clément. "Fouille de texte et extraction d'informations dans les données cliniques." Thesis, Rennes 1, 2020. http://www.theses.fr/2020REN1S050.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Avec la mise en place d'entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour la recherche. Si une partie importante de ces données existe sous forme structurée, une grande partie des informations contenues dans les dossiers patients informatisés est disponible sous la forme de texte libre qui peut être exploité pour de nombreuses tâches. Dans ce manuscrit, deux tâches sont explorées~: la classification multi-étiquette de textes cliniques et la détection de la négation et de l'incertitude. La première est étudiée en coopération avec le centre hospitalier universitaire de Rennes, propriétaire des textes cliniques que nous exploitons, tandis que, pour la seconde, nous exploitons des textes biomédicaux librement accessibles que nous annotons et diffusons gratuitement. Afin de résoudre ces tâches, nous proposons différentes approches reposant principalement sur des algorithmes d'apprentissage profond, utilisés en situations d'apprentissage supervisé et non-supervisé
With the introduction of clinical data warehouses, more and more health data are available for research purposes. While a significant part of these data exist in structured form, much of the information contained in electronic health records is available in free text form that can be used for many tasks. In this manuscript, two tasks are explored: the multi-label classification of clinical texts and the detection of negation and uncertainty. The first is studied in cooperation with the Rennes University Hospital, owner of the clinical texts that we use, while, for the second, we use publicly available biomedical texts that we annotate and release free of charge. In order to solve these tasks, we propose several approaches based mainly on deep learning algorithms, used in supervised and unsupervised learning situations
2

Marchand, Morgane. "Domaines et fouille d'opinion : une étude des marqueurs multi-polaires au niveau du texte." Thesis, Paris 11, 2015. http://www.theses.fr/2015PA112026/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse s’intéresse à l’adaptation d’un classifieur statistique d’opinion au niveau du texte d’un domaine à un autre. Cependant, nous exprimons notre opinion différemment selon ce dont nous parlons. Un même mot peut ne pas désigner pas la même chose ou bien ne pas avoir la même connotation selon le thème de la discussion. Si ces mots ne sont pas détectés, ils induiront des erreurs de classification.Nous appelons donc marqueurs multi-polaires des mots ou bigrammes dont la présence indique une certaine polarité du texte entier, différente selon le domaine du texte. Cette thèse est consacrées à leur étude. Ces marqueurs sont détectés à l’aide d’un test du khi2 lorsque l’on dispose d’annotations au niveau du texte dans les deux domaines d’intérêt. Nous avons également proposé une méthode de détection semi-supervisé. Nous utilisons une collections de mots pivots auto-épurés afin d’assurer une polarité stable d’un domaine à un autre.Nous avons également vérifié la pertinence linguistique des mots sélectionnés en organisant une campagne d’annotation manuelle. Les mots ainsi validés comme multi-polaires peuvent être des éléments de contexte, des mots exprimant ou expliquant une opinion ou bien désignant l’objet sur lequel l’opinion est portée. Notre étude en contexte a également mis en lumière trois causes principale de changement de polarité : le changement de sens, le changement d’objet et le changement d’utilisation.Pour finir, nous avons étudié l’influence de la détection des marqueurs multi-polaires sur la classification de l’opinion au niveau du texte par des classifieurs automatiques dans trois cas distincts : adaptation d’un domaine source à un domaine cible, corpus multi-domaine, corpus en domaine ouvert. Les résultats de ces expériences montrent que plus le transfert initial est difficile, plus la prise en compte des marqueurs multi-polaires peut améliorer la classification, allant jusqu’à plus cinq points d’exactitude
In this thesis, we are studying the adaptation of a text level opinion classifier across domains. Howerver, people express their opinion in a different way depending on the subject of the conversation. The same word in two different domains can refer to different objects or have an other connotation. If these words are not detected, they will lead to classification errors.We call these words or bigrams « multi-polarity marquers ». Their presence in a text signals a polarity wich is different according to the domain of the text. Their study is the subject of this thesis. These marquers are detected using a khi2 test if labels exist in both targeted domains. We also propose a semi-supervised detection method for the case with labels in only one domain. We use a collection of auto-epurated pivot words in order to assure a stable polarity accross domains.We have also checked the linguistic interest of the selected words with a manual evaluation campaign. The validated words can be : a word of context, a word giving an opinion, a word explaining an opinion or a word wich refer to the evaluated object. Our study also show that the causes of the changing polarity are of three kinds : changing meaning, changing object or changing use.Finally, we have studyed the influence of multi-polarity marquers on opinion classification at text level in three different cases : adaptation of a source domain to a target domain, multi-domain corpora and open domain corpora. The results of our experiments show that the potential improvement is bigger when the initial transfer was difficult. In the favorable cases, we improve accurracy up to five points
3

Tisserant, Guillaume. "Généralisation de données textuelles adaptée à la classification automatique." Thesis, Montpellier, 2015. http://www.theses.fr/2015MONTS231/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La classification de documents textuels est une tâche relativement ancienne. Très tôt, de nombreux documents de différentes natures ont été regroupés dans le but de centraliser la connaissance. Des systèmes de classement et d'indexation ont alors été créés. Ils permettent de trouver facilement des documents en fonction des besoins des lecteurs. Avec la multiplication du nombre de documents et l'apparition de l'informatique puis d'internet, la mise en œuvre de systèmes de classement des textes devient un enjeu crucial. Or, les données textuelles, de nature complexe et riche, sont difficiles à traiter de manière automatique. Dans un tel contexte, cette thèse propose une méthodologie originale pour organiser l'information textuelle de façon à faciliter son accès. Nos approches de classification automatique de textes mais aussi d'extraction d'informations sémantiques permettent de retrouver rapidement et avec pertinence une information recherchée.De manière plus précise, ce manuscrit présente de nouvelles formes de représentation des textes facilitant leur traitement pour des tâches de classification automatique. Une méthode de généralisation partielle des données textuelles (approche GenDesc) s'appuyant sur des critères statistiques et morpho-syntaxiques est proposée. Par ailleurs, cette thèse s'intéresse à la construction de syntagmes et à l'utilisation d'informations sémantiques pour améliorer la représentation des documents. Nous démontrerons à travers de nombreuses expérimentations la pertinence et la généricité de nos propositions qui permettent une amélioration des résultats de classification. Enfin, dans le contexte des réseaux sociaux en fort développement, une méthode de génération automatique de HashTags porteurs de sémantique est proposée. Notre approche s'appuie sur des mesures statistiques, des ressources sémantiques et l'utilisation d'informations syntaxiques. Les HashTags proposés peuvent alors être exploités pour des tâches de recherche d'information à partir de gros volumes de données
We have work for a long time on the classification of text. Early on, many documents of different types were grouped in order to centralize knowledge. Classification and indexing systems were then created. They make it easy to find documents based on readers' needs. With the increasing number of documents and the appearance of computers and the internet, the implementation of text classification systems becomes a critical issue. However, textual data, complex and rich nature, are difficult to treat automatically. In this context, this thesis proposes an original methodology to organize and facilitate the access to textual information. Our automatic classification approache and our semantic information extraction enable us to find quickly a relevant information.Specifically, this manuscript presents new forms of text representation facilitating their processing for automatic classification. A partial generalization of textual data (GenDesc approach) based on statistical and morphosyntactic criteria is proposed. Moreover, this thesis focuses on the phrases construction and on the use of semantic information to improve the representation of documents. We will demonstrate through numerous experiments the relevance and genericity of our proposals improved they improve classification results.Finally, as social networks are in strong development, a method of automatic generation of semantic Hashtags is proposed. Our approach is based on statistical measures, semantic resources and the use of syntactic information. The generated Hashtags can then be exploited for information retrieval tasks from large volumes of data
4

Charnois, Thierry. "Accès à l'information : vers une hybridation fouille de données et traitement automatique des langues." Habilitation à diriger des recherches, Université de Caen, 2011. http://tel.archives-ouvertes.fr/tel-00657919.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Ce mémoire porte sur mes travaux de recherche en traitement automatique des langues (TAL) et en fouille de données textuelles. Il présente comment ces travaux s'organisent autour de la problématique de l'accès à l'information dans les textes. Notre démarche s'appuie sur la prise en compte de l'aspect sémantique de la langue sous forme de modélisation linguistique et de ressources linguistiques pour le développement d'applications. La méthodologie de l'accès à l'information est donc ici vue comme un accès au sens à partir d'une modélisation linguistique relative à l'application visée plutôt qu'un accès aux formes de surface comme l'utilisent par exemple actuellement les méthodes prédominantes des moteurs de recherche. En retour, la formalisation du modèle linguistique et son expérimentation sur corpus visent à améliorer notre connaissance des phénomènes traités et permettre un retour qualitatif, c'est-à-dire explicatif, sur le modèle. L'intérêt pour les méthodes de fouille fondées sur les motifs et la volonté de les intégrer au TAL -- par exemple, pour acquérir automatiquement des ressources linguistiques et alimenter à moindre coût les systèmes de TAL -- procède de la même démarche. Une telle combinaison vise d'une part à repenser la manière dont les processus de TAL peuvent tirer bénéfice de méthodes de fouille spécifiquement adaptées au texte, et d'autre part à renforcer les processus de fouille, en fonction des spécificités de la donnée textuelle, par une prise en compte d'informations de nature linguistique visant notamment à sélectionner l'information la plus pertinente.
5

Roche, Mathieu. "Fouille de Textes : de l'extraction des descripteurs linguistiques à leur induction." Habilitation à diriger des recherches, Université Montpellier II - Sciences et Techniques du Languedoc, 2011. http://tel.archives-ouvertes.fr/tel-00816263.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique. Elles consistent à modéliser puis mettre en œuvre des méthodologies appliquées aux données textuelles afin d'en déterminer le sens et/ou découvrir des connaissances nouvelles. Dans ce processus, le descripteur linguistique constitue un élément pivot. Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval). Dans la suite, les syntagmes étudiés ne se situent plus à proprement parler dans les textes mais ils seront induits à partir des mots issus des corpus. Les méthodes proposées permettent de mettre en relief des syntagmes originaux tout à fait utiles pour l'identification d'Entités Nommées, le titrage automatique ou la construction de classes conceptuelles. Contrairement au raisonnement déductif, le raisonnement inductif est dit hypothétique. Dans ce cadre, l'utilisation de méthodes de validation automatique des relations induites par le biais d'approches de Fouille du Web se révèle déterminant. Les perspectives à ce travail se concentreront sur l'extraction de nouveaux descripteurs. Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles. Enfin, les travaux que nous souhaitons développer se focaliseront sur l'analyse des textes dans un contexte plus vaste lié au multimédia que le paradigme du Web 2.0 a mis en exergue ces dernières années.
6

Epure, Elena Viorica. "Modélisation automatique des conversations en tant que processus d'intentions de discours interdépendantes." Thesis, Paris 1, 2018. http://www.theses.fr/2018PA01E068/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
La prolifération des données numériques a permis aux communautés de scientifiques et de praticiens de créer de nouvelles technologies basées sur les données pour mieux connaître les utilisateurs finaux et en particulier leur comportement. L’objectif est alors de fournir de meilleurs services et un meilleur support aux personnes dans leur expérience numérique. La majorité de ces technologies créées pour analyser le comportement humain utilisent très souvent des données de logs générées passivement au cours de l’interaction homme-machine. Une particularité de ces traces comportementales est qu’elles sont enregistrées et stockées selon une structure clairement définie. En revanche, les traces générées de manière proactive sont très peu structurées et représentent la grande majorité des données numériques existantes. De plus, les données non structurées se trouvent principalement sous forme de texte. À ce jour, malgré la prédominance des données textuelles et la pertinence des connaissances comportementales dans de nombreux domaines, les textes numériques sont encore insuffisamment étudiés en tant que traces du comportement humain pour révéler automatiquement des connaissances détaillées sur le comportement.L’objectif de recherche de cette thèse est de proposer une méthode indépendante du corpus pour exploiter automatiquement les communications asynchrones en tant que traces de comportement générées de manière proactive afin de découvrir des modèles de processus de conversations,axés sur des intentions de discours et des relations, toutes deux exhaustives et détaillées.Plusieurs contributions originales sont faites. Il y est menée la seule revue systématique existante à ce jour sur la modélisation automatique des conversations asynchrones avec des actes de langage. Une taxonomie des intentions de discours est dérivée de la linguistique pour modéliser la communication asynchrone. Comparée à toutes les taxonomies des travaux connexes,celle proposée est indépendante du corpus, à la fois plus détaillée et exhaustive dans le contexte donné, et son application par des non-experts est prouvée au travers d’expériences approfondies.Une méthode automatique, indépendante du corpus, pour annoter les énoncées de communication asynchrone avec la taxonomie des intentions de discours proposée, est conçue sur la base d’un apprentissage automatique supervisé. Pour cela, deux corpus "ground-truth" validés sont créés et trois groupes de caractéristiques (discours, contenu et conversation) sont conçus pour être utilisés par les classificateurs. En particulier, certaines des caractéristiques du discours sont nouvelles et définies en considérant des moyens linguistiques pour exprimer des intentions de discours,sans s’appuyer sur le contenu explicite du corpus, le domaine ou les spécificités des types de communication asynchrones. Une méthode automatique basée sur la fouille de processus est conçue pour générer des modèles de processus d’intentions de discours interdépendantes à partir de tours de parole, annotés avec plusieurs labels par phrase. Comme la fouille de processus repose sur des logs d’événements structurés et bien définis, un algorithme est proposé pour produire de tels logs d’événements à partir de conversations. Par ailleurs, d’autres solutions pour transformer les conversations annotées avec plusieurs labels par phrase en logs d’événements, ainsi que l’impact des différentes décisions sur les modèles comportementaux en sortie sont analysées afin d’alimenter de futures recherches.Des expériences et des validations qualitatives à la fois en médecine et en analyse conversationnelle montrent que la solution proposée donne des résultats fiables et pertinents. Cependant,des limitations sont également identifiées, elles devront être abordées dans de futurs travaux
The proliferation of digital data has enabled scientific and practitioner communities to createnew data-driven technologies to learn about user behaviors in order to deliver better services and support to people in their digital experience. The majority of these technologies extensively derive value from data logs passively generated during the human-computer interaction. A particularity of these behavioral traces is that they are structured. However, the pro-actively generated text across Internet is highly unstructured and represents the overwhelming majority of behavioral traces. To date, despite its prevalence and the relevance of behavioral knowledge to many domains, such as recommender systems, cyber-security and social network analysis,the digital text is still insufficiently tackled as traces of human behavior to automatically reveal extensive insights into behavior.The main objective of this thesis is to propose a corpus-independent method to automatically exploit the asynchronous communication as pro-actively generated behavior traces in order to discover process models of conversations, centered on comprehensive speech intentions and relations. The solution is built in three iterations, following a design science approach.Multiple original contributions are made. The only systematic study to date on the automatic modeling of asynchronous communication with speech intentions is conducted. A speech intention taxonomy is derived from linguistics to model the asynchronous communication and, comparedto all taxonomies from the related works, it is corpus-independent, comprehensive—as in both finer-grained and exhaustive in the given context, and its application by non-experts is proven feasible through extensive experiments. A corpus-independent, automatic method to annotate utterances of asynchronous communication with the proposed speech intention taxonomy is designed based on supervised machine learning. For this, validated ground-truth corpora arecreated and groups of features—discourse, content and conversation-related, are engineered to be used by the classifiers. In particular, some of the discourse features are novel and defined by considering linguistic means to express speech intentions, without relying on the corpus explicit content, domain or on specificities of the asynchronous communication types. Then, an automatic method based on process mining is designed to generate process models of interrelated speech intentions from conversation turns, annotated with multiple speech intentions per sentence. As process mining relies on well-defined structured event logs, an algorithm to produce such logs from conversations is proposed. Additionally, an extensive design rationale on how conversations annotated with multiple labels per sentence could be transformed in event logs and what is the impact of different decisions on the output behavioral models is released to support future research. Experiments and qualitative validations in medicine and conversation analysis show that the proposed solution reveals reliable and relevant results, but also limitations are identified,to be addressed in future works
7

Duthil, Benjamin. "De l'extraction des connaissances à la recommandation." Phd thesis, Montpellier 2, 2012. http://tel.archives-ouvertes.fr/tel-00771504.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Les technologies de l'information et le succès des services associés (forums, sites spécialisés, etc) ont ouvert la voie à un mode d'expression massive d'opinions sur les sujets les plus variés (e-commerce, critiques artistiques, etc). Cette profusion d'opinions constitue un véritable eldorado pour l'internaute, mais peut rapidement le conduire à une situation d'indécision car,les avis déposés peuvent être fortement disparates voire contradictoires. Pour une gestion fiable et pertinente de l'information contenue dans ces avis, il est nécessaire de mettre en place des systèmes capables de traiter directement les opinions exprimées en langage naturel afin d'en contrôler la subjectivité et de gommer les effets de lissage des traitements statistiques. La plupart des systèmes dits de recommandation ne prennent pas en compte toute la richesse sémantique des critiques et leur associent souvent des systèmes d'évaluation qui nécessitent une implication conséquente et des compétences particulières chez l'internaute. Notre objectif est de minimiser l'intervention humaine dans le fonctionnement collaboratif des systèmes de recommandation en automatisant l'exploitation des données brutes que constituent les avis en langage naturel. Notre approche non supervisée de segmentation thématique extrait les sujets d'intérêt des critiques, puis notre technique d'analyse de sentiments calcule l'opinion exprimée sur ces critères. Ces méthodes d'extraction de connaissances combinées à des outils d'analyse multicritère adaptés à la fusion d'avis d'experts ouvrent la voie à des systèmes de recommandation pertinents, fiables et personnalisés.
8

Stavrianou, Anna. "Modeling and mining of Web discussions." Phd thesis, Université Lumière - Lyon II, 2010. http://tel.archives-ouvertes.fr/tel-00564764.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le développement du Web 2.0 a donné lieu à la production d'une grande quantité de discussions en ligne. La fouille et l'extraction de données de qualité de ces discussions en ligne sont importantes dans de nombreux domaines (industrie, marketing) et particulièrement pour toutes les applications de commerce électronique. Les discussions de ce type contiennent des opinions et des croyances de personnes et cela explique l'intérêt de développer des outils d'analyse efficaces pour ces discussions. L'objectif de cette thèse est de définir un modèle qui représente les discussions en ligne et facilite leur analyse. Nous proposons un modèle basé sur des graphes. Les sommets du graphe représentent les objets de type message. Chaque objet de type message contient des informations comme son contenu, son auteur, l'orientation de l'opinion qui y été exprimée et la date où il a été posté. Les liens parmi les objets message montrent une relation de type "répondre à". En d'autres termes, ils montrent quels objets répondent à quoi, conséquence directe de la structure de la discussion en ligne. Avec ce nouveau modèle, nous proposons un certain nombre de mesures qui guident la fouille au sein de la discussion et permettent d'extraire des informations pertinentes. Il existe des mesures centrées sur l'analyse de l'opinion qui traitent de l'évolution de l'opinion au sein de la discussion. Nous définissons également des mesures centrées sur le temps, qui exploitent la dimension temporelle du modèle, alors que les mesures centrées sur le sujet peuvent être utilisées pour mesurer la présence de sujets dans une discussion. La présence de l'utilisateur dans des discussions en ligne peut être exploitée soit par les techniques des réseaux sociaux, soit à travers notre nouveau modèle qui inclut la connaissance des auteurs de chaque objet message. De plus, une liste de messages clés est recommandée à l'utilisateur pour permettre une participation plus efficace au sein de la discussion.
9

Valsamou, Dialekti. "Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS027/document.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrirele domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques,syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet d’attendre des performances équivalentes dans d’autres domaines
While information is abundant in the world, structured, ready-to-use information is rare. Thiswork proposes Information Extraction (IE) as an efficient approach for producing structured,usable information on biology, by presenting a complete IE task on a model biological organism,Arabidopsis thaliana. Information Extraction is the process of extracting meaningful parts of text and identifying their semantic relations.In collaboration with experts on the plant A. Thaliana, a knowledge model was conceived. The goal of this model is providing a formal representation of the knowledge that is necessary to sufficiently describe the domain of grain development. This model contains all the entities and the relations between them which are essential and it can directly be used by algorithms. Inparallel, this model was tested and applied on a set of scientific articles of the domain. These documents constitute the corpus which is needed to train machine learning algorithms. Theexperts annotated the text using the entities and relations of the model. This corpus and this model are the first available for grain development and among very few on A. Thaliana, despite the latter’s importance in biology. This model manages to answer both needs of being complexenough to describe the domain well, and of having enough generalization for machine learning.A relation extraction approach (AlvisRE) was also elaborated and developed. After entityre cognition, the relation extractor tries to detect the cases where the text mentions that twoentities are in a relation, and identify precisely to which type of the model these relations belongto. AlvisRE’s approach is based on textual similarity and it uses all types of information available:lexical, syntactic and semantic. In the tests conducted, AlvisRE had results that are equivalentor sometimes better than the state of the art. Additionally, AlvisRE has the advantage of being modular and adaptive by using semantic information that was produced automatically. This last feature allows me to expect similar performance in other domains
10

Hoareau, Yann Vigile. "Occurrence du semblable et du différent : réflexion sur la modélisation de la sémantique à partir de la cognition et de la culture et de la fouille de texte." Paris 8, 2010. http://www.theses.fr/2010PA083817.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Cette thèse propose une réflexion sur le processus d'itération d'épisodes similaires et d'épisodes différents sur la cognition, que celle-ci soit humaine ou artificielle. Ce processus, identifié comme central par de grands penseurs issus tant de la psychologie et que de l'intelligence artificielle tels que Piaget, Brunner ou Minsky, fait l'objet d'une étude à travers d'une part, la compréhension et la production de texte par des apprenants en situation plurilingue et pluriculurelle, et, d'autre part, la catégorisation de texte par des systèmes de catégorisations artificielles. L'influence du rapprochement culturel et l'utilisation de la langue maternelle sont étudiées à La Réunion et en Kabylie afin d'identifier les processus cognitifs impliqués dans l'activation des connaissances dans la compréhension et la production de textes. La modélisation des connaissances sémantiques via des modèles d'espaces sémantiques LSA et Random Indexing est étudiée dans le cadre de la catégorisation de textes à grande échelle. La contribution majeure de la thèse consiste en la proposition d'un modèle cognitif de la catégorisation de textes qui représente différents niveaux d'abstraction des catégories textuelles. Ce modèle, appelé Alida, s'inspire des modèles cognitifs classiques de la catégorisation. Alida est finaliste du Deft'09 et lauréat du Concours national de la création d'entreprise de techonologie innovante du Ministère de la recherche en 2010
This thesis proposes a reflexion on the processes of iteration of similar and different episodes on both human and artificial cognition. This process has been identified as central by many researchers from Psychology and Artificial Intelligence such as Piaget, Brunner or Minsky. It is studied under the framework of text comprehension and text production, on the one hand, and, under the framework of large-scale text categorization by artificial systems on the other hand. The influence of the cultural and linguistic rapprochement are studied at La Réunion Island and in Kabylia in the aim of identifying the cognitive processes involved in knowledge activation during text comprehension and text production tasks. The modeling of semantic knowledge by semantic spaces models such as LSA and Random Indexing is studied in the frame of large-scale text categorization. The major contribution of our thesis is the proposition of a cognitive model of text categorization, which is based on the representation of different level of abstraction for textual categories. This model, named Alida, is inspired by classical cognitive models of categorization. Alida is finalist of the text-mining evaluation campaign Deft'09. Also, Alida has been laureate of the National Contest of Business Projects of Innovative Technologies by the French Ministry for Research and Science

Books on the topic "Fouille du texte":

1

Ibekwe-SanJuan, Fidelia. Fouille de textes: Méthodes, outils et applications. Paris: Hermès science publications, 2007.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
2

Minel, Jean-Luc. Filtrage sémantique: Du résumé automatique à la fouille de textes. Paris: Hermès science publications, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
3

Pardee, Dennis. Les textes para-mythologiques de la 24e campagne (1961). Paris: Editions Recherche sur les civilisations, 1988.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
4

Bordreuil, Pierre. Ras Ibn Hani II: Les textes en ecritures cuneiformes de l'age du Bronze recent, fouilles 1977 a 2002. Beyrouth: Institut Francais du Proche-Orient, 2019.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
5

Crossan, John Dominic. Excavating Jesus: Beneath the stones, behind the texts. [San Francisco]: HarperSanFrancisco, 2002.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
6

Hannah, Cotton, and Yardeni Ada, eds. Aramaic, Hebrew, and Greek documentary texts from Naḥal Ḥever and other sites: With an appendix containing alleged Qumran texts. Oxford: Clarendon Press, 1997.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
7

Hannah, Cotton, and Yardeni Ada, eds. Discoveries in the Judaean desert.: With an appendix containing alleged Qumran texts : (the Seiyâl collection II). Oxford: Clarendon Press, 1997.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
8

Marguerite, Yon, and Arnaud Daniel, eds. Etudes ougaritiques. Paris: Editions recherche sur les civilisations, 2001.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
9

IDMHAND, Fatiha, and Ioana MARASESCU-GALLERON, eds. Dix ans de corpus d'auteurs. Editions des archives contemporaines, 2022. http://dx.doi.org/10.17184/eac.9782813004352.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
De 2011 à 2021, le consortium CAHIER d’Huma-Num a réuni une soixantaine de projets en lettres et langues sur une grande variété de sources (œuvres littéraires, correspondances diverses, dictionnaires, fonds d’archives, e. a.). Cet ouvrage rend compte d’une partie des perspectives dégagées à partir des travaux d’informatisation et d’édition de corpus d’auteurs menées dans ce cadre. Au fur et à mesure de l’apprivoisement des technologies et des outils par les communautés scientifiques, de nouvelles idées ont vu le jour à propos des spécificités et des défis de la philologie numérique, comme à propos des nouvelles explorations que l’on peut mener sur la base des ressources ainsi constituées. Articulées autour de trois thématiques (l’accessibilité au patrimoine écrit, la lisibilité de celui-ci en contexte numérique, et les nouvelles connaissances émergeant de la fouille de corpus et de métadonnées), les contributions du présent volume proposent à la fois un bilan et une ouverture vers l’avenir des sciences numériques du texte.
10

S, Lackenbacher, and Malbran-Labat F. Lettres en Akkadien de la «Maison d'Urtenu». Fouilles De 1994. Peeters Publishers & Booksellers, 2016.

Find full text
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Fouille du texte":

1

Nagatsuka, Makoto. "L’exception du droit d’auteur japonais favorisant la fouille de texte et de données (TDM)." In L'entreprise et l'intelligence artificielle - Les réponses du droit, 315–32. Presses de l’Université Toulouse 1 Capitole, 2022. http://dx.doi.org/10.4000/books.putc.15424.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Dubois, Claude-Gilbert. "Un fouillis d’hypothèses sur l’origine d’un texte obscur." In Entre mythe et histoire, 89–96. Presses Universitaires de Bordeaux, 2019. http://dx.doi.org/10.4000/books.pub.33452.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Balvet, Antonio. "Intex comme environnement logiciel pour la fouille de textes. L’exemple d’un corpus financier." In INTEX, 225–47. Presses universitaires de Franche-Comté, 2004. http://dx.doi.org/10.4000/books.pufc.30067.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Faivre, Xavier. "Les types de fours dans les textes mésopotamiens et leur réalité matérielle dans les fouilles archéologiques :." In Argiles : De la physique du matériau à l’expérimentation, 266–308. Archaeopress Publishing Ltd, 2023. http://dx.doi.org/10.2307/jj.6914766.21.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

"Skin, the inner senses, and the readers’ inner life in the Aviarium of Hugh of Fouilloy and related texts." In Body and Spirit in the Middle Ages, 35–58. De Gruyter, 2020. http://dx.doi.org/10.1515/9783110615937-003.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Reports on the topic "Fouille du texte":

1

Nédellec, Claire, Adeline Nazarenko, Francis André, Catherine Balivo, Béatrice Daille, Anastasia Drouot, Jorge Flores, et al. Recommandations sur l’analyse automatique de documents : acquisition, gestion, exploration. Ministère de l'enseignement supérieur et de la recherche, September 2019. http://dx.doi.org/10.52949/10.

Full text
APA, Harvard, Vancouver, ISO, and other styles
Abstract:
Le groupe de travail "Fouille de textes et analyse de données" du Comité pour la science ouverte émet des recommandations sur les bonnes pratiques pour l'analyse de données. Elles portent sur l'acquisition et le partage des documents, l'utilisation de logiciels de gestion, d’exploration ou d’analyse, l'exploitation des résultats et la diffusion d’extraits de documents.

To the bibliography