Thematische Bibliographien / Structuration automatique de données

Inhaltsverzeichnis

Zeitschriftenartikel
Dissertationen
Bücher
Buchteile
Berichte der Organisationen

Auswahl der wissenschaftlichen Literatur zum Thema „Structuration automatique de données“

Autor: Grafiati

Veröffentlicht am 23. November 2024

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Structuration automatique de données" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Zeitschriftenartikel zum Thema "Structuration automatique de données"

Contu, S., R. Schiappa, D. Culié, E. Seutin, T. Pace-Loscos und E. Chamorey. „P30 - Structuration automatique des données des dossiers médicaux et exploration statistique interactive“. Journal of Epidemiology and Population Health 72 (Mai 2024): 202470. http://dx.doi.org/10.1016/j.jeph.2024.202470.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Schiappa, R., S. Contu und E. Chamorey. „RUBYOPSIE : Extraction et structuration automatique de données à partir de comptes rendus de biopsies scannés“. Revue d'Épidémiologie et de Santé Publique 70 (Mai 2022): S128. http://dx.doi.org/10.1016/j.respe.2022.03.074.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Hertig, Michael. „L' enrichissement automatique de l’indexation dans le réseau Renouvaud“. Informationswissenschaft: Theorie, Methode und Praxis 6, Nr. 1 (09.07.2020): 298–311. http://dx.doi.org/10.18755/iw.2020.16.

Der volle Inhalt der Quelle

Annotation:

Ce travail cherche à décrire l’enrichissement automatique de l’indexation ainsi que les différentes manières de l’appliquer aux données bibliographiques, notamment dans le réseau vaudois de bibliothèques Renouvaud. L’enrichissement automatique de l’indexation consiste à ajouter des informations à une ressource documentaire concernant son contenu. Il s’agit d’une pratique faisant l’objet d’un nouvel intérêt dans les bibliothèques, car elle permet de résoudre des problèmes associés à l’indexation matière utilisant des vocabulaires contrôlés. Il s’agit principalement des problèmes de la masse des documents à indexer et de l’hétérogénéité des référentiels utilisés. Dans un premier temps, l’enrichissement automatique de l’indexation est introduit dans le contexte de remise en question de l’indexation matière et est présenté comme solution à ces deux problèmes. Dans un deuxième temps, ce travail examine la possibilité d’implémenter un système d’enrichissement automatique sur les données du réseau Renouvaud. Un état des lieux de l’indexation est présenté et débouche sur une analyse établissant si l’enrichissement automatique est envisageable. Enfin, l’on présente une tentative d’enrichissement automatique concrète, au moyen du système de gestion Alma utilisé dans Renouvaud.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Debs, Noëlie, Sergio Peignier, Clément Douarre, Théo Jourdan, Christophe Rigotti und Carole Frindel. „Apprendre l’apprentissage automatique : un retour d’expérience“. J3eA 21 (2022): 2013. http://dx.doi.org/10.1051/j3ea/20222013.

Der volle Inhalt der Quelle

Annotation:

Dans cet article, nous présentons un retour d’expérience sur un module d’initiation à l’apprentissage automatique de 3 crédits ECTS que nous avons créé pour des élèves ingénieurs de l’INSA de Lyon. Nous présentons la structuration de ce module ainsi que les spécificités pédagogiques liées au faible nombre d’heures de face à face au regard de la complexité du sujet. Nous montrons des exemples de cas d’usage proposés aux étudiants et faisons état de leurs réactions. L’ensemble est complété par des liens bibliographiques vers les sites des outils numériques libres et références pédagogiques utilisées.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Houde, Serge. „L’apport des dictionnaires électroniques pour l’élaboration de thésaurus“. Analyse de l’information textuelle 38, Nr. 2 (13.02.2015): 91–95. http://dx.doi.org/10.7202/1028613ar.

Der volle Inhalt der Quelle

Annotation:

Les dictionnaires lisibles par machine ont fait l’objet de plusieurs recherches orientées vers leur utilisation pour la construction automatique de thésaurus et de bases de données lexicales. Le compte rendu de ces recherches fait état des méthodes utilisées pour l’extraction automatique des informations contenues dans ces dictionnaires et précise la nature des données ainsi recueillies. L’auteur présente un projet de recherche utilisant le Robert électronique sur CD-ROM et mené à l’École de bibliothéconomie et des sciences de l’information de l’Université de Montréal dans le profil « Analyse de l’information et bases de données ». Ce projet consiste à construire, à l’aide du logiciel SATO et à partir d’une liste de termes du thésaurus du Centre des Données sur les émissions du Service de l’Information de Radio-Canada, un thésaurus contenant seulement les informations fournies par le dictionnaire et à le comparer au thésaurus-source.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Schöpfel, Joachim. „Éditorialisation des données de recherche : le rôle des professionnels de l’information“. I2D - Information, données & documents 2, Nr. 2 (17.11.2020): 82–84. http://dx.doi.org/10.3917/i2d.202.0082.

Der volle Inhalt der Quelle

Annotation:

L’éditorialisation des données de la recherche est un enjeu majeur de la communication scientifique. Si le regard des chercheurs reste primordial, les professionnels de l’information, impliqués dans la gestion des infrastructures de recherche, des plateformes et des entrepôts de données, contribuent largement à la structuration et à la visibilité de ces données. Zoom sur un exemple représentatif : les articles de données ( data papers ).

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Merkenbreack, Vincent. „La structuration du paysage littoral morin : l’exemple de Marquise“. Revue du Nord Tome 104, Nr. 3 (20.09.2023): 95–111. http://dx.doi.org/10.3917/rdn.447.0095.

Der volle Inhalt der Quelle

Annotation:

Les investigations archéologiques menées depuis une quinzaine d’années sur le territoire de Marquise, non loin de Boulogne-sur-Mer, ont permis de collecter un grand nombre de données nouvelles et ce, sur un vaste secteur en terme de superficie. Il en résulte la possibilité d’analyser cette portion du littoral morin sous l’angle de la structuration du territoire à l’époque romaine. Les données archéologiques concernant la Protohistoire récente sont minimes sur le territoire de Marquise mais les récentes opérations d’archéologie préventive nous permettent de commencer à appréhender ces vestiges sur cette partie du littoral morin. Ainsi, on observe une translation d’une occupation domestique et des espaces funéraires entre La Tène finale et le Haut-Empire. Avec les données d’occupation romaine précoce, la présence de tombes monumentales utilisant des blocs de remploi ou encore la mise au jour d’un mithraeum , le statut de Marquise reste néanmoins à préciser mais une structuration rigoureuse du paysage est avérée et ce, de la fin du i er s. av. J.-C. jusqu’au iv e s. ap. J.-C.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Önen, Melek, Francesco Cremonesi und Marco Lorenzi. „Apprentissage automatique fédéré pour l’IA collaborative dans le secteur de la santé“. Revue internationale de droit économique XXXVI, Nr. 3 (21.04.2023): 95–113. http://dx.doi.org/10.3917/ride.363.0095.

Der volle Inhalt der Quelle

Annotation:

L’apprentissage fédéré ou federated learning (FL) représente aujourd’hui un paradigme de travail essentiel pour renforcer la recherche en IA tout en garantissant la gouvernance et la confidentialité des données grâce à des applications d’apprentissage décentralisées. L’apprentissage fédéré permet à différents clients d’apprendre conjointement un modèle global sans partager leurs données respectives, et est donc particulièrement adapté aux applications d’IA contenant des données sensibles, comme dans le domaine de la santé. Néanmoins, l’utilisation de l’apprentissage fédéré dans le domaine médical en est actuellement à ses débuts, avec seulement une poignée d’applications pionnières démontrées dans des conditions réelles. L’un des aspects critiques de son application dans des conditions réelles concerne les aspects de sécurité et de sûreté. Des parties mal intentionnées peuvent intervenir pendant la procédure pour dégrader/modifier les performances des modèles ou récupérer des informations sur les données d’autres clients. Il existe actuellement une zone grise de menaces potentielles pour la vie privée associées au développement et à l’exploitation de méthodes complexes d’IA sur des données sensibles. Ces menaces apparaissent chaque fois que nous pouvons interférer avec les processus d’apprentissage ou d’exploitation du modèle, afin de recueillir plus d’informations sur les données utilisées pour générer un tel modèle. Dans ce travail, nous fournissons une vue d’ensemble des recherches et des défis actuels sur la sécurité et la sûreté de l’apprentissage fédéré, avec un accent particulier sur les applications de soins de santé.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Doggett, Amanda, Ashok Chaurasia, Jean-Philippe Chaput und Scott T. Leatherdale. „Utilisation des arbres de classification et de régression pour modéliser les données manquantes sur l’IMC, la taille et la masse corporelle chez les jeunes“. Promotion de la santé et prévention des maladies chroniques au Canada 43, Nr. 5 (Mai 2023): 257–69. http://dx.doi.org/10.24095/hpcdp.43.5.03f.

Der volle Inhalt der Quelle

Annotation:

Introduction Les données issues de mesures de l’indice de masse corporelle (IMC) autodéclarées par les jeunes comportent souvent de graves lacunes, ce qui peut avoir un effet important sur les résultats des recherches les utilisant. La première étape du traitementdes données manquantes consiste à étudier leur niveau et leur structuration. Or les études antérieures qui ont analysé les données manquantes sur l’IMC chez les jeunes ont utilisé une régression logistique, une approche limitée dans sa capacité à discerner des sous-groupes ou à obtenir une hiérarchie dans l’importance des variables, des dimensions pourtant susceptibles de contribuer grandement à la compréhension de la structuration des données manquantes. Methods Cette étude a utilisé des modèles d’arbre de classification et de régression (CART, pour classification and regression tree) stratifiés selon le sexe pour analyser les données manquantes sur la taille, la masse corporelle et l’IMC chez 74 501 jeunes participant à l’étude COMPASS 2018-2019 (une étude de cohorte prospective qui a porté sur les comportements de santé des jeunes canadiens), dans laquelle 31 % des données sur l’IMC étaient manquantes. Des variables telles que le régime alimentaire, le mouvement, les résultats scolaires, la santé mentale et l’utilisation de substances ont été étudiées afin de vérifier leurs associations avec les données manquantes sur la taille, la masse corporelle et l’IMC. Results D’après les modèles CART, le fait d’être à la fois plus jeune, de se sentir en surpoids, d’être moins actif physiquement et d’avoir une santé mentale moins bonne a produit des sous-groupes de filles et de garçons où il était très probable que des valeurs d’IMC soient manquantes. Les données manquantes sur l’IMC étaient moins probables chez les répondants de l’enquête plus âgés et ne se sentant pas en surpoids. Conclusion Si l’on se fie aux sous-groupes produits par les modèles CART, utiliser un échantillon au sein duquel les cas dont la valeur de l’IMC est manquante ont été supprimés conduirait à tenir davantage compte des jeunes en meilleure santé sur les plans physique, émotionnel et mental. Étant donné que les modèles CART sont aptes à discerner ces sous-groupes ainsi qu’à établir une hiérarchie dans l’importance des variables, ils constituent un outil précieux pour étudier la structuration des données manquantes et la manière appropriée de gérer ces dernières.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Catach, Laurent. „Quelques considérations et retours d’expérience sur les éditions numériques du Dictionnaire de l’Académie française et du Dictionnaire de l’Académie nationale de médecine“. Éla. Études de linguistique appliquée N° 211, Nr. 3 (29.01.2024): 283–96. http://dx.doi.org/10.3917/ela.211.0029.

Der volle Inhalt der Quelle

Annotation:

Nous décrivons ici certains aspects qui ont prévalu lors de l’élaboration du portail du Dictionnaire de l’Académie française et de celui du Dictionnaire de l’Académie nationale de médecine , dans une perspective de « dictionnairique numérique » et en essayant d’en dégager certains principes méthodologiques. Nous mettons en particulier l’accent sur la préparation des données et la nécessité de développer un « atelier logiciel » dédié, combinant un système de bases de données avec des programmes de traitements des données, et d’utiliser un modèle de structuration le plus riche possible.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Dissertationen zum Thema "Structuration automatique de données"

Bouchekif, Abdesselam. „Structuration automatique de documents audio“. Thesis, Le Mans, 2016. http://www.theses.fr/2016LEMA1038/document.

Der volle Inhalt der Quelle

Annotation:

La structuration en thèmes est un domaine de recherche très prisé dans le traitement automatique du langage naturel car elle est le point de départ de plusieurs applications comme la recherche d’information, le résumé automatique et la modélisation des thèmes. Dans cette thèse, nous avons proposé un système de structuration automatique des journaux d’informations. Notre système contient deux modules : segmentation thématique et titrage. La segmentation thématique consiste à effectuer un pavage de l’émission en segments thématiquement homogènes. Ces derniers, sont généralement identifiés par des étiquettes anonymes, c’est alors le rôle du module de titrage d’affecter un titre à chaque segment.Ces travaux ont permis plusieurs contributions originales tel que l’exploitation conjointe de la distribution des mots et des locuteurs (cohésion de la parole) ainsi que l’utilisation des relations sémantiques de type diachronique. Après l’étape de segmentation, nous proposons d’apparier chaque segment avec les articles de presse du même jour. Le titre associé au segment est celui de l’article le plus proche thématiquement. Finalement, nous avons proposé deux nouvelles métriques d’évaluation, l’une pour la segmentation thématique et l’autre pour le titrage. Les expériences sont menées sur trois corpus caractérisés par leur richesse et leur diversité. Ils sont constitués de 168 journaux télévisés issus de 10 chaînes françaises transcrits automatiquement
The topic structuring is an area that has attracted much attention in the Natural Language Processing community. Indeed, topic structuring is considered as the starting point of several applications such as information retrieval, summarization and topic modeling.In this thesis, we proposed a generic topic structuring system i.e. that has the ability to deal with any TV Broadcast News.Our system contains two steps: topic segmentation and title assignment. Topic segmentation consists in splitting the document into thematically homogeneous fragments. The latter are generally identified by anonymous labels and the last step has to assign a title to each segment.Several original contributions are proposed like the use of a joint exploitation of the distribution of speakers and words (speech cohesion) and also the use of diachronic semantic relations. After the topic segmentation step, the generated segments are assigned a title corresponding to an article collected from Google News during the same day. Finally, we proposed the evaluation of two new metrics, the first is dedicated to the topic segmentation and the second to title assignment.The experiments are carried out on three corpora. They consisted of 168 TV Broadcast News from 10 French channels automatically transcribed. Our corpus is characterized by his richness and diversity

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Ribert, Arnaud. „Structuration évolutive de données : application à la construction de classifieurs distribués“. Rouen, 1998. http://www.theses.fr/1998ROUES073.

Der volle Inhalt der Quelle

Annotation:

Les travaux présentés dans ce mémoire abordent le problème de l'enrichissement de la base d'apprentissage des systèmes de classification. L'approche retenue repose essentiellement sur la distribution du problème de classification qui permet un classifieur modulaire, donc évolutif. La méthodologie mise en place consiste a utiliser l'information non supervisée fournie par une hiérarchie indicée en conjonction avec l'information supervisée fournie par un operateur humain. Cette procédure permet d'identifier des régions de l'espace de représentation (dénommées ilots) ou la concentration d'éléments d'une même classe est forte. La structure de la hiérarchie indicée permet ensuite de construire une hiérarchie de classifieurs associes aux ilots et regroupements d'ilots. La pertinence de la distribution obtenue a été vérifiée sur une base de chiffres manuscrits (NIST) à l'aide de perceptrons multi-couches et de l'algorithme des k plus proches voisins. Afin d'obtenir un classifieur distribue évolutif, nous présentons un algorithme de construction de hiérarchie indicée capable de prendre en compte l'ajout d'un nouvel élément sans recalculer la totalité de la hiérarchie. La validation expérimentale de cet algorithme a montré qu'il permettait d'économiser d'importantes ressources mémoires (moyennant un choix d'ultramétrique judicieux) mais que son coût de calcul devait être diminué. Dans le cadre d'une aide à l'étiquetage de nouvelles données nous avons introduit un algorithme de catégorisation multi-échelle ne nécessitant pas la connaissance a priori du nombre d'agrégats dans les données. La validation sur une base de chiffres manuscrits a montré le bon comportement de l'algorithme. La dernière partie de ce mémoire présente notre contribution à un modèle neuronal développé au PSI ces dernières années particulièrement adapté à une utilisation dans une hiérarchie de classifieurs évolutifs, notamment grâce à ces capacités d'auto-configuration.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Kempf, Emmanuelle. „Structuration, standardisation et enrichissement par traitement automatique du langage des données relatives au cancer au sein de l’entrepôt de données de santé de l’Assistance Publique – Hôpitaux de Paris“. Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS694.

Der volle Inhalt der Quelle

Annotation:

Le cancer est un enjeu de santé publique dont l’amélioration de la prise en charge repose, entre autres leviers, sur l’exploitation d’entrepôts de données de santé (EDS). Leur utilisation implique la maîtrise d’obstacles tels que la qualité, la standardisation et la structuration des données de soins qui y sont stockées. L’objectif de cette thèse était de démontrer qu’il est possible de lever les verrous d’utilisation secondaire des données de l’EDS de l’Assistance Publique - Hôpitaux de Paris (AP-HP) concernant des patients atteints de cancer à diverses finalités telles que le pilotage de la sécurité et de la qualité des soins, et les projets de recherche clinique observationnelle et expérimentale. En premier lieu, l’identification d’un jeu de données minimales a permis de concentrer l’effort de formalisation des items d’intérêt propres à la discipline. A partir de 15 items identifiés, 4 cas d’usages relevant de perspectives médicales distinctes ont pu être développés avec succès : pilotage concernant l’automatisation de calculs d’indicateurs de sécurité et de qualité des soins nécessaires à la certification internationale des établissements de santé, épidémiologie clinique concernant l’impact des mesures de santé publique en temps de pandémie sur le retard diagnostic des cancers, aide à la décision concernant l’optimisation du recrutement des patients dans des essais cliniques, développement de réseaux de neurones concernant la pronostication par vision par ordinateur. Une deuxième condition nécessaire à l’exploitation d’un EDS en oncologie repose sur la formalisation optimale et interopérable entre plusieurs EDS de ce jeu de données minimales. Dans le cadre de l’initiative française PENELOPE visant à améliorer le recrutement des patients dans des essais cliniques, la thèse a évalué la plus-value de l’extension oncologie du modèle de données commun OMOP. Cette version 5.4 d’OMOP permettait de doubler le taux de formalisation de critères de préscreening d’essais cliniques de phase I à IV. Seulement 23% de ces critères pouvaient être requetés automatiquement sur l’EDS de l’AP-HP, et ce, modulo une valeur prédictive positive inférieure à 30%. Ce travail propose une méthodologie inédite pour évaluer la performance d'un système d’aide au recrutement : à partir des métriques habituelles (sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative), mais aussi à partir d’indicateurs complémentaires caractérisant l’adéquation du modèle choisi avec l’EDS concerné (taux de traduction et d'exécution des requêtes). Enfin, le travail a permis de montrer le caractère palliatif du traitement automatique du langage naturel concernant la structuration des données d'un EDS en informant le bilan d’extension initial d’un diagnostic de cancer et les caractéristiques histopronostiques des tumeurs. La confrontation des métriques de performance d’extraction textuelle et des ressources humaines et techniques nécessaires au développement de systèmes de règles et d’apprentissage automatique a permis de valoriser, pour un certain nombre de situations, la première approche. La thèse a identifié qu’une préannotation automatique à base de règles avant une phase d’annotation manuelle pour entraînement d’un modèle d’apprentissage machine était une approche optimisable. Les règles semblent suffire pour les tâches d’extraction textuelle d’une certaine typologie d’entités bien caractérisée sur un plan lexical et sémantique. L’anticipation et la modélisation de cette typologie pourrait être possible en amont de la phase d’extraction textuelle, afin de différencier, en fonction de chaque type d’entité, dans quelle mesure l’apprentissage machine devrait suppléer aux règles. La thèse a permis de démontrer qu’une attention portée à un certain nombre de thématiques des sciences des données permettait l’utilisation efficiente d’un EDS et ce, à des fins diverses en oncologie
Cancer is a public health issue for which the improvement of care relies, among other levers, on the use of clinical data warehouses (CDWs). Their use involves overcoming obstacles such as the quality, standardization and structuring of the care data stored there. The objective of this thesis was to demonstrate that it is possible to address the challenges of secondary use of data from the Assistance Publique - Hôpitaux de Paris (AP-HP) CDW regarding cancer patients, and for various purposes such as monitoring the safety and quality of care, and performing observational and experimental clinical research. First, the identification of a minimal data set enabled to concentrate the effort of formalizing the items of interest specific to the discipline. From 15 identified items, 4 use cases from distinct medical perspectives were successfully developed: automation of calculations of safety and quality of care required for the international certification of health establishments , clinical epidemiology regarding the impact of public health measures during a pandemic on the delay in cancer diagnosis, decision support regarding the optimization of patient recruitment in clinical trials, development of neural networks regarding prognostication by computer vision. A second condition necessary for the CDW use in oncology is based on the optimal and interoperable formalization between several CDWs of this minimal data set. As part of the French PENELOPE initiative aiming at improving patient recruitment in clinical trials, the thesis assessed the added value of the oncology extension of the OMOP common data model. This version 5.4 of OMOP enabled to double the rate of formalization of prescreening criteria for phase I to IV clinical trials. Only 23% of these criteria could be automatically queried on the AP-HP CDW, and this, modulo a positive predictive value of less than 30%. This work suggested a novel methodology for evaluating the performance of a recruitment support system: based on the usual metrics (sensitivity, specificity, positive predictive value, negative predictive value), but also based on additional indicators characterizing the adequacy of the model chosen with the CDW related (rate of translation and execution of queries). Finally, the work showed how natural language processing related to the CDW data structuring could enrich the minimal data set, based on the baseline tumor dissemination assessment of a cancer diagnosis and on the histoprognostic characteristics of tumors. The comparison of textual extraction performance metrics and the human and technical resources necessary for the development of rules and machine learning systems made it possible to promote, for a certain number of situations, the first approach. The thesis identified that automatic rule-based preannotation before a manual annotation phase for training a machine learning model was an optimizable approach. The rules seemed to be sufficient for textual extraction tasks of a certain typology of entities that are well characterized on a lexical and semantic level. Anticipation and modeling of this typology could be possible upstream of the textual extraction phase, in order to differentiate, depending on each type of entity, to what extent machine learning should replace the rules. The thesis demonstrated that a close attention to a certain number of data science challenges allowed the efficient use of a CDW for various purposes in oncology

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Serrano, Laurie. „Vers une capitalisation des connaissances orientée utilisateur : extraction et structuration automatiques de l'information issue de sources ouvertes“. Caen, 2014. http://www.theses.fr/2014CAEN2011.

Der volle Inhalt der Quelle

Annotation:

Face à l’augmentation vertigineuse des informations disponibles librement (notamment sur le Web), repérer efficacement celles qui présentent un intérêt s’avère une tâche longue et complexe. Les analystes du renseignement d’origine sources ouvertes sont particulièrement concernés par ce phénomène. En effet, ceux-ci recueillent manuellement une grande partie des informations d'intérêt afin de créer des fiches de connaissance résumant le savoir acquis à propos d’une entité. Dans ce contexte, cette thèse a pour objectif de faciliter et réduire le travail des acteurs du renseignement et de la veille. Nos recherches s’articulent autour de trois axes : la modélisation de l’information, l'extraction d’information et la capitalisation des connaissances. Nous avons réalisé un état de l’art de ces différentes problématiques afin d'élaborer un système global de capitalisation des connaissances. Notre première contribution est une ontologie dédiée à la représentation des connaissances spécifiques au renseignement et pour laquelle nous avons défini et modélisé la notion d'événement dans ce domaine. Par ailleurs, nous avons élaboré et évalué un système d’extraction d’événements fondé sur deux approches actuelles en extraction d'information : une première méthode symbolique et une seconde basée sur la découverte de motifs séquentiels fréquents. Enfin, nous avons proposé un processus d’agrégation sémantique des événements afin d'améliorer la qualité des fiches d'événements obtenues et d'assurer le passage du texte à la connaissance. Celui-ci est fondé sur une similarité multidimensionnelle entre événements, exprimée par une échelle qualitative définie selon les besoins des utilisateurs
Due to the considerable increase of freely available data (especially on the Web), the discovery of relevant information from textual content is a critical challenge. Open Source Intelligence (OSINT) specialists are particularly concerned by this phenomenon as they try to mine large amounts of heterogeneous information to acquire actionable intelligence. This collection process is still largely done by hand in order to build knowledge sheets summarizing all the knowledge acquired about a specific entity. Given this context, the main goal of this thesis work is to reduce and facilitate the daily work of intelligence analysts. For this sake, our researches revolve around three main axis: knowledge modeling, text mining and knowledge gathering. We explored the literature related to these different domains to develop a global knowledge gathering system. Our first contribution is the building of a domain ontology dedicated to knowledge representation for OSINT purposes and that comprises a specific definition and modeling of the event concept for this domain. Secondly, we have developed and evaluated an event recognition system which is based on two different extraction approaches: the first one is based on hand-crafted rules and the second one on a frequent pattern learning technique. As our third contribution, we proposed a semantic aggregation process as a necessary post-processing step to enhance the quality of the events extracted and to convert extraction results into actionable knowledge. This is achieved by means of multiple similarity measures between events, expressed according a qualitative scale which has been designed following our final users' needs

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Hiot, Nicolas. „Construction automatique de bases de données pour le domaine médical : Intégration de texte et maintien de la cohérence“. Electronic Thesis or Diss., Orléans, 2024. http://www.theses.fr/2024ORLE1026.

Der volle Inhalt der Quelle

Annotation:

La construction automatique de bases de données dans le domaine médical représente un défi majeur pour garantir une gestion efficace de l'information et faciliter les prises de décision. Ce projet de recherche se concentre sur l'utilisation des bases de données graphes, une approche qui offre une représentation dynamique et une interrogation efficace des données et en particulier de leur topologie. Notre projet explore la convergence entre les bases de données et le traitement automatique du langage, avec deux objectifs centraux. Tout d'abord, notre attention se porte sur le maintien de la cohérence au sein des bases de données graphes lors des mises à jour, en particulier avec des données incomplètes et des règles métiers spécifiques. Maintenir la cohérence lors des mises à jour permet de garantir un niveau de qualité de données uniforme pour tous les utilisateurs et de faciliter l'analyse. Dans un monde en constante évolution, nous donnons la priorité aux mises à jour, qui peuvent impliquer des modifications de l'instance pour accueillir de nouvelles informations. Mais comment gérer efficacement ces mises à jour successives au sein d'un système de gestion de base de données graphes ? Dans un second temps, nous nous concentrons sur l'intégration des informations extraites de documents textuels, une source de données majeure dans le domaine médical. En particulier, nous examinons les cas cliniques et de pharmacovigilance, un domaine crucial pour identifier les risques et les effets indésirables associés à l'utilisation des médicaments. Comment détecter l'information dans les textes ? Comment intégrer ces données non structurées de manière efficace dans une base de données graphe ? Comment les structurer automatiquement ? Et enfin, qu'est-ce qu'une structure valide dans ce contexte ? On s'intéresse en particulier à favoriser la recherche reproductible en adoptant une démarche transparente et documentée pour permettre la vérification et la validation indépendante de nos résultats
The automatic construction of databases in the medical field represents a major challenge for guaranteeing efficient information management and facilitating decision-making. This research project focuses on the use of graph databases, an approach that offers dynamic representation and efficient querying of data and its topology. Our project explores the convergence between databases and automatic language processing, with two central objectives. In one hand, our focus is on maintaining consistency within graph databases during updates, particularly with incomplete data and specific business rules. Maintaining consistency during updates ensures a uniform level of data quality for all users and facilitates analysis. In a world of constant change, we give priority to updates, which may involve modifying the instance to accommodate new information. But how can we effectively manage these successive updates within a graph database management system? In a second hand, we focus on the integration of information extracted from text documents, a major source of data in the medical field. In particular, we are looking at clinical cases and pharmacovigilance, a crucial area for identifying the risks and adverse effects associated with the use of drugs. But, how can we detect information in texts? How can this unstructured data be efficiently integrated into a graph database? How can it be structured automatically? And finally, what is a valid structure in this context? We are particularly interested in encouraging reproducible research by adopting a transparent and documented approach to enable independent verification and validation of our results

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Nouvel, Damien. „Reconnaissance des entités nommées par exploration de règles d'annotation - Interpréter les marqueurs d'annotation comme instructions de structuration locale“. Phd thesis, Université François Rabelais - Tours, 2012. http://tel.archives-ouvertes.fr/tel-00788630.

Der volle Inhalt der Quelle

Annotation:

Ces dernières décennies, le développement considérable des technologies de l'information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances. Face à l'afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. Les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées afin de catégoriser, indexer ou, plus généralement, manipuler des contenus. Notre travail porte sur leur reconnaissance et leur annotation au sein de transcriptions d'émissions radiodiffusées ou télévisuelles, dans le cadre des campagnes d'évaluation Ester2 et Etape. En première partie, nous abordons la problématique de la reconnaissance automatique des entités nommées. Nous y décrivons les analyses généralement conduites pour traiter le langage naturel, discutons diverses considérations à propos des entités nommées (rétrospective des notions couvertes, typologies, évaluation et annotation) et faisons un état de l'art des approches automatiques pour les reconnaître. A travers la caractérisation de leur nature linguistique et l'interprétation de l'annotation comme structuration locale, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d'annotation, dont l'originalité consiste à considérer ces éléments isolément (début ou fin d'une annotation). En seconde partie, nous faisons état des travaux en fouille de données dont nous nous inspirons et présentons un cadre formel pour explorer les données. Les énoncés sont représentés comme séquences d'items enrichies (morpho-syntaxe, lexiques), tout en préservant les ambigüités à ce stade. Nous proposons une formulation alternative par segments, qui permet de limiter la combinatoire lors de l'exploration. Les motifs corrélés à un ou plusieurs marqueurs d'annotation sont extraits comme règles d'annotation. Celles-ci peuvent alors être utilisées par des modèles afin d'annoter des textes. La dernière partie décrit le cadre expérimental, quelques spécificités de l'implémentation du système (mXS) et les résultats obtenus. Nous montrons l'intérêt d'extraire largement les règles d'annotation, même celles qui présentent une moindre confiance. Nous expérimentons les motifs de segments, qui donnent de bonnes performances lorsqu'il s'agit de structurer les données en profondeur. Plus généralement, nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l'approche que nous proposons est compétitive et qu'elle ouvre des perspectives dans le cadre de l'observation des langues naturelles et de l'annotation automatique à l'aide de techniques de fouille de données.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Sèdes, Florence. „Contribution au developpement des systemes bureautiques integres : gestion de donnees, repertoires, formulaires, documents“. Toulouse 3, 1987. http://www.theses.fr/1987TOU30134.

Der volle Inhalt der Quelle

Annotation:

Presentation d'une approche visant a integrer les bases textuelles et les bases de donnees en fournissant a l'utilisateur une interface multimedia du type formulaire. Presentation analytique de la fonction formulaire. Etude de l'environnement bureautique. Presentation de l'approche base textuelle. Les insuffisances de cette approche sont analysees ainsi que les contraintes dues au caractere non structure des informations. Il est mis en evidence alors la necessite et les avantages d'une structuration a posteriori. Le mixage d'informations de natures differentes est aussi aborde. Certains aspects sont illustres par des applications concretes

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Lai, Hien Phuong. „Vers un système interactif de structuration des index pour une recherche par le contenu dans des grandes bases d'images“. Phd thesis, Université de La Rochelle, 2013. http://tel.archives-ouvertes.fr/tel-00934842.

Der volle Inhalt der Quelle

Annotation:

Cette thèse s'inscrit dans la problématique de l'indexation et la recherche d'images par le contenu dans des bases d'images volumineuses. Les systèmes traditionnels de recherche d'images par le contenu se composent généralement de trois étapes: l'indexation, la structuration et la recherche. Dans le cadre de cette thèse, nous nous intéressons plus particulièrement à l'étape de structuration qui vise à organiser, dans une structure de données, les signatures visuelles des images extraites dans la phase d'indexation afin de faciliter, d'accélérer et d'améliorer les résultats de la recherche ultérieure. A la place des méthodes traditionnelles de structuration, nous étudions les méthodes de regroupement des données (clustering) qui ont pour but d'organiser les signatures en groupes d'objets homogènes (clusters), sans aucune contrainte sur la taille des clusters, en se basant sur la similarité entre eux. Afin de combler le fossé sémantique entre les concepts de haut niveau sémantique exprimés par l'utilisateur et les signatures de bas niveau sémantique extraites automatiquement dans la phase d'indexation, nous proposons d'impliquer l'utilisateur dans la phase de clustering pour qu'il puisse interagir avec le système afin d'améliorer les résultats du clustering, et donc améliorer les résultats de la recherche ultérieure. En vue d'impliquer l'utilisateur dans la phase de clustering, nous proposons un nouveau modèle de clustering semi-supervisé interactif en utilisant les contraintes par paires (must-link et cannot-link) entre les groupes d'images. Tout d'abord, les images sont regroupées par le clustering non supervisé BIRCH (Zhang et al., 1996). Ensuite, l'utilisateur est impliqué dans la boucle d'interaction afin d'aider le clustering. Pour chaque itération interactive, l'utilisateur visualise les résultats de clustering et fournit des retours au système via notre interface interactive. Par des simples cliques, l'utilisateur peut spécifier les images positives ainsi que les images négatives pour chaque cluster. Il peut aussi glisser les images entre les clusters pour demander de changer l'affectation aux clusters des images. Les contraintes par paires sont ensuite déduites en se basant sur les retours de l'utilisateur ainsi que les informations de voisinage. En tenant compte de ces contraintes, le système réorganise les clusters en utilisant la méthode de clustering semi-supervisé proposée dans cette thèse. La boucle d'interaction peut être répétée jusqu'à ce que le résultat du clustering satisfasse l'utilisateur. Différentes stratégies pour déduire les contraintes par paires entre les images sont proposées. Ces stratégies sont analysées théoriquement et expérimentalement. Afin d'éviter que les résultats expérimentaux dépendent subjectivement de l'utilisateur humain, un agent logiciel simulant le comportement de l'utilisateur humain pour donner des retours est utilisé pour nos expérimentations. En comparant notre méthode avec la méthode de clustering semi-supervisé la plus populaire HMRF-kmeans (Basu et al., 2004), notre méthode donne de meilleurs résultats.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Guinaudeau, Camille. „Structuration automatique de flux télévisuels“. Phd thesis, INSA de Rennes, 2011. http://tel.archives-ouvertes.fr/tel-00646522.

Der volle Inhalt der Quelle

Annotation:

L'augmentation du nombre de documents multimédias disponibles rend nécessaire la mise en place de méthodes de structuration automatique capables de faciliter l'accès à l'information contenue dans les documents, tout en étant suffisamment génériques pour pouvoir structurer des documents tout-venants. Dans ce cadre, nous proposons deux types de structuration, linéaire et hiérarchique, s'appuyant sur les transcriptions automatiques de la parole prononcée dans les documents. Ces transcriptions, indépendantes du type des documents considérés, sont exploitées par le biais de méthodes issues du traitement automatiques des langues (TAL). Les deux techniques de structuration, ainsi que la phase de segmentation thématique sur laquelle elles reposent, donnent lieu à plusieurs contributions originales. Tout d'abord, la méthode de segmentation thématique employée, originellement développée pour du texte écrit, est adaptée aux particularités des transcriptions automatiques de vidéos professionnelles - erreurs de transcription, faible nombre de répétitions de vocabulaire. Le critère de cohésion lexicale sur lequel elle se fonde est, en effet, sensible à ces spécificités, ce qui pénalise fortement les performances de l'algorithme. Cette adaptation est mise en place, d'une part grâce à la prise en compte, lors du calcul de la cohésion lexicale, de connaissances linguistiques et d'informations issues de la reconnaissance automatique de la parole et du signal (relations sémantiques, prosodie, mesures de confiance), et d'autre part grâce à des techniques d'interpolation de modèles de langue. À partir de cette étape de segmentation thématique, nous proposons une méthode de structuration thématique linéaire permettant de mettre en relation des segments abordant des thématiques similaires. La méthode employée, fondée sur une technique issue du domaine de la recherche d'information, est adaptée aux données audiovisuelles grâce à des indices prosodiques, qui permettent de favoriser les mots proéminents dans le discours, et des relations sémantiques. Finalement, nous proposons un travail plus exploratoire examinant différentes pistes pour adapter un algorithme de segmentation thématique linéaire à une tâche de segmentation thématique hiérarchique. Pour cela, l'algorithme de segmentation linéaire est modifié - ajustement du calcul de la cohésion lexicale, utilisation de chaines lexicales - pour prendre en compte la distribution du vocabulaire au sein du document à segmenter. Les expérimentations menées sur trois corpora composés de journaux télévisés et d'émissions de reportages, transcrits manuellement et automatiquement, montrent que les approches proposées conduisent à une amélioration des performances des méthodes de structuration développées.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Poli, Jean-Philippe. „Structuration automatique de flux télévisuels“. Phd thesis, Université Paul Cézanne - Aix-Marseille III, 2007. http://tel.archives-ouvertes.fr/tel-00207960.

Der volle Inhalt der Quelle

Annotation:

Dans le cadre du dépôt légal de la télévision, nous proposons une méthode de structuration automatique des flux télévisuels afin de procéder au catalogage des émissions.
La stabilité des grilles de programmes nous permet d'en proposer une modélisation statistique basée sur un modèle de Markov contextuel et un arbre de régression. Entraîné sur les grilles de programmes des années précédentes, ce modèle permet de pallier l'imprécision des guides de programmes (EPG, magazines). En rapprochant ces deux sources d'informations, nous sommes en mesure de prédire les séquences d'émissions les plus probables pour un jour de l'année et d'encadrer la durée des émissions.
A partir de ces grilles de programmes prédites et d'un ensemble de règles indiquant les éléments
caractéristiques d'une transition entre deux genres de programmes (images monochromes, silences ou logos), nous sommes en mesure de localiser ces ruptures à l'aide de d´etections effectuées localement dans le flux.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Bücher zum Thema "Structuration automatique de données"

Pasleau, Suzy. LEGIA II: La gestion automatique des données en histoire. Liège: Universite. Faculte de philosophie et lettres, 1987.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Osmont, Béatrice. Itinéraires cognitifs et structuration du lexique: Études d'interrogations de banque de données. Lille: A.N.R.T. Université de Lille III, 1992.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Cottet, Francis. Traitement des signaux et acquisition de données: Cours et exercices corrigés. 3. Aufl. Paris: Dunod, 2009.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Brazdil, Pavel B. Metalearning: Applications to data mining. Berlin: Springer, 2009.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Davtian, Gourguèn. Analyse des données et cartographie automatique: Application aux principales variables climatiques du versant méditerranéen du maghreb. Lille: A.N.R.T, Université de Lille III, 1998.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Nakkar, Osman. Modélisation Espace d'États de la dynamique des séries temporelles: Traitement automatique des données du marché du cuivre. Grenoble: A.N.R.T. Université Pierre Mendès France Grenoble 2, 1994.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Afzali, Said Abdoul Razeq. Analyse morphosyntaxique automatique de Dari (persan d'Afghanistan) et mise au point d'une système d'interrogation de bases de données textuelles en langage natural. Lille: A.N.R.T, Université de Lille III, 1986.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

N, Bryant T., und Wimpenny J. W. T, Hrsg. Computers in microbiology: A practical approach. Oxford: IRL Press, 1989.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

MacDonald, Allyson, Hrsg. Web Scraping with Python: Collecting More Data from the Modern Web. 2. Aufl. Beijing: O’Reilly Media, 2018.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Auray, J.-P., G. Duru und A. Zighed. Analyse des données multidimensionnelles, volume 2 : Les méthodes de structuration. Alexandre Lacassagne, 2000.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Buchteile zum Thema "Structuration automatique de données"

Cifuentes, Natalia Soler, Aude Grezka und Jorge García Flores. „Phraséologie et noms de marque“. In IVITRA Research in Linguistics and Literature, 1–19. Amsterdam: John Benjamins Publishing Company, 2024. http://dx.doi.org/10.1075/ivitra.43.01cif.

Der volle Inhalt der Quelle

Annotation:

Dans les médias, dans la rue, sur le net… Les marques sont omniprésentes et font partie de notre quotidien. Elles quittent le milieu marchand pour intégrer l’espace social et, à terme, elles s’insèrent dans notre lexique courant. L'objectif de notre étude est de bâtir une base de données franco-espagnole d’unités phraséologiques avec des noms de marque afin d’analyser et de comparer les référents culturels dans les deux langues, à la recherche d'équivalents. Nous montrerons les implications linguistiques et culturelles de ces unités phraséologiques marginales ainsi que la méthodologie utilisée pour extraire de manière semi-automatique ces expressions grâce aux technologies de traitement automatique du langage. Cette étude s’inscrit dans Phrasmark, un projet pluridisciplinaire alliant phraséologie et noms de marque.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Bourdé, Annabel, Marc Cuggia, Théo Ouazine, Bruno Turlin, Oussama Zékri, Catherine Bohec und Régis Duvauferrier. „Vers la définition automatique des éléments de données des fiches RCP en cancérologie à partir d’une ontologie“. In Informatique et Santé, 121–30. Paris: Springer Paris, 2011. http://dx.doi.org/10.1007/978-2-8178-0285-5_11.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

„Outils de génération automatique des modèles“. In Conception de bases de données avec UML, 447–504. Presses de l'Université du Québec, 2007. http://dx.doi.org/10.2307/j.ctv18pgv5t.10.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Letrilliart, Laurent. „Recueil et structuration des données de santé“. In Médecine Générale pour le Praticien, 21–26. Elsevier, 2022. http://dx.doi.org/10.1016/b978-2-294-76710-4.00004-8.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

„Mégadonnées, analyse de données, intelligence artificielle et apprentissage automatique“. In Le rôle des technologies avancées dans le commerce transfrontières, 36–45. WTO, 2022. http://dx.doi.org/10.30875/9789287073624c005.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

FLEURY SOARES, Gustavo, und Induraj PUDHUPATTU RAMAMURTHY. „Comparaison de modèles d’apprentissage automatique et d’apprentissage profond“. In Optimisation et apprentissage, 153–71. ISTE Group, 2023. http://dx.doi.org/10.51926/iste.9071.ch6.

Der volle Inhalt der Quelle

Annotation:

Pour réaliser un audit, l'utilisation de toutes les informations disponibles relatives à l'univers ou au sujet de l'audit pourrait améliorer la qualité des résultats. La classification des documents textuels de l'audit pourrait permettre l'utilisation d'informations supplémentaires pour améliorer les données structurées existantes, ce qui conduirait à une meilleure connaissance pour soutenir le processus d'audit. Nous avons appliqué cette démarche au traitement du langage naturel.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

BAUMGARDT, Ursula. „Analyse littéraire et traitement automatique de corpus de littérature orale“. In Des langues calculables à l'homme incalculable, 17–26. Editions des archives contemporaines, 2021. http://dx.doi.org/10.17184/eac.5259.

Der volle Inhalt der Quelle

Annotation:

Je voudrais présenter un exemple d’utilisation de base de données textuelles dans l’analyse d’un corpus de littérature orale. L’approche proposée est expérimentale, en ce sens que je ne me réfère pas à une école ni à une méthode vérifiée et confirmée que j’appliquerais à l’objet dont il est question ici. Je retracerai simplement le cheminement de mes interrogations qui, partant de la littérature africaine francophone, ont intégré la littérature orale en peul. L’une des questions concerne les représentations de l’espace dans des contes oraux. La réflexion porte sur les relations pouvant être éventuellement établies entre le traitement automatique de corpus et l’analyse littéraire.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mangeot, Mathieu, und Mutsuko Tomokiyo. „Contributions et corrections dans le dictionnaire japonais-français jibiki.fr“. In Lexique(s) et genre(s) textuel(s) : approches sur corpus, 259–70. Editions des archives contemporaines, 2020. http://dx.doi.org/10.17184/eac.2922.

Der volle Inhalt der Quelle

Annotation:

Concernant le couple de langues français-japonais, les ressources disponibles sur le Web sont peu nombreuses et de taille modeste. Il existe cependant de nombreux dictionnaire imprimés de qualité et à large couverture. C’est pourquoi nous avons lancé le projet jibiki.fr de construction d’un dictionnaire japonais-français de qualité et à large couverture à partir de récupération de données issues du dictionnaire de Jean-Baptiste Cesselin (1940) que nous avons numérisé et lu optiquement. Nous avons complété ces données par d’autres issues du dictionnaire JMdict de Jim Breen (2004) et de Wikipedia pour pallier le manque de vocabulaire récent. Nous avons ensuite installé ces données sur une plateforme de gestion de ressources lexicales en ligne. Les utilisateurs peuvent alors consulter le dictionnaire et corriger les erreurs qu’ils trouvent lors de la consultation. La plateforme possède également une interface de programmation (API) qui permet de programmer des scripts afin de corriger automatiquement certains phénomènes repérés lors de consultations. La ressource ainsi construite est disponible en téléchargement libre de droits. Cet article décrit certaines techniques de correction automatique et manuelle à l’issue des 3 ans et demi du projet.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Gauthier, Estelle, Olivier Weller, Pierre Pétrequin, Maréva Gabillot, Robin Brigand, Jehanne Affolter, Pierre Allard et al. „La diffusion des produits : modélisation des concepts et réflexion sur la structuration des données“. In ARCHAEDYN. Dynamique spatiale des territoires de la Préhistoire au Moyen Âge. Volume 1, 123–42. Presses universitaires de Franche-Comté, 2022. http://dx.doi.org/10.4000/books.pufc.46817.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Gandon, Fabien L., und Alexandre Passant. „Folksonomies, thésaurus et ontologies : trois artefacts combinés dans la structuration des données du Web“. In Classer les archives et les bibliothèques, 207–32. Presses universitaires de Rennes, 2015. http://dx.doi.org/10.4000/books.pur.88650.

Der volle Inhalt der Quelle

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Berichte der Organisationen zum Thema "Structuration automatique de données"

Nédellec, Claire, Adeline Nazarenko, Francis André, Catherine Balivo, Béatrice Daille, Anastasia Drouot, Jorge Flores et al. Recommandations sur l’analyse automatique de documents : acquisition, gestion, exploration. Ministère de l'enseignement supérieur et de la recherche, September 2019. http://dx.doi.org/10.52949/10.

Der volle Inhalt der Quelle

Annotation:

Le groupe de travail "Fouille de textes et analyse de données" du Comité pour la science ouverte émet des recommandations sur les bonnes pratiques pour l'analyse de données. Elles portent sur l'acquisition et le partage des documents, l'utilisation de logiciels de gestion, d’exploration ou d’analyse, l'exploitation des résultats et la diffusion d’extraits de documents.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Régis, Catherine, Gabrielle Beetz, Janine Badr, Alexandre Castonguay, Martin Cousineau, Philippe Després, Joé T. Martineau, Aude Motulsky, Jean Noel Nikiema und Cécile Petitgand. Aspects juridiques de l’IA en santé - Fiche 3Aspects juridiques de l’IA en santé - Fiche 3. Observatoire international sur les impacts sociétaux de l’intelligence artificielle et du numérique, März 2022. http://dx.doi.org/10.61737/ulfz6546.

Der volle Inhalt der Quelle

Annotation:

Cette fiche se concentre plus spécifiquement sur des enjeux juridiques liés aux formes plus évoluées de SIA (par ex. outils mobilisant un SIA basé sur l’apprentissage automatique ou l’apprentissage profond) considérant les enjeux propres qui en découlent. Ce sont en grande partie ces types de SIA, souvent peu explicables ou interprétables, et sensibles aux biais présents dans les données, qui soulèvent des enjeux éthiques et juridiques nouveaux. Il s'agit de la troisième fiche d'une série de 4 développée dans le cadre d'un mandat réalisé pour le Ministère de la Santé et des Services sociaux du Québec (MSSS).

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Lacroix, Guy, und William Arbour. Renoncer à la liberté. Comprendre les choix des détenus en matière de libération conditionnelle. CIRANO, Februar 2024. http://dx.doi.org/10.54932/wjjb9944.

Der volle Inhalt der Quelle

Annotation:

Au Québec, les contrevenants condamnés à plus de six mois sont admissibles à la libération conditionnelle une fois qu’ils ont purgé un tiers de leur peine d’incarcération. Or, environ la moitié des contrevenants admissibles choisissent de renoncer à leur droit de se présenter à une audience pour libération conditionnelle. Pourquoi ? Une nouvelle étude CIRANO (Lacroix et al., 2023) montre que pour certains, la décision de renoncer est en fait rationnelle. Les résultats suggèrent aussi que la libération conditionnelle a des impacts significatifs sur la réinsertion sociale. L’étude s’appuie sur des données administratives exclusives provenant du ministère de la Sécurité publique sur une période de plus de dix ans. C’est la seule étude menée au Québec qui permet de tirer des conclusions robustes par l’application de méthodes économétriques avancées et de techniques d'apprentissage automatique.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Gruson-Daniel, Célya, und Maya Anderson-González. Étude exploratoire sur la « recherche sur la recherche » : acteurs et approches. Ministère de l'enseignement supérieur et de la recherche, November 2021. http://dx.doi.org/10.52949/24.

Der volle Inhalt der Quelle

Annotation:

• Introduction Dans le cadre du deuxième Plan National de la Science Ouverte, le Comité pour la science ouverte a souhaité mener une étude pour la préfiguration d’un Lab de la science ouverte (LabSO) afin de mieux comprendre le périmètre de la recherche sur la recherche (research on research) dans un contexte international. • Objectifs de l’étude : L’étude répond ainsi à trois objectifs : 1. repérer des grands courants de recherche sur la recherche (RoR) dans le paysage plus général de la recherche universitaire en Europe et outre-atlantique, en reconnaître les principaux acteurs institutionnels et différencier les approches mobilisées par les uns et les autres ; 2. proposer une méthodologie d’analyse dans une démarche de science ouverte (méthodes mixtes et cartographie numérique) pour faciliter l’appropriation de son contenu ; 3. émettre des recommandations pour faciliter le positionnement du LabSO et s’inspirer d’initiatives existantes. • Méthodologie Une série de treize entretiens et une collecte de données d’une sélection thématique de sites web ont permis de dresser un paysage d’acteurs et d’approches impliqués dans des recherches sur la recherche. Ce dernier s’est nourri d’une démarche de cartographie numérique pour repérer et visualiser les liens existants entre différentes communautés, mouvements, réseaux et initiatives (financeurs, projets, centres de recherche, fournisseurs de données, éditeurs, etc.). • Résultats Le rapport présente différents courants de « recherche sur la recherche » issus des traditions théoriques et méthodologiques de la sociologie, de l’économie, des sciences politiques, de la philosophie, des sciences de l’information et des mesures (biblio/scientométrie). Des courants plus récents sont aussi décrits. Ils s’inscrivent dans un contexte de politiques publiques favorables à la science ouverte et ont émergé dans le champ des sciences sociales computationnelles, des Big Data ou encore des domaines biomédicaux. Si certaines de ces approches s’appuient sur des courants académiques (STS, sciences des mesures) établis depuis de nombreuses décennies, d’autres comme ceux de la « métascience » ou de la « science de la science », se sont structurées plus récemment avec une visée prescriptive et de changement fondé sur des preuves (evidence-based) se basant sur un engagement normatif pour une science plus ouverte, inclusive et diverse. Bien loin d’un paysage statique, l’étude fait ressortir des recherches en mouvement, des débats tout autant que des mises en garde afin que certains courants « ne réinventent pas la roue » en faisant fit d’une longue tradition académique de l’étude des sciences et de la production scientifiques. De nouvelles alliances entre centres de recherche et laboratoires, institutions subventionnaires, décideurs politiques et fournisseurs de données ont été repérées. Elles participent à une dynamique actuelle d’équipement des politiques publiques par des outils d’évaluation et des protocoles de recherche pour guider les actions menées, on parle d’évidence-based policies. Un des exemples les plus récents étant laa seconde feuille de route du RoRI1 poussant notamment à la formation d’un réseau international d’instituts de recherche sur la recherche, fondé sur le partage et la mutualisation de données, de méthodes et d’outils. Outre la présentation de ces différents acteurs et courants, le rapport pointe le rôle joué par les infrastructures et les fournisseurs de données scientifiques (publications, données, métadonnées, citations, etc.) dans la structuration de ce paysage et les équilibres à trouver. • Recommandations 1. Accompagner la construction d’indicateurs et de métriques par le biais d’un regard critique et de discussions collectives pour mesurer leurs impacts sur les comportements des professionnels de la recherche (mésusages, gaming). 2. Porter attention aux étapes de diffusion des résultats scientifiques issus des « recherches sur la recherche » pour les adapter aux différents publics ciblés (chercheurs, responsables des politiques publiques de recherche, journalistes, etc.). 3. Articuler les travaux de « recherche sur la recherche » avec une démarche de science ouverte en questionnant notamment les choix faits concernant les fournisseurs de données, les infrastructures et outils d’évaluation, de découvrabilité et d’analyse de la production scientifique (gouvernance, utilisation des données, etc.). 4. Soutenir les approches thématiques et transversales plutôt que disciplinaire de manière collaborative entre les différents membres du Lab de la science ouverte et aider le dialogue entre les différentes approches et mouvements (STS, research on research, science of science, scientométrie, etc.)

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Goerzen, C., H. Kao, R. Visser, R. M. H. Dokht und S. Venables. A comprehensive earthquake catalogue for northeastern British Columbia, 2021 and 2022. Natural Resources Canada/CMSS/Information Management, 2024. http://dx.doi.org/10.4095/332532.

Der volle Inhalt der Quelle

Annotation:

Ce rapport de fichier ouvert présente les résultats de la surveillance sismique globale menée dans le nord-est de la Colombie-Britannique (NE BC) en 2021 et 2022. L'effort de surveillance englobe deux zones primaires d'observation sismique : la zone de surveillance etd'atténuation sismique de Kiskatinaw (KSMMA) et la zone de condition de permis de surveillance du mouvement du sol (GMMPCA), chacune étant caractérisée par des opérations pétrolières et gazières différentes, ainsi que par des densités de population. Un flux de travail de pointe basé surl'apprentissage automatique a été utilisé pour la détection des tremblements de terre et la détermination des phases. Une étape de révision manuelle a été incluse pour garantir la qualité de toutes les détections et localisations de tremblements de terre. Du 1er janvier 2021 au 31 décembre 2022, untotal de 9655 événements sismiques ont été détectés, avec un taux mensuel moyen de 420 événements. Le KSMMA a enregistré 8468 événements au cours de cette période, caractérisés par un regroupement serré, tandis que le GMMPCA a enregistré 899 événements. Des variations dans les taux de sismicité ontété observées par rapport aux rapports précédents, potentiellement influencées par des changements dans les activités industrielles et les capacités de surveillance sismique. L'ampleur de l'exhaustivité pour le KSMMA est passée à 1,01, reflétant les changements dans le réseau de surveillancesismique, tandis que le GMMPCA a affiché une ampleur de l'exhaustivité de 1,45, légèrement supérieure à celle de la période de rapport précédente. Ce rapport souligne la nature dynamique de la sismicité induite dans le nord-est de la Colombie-Britannique, en insistant sur la nécessité d'unesurveillance continue, de mesures d'atténuation adaptatives et d'une collecte robuste de données sismiques pour éclairer la prise de décision et améliorer la préparation aux tremblements de terre.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Taherizadeh, Amir, und Cathrine Beaudry. Vers une meilleure compréhension de la transformation numérique optimisée par l’IA et de ses implications pour les PME manufacturières au Canada - Une recherche qualitative exploratoire. CIRANO, Juni 2021. http://dx.doi.org/10.54932/jdxb2231.

Der volle Inhalt der Quelle

Annotation:

Ce rapport présente les principaux résultats d’une étude qualitative exploratoire visant à examiner l’impact de l’intelligence artificielle (IA), en tant que technologie à usage général (TUG) sur la productivité et l’emploi à l’échelle de l’entreprise. À la suite de l’analyse de sources de données primaires et secondaires (comprenant 27 entretiens, rapports et discussions de groupe), nous établissons d’abord une échelle de maturité de l’adoption de l’IA et un classement des petites et moyennes entreprises (PME) qui intègrent l’IA dans leurs processus de travail en quatre archétypes : l’Aspirant, le Fonceur, le Leader et le Visionnaire. Nous définissons chaque archétype de façon à mettre en évidence les changements particuliers à opérer pour qu’une entreprise puisse passer à l’étape suivante de l’adoption de l’IA. Deuxièmement, nous définissons et examinons sept obstacles à l’adoption généralisée de l’IA par les PME manufacturières. Troisièmement, à l’aide de trois études de cas, nous explorons trois projets d’IA menés par des entreprises québécoises axées sur l’IA afin de montrer, d’une part, l’apport de l’intégration de l’apprentissage automatique (AA) aux produits et aux processus de travail sur le plan de la productivité des entreprises, et d’autre part son effet sur leurs effectifs. Dans l’ensemble, les résultats de notre étude suggèrent que la réussite de l’intégration de l’IA nécessite une transformation numérique au niveau de l’entreprise, que nous présentons comme un continuum. Dans les premières étapes, où l’adoption de l’IA se fait autour de projets (en particulier pour les entreprises des catégories Aspirant et Fonceur), les effectifs des entreprises ont tendance à augmenter parallèlement aux gains de productivité en même temps que le perfectionnement indispensable des compétences de la main-d’œuvre existante. En outre, lorsque l’IA est déployée à l’échelle de l’entreprise (chez les Leaders et les Visionnaires) et que cette dernière rehausse le niveau de ses activités d’innovation, on enregistre plutôt des pertes d’emploi parallèlement aux gains de productivité. Par la suite, nous introduisons des indicateurs indirects de l’omniprésence de l’IA, car nous estimons qu’il s’agit de mesures plus réalistes pour évaluer le taux d’adoption de l’IA par les PME en phase fluide. Enfin, nous proposons quatre recommandations qui ont des implications pour les chercheurs, les praticiens et les responsables politiques.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!