Готові списки джерел за темами / Apprentissage profond – Recherche de l'information

Добірка наукової літератури з теми "Apprentissage profond – Recherche de l'information"

Автор: Grafiati

Опубліковано: 7 липня 2024

Оновлено: 7 липня 2024

Оформте джерело за APA, MLA, Chicago, Harvard та іншими стилями

Оберіть тип джерела:

Ознайомтеся зі списками актуальних статей, книг, дисертацій, тез та інших наукових джерел на тему "Apprentissage profond – Recherche de l'information".

Біля кожної праці в переліку літератури доступна кнопка «Додати до бібліографії». Скористайтеся нею – і ми автоматично оформимо бібліографічне посилання на обрану працю в потрібному вам стилі цитування: APA, MLA, «Гарвард», «Чикаго», «Ванкувер» тощо.

Також ви можете завантажити повний текст наукової публікації у форматі «.pdf» та прочитати онлайн анотацію до роботи, якщо відповідні параметри наявні в метаданих.

Статті в журналах з теми "Apprentissage profond – Recherche de l'information":

Rondón, Emil Amarilys. "El aprendizaje de los nativos digitales desde sus vivencias, pensamientos y acciones." GACETA DE PEDAGOGÍA, no. 38 (December 1, 2019): 112–36. http://dx.doi.org/10.56219/rgp.vi38.771.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

El presente artículo reporta el entramado teórico del aprendizaje de los nativos digitales desde sus vivencias, pensamientos y acciones, producto de su convivencia altera, afectiva, así como dialógica en un contexto tecnológico. La investigación se enmarcó en el método etnográfico digital, donde se procedió a la recolección de información in situ, con la finalidad de conocer a través de las propias palabras de los estudiantes entre 6 y 12 años de edad, los preceptos, creencias y valores de estas generaciones hacia la tecnología. Una vez codificada la información se dividió en dos grandes dimensiones en donde afloraron un cuerpo de categorías claves para la interpretación y comprensión del abordaje estudiado. La investigadora define que el aprendizaje de los estudiantes de la generación digital, es el comienzo de una cultura que ha desarrollado nuevas habilidades y competencias, las cuales emplean lo digital, como extensiones de sus cuerpos y mentes. ABSTRACT This article reports the theoretical framework of the learning of digital natives from their experiences, thoughts and actions, product of their altered, affective coexistence, as well as dialogic in a technological context. The research was framed in the digital ethnographic method, where information was collected in situ, with the purpose of knowing through the students' own words between 6 and 12 years of age, the precepts, beliefs and values of These generations towards technology. Once the information has been coded, it is divided into two large dimensions, where a body of key categories emerged for the interpretation and understanding of the approach studied. The researcher defines that the learning of the students of the digital generation is the beginning of a culture that has developed new skills and competences, which use digital, as extensions of their bodies and minds. Key Words: Digital natives, Learning, Technology, Web Radio RÉSUMÉ Cet article présente le cadre théorique de l'apprentissage des natifs numériques à partir de leurs expériences, pensées et actions, produit de leur coexistence affective altérée, ainsi que du dialogue dans un contexte technologique. La recherche a été conçue selon la méthode ethnographique numérique, où les informations étaient collectées in situ, dans le but de connaître, à travers les propres mots des étudiants âgés de 6 à 12 ans, les préceptes, les croyances et les valeurs de Ces générations vers la technologie. Une fois l'information codée, elle est divisée en deux grandes dimensions, où un ensemble de catégories clés a émergé pour l'interprétation et la compréhension de l'approche étudiée. Le chercheur définit que l'apprentissage des étudiants de la génération numérique est le début d'une culture qui a développé de nouvelles aptitudes et compétences, qui utilisent le numérique, en tant qu'extensions de leur corps et de leur esprit. Mots Clés: Digital natives, Apprentissage, Technologie, Numérique, Web Radio

Carlos Daniel Suárez Meneses. "La educación virtual en tiempos de pandemia: Un enfoque praxeológico dentro del sistema educativo venezolano." GACETA DE PEDAGOGÍA, no. 44 (November 30, 2022): 66–89. http://dx.doi.org/10.56219/rgp.vi44.1247.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

El aislamiento social por COVID-19, ha afectado directamente al sistema educativo venezolano, no solo por su paralización sino por la incertidumbre en torno a la adopción del esquema virtual para continuar las actividades. En este sentido, se analizó el impacto de prácticas emergentes en los procesos de enseñanza y aprendizaje desde la virtualidad. Esta investigación documental se fundamentó en la selección de artículos en sitios web, análisis e interpretación, lo que permitió identificar que la educación virtual, pese a brechas tecnológicas como desafío del sector educativo, promovió el rediseño de estrategias y prácticas que han elevado habilidades de docentes y estudiantes para manejar tecnologías de información y comunicación disponibles. La modalidad virtual posibilitó un proceso colaborativo, flexible y autónomo, siendo esto impacto positivo de la nueva praxis educativa. Sin embargo, las instituciones deben estar a la par de la transformación digital y en actualización constante alineada con los objetivos académicos. ABSTRACT The social isolation due to COVID-19 has directly affected the Venezuelan educational system, not only for its abrupt cessation but also because of the uncertainty surrounding the adoption of the virtual scheme to continue activities. In this sense, it is intended to analyzed the impact of emerging practices on teaching and learning processes from virtuality. This documentary research was based on the selection of articles on websites, analysis and interpretation, which allowed to identify that virtual education, despite technological gaps as a challenge in the education sector, promoted the redesign of strategies and practices that have raised the skills of teachers and students to handle available information and communication technologies. The virtual modality enabled a collaborative, flexible and autonomous process, this being a positive impact of the new educational praxis. However, institutions must be on par with digital transformation and constantly updated aligned with academic objectives. Key Words: COVID-19, Information and communication technologies, Educational practices, Teaching-learning, Virtual education RÉSUMÉ L’isolement social dû à la COVID-19 a directement affecté le système éducatif vénézuélien, non seulement pour son arrêt brutal, mais aussi en raison de l’incertitude entourant l’adoption du programme virtuel pour poursuivre les activités. En ce sens, il est destiné à analyser l’impact des pratiques émergentes sur les processus d’enseignement et d’apprentissage à partir de la virtualité. Cette recherche documentaire était basée sur la sélection d’articles sur des sites Web, l’analyse et l’interprétation, ce qui a permis d’identifier que l’éducation virtuelle, malgré les lacunes technologiques en tant que défi dans le secteur de l’éducation, a favorisé la refonte des stratégies et des pratiques qui ont augmenté les compétences des enseignants et des étudiants pour gérer les technologies de l’information et de la communication disponibles. La modalitévirtuelle a permis un processus collaboratif, flexible et autonome, ce qui a eu un impact positif sur la nouvelle pratique éducative. Cependant, les institutions doiventêtre sur un pied d’égalité avec la transformation numérique et constamment mises à jour en fonction des objectifs académiques. Mots clés: COVID-19, Technologies de l'information et de la communication, Pratiques éducatives, Enseignement et apprentissage, education virtuelle

Fastrez, Pierre, and Thierry De Smedt. "A la recherche des compétences médiatiques. Introduction au dossier." Recherches en Communication 33 (October 7, 2011). http://dx.doi.org/10.14428/rec.v33i33.51773.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce numéro de Recherches en Communication (le premier de deux) est consacré à la question des compétences nécessaires pour vivre dans notre société fortement médiatisée. Il se focalise sur la cartographie des compétences en littératie médiatique. Comment les caractériser, les préciser, les décrire? Comment s'articulent-elles et s'organisent-elles entre elles et avec d'autres compétences de l'agir contemporain? Les contributions à ce numéro laissent entrevoir la richesse des compétences réunies sous l'étiquette de la littératie médiatique. Elles confirment en outre l'hypothèse d'un changement profond de l'usager-modèle des médias. La figure du récepteur critique et autonome ne s'éteint pas, mais elle se évolue à l'évidence vers celle de l'individu connecté et engagé qui actualise sa pensée critique dans des fabrications médiatiques créatives dans les trois dimensions de l'information, de la socialisation et de la technique.

Дисертації з теми "Apprentissage profond – Recherche de l'information":

Ayoub, Oussama. "Enrichissement sémantique non supervisé de longs documents spécialisés pour la recherche d’information." Electronic Thesis or Diss., Paris, HESAM, 2023. http://www.theses.fr/2023HESAC039.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Face à l'accroissement incessant des données textuelles à traiter, les systèmes de Recherche d'Information (RI) doivent faire face à l'adaptation des mécanismes existants pour une sélection pertinente des ensembles documentaires dédiés à un contexte spécifique. Une difficulté prépondérante réside dans la divergence terminologique entre les termes employés dans les requêtes et ceux présents dans les documents. Cette disparité sémantique, particulièrement prononcée pour les termes de sens proches dans les documents issus de domaines spécialisés de grande taille, pose un défi significatif en RI. Face à ces enjeux, de nombreuses études se sont limitées à l'enrichissement de requêtes via des modèles supervisés, une approche qui s'avère inadéquate pour une application industrielle et manque de flexibilité. Cette thèse propose une alternative novatrice avec un système de recherche non supervisé basé sur des méthodes d'Apprentissage Profond. La plateforme LoGE utilise un modèle de langage masqué pour extrapoler des termes associés, enrichissant ainsi la représentation textuelle des documents. Les modèles utilisés sont entraînés préalablement sur de vastes corpus textuels, intégrant des connaissances générales ou spécifiques à un domaine, optimisant ainsi la représentation des documents. L'analyse des extensions générées a révélé un déséquilibre entre le signal (termes pertinents ajoutés) et le bruit (termes non pertinents). Pour pallier ce problème, nous avons développé SummVD, une approche de résumé automatique extractif, utilisant la décomposition en valeurs singulières pour synthétiser l'information contenue dans les documents et identifier les phrases les plus pertinentes. Cette méthode a été adaptée pour filtrer les termes des extensions en fonction du contexte local de chaque document, afin de maintenir la pertinence de l'information tout en minimisant le bruit
Faced with the incessant growth of textual data that needs processing, Information Retrieval (IR) systems are confronted with the urgent need to adopt effective mechanisms for efficiently selecting document sets that are best suited to specific queries. A predominant difficulty lies in the terminological divergence between the terms used in queries and those present in relevant documents. This semantic disparity, particularly pronounced for terms with similar meanings in large-scale documents from specialized domains, poses a significant challenge for IR systems.In addressing these challenges, many studies have been limited to query enrichment via supervised models, an approach that proves inadequate for industrial application and lacks flexibility. This thesis proposes LoGE an innovative alternative with an unsupervised search system based on advanced Deep Learning methods. This system uses a masked language model to extrapolate associated terms, thereby enriching the textual representation of documents. The Deep Learning models used, pre-trained on extensive textual corpora, incorporate general or domain-specific knowledge, thus optimizing the document representation.The analysis of the generated extensions revealed an imbalance between the signal (relevant terms added) and the noise (irrelevant terms). To address this issue, we developed SummVD, an innovative extractive automatic summarization approach, using singular value decomposition to synthesize the information contained in documents and identify the most pertinent phrases. This method has been adapted to filter the terms of the extensions based on the local context of each document, thereby maintaining the relevance of the information while minimizing noise

Belkacem, Thiziri. "Neural models for information retrieval : towards asymmetry sensitive approaches based on attention models." Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30167.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Ce travail se situe dans le contexte de la recherche d'information (RI) utilisant des techniques d'intelligence artificielle (IA) telles que l'apprentissage profond (DL). Il s'intéresse à des tâches nécessitant l'appariement de textes, telles que la recherche ad-hoc, le domaine du questions-réponses et l'identification des paraphrases. L'objectif de cette thèse est de proposer de nouveaux modèles, utilisant les méthodes de DL, pour construire des modèles d'appariement basés sur la sémantique de textes, et permettant de pallier les problèmes de l'inadéquation du vocabulaire relatifs aux représentations par sac de mots, ou bag of words (BoW), utilisées dans les modèles classiques de RI. En effet, les méthodes classiques de comparaison de textes sont basées sur la représentation BoW qui considère un texte donné comme un ensemble de mots indépendants. Le processus d'appariement de deux séquences de texte repose sur l'appariement exact entre les mots. La principale limite de cette approche est l'inadéquation du vocabulaire. Ce problème apparaît lorsque les séquences de texte à apparier n'utilisent pas le même vocabulaire, même si leurs sujets sont liés. Par exemple, la requête peut contenir plusieurs mots qui ne sont pas nécessairement utilisés dans les documents de la collection, notamment dans les documents pertinents. Les représentations BoW ignorent plusieurs aspects, tels que la structure du texte et le contexte des mots. Ces caractéristiques sont très importantes et permettent de différencier deux textes utilisant les mêmes mots et dont les informations exprimées sont différentes. Un autre problème dans l'appariement de texte est lié à la longueur des documents. Les parties pertinentes peuvent être réparties de manières différentes dans les documents d'une collection. Ceci est d'autant vrai dans les documents volumineux qui ont tendance à couvrir un grand nombre de sujets et à inclure un vocabulaire variable. Un document long pourrait ainsi comporter plusieurs passages pertinents qu'un modèle d'appariement doit capturer. Contrairement aux documents longs, les documents courts sont susceptibles de concerner un sujet spécifique et ont tendance à contenir un vocabulaire plus restreint. L'évaluation de leur pertinence est en principe plus simple que celle des documents plus longs. Dans cette thèse, nous avons proposé différentes contributions répondant chacune à l'un des problèmes susmentionnés. Tout d'abord, afin de résoudre le problème d'inadéquation du vocabulaire, nous avons utilisé des représentations distribuées des mots (plongement lexical) pour permettre un appariement basé sur la sémantique entre les différents mots. Ces représentations ont été utilisées dans des applications de RI où la similarité document-requête est calculée en comparant tous les vecteurs de termes de la requête avec tous les vecteurs de termes du document, indifféremment. Contrairement aux modèles proposés dans l'état-de-l'art, nous avons étudié l'impact des termes de la requête concernant leur présence/absence dans un document. Nous avons adopté différentes stratégies d'appariement document/requête. L'intuition est que l'absence des termes de la requête dans les documents pertinents est en soi un aspect utile à prendre en compte dans le processus de comparaison. En effet, ces termes n'apparaissent pas dans les documents de la collection pour deux raisons possibles : soit leurs synonymes ont été utilisés ; soit ils ne font pas partie du contexte des documents en questions
This work is situated in the context of information retrieval (IR) using machine learning (ML) and deep learning (DL) techniques. It concerns different tasks requiring text matching, such as ad-hoc research, question answering and paraphrase identification. The objective of this thesis is to propose new approaches, using DL methods, to construct semantic-based models for text matching, and to overcome the problems of vocabulary mismatch related to the classical bag of word (BoW) representations used in traditional IR models. Indeed, traditional text matching methods are based on the BoW representation, which considers a given text as a set of independent words. The process of matching two sequences of text is based on the exact matching between words. The main limitation of this approach is related to the vocabulary mismatch. This problem occurs when the text sequences to be matched do not use the same vocabulary, even if their subjects are related. For example, the query may contain several words that are not necessarily used in the documents of the collection, including relevant documents. BoW representations ignore several aspects about a text sequence, such as the structure the context of words. These characteristics are important and make it possible to differentiate between two texts that use the same words but expressing different information. Another problem in text matching is related to the length of documents. The relevant parts can be distributed in different ways in the documents of a collection. This is especially true in large documents that tend to cover a large number of topics and include variable vocabulary. A long document could thus contain several relevant passages that a matching model must capture. Unlike long documents, short documents are likely to be relevant to a specific subject and tend to contain a more restricted vocabulary. Assessing their relevance is in principle simpler than assessing the one of longer documents. In this thesis, we have proposed different contributions, each addressing one of the above-mentioned issues. First, in order to solve the problem of vocabulary mismatch, we used distributed representations of words (word embedding) to allow a semantic matching between the different words. These representations have been used in IR applications where document/query similarity is computed by comparing all the term vectors of the query with all the term vectors of the document, regardless. Unlike the models proposed in the state-of-the-art, we studied the impact of query terms regarding their presence/absence in a document. We have adopted different document/query matching strategies. The intuition is that the absence of the query terms in the relevant documents is in itself a useful aspect to be taken into account in the matching process. Indeed, these terms do not appear in documents of the collection for two possible reasons: either their synonyms have been used or they are not part of the context of the considered documents. The methods we have proposed make it possible, on the one hand, to perform an inaccurate matching between the document and the query, and on the other hand, to evaluate the impact of the different terms of a query in the matching process. Although the use of word embedding allows semantic-based matching between different text sequences, these representations combined with classical matching models still consider the text as a list of independent elements (bag of vectors instead of bag of words). However, the structure of the text as well as the order of the words is important. Any change in the structure of the text and/or the order of words alters the information expressed. In order to solve this problem, neural models were used in text matching

Nguyen, Kim-Anh Laura. "Document Understanding with Deep Learning Techniques." Electronic Thesis or Diss., Sorbonne université, 2024. http://www.theses.fr/2024SORUS077.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Le domaine de l'Analyse de Documents (Document Understanding), dédié au traitement automatique des documents, fait face à des défis liés à leurs structures complexes et formats variés. Les documents possèdent rarement une structure strictement séquentielle. Leur présentation visuelle, notamment leur mise en page, contient une information sémantique riche, soulignant la nécessité d'inclure des informations multimodales dans les systèmes d'analyse de documents. Malgré des progrès notables découlant de l'avènement de l'apprentissage profond, le domaine doit relever des défis importants. Cette thèse traite deux défis clés : 1) développer des méthodes efficaces et efficientes pour encoder la nature multimodale des documents, et 2) formuler des stratégies pour le traitement performant et efficace de documents longs, en tenant compte de leur apparence visuelle. Pour répondre à la première question de recherche, nous développons des approches basées uniquement sur les informations de mise en page afin de construire des représentations pertinentes pour les tâches subséquentes. Les modèles pré-entraînés multimodaux existants étant développés sans considération d'efficience et n'exploitant pas pleinement la forte corrélation entre le texte et la mise en page, nous présentons un mécanisme d'attention exclusivement basé sur la mise en page, permettant d'améliorer les performances et de rendre l'attention plus parcimonieuse. De plus, nous proposons une stratégie basée exclusivement sur la mise en page pour résoudre les problèmes d'ordre de lecture. Bien que la mise en page capture l'ordre de lecture des documents, les méthodes de pré-entraînement existantes dédiées à l'analyse de documents s'appuient uniquement sur la Reconnaissance Optique de Caractères (OCR) ou l'analyse de PDF pour établir l'ordre de lecture des documents, introduisant potentiellement des erreurs qui peuvent impacter l'ensemble du processus de traitement du texte. Par conséquent, nous proposons un modèle qui exploite uniquement les informations de mise en page pour déterminer l'ordre de lecture des documents. Dans le cadre du deuxième axe de recherche, nous explorons le potentiel de la mise en page pour améliorer les performances des modèles pour les tâches liées aux documents longs et complexes. Pour pallier le manque de ressources et de méthodes pour la modélisation multimodale de documents longs, nous construisons une collection de jeux de données pour le résumé de documents longs avec prise en compte de leur apparence visuelle, et introduisons de nouveaux modèles pouvant traiter des documents longs en tenant compte de leur mise en page
The field of Document Understanding, which addresses the problem of solving an array of Natural Language Processing tasks for visually-rich documents, faces challenges due to the complex structures and diverse formats of documents. Real-world documents rarely follow a strictly sequential structure. The visual presentation of a document, especially its layout, conveys rich semantic information, highlighting the crucial need for document understanding systems to include multimodal information. Despite notable advancements attributed to the emergence of Deep Learning, the field still grapples with various challenges in real-world applications. This thesis addresses two key challenges: 1) developing efficient and effective methods to encode the multimodal nature of documents, and 2) formulating strategies for efficient and effective processing of long and complex documents, considering their visual appearance. Our strategy to address the first research question involves designing approaches that rely only on layout to build meaningful representations. Multimodal pre-trained models for Document Understanding often neglect efficiency and fail to fully capitalize on the strong correlation between text and layout. We address these issues by introducing an attention mechanism based exclusively on layout information, enabling performance improvement and attention sparsification. Furthermore, we introduce a strategy based solely on layout to address reading order issues. While layout inherently captures the correct reading order of documents, existing pre-training methods for Document Understanding rely solely on OCR or PDF parsing to establish the reading order of documents, potentially introducing inaccuracies that can impact the entire text processing pipeline. Therefore, we discard sequential position information and propose a model that strategically leverages layout information as an alternative means to determine the reading order of documents. In addressing the second research axis, we explore the potential of leveraging layout to enhance the performance of models for tasks related to long and complex documents. The importance of document structure in information processing, particularly in the context of long documents, underscores the need for efficient modeling of layout information. To fill a notable void in resources and approaches for multimodal long document modeling, we introduce a dataset collection for summarization of long documents with consideration for their visual appearance, and present novel baselines that can handle long documents with awareness of their layout

Chafik, Sanaa. "Machine learning techniques for content-based information retrieval." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL008/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Avec l’évolution des technologies numériques et la prolifération d'internet, la quantité d’information numérique a considérablement évolué. La recherche par similarité (ou recherche des plus proches voisins) est une problématique que plusieurs communautés de recherche ont tenté de résoudre. Les systèmes de recherche par le contenu de l’information constituent l’une des solutions prometteuses à ce problème. Ces systèmes sont composés essentiellement de trois unités fondamentales, une unité de représentation des données pour l’extraction des primitives, une unité d’indexation multidimensionnelle pour la structuration de l’espace des primitives, et une unité de recherche des plus proches voisins pour la recherche des informations similaires. L’information (image, texte, audio, vidéo) peut être représentée par un vecteur multidimensionnel décrivant le contenu global des données d’entrée. La deuxième unité consiste à structurer l’espace des primitives dans une structure d’index, où la troisième unité -la recherche par similarité- est effective.Dans nos travaux de recherche, nous proposons trois systèmes de recherche par le contenu de plus proches voisins. Les trois approches sont non supervisées, et donc adaptées aux données étiquetées et non étiquetées. Elles sont basées sur le concept du hachage pour une recherche efficace multidimensionnelle des plus proches voisins. Contrairement aux approches de hachage existantes, qui sont binaires, les approches proposées fournissent des structures d’index avec un hachage réel. Bien que les approches de hachage binaires fournissent un bon compromis qualité-temps de calcul, leurs performances en termes de qualité (précision) se dégradent en raison de la perte d’information lors du processus de binarisation. À l'opposé, les approches de hachage réel fournissent une bonne qualité de recherche avec une meilleure approximation de l’espace d’origine, mais induisent en général un surcoût en temps de calcul.Ce dernier problème est abordé dans la troisième contribution. Les approches proposées sont classifiées en deux catégories, superficielle et profonde. Dans la première catégorie, on propose deux techniques de hachage superficiel, intitulées Symmetries of the Cube Locality sensitive hashing (SC-LSH) et Cluster-Based Data Oriented Hashing (CDOH), fondées respectivement sur le hachage aléatoire et l’apprentissage statistique superficiel. SCLSH propose une solution au problème de l’espace mémoire rencontré par la plupart des approches de hachage aléatoire, en considérant un hachage semi-aléatoire réduisant partiellement l’effet aléatoire, et donc l’espace mémoire, de ces dernières, tout en préservant leur efficacité pour la structuration des espaces hétérogènes. La seconde technique, CDOH, propose d’éliminer l’effet aléatoire en combinant des techniques d’apprentissage non-supervisé avec le concept de hachage. CDOH fournit de meilleures performances en temps de calcul, en espace mémoire et en qualité de recherche.La troisième contribution est une approche de hachage basée sur les réseaux de neurones profonds appelée "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). UDN2H propose une indexation individuelle de la sortie de chaque neurone de la couche centrale d’un modèle non supervisé. Ce dernier est un auto-encodeur profond capturant une structure individuelle de haut niveau de chaque neurone de sortie.Nos trois approches, SC-LSH, CDOH et UDN2H, ont été proposées séquentiellement durant cette thèse, avec un niveau croissant, en termes de la complexité des modèles développés, et en termes de la qualité de recherche obtenue sur de grandes bases de données d'information
The amount of media data is growing at high speed with the fast growth of Internet and media resources. Performing an efficient similarity (nearest neighbor) search in such a large collection of data is a very challenging problem that the scientific community has been attempting to tackle. One of the most promising solutions to this fundamental problem is Content-Based Media Retrieval (CBMR) systems. The latter are search systems that perform the retrieval task in large media databases based on the content of the data. CBMR systems consist essentially of three major units, a Data Representation unit for feature representation learning, a Multidimensional Indexing unit for structuring the resulting feature space, and a Nearest Neighbor Search unit to perform efficient search. Media data (i.e. image, text, audio, video, etc.) can be represented by meaningful numeric information (i.e. multidimensional vector), called Feature Description, describing the overall content of the input data. The task of the second unit is to structure the resulting feature descriptor space into an index structure, where the third unit, effective nearest neighbor search, is performed.In this work, we address the problem of nearest neighbor search by proposing three Content-Based Media Retrieval approaches. Our three approaches are unsupervised, and thus can adapt to both labeled and unlabeled real-world datasets. They are based on a hashing indexing scheme to perform effective high dimensional nearest neighbor search. Unlike most recent existing hashing approaches, which favor indexing in Hamming space, our proposed methods provide index structures adapted to a real-space mapping. Although Hamming-based hashing methods achieve good accuracy-speed tradeoff, their accuracy drops owing to information loss during the binarization process. By contrast, real-space hashing approaches provide a more accurate approximation in the mapped real-space as they avoid the hard binary approximations.Our proposed approaches can be classified into shallow and deep approaches. In the former category, we propose two shallow hashing-based approaches namely, "Symmetries of the Cube Locality Sensitive Hashing" (SC-LSH) and "Cluster-based Data Oriented Hashing" (CDOH), based respectively on randomized-hashing and shallow learning-to-hash schemes. The SC-LSH method provides a solution to the space storage problem faced by most randomized-based hashing approaches. It consists of a semi-random scheme reducing partially the randomness effect of randomized hashing approaches, and thus the memory storage problem, while maintaining their efficiency in structuring heterogeneous spaces. The CDOH approach proposes to eliminate the randomness effect by combining machine learning techniques with the hashing concept. The CDOH outperforms the randomized hashing approaches in terms of computation time, memory space and search accuracy.The third approach is a deep learning-based hashing scheme, named "Unsupervised Deep Neuron-per-Neuron Hashing" (UDN2H). The UDN2H approach proposes to index individually the output of each neuron of the top layer of a deep unsupervised model, namely a Deep Autoencoder, with the aim of capturing the high level individual structure of each neuron output.Our three approaches, SC-LSH, CDOH and UDN2H, were proposed sequentially as the thesis was progressing, with an increasing level of complexity in terms of the developed models, and in terms of the effectiveness and the performances obtained on large real-world datasets

Tuo, Aboubacar. "Extraction d'événements à partir de peu d'exemples par méta-apprentissage." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG098.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'extraction d'information est un champ de recherche dont l'objectif est d'identifier et extraire automatiquement des informations structurées, dans un domaine donné, à partir de données textuelles pas ou peu structurées. La mise en œuvre de telles extractions demande souvent des moyens humains importants pour l'élaboration de règles d'extraction ou encore pour la constitution de données annotées pour les systèmes utilisant de l'apprentissage automatique. Un des défis actuels dans le domaine de l'extraction d'information est donc de développer des méthodes permettant de réduire, dans la mesure du possible, les coûts et le temps de développement de ces systèmes. Ce travail de thèse se concentre sur l'exploration de l'extraction d'événements à travers l'utilisation du méta-apprentissage, une approche adaptée à l'apprentissage à partir de peu de données. Nous avons redéfini la tâche d'extraction d'événements dans cette perspective, cherchant à développer des systèmes capables de s'adapter rapidement à de nouveaux contextes d'extraction avec un faible volume de données d'entraînement. Dans un premier temps, nous avons proposé des méthodes visant à améliorer la détection des déclencheurs événementiels en développant des représentations plus robustes pour cette tâche. Ensuite, nous avons abordé le défi spécifique posé par la classe « NULLE » (absence d'événement) dans ce cadre. Enfin, nous avons évalué l'effectivité de nos propositions dans le contexte global de l'extraction d'événements en les étendant à l'extraction des arguments des événements
Information Extraction (IE) is a research field with the objective of automatically identifying and extracting structured information within a given domain from unstructured or minimally structured text data. The implementation of such extractions often requires significant human efforts, either in the form of rule development or the creation of annotated data for systems based on machine learning. One of the current challenges in information extraction is to develop methods that minimize the costs and development time of these systems whenever possible. This thesis focuses on few-shot event extraction through a meta-learning approach that aims to train IE models from only few data. We have redefined the task of event extraction from this perspective, aiming to develop systems capable of quickly adapting to new contexts with a small volume of training data. First, we propose methods to enhance event trigger detection by developing more robust representations for this task. Then, we tackle the specific challenge raised by the "NULL" class (absence of events) within this framework. Finally, we evaluate the effectiveness of our proposals within the broader context of event extraction by extending their application to the extraction of event arguments

Chafik, Sanaa. "Machine learning techniques for content-based information retrieval." Electronic Thesis or Diss., Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLL008.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Tang, Anfu. "Leveraging linguistic and semantic information for relation extraction from domain-specific texts." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASG081.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse a pour objet l'extraction d'informations relationnelles à partir de documents scientifiques biomédicaux, c'est-à-dire la transformation de texte non structuré en information structurée exploitable par une machine. En tant que tâche dans le domaine du traitement automatique des langues (TAL), l'extraction de relations sémantiques spécialisées entre entités textuelles rend explicite et formalise les structures sous-jacentes. Les méthodes actuelles à l'état de l'art s'appuient sur de l'apprentissage supervisé, plus spécifiquement l'ajustement de modèles de langue pré-entraînés comme BERT. L'apprentissage supervisé a besoin de beaucoup d'exemples d'apprentissages qui sont coûteux à produire, d'autant plus dans les domaines spécialisés comme le domaine biomédical. Les variants de BERT, comme par exemple PubMedBERT, ont obtenu du succès sur les tâches de TAL dans des textes biomédicaux. Nous faisons l'hypothèse que l'injection d'informations externes telles que l'information syntaxique ou la connaissance factuelle dans ces variants de BERT peut pallier le nombre réduit de données d'entraînement annotées. Dans ce but, cette thèse concevra plusieurs architectures neuronales basés sur PubMedBERT qui exploitent des informations linguistiques obtenues par analyse syntaxique ou des connaissances du domaine issues de bases de connaissance
This thesis aims to extract relations from scientific documents in the biomedical domain, i.e. transform unstructured texts into structured data that is machine-readable. As a task in the domain of Natural Language Processing (NLP), the extraction of semantic relations between textual entities makes explicit and formalizes the underlying structures. Current state-of-the-art methods rely on supervised learning, more specifically the fine-tuning of pre-trained language models such as BERT. Supervised learning requires a large amount of examples that are expensive to produce, especially in specific domains such as the biomedical domain. BERT variants such as PubMedBERT have been successful on NLP tasks involving biomedical texts. We hypothesize that injecting external information such as syntactic information or factual knowledge into such BERT variants can compensate for the reduced number of annotated training data. To this end, this thesis consists of proposing several neural architectures based on PubMedBERT that exploit linguistic information obtained by syntactic parsers or domain knowledge from knowledge bases

Paumard, Marie-Morgane. "Résolution automatique de puzzles par apprentissage profond." Thesis, CY Cergy Paris Université, 2020. http://www.theses.fr/2020CYUN1067.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L’objectif de cette thèse est de développer des méthodes sémantiques de réassemblage dans le cadre compliqué des collections patrimoniales, où certains blocs sont érodés ou manquants.Le remontage de vestiges archéologiques est une tâche importante pour les sciences du patrimoine : il permet d’améliorer la compréhension et la conservation des vestiges et artefacts anciens. Certains ensembles de fragments ne peuvent être réassemblés grâce aux techniques utilisant les informations de contour et les continuités visuelles. Il est alors nécessaire d’extraire les informations sémantiques des fragments et de les interpréter. Ces tâches peuvent être accomplies automatiquement grâce aux techniques d’apprentissage profond couplées à un solveur, c’est-à-dire un algorithme de prise de décision sous contraintes.Cette thèse propose deux méthodes de réassemblage sémantique pour fragments 2D avec érosion, ainsi qu’un jeu de données et des métriques d’évaluation.La première méthode, Deepzzle, propose un réseau de neurones auquel succède un solveur. Le réseau de neurones est composé de deux réseaux convolutionnels siamois entraînés à prédire la position relative de deux fragments : il s'agit d'une classification à 9 classes. Le solveur utilise l’algorithme de Dijkstra pour maximiser la probabilité jointe. Deepzzle peut résoudre le cas de fragments manquants et surnuméraires, est capable de traiter une quinzaine de fragments par puzzle, et présente des performances supérieures à l’état de l’art de 25%.La deuxième méthode, Alphazzle, s’inspire d’AlphaZero et de recherche arborescente Monte Carlo (MCTS) à un joueur. Il s’agit d’une méthode itérative d’apprentissage profond par renforcement : à chaque étape, on place un fragment sur le réassemblage en cours. Deux réseaux de neurones guident le MCTS : un prédicteur d’action, qui utilise le fragment et le réassemblage en cours pour proposer une stratégie, et un évaluateur, qui est entraîné à prédire la qualité du résultat futur à partir du réassemblage en cours. Alphazzle prend en compte les relations entre tous les fragments et s’adapte à des puzzles de taille supérieure à ceux résolus par Deepzzle. Par ailleurs, Alphazzle se place dans le cadre patrimonial : en fin de réassemblage, le MCTS n’accède pas à la récompense, contrairement à AlphaZero. En effet, la récompense, qui indique si un puzzle est bien résolu ou non, ne peut être qu’estimée par l’algorithme, car seul un conservateur peut être certain de la qualité d’un réassemblage
The objective of this thesis is to develop semantic methods of reassembly in the complicated framework of heritage collections, where some blocks are eroded or missing.The reassembly of archaeological remains is an important task for heritage sciences: it allows to improve the understanding and conservation of ancient vestiges and artifacts. However, some sets of fragments cannot be reassembled with techniques using contour information or visual continuities. It is then necessary to extract semantic information from the fragments and to interpret them. These tasks can be performed automatically thanks to deep learning techniques coupled with a solver, i.e., a constrained decision making algorithm.This thesis proposes two semantic reassembly methods for 2D fragments with erosion and a new dataset and evaluation metrics.The first method, Deepzzle, proposes a neural network followed by a solver. The neural network is composed of two Siamese convolutional networks trained to predict the relative position of two fragments: it is a 9-class classification. The solver uses Dijkstra's algorithm to maximize the joint probability. Deepzzle can address the case of missing and supernumerary fragments, is capable of processing about 15 fragments per puzzle, and has a performance that is 25% better than the state of the art.The second method, Alphazzle, is based on AlphaZero and single-player Monte Carlo Tree Search (MCTS). It is an iterative method that uses deep reinforcement learning: at each step, a fragment is placed on the current reassembly. Two neural networks guide MCTS: an action predictor, which uses the fragment and the current reassembly to propose a strategy, and an evaluator, which is trained to predict the quality of the future result from the current reassembly. Alphazzle takes into account the relationships between all fragments and adapts to puzzles larger than those solved by Deepzzle. Moreover, Alphazzle is compatible with constraints imposed by a heritage framework: at the end of reassembly, MCTS does not access the reward, unlike AlphaZero. Indeed, the reward, which indicates if a puzzle is well solved or not, can only be estimated by the algorithm, because only a conservator can be sure of the quality of a reassembly

Grivolla, Jens. "Apprentissage et décision automatique en recherche documentaire : prédiction de difficulté de requêtes et sélection de modèle de recherche." Avignon, 2006. http://www.theses.fr/2006AVIG0142.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse se situe dans la problématique de la recherche documentaire. Dans ce domaine, chaque besoin en information est exprimé par un utilisateur sous la forme d'une requête en langage naturel. Il existe différentes approches pour traiter ces requêtes, mais les systèmes actuels utilisent généralement une méthode unique, indépendante des caractéristiques de la requête. On peut pourtant montrer de façon expérimentale que la performance relative d'une technique de recherche sur une autre peut varier considérablement suivant la requête traitée. Nous avons abordé cette thématique en proposant des méthodes qui permettent de repérer automatiquement les requêtes qui posent des difficultés particulières au système utilisé, afin de permettre un traitement spécifique et adapté. Nous avons ainsi dégagé un certain nombre de fonctions de prédiction de qualité qui obtiennent des résultats comparables à ceux publiés récemment par d'autres équipes de recherche. La particularité et originalité de ce travail a consisté à étudier la combinaison de ces différentes mesures. En utilisant des méthodes de classification automatique, nous avons obtenu des prédictions relativement fiables sur la base de mesures qui individuellement ont un pouvoir de discrimination considérablement plus faible. Au-delà de la prédiction de difficulté des requêtes, nous avons utilisé nos méthodes pour adapter le processus de recherche à la requête posée
This thesis is centered around the subject of information retrieval, with a focus on those queries that are particularly difficult to handle for current retrieval systems. In the application and evaluation settings we were concerned with, a user expresses his information need as a natural language query. There are different approaches for treating those queries, but current systems typically use a single approach for all queries, without taking into account the specific properties of each query. However, it has been shown that the performance of one strategy relative to another can vary greatly depending on the query. We have approached this problem by proposing methods that will permit to automatically identify those queries that will pose particular difficulties to the retrieval system, in order to allow for a specific treatment. This research topic was very new and barely starting to be explored at the beginning of my work, but has received much attention these last years. We have developed a certain number of quality predictor functions that obtain results comparable to those published recently by other research teams. However, the ability of individual predictors to accurately classify queries by their level of difficulty remains rather limited. The major particularity and originality of our work lies in the combination of those different measures. Using methods of automatic classification with corpus-based training, we have been able to obtain quite reliable predictions, on the basis of measures that individually are far less discriminant. We have also adapted our approach to other application settings, with very encouraging results. We have thus developed a method for the selective application of query expansion techniques, as well as the selection of the most appropriate retrieval model for each query

Oita, Marilena. "Inférer des objets sémantiques du Web structuré." Thesis, Paris, ENST, 2012. http://www.theses.fr/2012ENST0060/document.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

Cette thèse se concentre sur l'extraction et l'analyse des objets du Web, selon différents points de vue: temporel, structurel, sémantique. Nous commençons par une étude qui porte sur la compréhension des différentes stratégies et meilleures pratiques pour inférer les aspects temporels des pages Web. Pour cette finalité, on présente plus en détail une approche qui utilise des statistiques sur les flux du Web. Nous continuons par la présentation de deux techniques basées sur des mots-clés pour l'extraction d'objets, dans le cadre des pages Web générées dynamiquement par des systèmes de gestion du contenu. Les objets que nous étudions dans ce contexte correspondent à des articles du Web. Les mots-clés, acquis automatiquement, guident le processus d'identification d'objets, soit au niveau d'une seule page Web (SIGFEED) soit sur plusieurs pages différentes qui partagent le même modèle (FOREST). Nous décrivons également un cadre général qui vise à découvrir le modèle sémantique des objets du Web caché. Dans ce contexte, l'objets sont représentés par des enregistrements de données. Ce cadre utilise FOREST pour l'identification des enregistrements dans la page et se base sur l'alignement des instances extraites et des objets mêmes, par rapport à des similitudes de type représentées avec rdf:type dans un graphe étiqueté. Ce graphe est ensuite aligné avec une ontologie générique comme YAGO, pour la découverte des types et leur relations par rapport à l'entité de base qui est résumé par le formulaire Web
This thesis focuses on the extraction and analysis of Web data objects, investigated from different points of view: temporal, structural, semantic. We first survey different strategies and best practices for deriving temporal aspects of Web pages, together with a more in-depth study on Web feeds for this particular purpose, and other statistics. Next, in the context of dynamically-generated Web pages by content management systems, we present two keyword-based techniques that perform article extraction from such pages. Keywords, automatically acquired, guide the process of object identification, either at the level of a single Web page (SIGFEED), or across different pages sharing the same template (FOREST). We finally present, in the context of the deep Web, a generic framework that aims at discovering the semantic model of a Web object (here, data record) by, first, using FOREST for the extraction of objects, and second, representing the implicit rdf:type similarities between the object attributes and the entity of the form as relationships that, together with the instances extracted from the objects, form a labeled graph. This graph is further aligned to an ontology like YAGO for the discovery of the unknown types and relations

Більше джерел

Книги з теми "Apprentissage profond – Recherche de l'information":

Zorfass, Judith M. Teaching middle school students to be active researchers / Judith M. Zorfass with Harriet Copel. Alexandria, Va: Association for Supervision and Curriculum Development, 1998.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Liu, Alex. Apache Spark Machine Learning Blueprints. Packt Publishing, Limited, 2016.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

California Media and Library Educators Assn. From Library Skills to Information Literacy: A Handbook for the 21st Century. Hi Willow Research & Pub, 1994.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Wagh, Sanjeev J., Manisha S. Bhende, and Anuradha D. Thakare. Fundamentals of Data Science. Taylor & Francis Group, 2021.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Wagh, Sanjeev J., Manisha S. Bhende, and Anuradha D. Thakare. Fundamentals of Data Science. Taylor & Francis Group, 2021.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Forsyth, R., and R. Rada. Machine Learning (Ellis Horwood Series Artificial Intelligence). Ellis Horwood, 1986.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Wagh, Sanjeev J., Manisha S. Bhende, and Anuradha D. Thakare. Fundamentals of Data Science. Taylor & Francis Group, 2021.

Знайти повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Частини книг з теми "Apprentissage profond – Recherche de l'information":

ROCHDI, Sara, and Nadia EL OUESDADI. "Les étudiants et les pratiques numériques informelles: échange et collaboration sur le réseau social Facebook." In Langue(s) en mondialisation, 127–36. Editions des archives contemporaines, 2022. http://dx.doi.org/10.17184/eac.5204.

Повний текст джерела

Стилі APA, Harvard, Vancouver, ISO та ін.

Анотація:

L'arrivée du Web2.0 (web sémantique) en 2000, a vu la création d'un nouveau type d'application qui a changé la manière d'apprentissage. Avec cette technologie, on assiste aujourd'hui au développement : des objets connectés pour la diffusion des connaissances et la construction des compétences, comme l’a avancé Marcel Lebrun (2007 :66) [1] « les technologies de l’information et de la communication fournissent des moyens novateurs non seulement pour la diffusion des connaissances, mais aussi pour la découverte des stratégies d’apprentissage qui favorisent la construction des compétences». Ainsi qu’à l'apparition de nouvelles applications particulièrement les réseaux sociaux. En effet, les réseaux sociaux sont au cœur des nouvelles technologies de l’information et de la communication, du fait qu'ils permettent la mise en relation des individus pour échanger, collaborer, communiquer, étudier et diffuser l'information à travers plusieurs modalités d'apprentissage tel que le réseau social Facebook. Ce dernier est très utilisé chez les étudiants de la filière d'études françaises. Les apprenants ne se considèrent pas seulement comme des consommateurs mais des participants au développement des contenus au sein des groupes. Le présent article a pour objectif de donner d’une part un aperçu théorique sur l’apprentissage en ligne, l’éducation informelle, l’apprentissage collaboratif et les avantages des réseaux sociaux en rapport avec les courants d’apprentissage et d’autre part d'identifier l'usage de l'utilisation du réseau social Facebook dans le parcours d' apprentissage des étudiants de département de langue française à l'université marocaine afin de répondre à notre question de recherche : quel est l'apport de l'usage de Facebook dans l'apprentissage des étudiants ? Nous avons effectué une recherche qualitative pour présenter les données qui sont issues en premier lieu de traces d’activités relevées dans divers groupes d’études françaises, afin d’analyser les effets de l'usage de Facebook par les étudiants à travers leurs attitudes et leurs interactions. Et en deuxième lieu d’une interview menée avec quelques étudiants pour connaitre leurs opinions vis-à-vis de cette modalité d’apprentissage. La recherche montre que les étudiants utilisent le réseau social Facebook pour collaborer, et aussi pour échanger des informations et des connaissances avec leurs camarades