To see the other types of publications on this topic, follow the link: Graphe de recommandation.

Dissertations / Theses on the topic 'Graphe de recommandation'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 20 dissertations / theses for your research on the topic 'Graphe de recommandation.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Slaimi, Fatma. "Découverte et recommandation de services Web." Thesis, Aix-Marseille, 2017. http://www.theses.fr/2017AIXM0069.

Full text
Abstract:
Le Web est devenu une plateforme universelle d’hébergement d'applications hétérogènes. Dans ce contexte, les services Web se sont imposés comme une technologie clé pour permettre l’interaction entre diverses applications. Les technologies standards proposées autour des services Web permettent la programmation, plutôt manuelle, de ces applications. Pour favoriser une programmation automatique à base de services web, un problème majeur se pose : celui de leur découverte. Plusieurs approches adressant ce problème ont été proposées dans la littérature. L’objectif de cette thèse est d’améliorer le processus de découverte de services en exploitant trois pistes de recherche. La première consiste à proposer une approche de découverte qui combine plusieurs techniques de matching. La deuxième se base sur une validation des services retournés par un processus de découverte automatique en se basant sur les compétences utilisateurs. Ces approches ne prennent pas en considération l’évolution de services dans le temps et les préférences des utilisateurs. Pour remédier à ces lacunes plusieurs approches incorporent des techniques de recommandation. La majorité d'entre eux sont basées sur les évaluations des propriétés de QdS. Pratiquement, ces évaluations sont rarement disponibles. D’autres systèmes exploitent les relations de confiance. Ces relations sont établies en se basant sur les évaluations de services. Or, invoquant le même service ne signifie pas obligatoirement avoir les mêmes préférences. D’où, nous proposons, l’exploitation des relations d’intérêts entre les utilisateurs pour recommander des services. L’approche s’appuie sur une modélisation orientée base de données graphes
The Web has become an universal platform for content hosting and distributed heterogeneous applications that can be accessed manually or automatically. In this context, Web services have established themselves as a key technology for deploying interactions across applications. The standard Web services technologies allow and facilitate the manual programming of these applications. To promote automatic programming based on Web services, a major problem arises : that of their discovery. Several approaches addressing this problem have been proposed in the literature. The aim of this thesis is to improve the Web services discovery process. We proposed three approaches. We proposed a Web services discovery approach that combines several matching techniques. The second consists on the validation of the services returned by an automatic process of discovery using users’ competencies. These approaches do not take into account the evolution of services over time and user preferences. To address these shortcomings, several approaches incorporate referral techniques to assist the discovery process. A large majority of these approaches are based on assessments of QoS properties. In practice, these assessments are rarely available. In other systems, trust relationships between users and services are used. These relationships are established based on invocations evaluations of similar services. However, invoking the same service do not necessarily mean having the same preferences. Hence, we propose, in our third approach, the use of the relations of interest between users to recommend services. The approach relies on modeling services’ ecosystem by database graphs
APA, Harvard, Vancouver, ISO, and other styles
2

Nzekon, Nzeko'o Armel Jacques. "Système de recommandation avec dynamique temporelle basée sur les flots de liens." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS454.

Full text
Abstract:
La recommandation des produits appropriés aux clients est cruciale dans de nombreuses plateformes de e-commerce qui proposent un grand nombre de produits. Les systèmes de recommandation sont une solution favorite pour la réalisation de cette tâche. La majorité des recherches de ce domaine reposent sur des notes explicites que les utilisateurs attribuent aux produits, alors que la plupart du temps ces notes ne sont pas disponibles en quantité suffisante. Il est donc important que les systèmes de recommandation utilisent les données implicites que sont des flots de liens représentant les relations entre les utilisateurs et les produits, c'est-à-dire l'historique de navigation, des achats et de streaming. C'est ce type de données implicites que nous exploitons. Une approche populaire des systèmes de recommandation consiste, pour un entier N donné, à proposer les N produits les plus pertinents pour chaque utilisateur : on parle de recommandation top-N. Pour ce faire, bon nombre de travaux reposent sur des informations telles que les caractéristiques des produits, les goûts et préférences antérieurs des utilisateurs et les relations de confiance entre ces derniers. Cependant, ces systèmes n'utilisent qu'un ou deux types d'information simultanément, ce qui peut limiter leurs performances car l'intérêt qu'un utilisateur a pour un produit peut à la fois dépendre de plus de deux types d'information. Pour remédier à cette limite, nous faisons trois propositions dans le cadre des graphes de recommandation. La première est une extension du Session-based Temporal Graph (STG) introduit par Xiang et al., et qui est un graphe dynamique combinant les préférences à long et à court terme des utilisateurs, ce qui permet de mieux capturer la dynamique des préférences de ces derniers. STG ne tient pas compte des caractéristiques des produits et ne fait aucune différence de poids entre les arêtes les plus récentes et les arêtes les plus anciennes. Le nouveau graphe proposé, Time-weight content-based STG contourne les limites du STG en y intégrant un nouveau type de nœud pour les caractéristiques des produits et une pénalisation des arêtes les plus anciennes. La seconde contribution est un système de recommandation basé sur l'utilisation de Link Stream Graph (LSG). Ce graphe est inspiré d'une représentation des flots de liens et a la particularité de considérer le temps de manière continue contrairement aux autres graphes de la littérature, qui soit ignore la dimension temporelle comme le graphe biparti classique (BIP), soit considère le temps de manière discontinue avec un découpage du temps en tranches comme STG
Recommending appropriate items to users is crucial in many e-commerce platforms that propose a large number of items to users. Recommender systems are one favorite solution for this task. Most research in this area is based on explicit ratings that users give to items, while most of the time, ratings are not available in sufficient quantities. In these situations, it is important that recommender systems use implicit data which are link stream connecting users to items while maintaining timestamps i.e. users browsing, purchases and streaming history. We exploit this type of implicit data in this thesis. One common approach consists in selecting the N most relevant items to each user, for a given N, which is called top-N recommendation. To do so, recommender systems rely on various kinds of information, like content-based features of items, past interest of users for items and trust between users. However, they often use only one or two such pieces of information simultaneously, which can limit their performance because user's interest for an item can depend on more than two types of side information. To address this limitation, we make three contributions in the field of graph-based recommender systems. The first one is an extension of the Session-based Temporal Graph (STG) introduced by Xiang et al., which is a dynamic graph combining long-term and short-term preferences in order to better capture user preferences over time. STG ignores content-based features of items, and make no difference between the weight of newer edges and older edges. The new proposed graph Time-weight Content-based STG addresses STG limitations by adding a new node type for content-based features of items, and a penalization of older edges. The second contribution is the Link Stream Graph (LSG) for temporal recommendations. This graph is inspired by a formal representation of link stream, and has the particularity to consider time in a continuous way unlike others state-of-the-art graphs, which ignore the temporal dimension like the classical bipartite graph (BIP), or consider time discontinuously like STG where time is divided into slices. The third contribution in this thesis is GraFC2T2, a general graph-based framework for top-N recommendation. This framework integrates basic recommender graphs, and enriches them with content-based features of items, users' preferences temporal dynamics, and trust relationships between them. Implementations of these three contributions on CiteUlike, Delicious, Last.fm, Ponpare, Epinions and Ciao datasets confirm their relevance
APA, Harvard, Vancouver, ISO, and other styles
3

Ruas, Olivier. "The many faces of approximation in KNN graph computation." Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1S088/document.

Full text
Abstract:
La quantité incroyable de contenu disponible dans les services en ligne rend le contenu intéressant incroyablement difficile à trouver. La manière la plus emblématique d’aider les utilisateurs consiste à faire des recommandations. Le graphe des K-plus-proches-voisins (K-Nearest-Neighbours (KNN)) connecte chaque utilisateur aux k autres utilisateurs qui lui sont les plus similaires, étant donnée une fonction de similarité. Le temps de calcul d’un graphe KNN exact est prohibitif dans les services en ligne. Les approches existantes approximent l’ensemble de candidats pour chaque voisinage pour diminuer le temps de calcul. Dans cette thèse, nous poussons plus loin la notion d’approximation : nous approximons les données de chaque utilisateur, la similarité et la localité de données. L’approche obtenue est nettement plus rapide que toutes les autres
The incredible quantity of available content in online services makes content of interest incredibly difficult to find. The most emblematic way to help the users is to do item recommendation. The K-Nearest-Neighbors (KNN) graph connects each user to its k most similar other users, according to a given similarity metric. The computation time of an exact KNN graph is prohibitive in online services. Existing approaches approximate the set of candidates for each user’s neighborhood to decrease the computation time. In this thesis we push farther the notion of approximation : we approximate the data of each user, the similarity and the data locality. The resulting approach clearly outperforms all the other ones
APA, Harvard, Vancouver, ISO, and other styles
4

Peoples, Bruce E. "Méthodologie d'analyse du centre de gravité de normes internationales publiées : une démarche innovante de recommandation." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080023.

Full text
Abstract:
.../
“Standards make a positive contribution to the world we live in. They facilitate trade, spreadknowledge, disseminate innovative advances in technology, and share good management andconformity assessment practices”7. There are a multitude of standard and standard consortiaorganizations producing market relevant standards, specifications, and technical reports in thedomain of Information Communication Technology (ICT). With the number of ICT relatedstandards and specifications numbering in the thousands, it is not readily apparent to users howthese standards inter-relate to form the basis of technical interoperability. There is a need todevelop and document a process to identify how standards inter-relate to form a basis ofinteroperability in multiple contexts; at a general horizontal technology level that covers alldomains, and within specific vertical technology domains and sub-domains. By analyzing whichstandards inter-relate through normative referencing, key standards can be identified as technicalcenters of gravity, allowing identification of specific standards that are required for thesuccessful implementation of standards that normatively reference them, and form a basis forinteroperability across horizontal and vertical technology domains. This Thesis focuses on defining a methodology to analyze ICT standards to identifynormatively referenced standards that form technical centers of gravity utilizing Data Mining(DM) and Social Network Analysis (SNA) graph technologies as a basis of analysis. As a proofof concept, the methodology focuses on the published International Standards (IS) published bythe International Organization of Standards/International Electrotechnical Committee; JointTechnical Committee 1, Sub-committee 36 Learning Education, and Training (ISO/IEC JTC1 SC36). The process is designed to be scalable for larger document sets within ISO/IEC JTC1 that covers all JTC1 Sub-Committees, and possibly other Standard Development Organizations(SDOs).Chapter 1 provides a review of literature of previous standard analysis projects and analysisof components used in this Thesis, such as data mining and graph theory. Identification of adataset for testing the developed methodology containing published International Standardsneeded for analysis and form specific technology domains and sub-domains is the focus ofChapter 2. Chapter 3 describes the specific methodology developed to analyze publishedInternational Standards documents, and to create and analyze the graphs to identify technicalcenters of gravity. Chapter 4 presents analysis of data which identifies technical center of gravitystandards for ICT learning, education, and training standards produced in ISO/IEC JTC1 SC 36.Conclusions of the analysis are contained in Chapter 5. Recommendations for further researchusing the output of the developed methodology are contained in Chapter 6
APA, Harvard, Vancouver, ISO, and other styles
5

Poulain, Rémy. "Analyse et modélisation de la diversité des structures relationnelles à l'aide de graphes multipartis." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS453.

Full text
Abstract:
Il n’est plus à prouver que le numérique, Internet et le web ont entraîné une révolution notamment dans la manière de s’informer. Comme toute révolution, elle est suivie par une série d’enjeux : égalité de traitement des utilisateurs et des fournisseurs, consommations écologiquement durables, liberté d’expression et censure, etc. Il est nécessaire que la recherche apporte une vision claire de ces enjeux. Parmi ces enjeux, nous pouvons parler de deux phénomènes : le phénomène de chambre d’écho et le phénomène de bulle de filtre. Ces deux phénomènes sont liés au manque de diversité de l’information visible sur internet, et on peut se demander l’impact des algorithmes de recommandations. Même si ceci est notre motivation première, nous nous éloignons de ce sujet pour proposer un cadre scientifique général pour analyser la diversité. Nous trouvons que le formalisme de graphe est assez utile pour pouvoir représenter des données relationnelles. Plus précisément, nous allons analyser des données relationnelles avec des entités de différentes natures. C’est pourquoi nous avons choisi le formalisme de graphe n-partie car c’est une bonne manière de représenter une grande diversité de données. Même si nos premières données étudiées seront en lien avec les algorithmes de recommandation (consommation musicale ou achat d’article sur une plateforme) nous allons voir au fil du manuscrit en quoi ce formalisme peut être adapté à d’autres types de données (utilisateurs politisés sur Twitter, invités d’émissions de télévision, installation d’ONG dans différents États...). Il y a plusieurs objectifs dans cette étude : — Définir mathématiquement des indicateurs de diversité sur les graphes n-parties. — Définir algorithmiquement comment les calculer. — Programmer ces algorithmes pour en faire un objet informatique utilisable. — Utiliser ces programmes sur des données assez variées. — Voir les sens différents que nos indicateurs peuvent avoir. Nous commencerons par décrire le formalisme mathématique nécessaire à notre étude. Puis nous appliquerons notre objet mathématique à des exemples de base pour y voir toutes les possibilités que notre objet nous offre. Ceci nous montrera l’importance de normaliser nos indicateurs, et nous motivera à étudier une normalisation par l’aléatoire. Ensuite nous verrons une autre série d’exemples qui nous permettrons d’aller plus loin sur nos indicateurs, en dépassant le coté statique et tripartie pour aborder des graphes avec plus de couches et dépendant du temps. Pour pouvoir avoir une meilleure vision de ce que les données réelles nous apportent, nous étudierons nos indicateurs sur des graphes complètement générés aléatoirement
There is no longer any need to prove that digital technology, the Internet and the web have led to a revolution, particularly in the way people get information. Like any revolution, it is followed by a series of issues : equal treatment of users and suppliers, ecologically sustainable consumption, freedom of expression and censorship, etc. Research needs to provide a clear vision of these stakes. Among these issues, we can talk about two phenomena : the echo chamber phenomenon and the filter bubble phenomenon. These two phenomena are linked to the lack of diversity of information visible on the Internet, and one may wonder about the impact of recommendation algorithms. Even if this is our primary motivation, we are moving away from this subject to propose a general scientific framework to analyze diversity. We find that the graph formalism is useful enough to be able to represent relational data. More precisely, we will analyze relational data with entities of different natures. This is why we chose the n-part graph formalism because this is a good way to represent a great diversity of data. Even if the first data we studied is related to recommendation algorithms (music consumption or purchase of articles on a platform) we will see over the course of the manuscript how this formalism can be adapted to other types of data (politicized users on Twitter, guests of television shows, establishment of NGOs in different States ...). There are several objectives in this study : — Mathematically define diversity indicators on the n-part graphs. — Algorithmically define how to calculate them. — Program these algorithms to make them a usable computer object. — Use these programs on quite varied data. — See the different meanings that our indicators can have. We will begin by describing the mathematical formalism necessary for our study. Then we will apply our mathematical object to basic examples to see all the possibilities that our object offers us. This will show us the importance of normalizing our indicators, and will motivate us to study random normalization. Then we will see another series of examples which will allow us to go further on our indicators, going beyond the static and tripartite side to approach graphs with more layers and depending on time. To be able to have a better vision of what the real data brings us, we will study our indicators on completely randomly generated graphs
APA, Harvard, Vancouver, ISO, and other styles
6

Dadoun, Amine. "Semantic data driven approach for merchandizing optimization." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS191.

Full text
Abstract:
L'objectif général de ce doctorat consiste à explorer et proposer de nouvelles approches s'appuyant sur un grand volume de données hétérogènes qui doivent être intégrées et enrichies sémantiquement, et sur les progrès récents dans les techniques d'apprentissage automatique et profond, afin d'exploiter à la fois la variété accrue d'offres qu'une compagnie aérienne peut faire à ses clients ainsi que la connaissance qu'elle a de ses clients dans le but ultime d'optimiser la conversion et l'achat. L'objectif général de cette thèse peut être décomposé en trois questions de recherche principales : 1) Quel élément de contenu (services auxiliaires, contenu tiers) devrait être recommandé et personnalisé à chaque voyageur ? 2) Quand une recommandation doit-elle être faite et pour quel canal de communication afin d'optimiser la conversion ? 3) Comment regrouper les services auxiliaires et le contenu tiers et pouvons-nous apprendre ce qui va souvent ensemble selon les journaux d'achat ?
The overall objective of this PhD is to explore and propose new approaches leveraging a large volume of heterogeneous data that needs to be integrated and semantically enriched, and recent advances in machine and deep learning techniques, in order to exploit both the increased variety of offers that an airline can make to its customers as well as the knowledge it has of its customers with the ultimate goal of optimizing conversion and purchase. The overall goal of this thesis can be broken down into three main research questions: 1) What piece of content (ancillary services, third-party content) should be recommended and personalized to each traveler? 2) When should a recommendation be made and for which communication channel to optimize conversion? 3) How do we group ancillary services and third-party content and can we learn what often goes together based on purchase logs?
APA, Harvard, Vancouver, ISO, and other styles
7

Lully, Vincent. "Vers un meilleur accès aux informations pertinentes à l’aide du Web sémantique : application au domaine du e-tourisme." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUL196.

Full text
Abstract:
Cette thèse part du constat qu’il y a une infobésité croissante sur le Web. Les deux types d’outils principaux, à savoir le système de recherche et celui de recommandation, qui sont conçus pour nous aider à explorer les données du Web, connaissent plusieurs problématiques dans : (1) l’assistance de la manifestation des besoins d’informations explicites, (2) la sélection des documents pertinents, et (3) la mise en valeur des documents sélectionnés. Nous proposons des approches mobilisant les technologies du Web sémantique afin de pallier à ces problématiques et d’améliorer l’accès aux informations pertinentes. Nous avons notamment proposé : (1) une approche sémantique d’auto-complétion qui aide les utilisateurs à formuler des requêtes de recherche plus longues et plus riches, (2) des approches de recommandation utilisant des liens hiérarchiques et transversaux des graphes de connaissances pour améliorer la pertinence, (3) un framework d’affinité sémantique pour intégrer des données sémantiques et sociales pour parvenir à des recommandations qualitativement équilibrées en termes de pertinence, diversité et nouveauté, (4) des approches sémantiques visant à améliorer la pertinence, l’intelligibilité et la convivialité des explications des recommandations, (5) deux approches de profilage sémantique utilisateur à partir des images, et (6) une approche de sélection des meilleures images pour accompagner les documents recommandés dans les bannières de recommandation. Nous avons implémenté et appliqué nos approches dans le domaine du e-tourisme. Elles ont été dûment évaluées quantitativement avec des jeux de données vérité terrain et qualitativement à travers des études utilisateurs
This thesis starts with the observation that there is an increasing infobesity on the Web. The two main types of tools, namely the search engine and the recommender system, which are designed to help us explore the Web data, have several problems: (1) in helping users express their explicit information needs, (2) in selecting relevant documents, and (3) in valuing the selected documents. We propose several approaches using Semantic Web technologies to remedy these problems and to improve the access to relevant information. We propose particularly: (1) a semantic auto-completion approach which helps users formulate longer and richer search queries, (2) several recommendation approaches using the hierarchical and transversal links in knowledge graphs to improve the relevance of the recommendations, (3) a semantic affinity framework to integrate semantic and social data to yield qualitatively balanced recommendations in terms of relevance, diversity and novelty, (4) several recommendation explanation approaches aiming at improving the relevance, the intelligibility and the user-friendliness, (5) two image user profiling approaches and (6) an approach which selects the best images to accompany the recommended documents in recommendation banners. We implemented and applied our approaches in the e-tourism domain. They have been properly evaluated quantitatively with ground-truth datasets and qualitatively through user studies
APA, Harvard, Vancouver, ISO, and other styles
8

Benchettara, Nasserine. "Prévision de nouveaux liens dans les réseaux d'interactions bipartis : Application au calcul de recommandation." Paris 13, 2011. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2011_benchettara.pdf.

Full text
Abstract:
Dans cette thèse, nous étudions le problème de la prévision d'apparition de nouveaux liens dans les réseaux d'interactions. Nous nous intéressons en particulier aux réseaux dynamiques ayant une structure bipartite. Nous proposons un modèle de prévision de liens utilisant les techniques d'apprentissage automatique supervisé. Le problème de prévision de liens est considéré dans ce cas comme un problème de classification binaire. Notre approche applique un schéma de propositionnalisation où chaque paire de noeuds est décrite par un ensemble d'attributs représentant des mesures topologiques. Ces mesures sont calculées dans le graphe biparti et dans les graphes projetés qui en découlent. Nous montrons que ces nouvelles similarités dites " indirectes " apportent un gain d'information bénéfique par rapport aux seules similarités directes. Cette thèse apporte aussi de nouvelles solutions au problème de déséquilibre des données dû à la disproportion inhérente entre le nombre de liens qui peuvent se former et le nombre de liens qui se forment réellement. Nous proposons tout d'abord d'utiliser des méthodes de sous-échantillonnage informé pour réduire le déséquilibre. Une deuxième solution au niveau algorithmique consiste en une approche d'apprentissage semi-supervisé. Dans ce cas, le problème de prévision de liens est vu comme un problème d'apprentissage à partir d'un ensemble d'instances étiquetées (classe minoritaire) et un ensemble d'instances non-étiquetées (classe majoritaire). Nous montrons que cette nouvelle approche permet d'améliorer les performances du classifieur sur la classe minoritaire. Les différentes approches proposées sont appliquées sur les données réelles dans le cadre de deux applications : recommandation de collaborations académiques et recommandation de produits dans un site de vente de musique en ligne
In this work, we handle the problem of new link prediction in dynamic complex networks. We mainly focus on studying networks having a bipartite underlaying structure. We propose to apply a propositionnalization approach where each couple of nodes in the network is described by a set of topological measures. One first contribution in this thesis is to consider measures computed in the bipartite graph and also in the associated projected graphs. A supervised machine learning approach is applied. This approach though it gives some good results, suffers from the obvious problem of class skewness. We hence focus on handling this problem. Informed sub-sampling approaches are first proposed. A semi-supervised machine learning approach is also applied. All proposed approaches are applied and evaluated on real datasets used in real application of academic collaboration recommendation and product recommendation in an e-commerce site
APA, Harvard, Vancouver, ISO, and other styles
9

Draidi, Fady. "Recommandation Pair-à-Pair pour Communautés en Ligne à Grande Echelle." Phd thesis, Université Montpellier II - Sciences et Techniques du Languedoc, 2012. http://tel.archives-ouvertes.fr/tel-00766963.

Full text
Abstract:
Les systèmes de recommandation (RS) et le pair-à-pair (P2) sont complémen-taires pour faciliter le partage de données à grande échelle: RS pour filtrer et person-naliser les requêtes des utilisateurs, et P2P pour construire des systèmes de partage de données décentralisés à grande échelle. Cependant, il reste beaucoup de difficultés pour construire des RS efficaces dans une infrastructure P2P. Dans cette thèse, nous considérons des communautés en ligne à grande échelle, où les utilisateurs notent les contenus qu'ils explorent et gardent dans leur espace de travail local les contenus de qualité pour leurs sujets d'intérêt. Notre objectif est de construire un P2P-RS efficace pour ce contexte. Nous exploitons les sujets d'intérêt des utilisateurs (extraits automatiquement des contenus et de leurs notes) et les don-nées sociales (amitié et confiance) afin de construire et maintenir un overlay P2P so-cial. La thèse traite de plusieurs problèmes. D'abord, nous nous concentrons sur la conception d'un P2P-RS qui passe à l'échelle, appelé P2Prec, en combinant les ap-proches de recommandation par filtrage collaboratif et par filtrage basé sur le contenu. Nous proposons alors de construire et maintenir un overlay P2P dynamique grâce à des protocoles de gossip. Nos résultats d'expérimentation montrent que P2Prec per-met d'obtenir un bon rappel avec une charge de requêtes et un trafic réseau accep-tables. Ensuite, nous considérons une infrastructure plus complexe afin de construire et maintenir un overlay P2P social, appelé F2Frec, qui exploite les relations sociales entre utilisateurs. Dans cette infrastructure, nous combinons les aspects filtrage par contenu et filtrage basé social, pour obtenir un P2P-RS qui fournit des résultats de qualité et fiables. A l'aide d'une évaluation de performances extensive, nous mon-trons que F2Frec améliore bien le rappel, ainsi que la confiance dans les résultats avec une surcharge acceptable. Enfin, nous décrivons notre prototype de P2P-RS que nous avons implémenté pour valider notre proposition basée sur P2Prec et F2Frec.
APA, Harvard, Vancouver, ISO, and other styles
10

Moin, Afshin. "Les Techniques De Recommandation Et De Visualisation Pour Les Données A Une Grande Echelle." Phd thesis, Université Rennes 1, 2012. http://tel.archives-ouvertes.fr/tel-00724121.

Full text
Abstract:
Nous avons assisté au développement rapide de la technologie de l'information au cours de la dernière décennie. D'une part, la capacité du traitement et du stockage des appareils numériques est en constante augmentation grâce aux progrès des méthodes de construction. D'autre part, l'interaction entre ces dispositifs puissants a été rendue possible grâce à la technologie de réseautage. Une conséquence naturelle de ces progrès, est que le volume des données générées dans différentes applications a grandi à un rythme sans précédent. Désormais, nous sommes confrontés à de nouveaux défis pour traiter et représenter efficacement la masse énorme de données à notre disposition. Cette thèse est centrée autour des deux axes de recommandation du contenu pertinent et de sa visualisation correcte. Le rôle des systèmes de recommandation est d'aider les utilisateurs dans le processus de prise de décision pour trouver des articles avec un contenu pertinent et une qualité satisfaisante au sein du vaste ensemble des possibilités existant dans le Web. D'autre part, la représentation correcte des données traitées est un élément central à la fois pour accroître l'utilité des données pour l'utilisateur final et pour la conception des outils d'analyse efficaces. Dans cet exposé, les principales approches des systèmes de recommandation ainsi que les techniques les plus importantes de la visualisation des données sous forme de graphes sont discutées. En outre, il est montré comment quelques-unes des mêmes techniques appliquées aux systèmes de recommandation peuvent être modifiées pour tenir compte des exigences de visualisation.
APA, Harvard, Vancouver, ISO, and other styles
11

Moin, Afshin. "Les techniques de recommandation et de visualisation pour les données à une grande échelle." Rennes 1, 2012. https://tel.archives-ouvertes.fr/tel-00724121.

Full text
Abstract:
We have witnessed the rapid development of the information technology during the last decade. On one side, processing and stocking capacity of digital devices is increasing constantly thanks to advances in construction methods. On the other side, the interaction between these powerful devices has been made possible through networking technology. As a natural consequence of these progresses, the volume of the data generated in different applications has grown with an unprecedented rate. Consequently, it is becoming increasingly harder for internet users to find items and content matching their needs. Henceforth, we are confronted with new challenges to efficiently process and represent the huge mass of data at our disposal. This thesis is centered around the two axes of recommending relevant content and its proper visualization. The role of the recommender systems is to help users in the process of decision making to find items with relevant content and satisfactory quality among the large set of alternatives existing in the Web. On the other hand, the adequate representation of the processed data is central both for increasing its utility to the end-user and for designing efficient analysis tools. In this presentation, the prevalent approaches to recommender systems and the principal techniques for visualization of data in the form of graphs are discussed. Furthermore, it is shown how some of the same techniques applied to recommender systems can be modified to consider visualization requirements
Nous avons assisté au développement rapide de la technologie de l'information au cours de la dernière décennie. D'une part, la capacité du traitement et du stockage des appareils numériques est en constante augmentation grâce aux progrès des méthodes de construction. D'autre part, l'interaction entre ces dispositifs puissants a été rendue possible grâce à la technologie de réseautage. Une conséquence naturelle de ces progrès, est que le volume des données générées dans différentes applications a grandi à un rythme sans précédent. Désormais, nous sommes confrontés à de nouveaux défis pour traiter et représenter efficacement la masse énorme de données à notre disposition. Cette thèse est centrée autour des deux axes de recommandation du contenu pertinent et de sa visualisation correcte. Le rôle des systèmes de recommandation est d'aider les utilisateurs dans le processus de prise de décision pour trouver des articles avec un contenu pertinent et une qualité satisfaisante au sein du vaste ensemble des possibilités existant dans le Web. D'autre part, la représentation correcte des données traitées est un élément central à la fois pour accroître l’utilité des données pour l'utilisateur final et pour la conception des outils d'analyse efficaces. Dans cet exposé, les principales approches des systèmes de recommandation ainsi que les techniques les plus importantes de la visualisation des données sous forme de graphes sont discutées. En outre, il est montré comment quelques-unes des mêmes techniques appliquées aux systèmes de recommandation peuvent être modifiées pour tenir compte des exigences de visualisation
APA, Harvard, Vancouver, ISO, and other styles
12

Ettaleb, Mohamed. "Approche de recommandation à base de fouille de données et de graphes étiquetés multi-couches : contributions à la RI sociale." Electronic Thesis or Diss., Aix-Marseille, 2020. http://www.theses.fr/2020AIXM0588.

Full text
Abstract:
D’une manière générale, l’objectif d’un système de recommandation est d’assister les utilisateurs dans le choix d’éléments pertinents parmi un ensemble vaste d’éléments. Dans le contexte actuel de l’explosion du nombre de publications académiques disponibles (livres, articles, etc.) en ligne, fournir un service de recommandations personnalisées devient une nécessité. En outre, la recommandation automatique de livres à partir d’une requête est un thème émergent avec de nombreux verrous scientifiques. Il combine plusieurs problématiques liées à la recherche d’information et la fouille de données pour l’estimation du degré d’opportunité de recommander un livre. Cette estimation doit être effectuée en tenant compte de la requête mais aussi du profil de l’utilisateur (historique de lecture, centres d’intérêts, notes et commentaires associés à ses lectures précédentes) et de l’ensemble de la collection à laquelle appartient le document. Deux grandes pistes ont été abordés dans cette thèse pour traiter le problème de la recommandation automatique des livres : - Identification des intentions de l’utilisateur à partir d’une requête. - Recommandation des livres pertinents selon les besoins de l’utilisateur
In general, the purpose of a recommendation system is to assist users in selecting relevant elements from a wide range of elements. In the context of the explosion in the number of academic publications available (books, articles, etc.) online, providing a personalized recommendation service is becoming a necessity. In addition, automatic book recommendation based on a query is an emerging theme with many scientific locks. It combines several issues related to information retrieval and data mining for the assessment of the degree of opportunity to recommend a book. This assessment must be made taking into account the query but also the user profile (reading history, interest, notes and comments associated with previous readings) and the entire collection to which the document belongs. Two main avenues have been addressed in this paper to deal with the problem of automatic book recommendation : - Identification of the user’s intentions from a query. - Recommendation of relevant books according to the user’s needs
APA, Harvard, Vancouver, ISO, and other styles
13

Benkoussas, Chahinez. "Approches non supervisées pour la recommandation de lectures et la mise en relation automatique de contenus au sein d'une bibliothèque numérique." Thesis, Aix-Marseille, 2016. http://www.theses.fr/2016AIXM4379/document.

Full text
Abstract:
Cette thèse s’inscrit dans le domaine de la recherche d’information (RI) et la recommandation de lecture. Elle a pour objets :— La création de nouvelles approches de recherche de documents utilisant des techniques de combinaison de résultats, d’agrégation de données sociales et de reformulation de requêtes ;— La création d’une approche de recommandation utilisant des méthodes de RI et les graphes entre les documents. Deux collections de documents ont été utilisées. Une collection qui provient de l’évaluation CLEF (tâche Social Book Search - SBS) et la deuxième issue du domaine des sciences humaines et sociales (OpenEdition, principalement Revues.org). La modélisation des documents de chaque collection repose sur deux types de relations :— Dans la première collection (CLEF SBS), les documents sont reliés avec des similarités calculées par Amazon qui se basent sur plusieurs facteurs (achats des utilisateurs, commentaires, votes, produits achetés ensemble, etc.) ;— Dans la deuxième collection (OpenEdition), les documents sont reliés avec des relations de citations (à partir des références bibliographiques).Le manuscrit est structuré en deux parties. La première partie «état de l’art» regroupe une introduction générale, un état de l’art sur la RI et sur les systèmes de recommandation. La deuxième partie «contributions» regroupe un chapitre sur la détection de comptes rendus de lecture au sein de la collection OpenEdition (Revues.org), un chapitre sur les méthodes de RI utilisées sur des requêtes complexes et un dernier chapitre qui traite l’approche de recommandation proposée qui se base sur les graphes
This thesis deals with the field of information retrieval and the recommendation of reading. It has for objects:— The creation of new approach of document retrieval and recommendation using techniques of combination of results, aggregation of social data and reformulation of queries;— The creation of an approach of recommendation using methods of information retrieval and graph theories.Two collections of documents were used. First one is a collection which is provided by CLEF (Social Book Search - SBS) and the second from the platforms of electronic sources in Humanities and Social Sciences OpenEdition.org (Revues.org). The modelling of the documents of every collection is based on two types of relations:— For the first collection (SBS), documents are connected with similarity calculated by Amazon which is based on several factors (purchases of the users, the comments, the votes, products bought together, etc.);— For the second collection (OpenEdition), documents are connected with relations of citations, extracted from bibliographical references.We show that the proposed approaches bring in most of the cases gain in the performances of research and recommendation. The manuscript is structured in two parts. The first part "state of the art" includes a general introduction, a state of the art of informationretrieval and recommender systems. The second part "contributions" includes a chapter on the detection of reviews of books in Revues.org; a chapter on the methods of IR used on complex queries written in natural language and last chapter which handles the proposed approach of recommendation which is based on graph
APA, Harvard, Vancouver, ISO, and other styles
14

Dos, Santos Ludovic. "Representation learning for relational data." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066480/document.

Full text
Abstract:
L'utilisation croissante des réseaux sociaux et de capteurs génère une grande quantité de données qui peuvent être représentées sous forme de graphiques complexes. Il y a de nombreuses tâches allant de l'analyse de l'information à la prédiction et à la récupération que l'on peut imaginer sur ces données où la relation entre les noeuds de graphes devrait être informative. Dans cette thèse, nous avons proposé différents modèles pour trois tâches différentes: - Classification des noeuds graphiques - Prévisions de séries temporelles relationnelles - Filtrage collaboratif. Tous les modèles proposés utilisent le cadre d'apprentissage de la représentation dans sa variante déterministe ou gaussienne. Dans un premier temps, nous avons proposé deux algorithmes pour la tâche de marquage de graphe hétérogène, l'un utilisant des représentations déterministes et l'autre des représentations gaussiennes. Contrairement à d'autres modèles de pointe, notre solution est capable d'apprendre les poids de bord lors de l'apprentissage simultané des représentations et des classificateurs. Deuxièmement, nous avons proposé un algorithme pour la prévision des séries chronologiques relationnelles où les observations sont non seulement corrélées à l'intérieur de chaque série, mais aussi entre les différentes séries. Nous utilisons des représentations gaussiennes dans cette contribution. C'était l'occasion de voir de quelle manière l'utilisation de représentations gaussiennes au lieu de représentations déterministes était profitable. Enfin, nous appliquons l'approche d'apprentissage de la représentation gaussienne à la tâche de filtrage collaboratif. Ceci est un travail préliminaire pour voir si les propriétés des représentations gaussiennes trouvées sur les deux tâches précédentes ont également été vérifiées pour le classement. L'objectif de ce travail était de généraliser ensuite l'approche à des données plus relationnelles et pas seulement des graphes bipartis entre les utilisateurs et les items
The increasing use of social and sensor networks generates a large quantity of data that can be represented as complex graphs. There are many tasks from information analysis, to prediction and retrieval one can imagine on those data where relation between graph nodes should be informative. In this thesis, we proposed different models for three different tasks: - Graph node classification - Relational time series forecasting - Collaborative filtering. All the proposed models use the representation learning framework in its deterministic or Gaussian variant. First, we proposed two algorithms for the heterogeneous graph labeling task, one using deterministic representations and the other one Gaussian representations. Contrary to other state of the art models, our solution is able to learn edge weights when learning simultaneously the representations and the classifiers. Second, we proposed an algorithm for relational time series forecasting where the observations are not only correlated inside each series, but also across the different series. We use Gaussian representations in this contribution. This was an opportunity to see in which way using Gaussian representations instead of deterministic ones was profitable. At last, we apply the Gaussian representation learning approach to the collaborative filtering task. This is a preliminary work to see if the properties of Gaussian representations found on the two previous tasks were also verified for the ranking one. The goal of this work was to then generalize the approach to more relational data and not only bipartite graphs between users and items
APA, Harvard, Vancouver, ISO, and other styles
15

Lisena, Pasquale. "Knowledge-based music recommendation : models, algorithms and exploratory search." Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS614.

Full text
Abstract:
Représenter l'information décrivant la musique est une activité complexe, qui implique différentes sous-tâches. Ce manuscrit de thèse porte principalement sur la musique classique et étudie comment représenter et exploiter ses informations. L'objectif principal est l'étude de stratégies de représentation et de découverte des connaissances appliquées à la musique classique, dans des domaines tels que la production de base de connaissances, la prédiction de métadonnées et les systèmes de recommandation. Nous proposons une architecture pour la gestion des métadonnées de musique à l'aide des technologies du Web Sémantique. Nous introduisons une ontologie spécialisée et un ensemble de vocabulaires contrôlés pour les différents concepts spécifiques à la musique. Ensuite, nous présentons une approche de conversion des données, afin d’aller au-delà de la pratique bibliothécaire actuellement utilisée, en s’appuyant sur des règles de mapping et sur l’interconnexion avec des vocabulaires contrôlés. Enfin, nous montrons comment ces données peuvent être exploitées. En particulier, nous étudions des approches basées sur des plongements calculés sur des métadonnées structurées, des titres et de la musique symbolique pour classer et recommander de la musique. Plusieurs applications de démonstration ont été réalisées pour tester les approches et les ressources précédentes
Representing the information about music is a complex activity that involves different sub-tasks. This thesis manuscript mostly focuses on classical music, researching how to represent and exploit its information. The main goal is the investigation of strategies of knowledge representation and discovery applied to classical music, involving subjects such as Knowledge-Base population, metadata prediction, and recommender systems. We propose a complete workflow for the management of music metadata using Semantic Web technologies. We introduce a specialised ontology and a set of controlled vocabularies for the different concepts specific to music. Then, we present an approach for converting data, in order to go beyond the librarian practice currently in use, relying on mapping rules and interlinking with controlled vocabularies. Finally, we show how these data can be exploited. In particular, we study approaches based on embeddings computed on structured metadata, titles, and symbolic music for ranking and recommending music. Several demo applications have been realised for testing the previous approaches and resources
APA, Harvard, Vancouver, ISO, and other styles
16

Dos, Santos Ludovic. "Representation learning for relational data." Electronic Thesis or Diss., Paris 6, 2017. http://www.theses.fr/2017PA066480.

Full text
Abstract:
L'utilisation croissante des réseaux sociaux et de capteurs génère une grande quantité de données qui peuvent être représentées sous forme de graphiques complexes. Il y a de nombreuses tâches allant de l'analyse de l'information à la prédiction et à la récupération que l'on peut imaginer sur ces données où la relation entre les noeuds de graphes devrait être informative. Dans cette thèse, nous avons proposé différents modèles pour trois tâches différentes: - Classification des noeuds graphiques - Prévisions de séries temporelles relationnelles - Filtrage collaboratif. Tous les modèles proposés utilisent le cadre d'apprentissage de la représentation dans sa variante déterministe ou gaussienne. Dans un premier temps, nous avons proposé deux algorithmes pour la tâche de marquage de graphe hétérogène, l'un utilisant des représentations déterministes et l'autre des représentations gaussiennes. Contrairement à d'autres modèles de pointe, notre solution est capable d'apprendre les poids de bord lors de l'apprentissage simultané des représentations et des classificateurs. Deuxièmement, nous avons proposé un algorithme pour la prévision des séries chronologiques relationnelles où les observations sont non seulement corrélées à l'intérieur de chaque série, mais aussi entre les différentes séries. Nous utilisons des représentations gaussiennes dans cette contribution. C'était l'occasion de voir de quelle manière l'utilisation de représentations gaussiennes au lieu de représentations déterministes était profitable. Enfin, nous appliquons l'approche d'apprentissage de la représentation gaussienne à la tâche de filtrage collaboratif. Ceci est un travail préliminaire pour voir si les propriétés des représentations gaussiennes trouvées sur les deux tâches précédentes ont également été vérifiées pour le classement. L'objectif de ce travail était de généraliser ensuite l'approche à des données plus relationnelles et pas seulement des graphes bipartis entre les utilisateurs et les items
The increasing use of social and sensor networks generates a large quantity of data that can be represented as complex graphs. There are many tasks from information analysis, to prediction and retrieval one can imagine on those data where relation between graph nodes should be informative. In this thesis, we proposed different models for three different tasks: - Graph node classification - Relational time series forecasting - Collaborative filtering. All the proposed models use the representation learning framework in its deterministic or Gaussian variant. First, we proposed two algorithms for the heterogeneous graph labeling task, one using deterministic representations and the other one Gaussian representations. Contrary to other state of the art models, our solution is able to learn edge weights when learning simultaneously the representations and the classifiers. Second, we proposed an algorithm for relational time series forecasting where the observations are not only correlated inside each series, but also across the different series. We use Gaussian representations in this contribution. This was an opportunity to see in which way using Gaussian representations instead of deterministic ones was profitable. At last, we apply the Gaussian representation learning approach to the collaborative filtering task. This is a preliminary work to see if the properties of Gaussian representations found on the two previous tasks were also verified for the ranking one. The goal of this work was to then generalize the approach to more relational data and not only bipartite graphs between users and items
APA, Harvard, Vancouver, ISO, and other styles
17

Boutalbi, Rafika. "Model-based tensor (co)-clustering and applications." Electronic Thesis or Diss., Université Paris Cité, 2020. https://wo.app.u-paris.fr/cgi-bin/WebObjects/TheseWeb.woa/wa/show?t=7172&f=55867.

Full text
Abstract:
La classification non supervisée ou clustering suscite un grand intérêt dans la communauté d’apprentissage machine. Etant donné un ensemble d'objets décrits par un ensemble d'attributs, le clustering vise à partitionner l'ensemble des objets en classes homogènes. Le regroupement ou catégorisation de cet ensemble, est souvent nécessaire pour le traitement de données massives, devenu actuellement un axe de recherche prioritaire. A noter que lorsqu'on s'intéresse au clustering, nous faisons généralement référence au clustering de l'ensemble des objets. Depuis deux décennies, un intérêt est porté à la classification croisée (ou co-clustering) qui permet de regrouper simultanément les lignes et les colonnes d'une matrice de données. Le co-clustering conduit de ce fait à une réorganisation des données en blocs homogènes (après permutations appropriées). Cette approche joue un rôle important dans une grande variété d'applications où les données sont généralement organisées dans des tableaux à double entrées. Cependant si on considère l’exemple du clustering d’articles, nous pouvons collecter plusieurs informations telles que les termes en commun, les co-auteurs et les citations, qui conduisent naturellement à une représentation tensorielle. L'exploitation d'un tel tenseur d'ordre 3 permettrait d'améliorer les résultats de clustering d'un des ensembles. Ainsi, deux articles qui partagent un ensemble important de mots en commun, qui ont des auteurs en commun et qui partagent une bibliographie commune, sont très susceptibles de traiter d'une même thématique. Dans cette thèse nous nous intéressons à de telles structures de données. Malgré le grand intérêt pour le co-clustering et la représentation tensorielle, peu de travaux portent sur le co-clustering de tenseurs. Nous pouvons néanmoins citer le travail basé sur l’information Minimum Bregman (MBI), ou encore la méthode de co-clustering de tenseurs non négatifs GTSC (General Tensor Spectral Co-Clustering). Mais la majorité des travaux considèrent le co-clustering à partir de méthodes de factorisation tensorielles. Dans cette thèse nous proposons de nouvelles approches probabilistes pour le co-clustering de tenseur d'ordre 3. Dès lors plusieurs défis sont à relever dont les suivants. Comment gérer efficacement les données de grande dimension ? Comment gérer la sparsité des données et exploiter les dépendances inter-tranches des données tensorielles ? S'inspirant de la célèbre citation de Jean Paul Benzcri "Le modèle doit suivre les données et non l’inverse", nous avons choisi dans cette thèse de nous appuyer sur des modèles de mélange appropriés. Ainsi, nos contributions sont basées sur le modèle des blocs latents ou (LBM, Latent Block Model) pour le co-clustering, proposé pour la première fois par Govaert et al. Voici une brève description des différentes contributions : a) Extension du formalisme des LBM au co-clustering des données tensorielles et présentation d'un nouveau modèle Tensor LBM (TLBM) comme solution, b) Proposition d'un Sparse TLBM prenant en compte la sparsité et son extension pour la gestion des graphes multiples ou graphes multi-vues, et c) Développement d'une méthode de co-clusterwise qui intègre le co-clustering dans un cadre d'apprentissage supervisé. Ces contributions ont été évaluées avec succès sur des données tensorielles issues de divers domaines allant des systèmes de recommandation, le clustering d'images hyperspectrales, la catégorisation de documents, à l'optimisation de la gestion des déchets. Elles permettent également d'envisager des pistes de recherches futures intéressantes et immédiates. Par exemple, l'extension du modèle proposé au tri-clustering et aux séries temporelles multivariées
Clustering, which seeks to group together similar data points according to a given criterion, is an important unsupervised learning technique to deal with large scale data. In particular, given a data matrix where rows represent objects and columns represent features, clustering aims to partition only one dimension of the matrix at a time, by clustering either objects or features. Although successfully applied in several application domains, clustering techniques are often challenged by certain characteristics exhibited by some datasets such as high dimensionality and sparsity. When it comes to such data, co-clustering techniques, which allow the simultaneous clustering of rows and columns of a data matrix, has proven to be more beneficial. In particular, co-clustering techniques allow the exploitation of the inherent duality between the objects set and features set, which make them more effective even if we are interested in the clustering of only one dimension of our data matrix. In addition, co-clustering turns out to be more efficient since compressed matrices are used at each time step of the process instead of the whole matrix for traditional clustering. Although co-clustering approaches have been successfully applied in a variety of applications, existing approaches are specially tailored for datasets represented by double-entry tables. However, in several real-world applications, two dimensions are not sufficient to represent the dataset. For example, if we consider the articles clustering problem, several information linked to the articles can be collected, such as common words, co-authors and citations, which naturally lead to a tensorial representation. Intuitively, leveraging all this information would lead to a better clustering quality. In particular, two articles that share a large set of words, authors and citations are very likely to be similar. Despite the great interest of tensor co-clustering models, research works are extremely limited in this context and rely, for most of them, on tensor factorization methods. Inspired by the famous statement made by Jean Paul Benzécri "The model must follow the data and not vice versa", we have chosen in this thesis to rely on appropriate mixture models. More explicitly, we propose several new co-clustering models which are specially tailored for tensorial representations as well as robust towards data sparsity. Our contribution can be summarized as follows. First, we propose to extend the LBM (Latent Block Model) formalism to take into account tensorial structures. More specifically, we present Tensor LBM (TLBM), a powerful tensor co-clustering model that we successfully applied on diverse kind of data. Moreover, we highlight that the derived algorithm VEM-T, reveals the most meaningful co-clusters from tensor data. Second, we develop a novel Sparse TLBM taking into account sparsity. We extend its use for the management of multiple graphs (or multi-view graphs), leading to implicit consensus clustering of multiple graphs. As a last contribution of this thesis, we propose a new co-clusterwise method which integrates co-clustering in a supervised learning framework. These contributions have been successfully evaluated on tensorial data from various fields ranging from recommendation systems, clustering of hyperspectral images and categorization of documents, to waste management optimization. They also allow us to envisage interesting and immediate future research avenues. For instance, the extension of the proposed models to tri-clustering and multivariate time series
APA, Harvard, Vancouver, ISO, and other styles
18

Todeschini, Adrien. "Probabilistic and Bayesian nonparametric approaches for recommender systems and networks." Thesis, Bordeaux, 2016. http://www.theses.fr/2016BORD0237/document.

Full text
Abstract:
Nous proposons deux nouvelles approches pour les systèmes de recommandation et les réseaux. Dans la première partie, nous donnons d’abord un aperçu sur les systèmes de recommandation avant de nous concentrer sur les approches de rang faible pour la complétion de matrice. En nous appuyant sur une approche probabiliste, nous proposons de nouvelles fonctions de pénalité sur les valeurs singulières de la matrice de rang faible. En exploitant une représentation de modèle de mélange de cette pénalité, nous montrons qu’un ensemble de variables latentes convenablement choisi permet de développer un algorithme espérance-maximisation afin d’obtenir un maximum a posteriori de la matrice de rang faible complétée. L’algorithme résultant est un algorithme à seuillage doux itératif qui adapte de manière itérative les coefficients de réduction associés aux valeurs singulières. L’algorithme est simple à mettre en œuvre et peut s’adapter à de grandes matrices. Nous fournissons des comparaisons numériques entre notre approche et de récentes alternatives montrant l’intérêt de l’approche proposée pour la complétion de matrice à rang faible. Dans la deuxième partie, nous présentons d’abord quelques prérequis sur l’approche bayésienne non paramétrique et en particulier sur les mesures complètement aléatoires et leur extension multivariée, les mesures complètement aléatoires composées. Nous proposons ensuite un nouveau modèle statistique pour les réseaux creux qui se structurent en communautés avec chevauchement. Le modèle est basé sur la représentation du graphe comme un processus ponctuel échangeable, et généralise naturellement des modèles probabilistes existants à structure en blocs avec chevauchement au régime creux. Notre construction s’appuie sur des vecteurs de mesures complètement aléatoires, et possède des paramètres interprétables, chaque nœud étant associé un vecteur représentant son niveau d’affiliation à certaines communautés latentes. Nous développons des méthodes pour simuler cette classe de graphes aléatoires, ainsi que pour effectuer l’inférence a posteriori. Nous montrons que l’approche proposée peut récupérer une structure interprétable à partir de deux réseaux du monde réel et peut gérer des graphes avec des milliers de nœuds et des dizaines de milliers de connections
We propose two novel approaches for recommender systems and networks. In the first part, we first give an overview of recommender systems and concentrate on the low-rank approaches for matrix completion. Building on a probabilistic approach, we propose novel penalty functions on the singular values of the low-rank matrix. By exploiting a mixture model representation of this penalty, we show that a suitably chosen set of latent variables enables to derive an expectation-maximization algorithm to obtain a maximum a posteriori estimate of the completed low-rank matrix. The resulting algorithm is an iterative soft-thresholded algorithm which iteratively adapts the shrinkage coefficients associated to the singular values. The algorithm is simple to implement and can scale to large matrices. We provide numerical comparisons between our approach and recent alternatives showing the interest of the proposed approach for low-rank matrix completion. In the second part, we first introduce some background on Bayesian nonparametrics and in particular on completely random measures (CRMs) and their multivariate extension, the compound CRMs. We then propose a novel statistical model for sparse networks with overlapping community structure. The model is based on representing the graph as an exchangeable point process, and naturally generalizes existing probabilistic models with overlapping block-structure to the sparse regime. Our construction builds on vectors of CRMs, and has interpretable parameters, each node being assigned a vector representing its level of affiliation to some latent communities. We develop methods for simulating this class of random graphs, as well as to perform posterior inference. We show that the proposed approach can recover interpretable structure from two real-world networks and can handle graphs with thousands of nodes and tens of thousands of edges
APA, Harvard, Vancouver, ISO, and other styles
19

Salah, Aghiles. "Von Mises-Fisher based (co-)clustering for high-dimensional sparse data : application to text and collaborative filtering data." Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCB093/document.

Full text
Abstract:
La classification automatique, qui consiste à regrouper des objets similaires au sein de groupes, également appelés classes ou clusters, est sans aucun doute l’une des méthodes d’apprentissage non-supervisé les plus utiles dans le contexte du Big Data. En effet, avec l’expansion des volumes de données disponibles, notamment sur le web, la classification ne cesse de gagner en importance dans le domaine de la science des données pour la réalisation de différentes tâches, telles que le résumé automatique, la réduction de dimension, la visualisation, la détection d’anomalies, l’accélération des moteurs de recherche, l’organisation d’énormes ensembles de données, etc. De nombreuses méthodes de classification ont été développées à ce jour, ces dernières sont cependant fortement mises en difficulté par les caractéristiques complexes des ensembles de données que l’on rencontre dans certains domaines d’actualité tel que le Filtrage Collaboratif (FC) et de la fouille de textes. Ces données, souvent représentées sous forme de matrices, sont de très grande dimension (des milliers de variables) et extrêmement creuses (ou sparses, avec plus de 95% de zéros). En plus d’être de grande dimension et sparse, les données rencontrées dans les domaines mentionnés ci-dessus sont également de nature directionnelles. En effet, plusieurs études antérieures ont démontré empiriquement que les mesures directionnelles, telle que la similarité cosinus, sont supérieurs à d’autres mesures, telle que la distance Euclidiennes, pour la classification des documents textuels ou pour mesurer les similitudes entre les utilisateurs/items dans le FC. Cela suggère que, dans un tel contexte, c’est la direction d’un vecteur de données (e.g., représentant un document texte) qui est pertinente, et non pas sa longueur. Il est intéressant de noter que la similarité cosinus est exactement le produit scalaire entre des vecteurs unitaires (de norme 1). Ainsi, d’un point de vue probabiliste l’utilisation de la similarité cosinus revient à supposer que les données sont directionnelles et réparties sur la surface d’une hypersphère unité. En dépit des nombreuses preuves empiriques suggérant que certains ensembles de données sparses et de grande dimension sont mieux modélisés sur une hypersphère unité, la plupart des modèles existants dans le contexte de la fouille de textes et du FC s’appuient sur des hypothèses populaires : distributions Gaussiennes ou Multinomiales, qui sont malheureusement inadéquates pour des données directionnelles. Dans cette thèse, nous nous focalisons sur deux challenges d’actualité, à savoir la classification des documents textuels et la recommandation d’items, qui ne cesse d’attirer l’attention dans les domaines de la fouille de textes et celui du filtrage collaborative, respectivement. Afin de répondre aux limitations ci-dessus, nous proposons une série de nouveaux modèles et algorithmes qui s’appuient sur la distribution de von Mises-Fisher (vMF) qui est plus appropriée aux données directionnelles distribuées sur une hypersphère unité
Cluster analysis or clustering, which aims to group together similar objects, is undoubtedly a very powerful unsupervised learning technique. With the growing amount of available data, clustering is increasingly gaining in importance in various areas of data science for several reasons such as automatic summarization, dimensionality reduction, visualization, outlier detection, speed up research engines, organization of huge data sets, etc. Existing clustering approaches are, however, severely challenged by the high dimensionality and extreme sparsity of the data sets arising in some current areas of interest, such as Collaborative Filtering (CF) and text mining. Such data often consists of thousands of features and more than 95% of zero entries. In addition to being high dimensional and sparse, the data sets encountered in the aforementioned domains are also directional in nature. In fact, several previous studies have empirically demonstrated that directional measures—that measure the distance between objects relative to the angle between them—, such as the cosine similarity, are substantially superior to other measures such as Euclidean distortions, for clustering text documents or assessing the similarities between users/items in CF. This suggests that in such context only the direction of a data vector (e.g., text document) is relevant, not its magnitude. It is worth noting that the cosine similarity is exactly the scalar product between unit length data vectors, i.e., L 2 normalized vectors. Thus, from a probabilistic perspective using the cosine similarity is equivalent to assuming that the data are directional data distributed on the surface of a unit-hypersphere. Despite the substantial empirical evidence that certain high dimensional sparse data sets, such as those encountered in the above domains, are better modeled as directional data, most existing models in text mining and CF are based on popular assumptions such as Gaussian, Multinomial or Bernoulli which are inadequate for L 2 normalized data. In this thesis, we focus on the two challenging tasks of text document clustering and item recommendation, which are still attracting a lot of attention in the domains of text mining and CF, respectively. In order to address the above limitations, we propose a suite of new models and algorithms which rely on the von Mises-Fisher (vMF) assumption that arises naturally for directional data lying on a unit-hypersphere
APA, Harvard, Vancouver, ISO, and other styles
20

Salah, Aghiles. "Von Mises-Fisher based (co-)clustering for high-dimensional sparse data : application to text and collaborative filtering data." Electronic Thesis or Diss., Sorbonne Paris Cité, 2016. https://wo.app.u-paris.fr/cgi-bin/WebObjects/TheseWeb.woa/wa/show?t=1858&f=11557.

Full text
Abstract:
La classification automatique, qui consiste à regrouper des objets similaires au sein de groupes, également appelés classes ou clusters, est sans aucun doute l’une des méthodes d’apprentissage non-supervisé les plus utiles dans le contexte du Big Data. En effet, avec l’expansion des volumes de données disponibles, notamment sur le web, la classification ne cesse de gagner en importance dans le domaine de la science des données pour la réalisation de différentes tâches, telles que le résumé automatique, la réduction de dimension, la visualisation, la détection d’anomalies, l’accélération des moteurs de recherche, l’organisation d’énormes ensembles de données, etc. De nombreuses méthodes de classification ont été développées à ce jour, ces dernières sont cependant fortement mises en difficulté par les caractéristiques complexes des ensembles de données que l’on rencontre dans certains domaines d’actualité tel que le Filtrage Collaboratif (FC) et de la fouille de textes. Ces données, souvent représentées sous forme de matrices, sont de très grande dimension (des milliers de variables) et extrêmement creuses (ou sparses, avec plus de 95% de zéros). En plus d’être de grande dimension et sparse, les données rencontrées dans les domaines mentionnés ci-dessus sont également de nature directionnelles. En effet, plusieurs études antérieures ont démontré empiriquement que les mesures directionnelles, telle que la similarité cosinus, sont supérieurs à d’autres mesures, telle que la distance Euclidiennes, pour la classification des documents textuels ou pour mesurer les similitudes entre les utilisateurs/items dans le FC. Cela suggère que, dans un tel contexte, c’est la direction d’un vecteur de données (e.g., représentant un document texte) qui est pertinente, et non pas sa longueur. Il est intéressant de noter que la similarité cosinus est exactement le produit scalaire entre des vecteurs unitaires (de norme 1). Ainsi, d’un point de vue probabiliste l’utilisation de la similarité cosinus revient à supposer que les données sont directionnelles et réparties sur la surface d’une hypersphère unité. En dépit des nombreuses preuves empiriques suggérant que certains ensembles de données sparses et de grande dimension sont mieux modélisés sur une hypersphère unité, la plupart des modèles existants dans le contexte de la fouille de textes et du FC s’appuient sur des hypothèses populaires : distributions Gaussiennes ou Multinomiales, qui sont malheureusement inadéquates pour des données directionnelles. Dans cette thèse, nous nous focalisons sur deux challenges d’actualité, à savoir la classification des documents textuels et la recommandation d’items, qui ne cesse d’attirer l’attention dans les domaines de la fouille de textes et celui du filtrage collaborative, respectivement. Afin de répondre aux limitations ci-dessus, nous proposons une série de nouveaux modèles et algorithmes qui s’appuient sur la distribution de von Mises-Fisher (vMF) qui est plus appropriée aux données directionnelles distribuées sur une hypersphère unité
Cluster analysis or clustering, which aims to group together similar objects, is undoubtedly a very powerful unsupervised learning technique. With the growing amount of available data, clustering is increasingly gaining in importance in various areas of data science for several reasons such as automatic summarization, dimensionality reduction, visualization, outlier detection, speed up research engines, organization of huge data sets, etc. Existing clustering approaches are, however, severely challenged by the high dimensionality and extreme sparsity of the data sets arising in some current areas of interest, such as Collaborative Filtering (CF) and text mining. Such data often consists of thousands of features and more than 95% of zero entries. In addition to being high dimensional and sparse, the data sets encountered in the aforementioned domains are also directional in nature. In fact, several previous studies have empirically demonstrated that directional measures—that measure the distance between objects relative to the angle between them—, such as the cosine similarity, are substantially superior to other measures such as Euclidean distortions, for clustering text documents or assessing the similarities between users/items in CF. This suggests that in such context only the direction of a data vector (e.g., text document) is relevant, not its magnitude. It is worth noting that the cosine similarity is exactly the scalar product between unit length data vectors, i.e., L 2 normalized vectors. Thus, from a probabilistic perspective using the cosine similarity is equivalent to assuming that the data are directional data distributed on the surface of a unit-hypersphere. Despite the substantial empirical evidence that certain high dimensional sparse data sets, such as those encountered in the above domains, are better modeled as directional data, most existing models in text mining and CF are based on popular assumptions such as Gaussian, Multinomial or Bernoulli which are inadequate for L 2 normalized data. In this thesis, we focus on the two challenging tasks of text document clustering and item recommendation, which are still attracting a lot of attention in the domains of text mining and CF, respectively. In order to address the above limitations, we propose a suite of new models and algorithms which rely on the von Mises-Fisher (vMF) assumption that arises naturally for directional data lying on a unit-hypersphere
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography