Academic literature on the topic 'Web document clustering (WDC)'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Web document clustering (WDC).'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Journal articles on the topic "Web document clustering (WDC)"

1

Im, Yeong-Hui. "A Post Web Document Clustering Algorithm." KIPS Transactions:PartB 9B, no. 1 (February 1, 2002): 7–16. http://dx.doi.org/10.3745/kipstb.2002.9b.1.007.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

He, Xiaofeng, Hongyuan Zha, Chris H.Q. Ding, and Horst D. Simon. "Web document clustering using hyperlink structures." Computational Statistics & Data Analysis 41, no. 1 (November 2002): 19–45. http://dx.doi.org/10.1016/s0167-9473(02)00070-1.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Hammouda, K. M., and M. S. Kamel. "Efficient phrase-based document indexing for Web document clustering." IEEE Transactions on Knowledge and Data Engineering 16, no. 10 (October 2004): 1279–96. http://dx.doi.org/10.1109/tkde.2004.58.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Rani Manukonda, Sumathi, Asst Prof Kmit, Narayanguda ., Hyderabad ., Nomula Divya, Asst Prof Cmrit, Medchal ., and Hyderabad . "Efficient Document Clustering for Web Search Result." International Journal of Engineering & Technology 7, no. 3.3 (June 21, 2018): 90. http://dx.doi.org/10.14419/ijet.v7i3.3.14494.

Full text
Abstract:
Clustering the document in data mining is one of the traditional approach in which the same documents that are more relevant are grouped together. Document clustering take part in achieving accuracy that retrieve information for systems that identifies the nearest neighbors of the document. Day to day the massive quantity of data is being generated and it is clustered. According to particular sequence to improve the cluster qualityeven though different clustering methods have been introduced, still many challenges exist for the improvement of document clustering. For web search purposea document in group is efficiently arranged for the result retrieval.The users accordingly search query in an organized way. Hierarchical clustering is attained by document clustering.To the greatest algorithms for groupingdo not concentrate on the semantic approach, hence resulting to the unsatisfactory output clustering. The involuntary approach of organizing documents of web like Google, Yahoo is often considered as a reference. A distinct method to identify the existing group of similar things in the previously organized documents and retrieves effective document classifier for new documents. In this paper the main concentration is on hierarchical clustering and k-means algorithms, hence prove that k-means and its variant are efficient than hierarchical clustering along with this by implementing greedy fast k-means algorithm (GFA) for cluster document in efficient way is considered.
APA, Harvard, Vancouver, ISO, and other styles
5

Creţulescu, Radu G., Daniel I. Morariu, Macarie Breazu, and Daniel Volovici. "DBSCAN Algorithm for Document Clustering." International Journal of Advanced Statistics and IT&C for Economics and Life Sciences 9, no. 1 (June 1, 2019): 58–66. http://dx.doi.org/10.2478/ijasitels-2019-0007.

Full text
Abstract:
AbstractDocument clustering is a problem of automatically grouping similar document into categories based on some similarity metrics. Almost all available data, usually on the web, are unclassified so we need powerful clustering algorithms that work with these types of data. All common search engines return a list of pages relevant to the user query. This list needs to be generated fast and as correct as possible. For this type of problems, because the web pages are unclassified, we need powerful clustering algorithms. In this paper we present a clustering algorithm called DBSCAN – Density-Based Spatial Clustering of Applications with Noise – and its limitations on documents (or web pages) clustering. Documents are represented using the “bag-of-words” representation (word occurrence frequency). For this type o representation usually a lot of algorithms fail. In this paper we use Information Gain as feature selection method and evaluate the DBSCAN algorithm by its capacity to integrate in the clusters all the samples from the dataset.
APA, Harvard, Vancouver, ISO, and other styles
6

Shen Huang, Zheng Chen, Yong Yu, and Wei-Ying Ma. "Multitype features coselection for Web document clustering." IEEE Transactions on Knowledge and Data Engineering 18, no. 4 (April 2006): 448–59. http://dx.doi.org/10.1109/tkde.2006.1599384.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Chan, Samuel W. K., and Mickey W. C. Chong. "Unsupervised clustering for nontextual web document classification." Decision Support Systems 37, no. 3 (June 2004): 377–96. http://dx.doi.org/10.1016/s0167-9236(03)00035-6.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Boley, Daniel, Maria Gini, Robert Gross, Eui-Hong (Sam) Han, Kyle Hastings, George Karypis, Vipin Kumar, Bamshad Mobasher, and Jerome Moore. "Partitioning-based clustering for Web document categorization." Decision Support Systems 27, no. 3 (December 1999): 329–41. http://dx.doi.org/10.1016/s0167-9236(99)00055-x.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Su, Zhong, Qiang Yang, Hongjiang Zhang, Xiaowei Xu, Yu-Hen Hu, and Shaoping Ma. "Correlation-Based Web Document Clustering for Adaptive Web Interface Design." Knowledge and Information Systems 4, no. 2 (April 2002): 151–67. http://dx.doi.org/10.1007/s101150200002.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Chawla, Suruchi. "Application of Convolution Neural Networks in Web Search Log Mining for Effective Web Document Clustering." International Journal of Information Retrieval Research 12, no. 1 (January 2022): 1–14. http://dx.doi.org/10.4018/ijirr.300367.

Full text
Abstract:
The volume of web search data stored in search engine log is increasing and has become big search log data. The web search log has been the source of data for mining based on web document clustering techniques to improve the efficiency and effectiveness of information retrieval. In this paper Deep Learning Model Convolution Neural Network(CNN) is used in big web search log data mining to learn the semantic representation of a document. These semantic documents vectors are clustered using K-means to group relevant documents for effective web document clustering. Experiment was done on the data set of web search query and associated clicked URLs to measure the quality of clusters based on document semantic representation using Deep learning model CNN. The clusters analysis was performed based on WCSS(the sum of squared distances of documents samples to their closest cluster center) and decrease in the WCSS in comparison to TF.IDF keyword based clusters confirm the effectiveness of CNN in web search log mining for effective web document clustering.
APA, Harvard, Vancouver, ISO, and other styles

Dissertations / Theses on the topic "Web document clustering (WDC)"

1

Coquet, Jean. "Étude exhaustive de voies de signalisation de grande taille par clustering des trajectoires et caractérisation par analyse sémantique." Thesis, Rennes 1, 2017. http://www.theses.fr/2017REN1S073/document.

Full text
Abstract:
Les voies de signalisation décrivent les réponses d'une cellule à des stimuli externes. Elles sont primordiales dans les processus biologiques tels que la différentiation, la prolifération ou encore l'apoptose. La biologie des systèmes tentent d'étudier ces voies de façon exhaustive à partir de modèles statistiques ou dynamiques. Le nombre de solutions expliquant un phénomène biologique (par exemple la réaction d'une cellule à un stimulus) peut être très élevé dans le cas de grands modèles. Cette thèse propose, dans un premier temps, différentes stratégies de regroupement de ces solutions à partir de méthodes de clustering et d'analyse de concepts formels. Puis elle présente la caractérisation de ces regroupements à partir de web sémantique. Ces stratégies ont été appliquées au réseau de signalisation du TGF-beta, un stimulus extra-cellulaire jouant un rôle important dans le développement du cancer, ce qui a permis d'identifier cinq grands groupes de trajectoires participant chacun à des processus biologiques différents. Dans un second temps, cette thèse se confronte au problème de conversion des données hétérogènes provenant de différentes bases dans un formalisme unique afin de pouvoir généraliser l'étude précédente. Elle propose une stratégie permettant de regrouper les différents réseaux de signalisation provenant d'une base de données en un modèle unique et ainsi permettant de calculer toutes les trajectoires de signalisation d'un stimulus
Signaling pathways describe the extern stimuli responses of a cell. They are indispensable in biological processes such as differentiation, proliferation or apoptosis. The Systems Biology tries to study exhaustively the signalling pathways using static or dynamic models. The number of solutions which explain a biological phenomenon (for example the stimulus reaction of cell) can be very high in large models. First, this thesis proposes some different strategies to group the solutions describing the stimulus signalling with clustering methods and Formal Concept Analysis. Then, it presents the cluster characterization with semantic web methods. Those strategies have been applied to the TGF-beta signaling network, an extracellular stimulus playing an important role in the cancer growing, which helped to identify 5 large groups of trajectories characterized by different biological processes. Next, this thesis confronts the problem of heterogeneous data translation from different bases to a unique formalism. The goal is to be able to generalize the previous study. It proposes a strategy to group signaling pathways of a database to an unique model, then to calculate every signaling trajectory of the stimulus
APA, Harvard, Vancouver, ISO, and other styles
2

Roussinov, Dmitri G., and Hsinchun Chen. "Document clustering for electronic meetings: an experimental comparison of two techniques." Elsevier, 1999. http://hdl.handle.net/10150/105091.

Full text
Abstract:
Artificial Intelligence Lab, Department of MIS, University of Arizona
In this article, we report our implementation and comparison of two text clustering techniques. One is based on Wardâ s clustering and the other on Kohonenâ s Self-organizing Maps. We have evaluated how closely clusters produced by a computer resemble those created by human experts. We have also measured the time that it takes for an expert to â â clean upâ â the automatically produced clusters. The technique based on Wardâ s clustering was found to be more precise. Both techniques have worked equally well in detecting associations between text documents. We used text messages obtained from group brainstorming meetings.
APA, Harvard, Vancouver, ISO, and other styles
3

Kellou-Menouer, Kenza. "Découverte de schéma pour les données du Web sémantique." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV047/document.

Full text
Abstract:
Un nombre croissant de sources de données interconnectées sont publiées sur le Web. Cependant, leur schéma peut êtreincomplet ou absent. De plus, les données ne sont pas nécessairement conformes au schéma déclaré. Ce qui rend leur exploitation complexe. Dans cette thèse, nous proposons une approche d’extraction automatique et incrémentale du schéma d’une source à partir de la structure implicite de ses données. Afin decompléter la description des types découverts, nous proposons également une approche de découverte des patterns structurels d’un type. L’approche procède en ligne sans avoir à télécharger ou à parcourir la source. Ce quipeut être coûteux voire impossible car les sources sont interrogées à distance et peuvent imposer des contraintes d’accès, notamment en termes de temps ou de nombre de requêtes. Nous avons abordé le problème de l’annotationafin de trouver pour chaque type un ensemble de labels permettant de rendre compte de sonsens. Nous avons proposé des algorithmes d’annotation qui retrouvent le sens d’un type en utilisant des sources de données de références. Cette approche s’applique aussi bien pour trouver des noms pertinents pour les typesdécouverts que pour enrichir la description des types existants. Enfin, nous nous sommes intéressés à caractériser la conformité entre les données d’une source et le schéma qui les décrit. Nous avons proposé une approche pour l'analyse et l'amélioration de cette conformité et nous avons proposé des facteurs de qualité, les métriques associées, ainsi qu'une extension du schéma permettant de refléter l'hétérogénéité entre les instances d'un type
An increasing number of linked data sources are published on the Web. However, their schema may be incomplete or missing. In addition, data do not necessarily follow their schema. This flexibility for describing the data eases their evolution, but makes their exploitation more complex. In our work, we have proposed an automatic and incremental approach enabling schema discovery from the implicit structure of the data. To complement the description of the types in a schema, we have also proposed an approach for finding the possible versions (patterns) for each of them. It proceeds online without having to download or browse the source. This can be expensive or even impossible because the sources may have some access limitations, either on the query execution time, or on the number of queries.We have also addressed the problem of annotating the types in a schema, which consists in finding a set of labels capturing their meaning. We have proposed annotation algorithms which provide meaningful labels using external knowledge bases. Our approach can be used to find meaningful type labels during schema discovery, and also to enrichthe description of existing types.Finally, we have proposed an approach to evaluate the gap between a data source and itsschema. To this end, we have proposed a setof quality factors and the associated metrics, aswell as a schema extension allowing to reflect the heterogeneity among instances of the sametype. Both factors and schema extension are used to analyze and improve the conformity between a schema and the instances it describes
APA, Harvard, Vancouver, ISO, and other styles
4

Zanghi, Hugo. "Approches modèles pour la structuration du web vu comme un graphe." Thesis, Evry-Val d'Essonne, 2010. http://www.theses.fr/2010EVRY0041/document.

Full text
Abstract:
L’analyse statistique des réseaux complexes est une tâche difficile, étant donné que des modèles statistiques appropriés et des procédures de calcul efficaces sont nécessaires afin d’apprendre les structures sous-jacentes. Le principe de ces modèles est de supposer que la distribution des valeurs des arêtes suit une distribution paramétrique, conditionnellement à une structure latente qui est utilisée pour détecter les formes de connectivité. Cependant, ces méthodes souffrent de procédures d’estimation relativement lentes, puisque les dépendances sont complexes. Dans cette thèse nous adaptons des stratégies d’estimation incrémentales, développées à l’origine pour l’algorithme EM, aux modèles de graphes. Additionnellement aux données de réseau utilisées dans les méthodes mentionnées ci-dessus, le contenu des noeuds est parfois disponible. Nous proposons ainsi des algorithmes de partitionnement pour les ensembles de données pouvant être modélisés avec une structure de graphe incorporant de l’information au sein des sommets. Finalement,un service Web en ligne, basé sur le moteur de recherche d’ Exalead, permet de promouvoir certains aspects de cette thèse
He statistical analysis of complex networks is a challenging task, given that appropriate statistical models and efficient computational procedures are required in order for structures to be learned. The principle of these models is to assume that the distribution of the edge values follows a parametric distribution, conditionally on a latent structure which is used to detect connectivity patterns. However, these methods suffer from relatively slow estimation procedures, since dependencies are complex. In this thesis we adapt online estimation strategies, originally developed for the EM algorithm, to the case of graph models. In addition to the network data used in the methods mentioned above, vertex content will sometimes be available. We then propose algorithms for clustering data sets that can be modeled with a graph structure embedding vertex features. Finally, an online Web application, based on the Exalead search engine, allows to promote certain aspects of this thesis
APA, Harvard, Vancouver, ISO, and other styles
5

Qumsiyeh, Rani Majed. "Easy to Find: Creating Query-Based Multi-Document Summaries to Enhance Web Search." BYU ScholarsArchive, 2011. https://scholarsarchive.byu.edu/etd/2713.

Full text
Abstract:
Current web search engines, such as Google, Yahoo!, and Bing, rank the set of documents S retrieved in response to a user query Q and display each document with a title and a snippet, which serves as an abstract of the corresponding document in S. Snippets, however, are not as useful as they are designed for, i.e., to assist search engine users to quickly identify results of interest, if they exist, without browsing through the documents in S, since they (i) often include very similar information and (ii) do not capture the main content of the corresponding documents. Moreover, when the intended information need specified in a search query is ambiguous, it is difficult, if not impossible, for a search engine to identify precisely the set of documents that satisfy the user's intended request. Furthermore, a document title retrieved by web search engines is not always a good indicator of the content of the corresponding document, since it is not always informative. All these design problems can be solved by our proposed query-based, web informative summarization engine, denoted Q-WISE. Q-WISE clusters documents in S, which allows users to view segregated document collections created according to the specific topic covered in each collection, and generates a concise/comprehensive summary for each collection/cluster of documents. Q-WISE is also equipped with a query suggestion module that provides a guide to its users in formulating a keyword query, which facilitates the web search and improves the precision and recall of the search results. Experimental results show that Q-WISE is highly effective and efficient in generating a high quality summary for each cluster of documents on a specific topic, retrieved in response to a Q-WISE user's query. The empirical study also shows that Q-WISE's clustering algorithm is highly accurate, labels generated for the clusters are useful and often reflect the topic of the corresponding clustered documents, and the performance of the query suggestion module of Q-WISE is comparable to commercial web search engines.
APA, Harvard, Vancouver, ISO, and other styles
6

Saoud, Zohra. "Approche robuste pour l’évaluation de la confiance des ressources sur le Web." Thesis, Lyon, 2016. http://www.theses.fr/2016LYSE1331/document.

Full text
Abstract:
Cette thèse en Informatique s'inscrit dans le cadre de gestion de la confiance et plus précisément des systèmes de recommandation. Ces systèmes sont généralement basés sur les retours d'expériences des utilisateurs (i.e., qualitatifs/quantitatifs) lors de l'utilisation des ressources sur le Web (ex. films, vidéos et service Web). Les systèmes de recommandation doivent faire face à trois types d'incertitude liés aux évaluations des utilisateurs, à leur identité et à la variation des performances des ressources au fil du temps. Nous proposons une approche robuste pour évaluer la confiance en tenant compte de ces incertitudes. Le premier type d'incertitude réfère aux évaluations. Cette incertitude provient de la vulnérabilité du système en présence d'utilisateurs malveillants fournissant des évaluations biaisées. Pour pallier cette incertitude, nous proposons un modèle flou de la crédibilité des évaluateurs. Ce modèle, basé sur la technique de clustering flou, permet de distinguer les utilisateurs malveillants des utilisateurs stricts habituellement exclus dans les approches existantes. Le deuxième type d'incertitude réfère à l'identité de l'utilisateur. En effet, un utilisateur malveillant a la possibilité de créer des identités virtuelles pour fournir plusieurs fausses évaluations. Pour contrecarrer ce type d'attaque dit Sybil, nous proposons un modèle de filtrage des évaluations, basé sur la crédibilité des utilisateurs et le graphe de confiance auquel ils appartiennent. Nous proposons deux mécanismes, l'un pour distribuer des capacités aux utilisateurs et l'autre pour sélectionner les utilisateurs à retenir lors de l'évaluation de la confiance. Le premier mécanisme permet de réduire le risque de faire intervenir des utilisateurs multi-identités. Le second mécanisme choisit des chemins dans le graphe de confiance contenant des utilisateurs avec des capacités maximales. Ces deux mécanismes utilisent la crédibilité des utilisateurs comme heuristique. Afin de lever l'incertitude sur l'aptitude d'une ressource à satisfaire les demandes des utilisateurs, nous proposons deux approches d'évaluation de la confiance d'une ressource sur leWeb, une déterministe et une probabiliste. La première consolide les différentes évaluations collectées en prenant en compte la crédibilité des évaluateurs. La deuxième s'appuie sur la théorie des bases de données probabilistes et la sémantique des mondes possibles. Les bases de données probabilistes offrent alors une meilleure représentation de l'incertitude sous-jacente à la crédibilité des utilisateurs et permettent aussi à travers des requêtes un calcul incertain de la confiance d'une ressource. Finalement, nous développons le système WRTrust (Web Resource Trust) implémentant notre approche d'évaluation de la confiance. Nous avons réalisé plusieurs expérimentations afin d'évaluer la performance et la robustesse de notre système. Les expérimentations ont montré une amélioration de la qualité de la confiance et de la robustesse du système aux attaques des utilisateurs malveillants
This thesis in Computer Science is part of the trust management field and more specifically recommendation systems. These systems are usually based on users’ experiences (i.e., qualitative / quantitative) interacting with Web resources (eg. Movies, videos and Web services). Recommender systems are undermined by three types of uncertainty that raise due to users’ ratings and identities that can be questioned and also due to variations in Web resources performance at run-time. We propose a robust approach for trust assessment under these uncertainties. The first type of uncertainty refers to users’ ratings. This uncertainty stems from the vulnerability of the system in the presence of malicious users providing false ratings. To tackle this uncertainty, we propose a fuzzy model for users’ credibility. This model uses a fuzzy clustering technique to distinguish between malicious users and strict users usually excluded in existing approaches. The second type of uncertainty refers to user’s identity. Indeed, a malicious user purposely creates virtual identities to provide false ratings. To tackle this type of attack known as Sybil, we propose a ratings filtering model based on the users’ credibility and the trust graph to which they belong. We propose two mechanisms, one for assigning capacities to users and the second one is for selecting users whose ratings will be retained when evaluating trust. The first mechanism reduces the attack capacity of Sybil users. The second mechanism chose paths in the trust graph including trusted users with maximum capacities. Both mechanisms use users’ credibility as heuristic. To deal with the uncertainty over the capacity of a Web resource in satisfying users’ requests, we propose two approaches for Web resources trust assessment, one deterministic and one probabilistic. The first consolidates users’ ratings taking into account users credibility values. The second relies on probability theory coupled with possible worlds semantics. Probabilistic databases offer a better representation of the uncertainty underlying users’ credibility and also permit an uncertain assessment of resources trust. Finally, we develop the system WRTrust (Web Resource Trust) implementing our trust assessment approach. We carried out several experiments to evaluate the performance and robustness of our system. The results show that trust quality has been significantly improved, as well as the system’s robustness in presence of false ratings attacks and Sybil attacks
APA, Harvard, Vancouver, ISO, and other styles
7

Ghenname, Mérième. "Le web social et le web sémantique pour la recommandation de ressources pédagogiques." Thesis, Saint-Etienne, 2015. http://www.theses.fr/2015STET4015/document.

Full text
Abstract:
Ce travail de recherche est conjointement effectué dans le cadre d’une cotutelle entre deux universités : en France l’Université Jean Monnet de Saint-Etienne, laboratoire Hubert Curien sous la supervision de Mme Frédérique Laforest, M. Christophe Gravier et M. Julien Subercaze, et au Maroc l’Université Mohamed V de Rabat, équipe LeRMA sous la supervision de Mme Rachida Ajhoun et Mme Mounia Abik. Les connaissances et les apprentissages sont des préoccupations majeures dans la société d’aujourd’hui. Les technologies de l’apprentissage humain visent à promouvoir, stimuler, soutenir et valider le processus d’apprentissage. Notre approche explore les opportunités soulevées en faisant coopérer le Web Social et le Web sémantique pour le e-learning. Plus précisément, nous travaillons sur l’enrichissement des profils des apprenants en fonction de leurs activités sur le Web Social. Le Web social peut être une source d’information très importante à explorer, car il implique les utilisateurs dans le monde de l’information et leur donne la possibilité de participer à la construction et à la diffusion de connaissances. Nous nous focalisons sur le suivi des différents types de contributions, dans les activités de collaboration spontanée des apprenants sur les réseaux sociaux. Le profil de l’apprenant est non seulement basé sur la connaissance extraite de ses activités sur le système de e-learning, mais aussi de ses nombreuses activités sur les réseaux sociaux. En particulier, nous proposons une méthodologie pour exploiter les hashtags contenus dans les écrits des utilisateurs pour la génération automatique des intérêts des apprenants dans le but d’enrichir leurs profils. Cependant les hashtags nécessitent un certain traitement avant d’être source de connaissances sur les intérêts des utilisateurs. Nous avons défini une méthode pour identifier la sémantique de hashtags et les relations sémantiques entre les significations des différents hashtags. Par ailleurs, nous avons défini le concept de Folksionary, comme un dictionnaire de hashtags qui pour chaque hashtag regroupe ses définitions en unités de sens. Les hashtags enrichis en sémantique sont donc utilisés pour nourrir le profil de l’apprenant de manière à personnaliser les recommandations sur le matériel d’apprentissage. L’objectif est de construire une représentation sémantique des activités et des intérêts des apprenants sur les réseaux sociaux afin d’enrichir leurs profils. Nous présentons également notre approche générale de recommandation multidimensionnelle dans un environnement d’e-learning. Nous avons conçu une approche fondée sur trois types de filtrage : le filtrage personnalisé à base du profil de l’apprenant, le filtrage social à partir des activités de l’apprenant sur les réseaux sociaux, et le filtrage local à partir des statistiques d’interaction de l’apprenant avec le système. Notre implémentation s’est focalisée sur la recommandation personnalisée
This work has been jointly supervised by U. Jean Monnet Saint Etienne, in the Hubert Curien Lab (Frederique Laforest, Christophe Gravier, Julien Subercaze) and U. Mohamed V Rabat, LeRMA ENSIAS (Rachida Ahjoun, Mounia Abik). Knowledge, education and learning are major concerns in today’s society. The technologies for human learning aim to promote, stimulate, support and validate the learning process. Our approach explores the opportunities raised by mixing the Social Web and the Semantic Web technologies for e-learning. More precisely, we work on discovering learners profiles from their activities on the social web. The Social Web can be a source of information, as it involves users in the information world and gives them the ability to participate in the construction and dissemination of knowledge. We focused our attention on tracking the different types of contributions, activities and conversations in learners spontaneous collaborative activities on social networks. The learner profile is not only based on the knowledge extracted from his/her activities on the e-learning system, but also from his/her many activities on social networks. We propose a methodology for exploiting hashtags contained in users’ writings for the automatic generation of learner’s semantic profiles. Hashtags require some processing before being source of knowledge on the user interests. We have defined a method to identify semantics of hashtags and semantic relationships between the meanings of different hashtags. By the way, we have defined the concept of Folksionary, as a hashtags dictionary that for each hashtag clusters its definitions into meanings. Semantized hashtags are thus used to feed the learner’s profile so as to personalize recommendations on learning material. The goal is to build a semantic representation of the activities and interests of learners on social networks in order to enrich their profiles. We also discuss our recommendation approach based on three types of filtering (personalized, social, and statistical interactions with the system). We focus on personalized recommendation of pedagogical resources to the learner according to his/her expectations and profile
APA, Harvard, Vancouver, ISO, and other styles
8

Luu, Vinh Trung. "Using event sequence alignment to automatically segment web users for prediction and recommendation." Thesis, Mulhouse, 2016. http://www.theses.fr/2016MULH0098/document.

Full text
Abstract:
Une masse de données importante est collectée chaque jour par les gestionnaires de site internet sur les visiteurs qui accèdent à leurs services. La collecte de ces données a pour objectif de mieux comprendre les usages et d'acquérir des connaissances sur le comportement des visiteurs. A partir de ces connaissances, les gestionnaires de site peuvent décider de modifier leur site ou proposer aux visiteurs du contenu personnalisé. Cependant, le volume de données collectés ainsi que la complexité de représentation des interactions entre le visiteur et le site internet nécessitent le développement de nouveaux outils de fouille de données. Dans cette thèse, nous avons exploré l’utilisation des méthodes d’alignement de séquences pour l'extraction de connaissances sur l'utilisation de site Web (web mining). Ces méthodes sont la base du regroupement automatique d’internautes en segments, ce qui permet de découvrir des groupes de comportements similaires. De plus, nous avons également étudié comment ces groupes pouvaient servir à effectuer de la prédiction et la recommandation de pages. Ces thèmes sont particulièrement importants avec le développement très rapide du commerce en ligne qui produit un grand volume de données (big data) qu’il est impossible de traiter manuellement
This thesis explored the application of sequence alignment in web usage mining, including user clustering and web prediction and recommendation.This topic was chosen as the online business has rapidly developed and gathered a huge volume of information and the use of sequence alignment in the field is still limited. In this context, researchers are required to build up models that rely on sequence alignment methods and to empirically assess their relevance in user behavioral mining. This thesis presents a novel methodological point of view in the area and show applicable approaches in our quest to improve previous related work. Web usage behavior analysis has been central in a large number of investigations in order to maintain the relation between users and web services. Useful information extraction has been addressed by web content providers to understand users’ need, so that their content can be correspondingly adapted. One of the promising approaches to reach this target is pattern discovery using clustering, which groups users who show similar behavioral characteristics. Our research goal is to perform users clustering, in real time, based on their session similarity
APA, Harvard, Vancouver, ISO, and other styles
9

Anderson, James D. "Interactive Visualization of Search Results of Large Document Sets." Wright State University / OhioLINK, 2018. http://rave.ohiolink.edu/etdc/view?acc_num=wright1547048073451373.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Attiaoui, Dorra. "Belief detection and temporal analysis of experts in question answering communities : case strudy on stack overflow." Thesis, Rennes 1, 2017. http://www.theses.fr/2017REN1S085/document.

Full text
Abstract:
L'émergence du Web 2.0 a changé la façon avec laquelle les gens recherchent et obtiennent des informations sur internet. Entre sites communautaires spécialisés, réseaux sociaux, l'utilisateur doit faire face à une grande quantité d'informations. Les sites communautaires de questions réponses représentent un moyen facile et rapide pour obtenir des réponses à n'importe quelle question qu'une personne se pose. Tout ce qu'il suffit de faire c'est de déposer une question sur un de ces sites et d'attendre qu'un autre utilisateur lui réponde. Dans ces sites communautaires, nous voulons identifier les personnes très compétentes. Ce sont des utilisateurs importants qui partagent leurs connaissances avec les autres membres de leurs communauté. Ainsi la détection des experts est devenue une tache très importantes, car elle permet de garantir la qualité des réponses postées sur les différents sites. Dans cette thèse, nous proposons une mesure générale d'expertise fondée sur la théorie des fonctions de croyances. Cette théorie nous permet de gérer l'incertitude présente dans toutes les données émanant du monde réel. D'abord et afin d'identifier ces experts parmi la foule d'utilisateurs présents dans la communauté, nous nous sommes intéressés à identifier des attributs qui permettent de décrire le comportement de chaque individus. Nous avons ensuite développé un modèle statistique fondé sur la théorie des fonctions de croyance pour estimer l'expertise générale des usagers de la plateforme. Cette mesure nous a permis de classifier les différents utilisateurs et de détecter les plus experts d'entre eux. Par la suite, nous proposons une analyse temporelle pour étudier l'évolution temporelle des utilisateurs pendant plusieurs mois. Pour cette partie, nous décrirons com- ment les différents usagers peuvent évoluer au cours de leur activité dans la plateforme. En outre, nous nous sommes également intéressés à la détection des experts potentiels pendant les premiers mois de leurs inscriptions dans un site. L'efficacité de ces approches a été validée par des données réelles provenant de Stack Overflow
During the last decade, people have changed the way they seek information online. Between question answering communities, specialized websites, social networks, the Web has become one of the most widespread platforms for information exchange and retrieval. Question answering communities provide an easy and quick way to search for information needed in any topic. The user has to only ask a question and wait for the other members of the community to respond. Any person posting a question intends to have accurate and helpful answers. Within these platforms, we want to find experts. They are key users that share their knowledge with the other members of the community. Expert detection in question answering communities has become important for several reasons such as providing high quality content, getting valuable answers, etc. In this thesis, we are interested in proposing a general measure of expertise based on the theory of belief functions. Also called the mathematical theory of evidence, it is one of the most well known approaches for reasoning under uncertainty. In order to identify experts among other users in the community, we have focused on finding the most important features that describe every individual. Next, we have developed a model founded on the theory of belief functions to estimate the general expertise of the contributors. This measure will allow us to classify users and detect the most knowledgeable persons. Therefore, once this metric defined, we look at the temporal evolution of users' behavior over time. We propose an analysis of users activity for several months in community. For this temporal investigation, we will describe how do users evolve during their time spent within the platform. Besides, we are also interested on detecting potential experts during the beginning of their activity. The effectiveness of these approaches is evaluated on real data provided from Stack Overflow
APA, Harvard, Vancouver, ISO, and other styles

Books on the topic "Web document clustering (WDC)"

1

Prabhakar, Raghavan, and Schütze Hinrich, eds. Introduction to information retrieval. New York: Cambridge University Press, 2008.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
2

Manning, Christopher D., Hinrich Schütze, and Prabhakar Raghavan. Introduction to Information Retrieval. Cambridge University Press, 2008.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
3

Introduction to Information Retrieval. Cambridge University Press, 2008.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
4

Manning, Christopher D. Introduction to Information Retrieval. Cambridge University Press, 2008.

Find full text
APA, Harvard, Vancouver, ISO, and other styles
5

Manning, Christopher D., Hinrich Schütze, and Prabhakar Raghavan. Introduction to Information Retrieval. Cambridge University Press, 2012.

Find full text
APA, Harvard, Vancouver, ISO, and other styles

Book chapters on the topic "Web document clustering (WDC)"

1

Schenker, Adam, Mark Last, Horst Bunke, and Abraham Kandel. "Graph Representations for Web Document Clustering." In Pattern Recognition and Image Analysis, 935–42. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003. http://dx.doi.org/10.1007/978-3-540-44871-6_108.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Qian, Tieyun, Jianfeng Si, Qing Li, and Qian Yu. "Leveraging Network Structure for Incremental Document Clustering." In Web Technologies and Applications, 342–53. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. http://dx.doi.org/10.1007/978-3-642-29253-8_29.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Huang, Shen, Gui-Rong Xue, Ben-Yu Zhang, Zheng Chen, Yong Yu, and Wei-Ying Ma. "Multi-type Features Based Web Document Clustering." In Web Information Systems – WISE 2004, 253–65. Berlin, Heidelberg: Springer Berlin Heidelberg, 2004. http://dx.doi.org/10.1007/978-3-540-30480-7_27.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Wong, Wai-chiu, and Ada Wai-chee Fu. "Incremental Document Clustering for Web Page Classification." In Enabling Society with Information Technology, 101–10. Tokyo: Springer Japan, 2002. http://dx.doi.org/10.1007/978-4-431-66979-1_10.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Oikonomakou, N., and M. Vazirgiannis. "A Review of Web Document Clustering Approaches." In Text Mining and its Applications, 65–79. Berlin, Heidelberg: Springer Berlin Heidelberg, 2004. http://dx.doi.org/10.1007/978-3-540-45219-5_6.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Oikonomakou, Nora, and Michalis Vazirgiannis. "A Review of Web Document Clustering Approaches." In Data Mining and Knowledge Discovery Handbook, 931–48. Boston, MA: Springer US, 2009. http://dx.doi.org/10.1007/978-0-387-09823-4_48.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Wei, Yang, Jinmao Wei, and Zhenglu Yang. "Extended Strategies for Document Clustering with Word Co-occurrences." In Web Technologies and Applications, 461–72. Cham: Springer International Publishing, 2015. http://dx.doi.org/10.1007/978-3-319-25255-1_38.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Singh, Amit Prakash, Shalini Srivastava, and Sanjib Kumar Sahu. "Phrase Based Web Document Clustering: An Indexing Approach." In Lecture Notes in Networks and Systems, 481–92. Singapore: Springer Singapore, 2017. http://dx.doi.org/10.1007/978-981-10-3226-4_49.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Li, Peng, Bin Wang, Wei Jin, and Yachao Cui. "User-Related Tag Expansion for Web Document Clustering." In Lecture Notes in Computer Science, 19–31. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. http://dx.doi.org/10.1007/978-3-642-20161-5_5.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Zaw, Moe Moe, and Ei Ei Mon. "Web Document Clustering by Using PSO-Based Cuckoo Search Clustering Algorithm." In Studies in Computational Intelligence, 263–81. Cham: Springer International Publishing, 2014. http://dx.doi.org/10.1007/978-3-319-13826-8_14.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Conference papers on the topic "Web document clustering (WDC)"

1

Han, Juhyun, Taehwan Kim, and Joongmin Choi. "Web Document Clustering by Using Automatic Keyphrase Extraction." In 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology - Workshops. IEEE, 2007. http://dx.doi.org/10.1109/wi-iatw.2007.46.

Full text
APA, Harvard, Vancouver, ISO, and other styles
2

Han, Juhyun, Taehwan Kim, and Joongmin Choi. "Web Document Clustering by Using Automatic Keyphrase Extraction." In 2007 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology - Workshops. IEEE, 2007. http://dx.doi.org/10.1109/wiiatw.2007.4427539.

Full text
APA, Harvard, Vancouver, ISO, and other styles
3

Yang, Yu-Jiu, and Bao-Gang Hu. "Pairwise Constraints-Guided Non-negative Matrix Factorization for Document Clustering." In IEEE/WIC/ACM International Conference on Web Intelligence (WI'07). IEEE, 2007. http://dx.doi.org/10.1109/wi.2007.66.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Zhou, X. F., J. G. Liang, Y. Hu, and L. Guo. "Text Document Latent Subspace Clustering by PLSA Factors." In 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT). IEEE, 2014. http://dx.doi.org/10.1109/wi-iat.2014.131.

Full text
APA, Harvard, Vancouver, ISO, and other styles
5

Aliguliyev, Ramiz. "A Novel Partitioning-Based Clustering Method and Generic Document Summarization." In 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology Workshops. IEEE, 2006. http://dx.doi.org/10.1109/wi-iatw.2006.16.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Zhao, Weizhong, Qing He, Huifang Ma, and Zhongzhi Shi. "Active Learning of Instance-Level Constraints for Semi-supervised Document Clustering." In 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2009. http://dx.doi.org/10.1109/wi-iat.2009.45.

Full text
APA, Harvard, Vancouver, ISO, and other styles
7

Zamir, Oren, and Oren Etzioni. "Web document clustering." In the 21st annual international ACM SIGIR conference. New York, New York, USA: ACM Press, 1998. http://dx.doi.org/10.1145/290941.290956.

Full text
APA, Harvard, Vancouver, ISO, and other styles
8

Momin, B. F., P. J. Kulkarni, and Amol Chaudhari. "Web Document Clustering Using Document Index Graph." In 2006 International Conference on Advanced Computing and Communications. IEEE, 2006. http://dx.doi.org/10.1109/adcom.2006.4289851.

Full text
APA, Harvard, Vancouver, ISO, and other styles
9

Tekir, Selma, Florian Mansmann, and Daniel Keim. "Geodesic distances for web document clustering." In 2011 Ieee Symposium On Computational Intelligence And Data Mining - Part Of 17273 - 2011 Ssci. IEEE, 2011. http://dx.doi.org/10.1109/cidm.2011.5949449.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Liu, Debao, Dan Yang, Tiezheng Nie, Yue Kou, and Derong Shen. "Document Clustering in Personal Dataspace." In 2010 7th Web Information Systems and Applications Conference (WISA). IEEE, 2010. http://dx.doi.org/10.1109/wisa.2010.16.

Full text
APA, Harvard, Vancouver, ISO, and other styles

Reports on the topic "Web document clustering (WDC)"

1

He, Xiaofeng, Hongyuan Zha, Chris H. Q. Ding, and Horst D. Simon. Web document clustering using hyperlink structures. Office of Scientific and Technical Information (OSTI), May 2001. http://dx.doi.org/10.2172/815474.

Full text
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography