To see the other types of publications on this topic, follow the link: Classification probabiliste.

Dissertations / Theses on the topic 'Classification probabiliste'

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Classification probabiliste.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Ambroise, Christophe. "Approche probabiliste en classification automatique et contraintes de voisinage." Compiègne, 1996. http://www.theses.fr/1996COMPD917.

Full text
Abstract:
Ce travail propose de nouveaux algorithmes de classification pour résoudre des problèmes d'analyse de données où des contraintes naturelles apparaissent : respect d'une topologie (cartes de Kohonen), données spatiales. Les mélanges finis de lois gaussiennes et l'estimation de paramètres par l'algorithme EM constituent le cadre de ce mémoire. Le modèle des cartes topologiques de Kohonen introduisant la notion de contrainte, nous nous sommes intéressés à montrer les liens qui existent entre cette approche et les modèles de mélanges. Cette recherche a abouti au développement de variantes de l'algorithme EM ayant des comportements identiques à l'algorithme de Kohonen et possédant de bonnes propriétés de convergence. Dans le cas des données spatiales, l'a priori suivant est considéré : deux individus géographiquement proches ont plus de chance d'appartenir à une même classe que deux individus éloignés. Des algorithmes originaux, basés sur l'algorithme EM, sont proposés pour prendre en compte l'aspect spatial des données. Ces algorithmes peuvent être utilisés pour trouver une partition d'un ensemble d'individus localisés géographiquement, ce qui englobe la problématique de la segmentation d'image. Un parallèle entre les méthodes développées dans ce mémoire et les techniques markoviennes de segmentation bayésienne non supervisée d'image a été établi. Enfin, les méthodes présentées sont illustrées et comparées à l'aide d'applications concrètes
This thesis proposes new clustering algorithms well suited for data analysis problems where natural constraints appear: preservation of a topology, spatial data. Gaussian mixture models and the estimation of parameters by the EM algorithm constitute the background of the work. The Kohonen Map algorithm introduces the idea of constraint in clustering. We show the relationship between this neural approach and Gaussian mixture models. This leads us to propose a variant of the EM algorithm which has similar behaviour as the Kohonen algorithm and whose convergence is proven. When dealing with spatial data, we consider the following constraint: two objects which are neighbours are more likely to belong to the same class than two objects which are spatially far away. Original algorithms based on the EM algorithm are proposed for taking into account this spatial constraint. These algorithms may be used for seeking a partition of objects which have a geographical location. This encompasses the problem of unsupervised image segmentation. A theoretical link between our approach and Markov random field models is established. The proposed methods are compared and illustrated by means of applications based on real data
APA, Harvard, Vancouver, ISO, and other styles
2

Bzioui, Mohamed. "Classification croisée et modèle." Compiègne, 1999. http://www.theses.fr/1999COMP1226.

Full text
Abstract:
Dans le cadre des tableaux de contingences, des tableaux binaires et des tableaux de mesures, la classification croisée est basée sur un critère métrique sans faire référence à un modèle probabiliste. Dans ce travail, nous proposons un modèle de mélange croisé afin d'apporter un éclairage aux critères métriques existants, d'en développer d'autres et de proposer une solution au problème des données manquantes. Cette étude est réalisée sous deux approches : approche classification et approche estimation. En outre, nous étudions l'influence du choix entre les deux hypothèses : proportions des composants du mélange égales aux proportions inconnues. Ainsi, différents algorithmes sont développés avec différentes variantes. Des simulations sont réalisées suivant les différentes situations en tenant compte à la fois de l'approche choisie avec les deux hypothèses et les paramètres du modèle.
APA, Harvard, Vancouver, ISO, and other styles
3

Touzani, Abderrahmane. "Classification automatique par détection des contours des modes des fonctions de densité de probabilité multivariables et étiquetage probabiliste." Grenoble 2 : ANRT, 1987. http://catalogue.bnf.fr/ark:/12148/cb37610380w.

Full text
APA, Harvard, Vancouver, ISO, and other styles
4

Aznag, Mustapha. "Modélisation thématique probabiliste des services web." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4028.

Full text
Abstract:
Les travaux sur la gestion des services web utilisent généralement des techniques du domaine de la recherche d'information, de l'extraction de données et de l'analyse linguistique. Alternativement, nous assistons à l'émergence de la modélisation thématique probabiliste utilisée initialement pour l'extraction de thèmes d'un corpus de documents. La contribution de cette thèse se situe à la frontière de la modélisation thématique et des services web. L'objectif principal de cette thèse est d'étudier et de proposer des algorithmes probabilistes pour modéliser la structure thématique des services web. Dans un premier temps, nous considérons une approche non supervisée pour répondre à différentes tâches telles que la découverte et le regroupement de services web. Ensuite, nous combinons la modélisation thématique avec l'analyse de concepts formels pour proposer une méthode de regroupement hiérarchique de services web. Cette méthode permet une nouvelle démarche de découverte interactive basée sur des opérateurs de généralisation et spécialisation des résultats obtenus. Enfin, nous proposons une méthode semi-supervisée pour l'annotation automatique de services web. Nous avons concrétisé nos propositions par un moteur de recherche en ligne appelé WS-Portal. Nous offrons alors différentes fonctions facilitant la gestion de services web, par exemple, la découverte et le regroupement de services web, la recommandation des tags, la surveillance des services, etc. Nous intégrons aussi différents paramètres tels que la disponibilité et la réputation de services web et plus généralement la qualité de service pour améliorer leur classement (la pertinence du résultat de recherche)
The works on web services management use generally the techniques of information retrieval, data mining and the linguistic analysis. Alternately, we attend the emergence of the probabilistic topic models originally developed and utilized for topics extraction and documents modeling. The contribution of this thesis meets the topics modeling and the web services management. The principal objective of this thesis is to study and propose probabilistic algorithms to model the thematic structure of web services. First, we consider an unsupervised approach to meet different tasks such as web services clustering and discovery. Then we combine the topics modeling with the formal concept analysis to propose a novel method for web services hierarchical clustering. This method allows a novel interactive discovery approach based on the specialization and generalization operators of retrieved results. Finally, we propose a semi-supervised method for automatic web service annotation (automatic tagging). We concretized our proposals by developing an on-line web services search engine called WS-Portal where we incorporate our research works to facilitate web service discovery task. Our WS-Portal contains 7063 providers, 115 sub-classes of category and 22236 web services crawled from the Internet. In WS- Portal, several technologies, i.e., web services clustering, tags recommendation, services rating and monitoring are employed to improve the effectiveness of web services discovery. We also integrate various parameters such as availability and reputation of web services and more generally the quality of service to improve their ranking and therefore the relevance of the search result
APA, Harvard, Vancouver, ISO, and other styles
5

Touzani, Abderrahmane. "Classification automatique par détection des contours des modes des fonctions de densité de probabilité multivariables et étiquetage probabiliste." Lille 1, 1987. http://www.theses.fr/1987LIL10058.

Full text
Abstract:
Présentation des méthodes non paramétriques permettant de connaître la valeur de la fonction de densité en chacun des points d'une discrétisation de l'espace en hypercubes élémentaires. L'estimateur est mis en forme grâce à l'introduction d'un filtre de type médian multidimensionnel. Deux opérateurs différentiels sont introduits et appliqués aux fonctions de densité estimées et filtrées. Un algorithme d'extraction de contour séquentiel permet d'exploiter la réponse des opérateurs différentiels pour identifier les contours des modes. L'intérêt de l'approche présentée est démontre pour les problèmes de classification automatique non supervisée, tant sous l'hypothèse non paramétrique que paramétrique
APA, Harvard, Vancouver, ISO, and other styles
6

Bassolet, Cyr Gabin. "Approches connexionnistes du classement en Osiris : vers un classement probabiliste." Université Joseph Fourier (Grenoble), 1998. http://www.theses.fr/1998GRE10086.

Full text
Abstract:
Le classement d'instance est une fonction importante des systèmes de représentation de connaissances. Il est présent dans les systèmes de représentation de connaissances centrée objet sous le nom de classification d'objet, dans les logiques terminologiques comme un cas particulier de la classification de concepts, et, de manière implicite, dans les systèmes à base de règles, où les faits inférés peuvent être interprétés comme l'appartenance à une classe. Nous étudions le classement d'instance en Osiris, un système de représentation de connaissances centrée objets où la notion de vue jouent un rôle central. Le classement d'instance consiste à déterminer les vues valides d'un objet, ainsi que ses vues potentielles et invalides lorsqu'il est incomplètement connu. Nous montrons une possibilité de traduction des règles de production en Osiris, explicitant ainsi la fonction de classement des systèmes experts. Les contraintes de domaine jouent un rôle privilégié en Osiris. Elles permettent de réaliser une partition du domaine de chaque attribut, partition qui se prolonge à l'espace des objets pour constituer l'espace de classement, dont les éléments sont appelés eq-classes. Tous les objets d'une eq-classe ont le même comportement vis-à-vis du classement. Nous étudions plusieurs architectures connexionnistes pour le classement en Osiris, en privilégiant la détermination complète des vues valides, invalides et potentielles lors du classement d'objets partiellement connus. Nous proposons une méthode pour le classement probabiliste, sous l'hypothèse d'indépendance des attributs. Pour cela, nous distinguons deux sous-ensembles d'Osiris où cette hypothèse peut être faite. Dans le cas général, l'approche proposée fournit un mécanisme homogène pour la détermination des vues valides, invalides et potentielles, sans valuation probabiliste de ces dernières. Enfin, nous évoquons les possibilités de prise en compte des dépendances pour le classement probabiliste.
APA, Harvard, Vancouver, ISO, and other styles
7

PRICE, DAVID. "Classification probabiliste par reseaux de neurones ; application a la reconnaissance de l'ecriture manuscrite." Paris 6, 1996. http://www.theses.fr/1996PA066344.

Full text
Abstract:
Cette these decrit une contribution a la realisation d'un systeme automatique de reconnaissance des montants litteraux de cheques, en ecriture manuscrite cursive. Parmi les nombreuses phases de traitement de l'information necessaires pour leur reconnaissance, nous nous interessons uniquement, dans ce travail, a la phase de classification: notre objectif est de fournir, pour chaque caractere, une liste d'identifications possibles, par ordre de vraisemblance decroissante. Cette liste est ensuite traitee par un systeme superviseur qui, a partir de plusieurs informations differentes, prend une decision de reconnaissance du montant. Le probleme pose est donc essentiellement un probleme d'estimation de probabilite d'appartenance d'une lettre inconnue a une classe parmi plusieurs possibles. Jusqu'a present, les classifieurs a base de reseaux de neurones ont ete utilises essentiellement pour prendre une decision ; pourtant, les proprietes mathematiques fondamentales des reseaux de neurones en font d'excellents candidats pour effectuer une estimation de probabilites. Notre travail a donc porte sur la recherche de methodes permettant d'estimer, a l'aide de reseaux de neurones, en disposant d'une base d'apprentissage necessairement limitee, les probabilites a posteriori des classes. Dans un premier temps, nous etablissons une distinction entre, d'une part, les systemes permettant une estimation directe des probabilites a posteriori, et, d'autre part, les classifieurs bayesiens, qui necessitent l'estimation des densites conditionnelles. Dans ce dernier cas, nous proposons des solutions originales permettant notamment l'estimation des densites conditionnelles a partir de fonctions discriminantes. Puis, nous presentons la classification probabiliste (bayesienne ou non) a l'aide de reseaux de neurones. Nous presentons, en premier lieu, les approches qui utilisent les architectures classiques telles que les perceptrons multi-couche et les reseaux a fonctions radiales de base. Nous presentons ensuite une methode originale qui consiste a decomposer un probleme multi-classe en un ensemble de problemes a deux classes, et a determiner les probabilites a posteriori a partir de celles qui sont estimees par les classifieurs a deux classes. Cette approche represente une alternative aux architectures precedemment citees, qui presente l'avantage d'etre modulaire et rapide a mettre en uvre. Enfin, dans le cadre de notre probleme de reconnaissance de cheques, nous montrons les effets que peuvent avoir les differentes methodes deja evoquees, pour la reconnaissance des caracteres, ainsi que pour la reconnaissance des mots qui l'emploie. Nous nous sommes attaches alors plus particulierement a la pertinence des mesures de performances, ainsi qu'au choix de la fonction de cout
APA, Harvard, Vancouver, ISO, and other styles
8

Dong, Yuan. "Modélisation probabiliste de classifieurs d’ensemble pour des problèmes à deux classes." Thesis, Troyes, 2013. http://www.theses.fr/2013TROY0013/document.

Full text
Abstract:
L'objectif de cette thèse est d'améliorer ou de préserver les performances d'un système décisionnel quand l’environnement peut impacter certains attributs de l'espace de représentation à un instant donné ou en fonction de la position géographique de l’observation. S'inspirant des méthodes d'ensemble, notre approche a consisté à prendre les décisions dans des sous-espaces de représentation résultant de projections de l'espace initial, espérant ainsi travailler dans des sous-espaces non impactés. La décision finale est alors prise par fusion des décisions individuelles. Dans ce contexte, trois méthodes de classification (one-class SVM, Kernel PCA et Kernel ECA) ont été testées en segmentation d'images texturées qui constitue un support applicatif parfaitement adéquat en raison des ruptures de modèle de texture aux frontières entre deux régions. Ensuite, nous avons proposé une nouvelle règle de fusion reposant sur un test du rapport de vraisemblance pour un ensemble de classifieurs indépendants. Par rapport au vote majoritaire, cette règle de fusion a montré de meilleures performances face à l'altération de l'espace de représentation. Enfin, nous avons établi un modèle conjoint pour l’ensemble des variables décisionnelles de Bernoulli corrélées associées aux décisions des classifieurs individuels. Cette modélisation doit permettre de lier les performances des classifieurs individuels à la performance de la règle de décision globale et d’étudier et de maîtriser l'impact des changements de l'espace initial sur la performance globale
The objective of this thesis is to improve or maintain the performance of a decision-making system when the environment can impact some attributes of the feature space at a given time or depending on the geographical location of the observation. Inspired by ensemble methods, our approach has been to make decisions in representation sub-spaces resulting of projections of the initial space, expecting that most of the subspaces are not impacted. The final decision is then made by fusing the individual decisions. In this context, three classification methods (one-class SVM, Kernel PCA and Kernel ECA) were tested on a textured images segmentation problem which is a perfectly adequate application support because of texture pattern changes at the border between two regions. Then, we proposed a new fusion rule based on a likelihood ratio test for a set of independent classifiers. Compared to the majority vote, this fusion rule showed better performance against the alteration of the performance space. Finally, we modeled the decision system using a joint model for all decisions based on the assumption that decisions of individual classifiers follow a correlated Bernoulli law. This model is intended to link the performance of individual classifiers to the performance of the overall decision rule and to investigate and control the impact of changes in the original space on the overall performance
APA, Harvard, Vancouver, ISO, and other styles
9

Mselati, Benoît. "Classification et représentation probabiliste des solutions positives de delta u = u2 dans un domaine." Paris 6, 2002. http://www.theses.fr/2002PA066496.

Full text
APA, Harvard, Vancouver, ISO, and other styles
10

Charon, Clara. "Classification probabiliste pour la prédiction et l'explication d'événements de santé défavorables et évitables en EHPAD." Electronic Thesis or Diss., Sorbonne université, 2024. https://accesdistant.sorbonne-universite.fr/login?url=https://theses-intra.sorbonne-universite.fr/2024SORUS200.pdf.

Full text
Abstract:
L'EHPAD, établissement d'hébergement pour personnes âgées dépendantes, constitue une option à laquelle a recours une population nombreuse et croissante, lorsque pour diverses raisons, et notamment de santé, il n'est plus possible de vivre à domicile.Avec le développement des nouvelles technologies informatiques dans le domaine de la santé, un nombre croissant d'établissements de santé sont équipés de systèmes d'information regroupant les données administratives et médicales des patients ainsi que des informations sur les soins qui leur sont prodigués.Parmi ces systèmes, les dossiers médicaux électroniques (DME) émergent comme des outils essentiels, offrant un accès rapide et aisé aux informations des patients dans le but d'améliorer la qualité et la sécurité des soins.Dans ce travail, nous utilisons les données anonymisées des DME de NETSoins, un logiciel largement utilisé dans les EHPAD en France, afin de proposer et d'analyser des classifieurs capables de prédire plusieurs événements de santé défavorables chez les personnes âgées qui sont potentiellement modifiables par des interventions de santé appropriées.Notre démarche se concentre notamment sur l'utilisation de méthodes capables de fournir des explications, notamment les modèles graphiques probabilistes tels que les réseaux bayésiens.Après un prétraitement complexe pour adapter des données d'une base événementielle en données utilisables par un apprentissage statistique, tout en conservant leur cohérence médicale, nous avons développé une méthodologie d'apprentissage mise en œuvre dans trois expériences de classification probabiliste utilisant des réseaux bayésiens distincts, ciblant différents événements : le risque de survenue de la première escarre, le risque d'hospitalisation en urgence à l'entrée du résident en EHPAD, et le risque de fracture dans les premiers mois d'hébergement.Pour chaque cible, nous avons comparé les performances de notre classifieur de réseaux bayésiens selon divers critères avec d'autres méthodes de machine learning ainsi qu'avec les pratiques actuellement utilisées en EHPAD pour prédire ces risques. Nous avons aussi confronté les résultats des réseaux bayésiens à l'expertise clinique.Cette étude démontre la possibilité de prédire ces événements à partir des données déjà collectées en routine par les soignants, ouvrant ainsi la voie à de nouveaux outils de prédiction intégrables directement dans le logiciel déjà utilisé par ces professionnels
Nursing homes, which provide housing for dependent elderly people,are an option used by a large and growing population when, for a variety of reasons, including health, it is no longer possible for them to live at home.With the development of new information technologies in the health sector, an increasing number of health care facilities are equipped with information systems that group together administrative and medical data of patients as well as information on the care they receive. Among these systems, electronic health records (EHRs) have emerged as essential tools, providing quick and easy access to patient information in order to improve the quality and safety of care.We use the anonymized data of the EHRs from NETSoins, a software widely used in nursing homes in France, to propose and analyze classifiers capable of predicting several adverse health events in the elderly that are potentially modifiable by appropriate health interventions. Our approach focuses in particular on the use of methods that can provide explanations, such as probabilistic graphical models, including Bayesian networks.After a complex preprocessing step to adapt event-based data into data suitable for statistical learning while preserving their medical coherence, we have developed a learning method applied in three probabilistic classification experiments using Bayesian networks, targeting different events: the risk of occurrence of the first pressure ulcer, the risk of emergency hospitalization upon the resident's entry into the nursing home, and the risk of fracture in the first months of housing.For each target, we have compared the performance of our Bayesian network classifier according to various criteria with other machine learning methods as well as with the practices currently used in nursing homes to predict these risks. We have also compared the results of the Bayesian networks with clinical expertise.This study demonstrates the possibility of predicting these events from the data already collected in routine by caregivers, thus paving the way for new predictive tools that can be integrated directly into the software already used by these professionals
APA, Harvard, Vancouver, ISO, and other styles
11

Olejnik, Serge. "Analyse de la convexité des fonctions de densité par des techniques d'étiquetage probabiliste iteratif : application en classification automatique." Lille 1, 1988. http://www.theses.fr/1988LIL10140.

Full text
APA, Harvard, Vancouver, ISO, and other styles
12

Trinh, Anh Phuc. "Classifieur probabiliste et séparateur à vaste marge : application à la classification de texte et à l'étiquetage d'image." Paris 6, 2012. http://www.theses.fr/2012PA066060.

Full text
Abstract:
Cette thèse propose des estimateurs de probabilités a posteriori pour des Séparateur à Vaste Marge. Elle comporte une partie théorique et une partie expérimentale. La première contribution que nous présentons dans cette thèse est d’introduire un classifieur probabiliste basé sur des SVM pour la classification multi-classes. L’approche que nous utilisons est l’approche 1 contre 1, où pour un problème à k classes k(k - 1)/2 classifieurs sont entrainés. Les sorties binaires de ces classifieurs forment un espace de votes dans lequel sera prise la décision de classe. Nous introduisons un espace de vote enrichi qui permet de prendre en compte des relations entre l’ensemble des classes du problème et proposons une méthode pour apprendre à partir de cet espace binaire à estimer les probabilités a posteriori des classes. La seconde contribution concerne le problème de la classification multi-étiquettes et la prise en compte de dépendances entre étiquettes. La prédiction de sorties structurées a été ces dernières années un domaine extrêmement actif et de nombreux modèles basés sur des extensions des SVMs ou des modèles graphiques on été proposés. Nombre de ces modèles ont une complexité qui empêche toute application sur des données réelles. Nous introduisons un classifieur multi-étiquettes basé sur un formalisme de modèle graphique non dirigé. Nous proposons une méthode d’inférence approchée de complexité limitée qui permet une utilisation pratique de ces méthodes. Nous incorporons dans ce modèle les classifieurs probabilistes mentionnés plus haut pour estimer les probabilités nécessaires au calcul d’inférence. La troisième contribution est la validation expérimentale de ces idées et algorithmes. Une première application nous permet de tester notre classifieur probabiliste multi-classes. Il s’agit du Défi DEFT 1 qui est une compétition française sur la classification de textes. Les données sur lesquelles nous avons travaillé traitent de classification en thème et en genre de corpus journalistiques. La seconde application que nous avons traitée porte sur l’étiquetage d’images en utilisant une information de dépendance entre les étiquettes. Elle correspond à une tâche proposée dans la compétition internationale ImageCLEF08 2. Nous proposons un modèle graphique adapté à cette tâche qui nous permet de valider ce modèle multi-étiquettes.
APA, Harvard, Vancouver, ISO, and other styles
13

Olejnik, Serge. "Analyse de la convexité des fonctions de densité par des techniques d'étiquetage probabiliste itératif application en classification automatique /." Grenoble 2 : ANRT, 1988. http://catalogue.bnf.fr/ark:/12148/cb37617196d.

Full text
APA, Harvard, Vancouver, ISO, and other styles
14

Spengler, Alexander A. "Analyse probabiliste du contenu de pages web : représentation des sémantiques de contenu dans le paradigme bayésien." Paris 6, 2011. http://www.theses.fr/2011PA066590.

Full text
Abstract:
Une identification automatique des contenus pertinents de pages Web facilite une large variété d'applications réelles. Finalement, elle nécessite une segmentation du contenu ainsi qu'une classification des segments résultants. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Dans cette thèse, nous proposons de traiter les incertitudes avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus qui démontre que même des modèles relativement simples atteignent des résultats significativement meilleurs que l'état de l'art actuel.
APA, Harvard, Vancouver, ISO, and other styles
15

Azeraf, Elie. "Classification avec des modèles probabilistes génératifs et des réseaux de neurones. Applications au traitement des langues naturelles." Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. https://theses.hal.science/tel-03880848.

Full text
Abstract:
Un nombre important de modèles probabilistes connaissent une grande perte d'intérêt pour la classification avec apprentissage supervisé depuis un certain nombre d'années, tels que le Naive Bayes ou la chaîne de Markov cachée. Ces modèles, qualifiés de génératifs, sont critiqués car leur classificateur induit doit prendre en compte la loi des observations, qui peut s'avérer très complexe à apprendre quand le nombre de features de ces derniers est élevé. C'est notamment le cas en Traitement des Langues Naturelles, où les récents algorithmes convertissent des mots en vecteurs numériques de grande taille pour atteindre de meilleures performances.Au cours de cette thèse, nous montrons que tout modèle génératif peut définir son classificateur sans prendre en compte la loi des observations. Cette proposition remet en question la catégorisation connue des modèles probabilistes et leurs classificateurs induits - en classes générative et discriminante - et ouvre la voie à un grand nombre d'applications possibles. Ainsi, la chaîne de Markov cachée peut être appliquée sans contraintes à la décomposition syntaxique de textes, ou encore le Naive Bayes à l'analyse de sentiments.Nous allons plus loin, puisque cette proposition permet de calculer le classificateur d'un modèle probabiliste génératif avec des réseaux de neurones. Par conséquent, nous « neuralisons » les modèles cités plus haut ainsi qu'un grand nombre de leurs extensions. Les modèles ainsi obtenus permettant d'atteindre des scores pertinents pour diverses tâches de Traitement des Langues Naturelles tout en étant interprétable, nécessitant peu de données d'entraînement, et étant simple à mettre en production
Many probabilistic models have been neglected for classification tasks with supervised learning for several years, as the Naive Bayes or the Hidden Markov Chain. These models, called generative, are criticized because the induced classifier must learn the observations' law. This problem is too complex when the number of observations' features is too large. It is especially the case with Natural Language Processing tasks, as the recent embedding algorithms convert words in large numerical vectors to achieve better scores.This thesis shows that every generative model can define its induced classifier without using the observations' law. This proposition questions the usual categorization of the probabilistic models and classifiers and allows many new applications. Therefore, Hidden Markov Chain can be efficiently applied to Chunking and Naive Bayes to sentiment analysis.We go further, as this proposition allows to define the classifier induced from a generative model with neural network functions. We "neuralize" the models mentioned above and many of their extensions. Models so obtained allow to achieve relevant scores for many Natural Language Processing tasks while being interpretable, able to require little training data, and easy to serve
APA, Harvard, Vancouver, ISO, and other styles
16

Echard, Benjamin. "Assessment by kriging of the reliability of structures subjected to fatigue stress." Thesis, Clermont-Ferrand 2, 2012. http://www.theses.fr/2012CLF22269/document.

Full text
Abstract:
Les méthodes traditionnelles de dimensionnement à la fatigue s’appuient sur l’utilisation de coefficients dits de “sécurité” dans le but d’assurer l’intégrité de la structure en couvrant les incertitudes inhérentes à la fatigue. Ces méthodes de l’ingénieur ont le mérite d’être simples d’application et de donner des solutions heureusement satisfaisantes du point de vue de la sécurité. Toutefois, elles ne permettent pas au concepteur de connaître la véritable marge de sécurité de la structure et l’influence des différents paramètres de conception sur la fiabilité. Les approches probabilistes sont envisagées dans cette thèse afin d’acquérir ces informations essentielles pour un dimensionnement optimal de la structure vis-à-vis de la fatigue. Une approche générale pour l’analyse probabiliste en fatigue est proposée dans ce manuscrit. Elle s’appuie sur la modélisation des incertitudes (chargement, propriétés du matériau, géométrie, courbe de fatigue) et vise à quantifier le niveau de fiabilité de la structure étudiée pour un scénario de défaillance en fatigue. Les méthodes classiques de fiabilité nécessitent un nombre important d’évaluations du modèle mécanique de la structure et ne sont donc pas envisageables lorsque le calcul du modèle est coûteux en temps. Une famille de méthodes appelée AK-RM (Active learning and Kriging-based Reliability Methods) est précisément proposée dans ces travaux de thèse afin de résoudre le problème de fiabilité avec un minimum d’évaluations du modèle mécanique. L’approche générale est appliquée à deux cas-tests fournis par SNECMA dans le cadre du projet ANR APPRoFi
Traditional procedures for designing structures against fatigue are grounded upon the use of so-called safety factors in an attempt to ensure structural integrity while masking the uncertainties inherent to fatigue. These engineering methods are simple to use and fortunately, they give satisfactory solutions with regard to safety. However, they do not provide the designer with the structure’s safety margin as well as the influence of each design parameter on reliability. Probabilistic approaches are considered in this thesis in order to acquire this information, which is essential for an optimal design against fatigue. A general approach for probabilistic analysis in fatigue is proposed in this manuscript. It relies on the modelling of the uncertainties (load, material properties, geometry, and fatigue curve), and aims at assessing the reliability level of the studied structure in the case of a fatigue failure scenario. Classical reliability methods require a large number of calls to the mechanical model of the structure and are thus not applicable when the model evaluation is time-demanding. A family of methods named AK-RM (Active learning and Kriging-based Reliability methods) is proposed in this research work in order to solve the reliability problem with a minimum number of mechanical model evaluations. The general approach is applied to two case studies submitted by SNECMA in the frame of the ANR project APPRoFi
APA, Harvard, Vancouver, ISO, and other styles
17

Sayadi, Karim. "Classification du texte numérique et numérisé. Approche fondée sur les algorithmes d'apprentissage automatique." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066079/document.

Full text
Abstract:
Différentes disciplines des sciences humaines telles la philologie ou la paléographie font face à des tâches complexes et fastidieuses pour l'examen des sources de données. La proposition d'approches computationnelles en humanités permet d'adresser les problématiques rencontrées telles que la lecture, l'analyse et l'archivage de façon systématique. Les modèles conceptuels élaborés reposent sur des algorithmes et ces derniers donnent lieu à des implémentations informatiques qui automatisent ces tâches fastidieuses. La première partie de la thèse vise, d'une part, à établir la structuration thématique d'un corpus, en construisant des espaces sémantiques de grande dimension. D'autre part, elle vise au suivi dynamique des thématiques qui constitue un réel défi scientifique, notamment en raison du passage à l'échelle. La seconde partie de la thèse traite de manière holistique la page d'un document numérisé sans aucune intervention préalable. Le but est d'apprendre automatiquement des représentations du trait de l'écriture ou du tracé d'un certain script par rapport au tracé d'un autre script. Il faut dans ce cadre tenir compte de l'environnement où se trouve le tracé : image, artefact, bruits dus à la détérioration de la qualité du papier, etc. Notre approche propose un empilement de réseaux de neurones auto-encodeurs afin de fournir une représentation alternative des données reçues en entrée
Different disciplines in the humanities, such as philology or palaeography, face complex and time-consuming tasks whenever it comes to examining the data sources. The introduction of computational approaches in humanities makes it possible to address issues such as semantic analysis and systematic archiving. The conceptual models developed are based on algorithms that are later hard coded in order to automate these tedious tasks. In the first part of the thesis we propose a novel method to build a semantic space based on topics modeling. In the second part and in order to classify historical documents according to their script. We propose a novel representation learning method based on stacking convolutional auto-encoder. The goal is to automatically learn plot representations of the script or the written language
APA, Harvard, Vancouver, ISO, and other styles
18

Alata, Olivier. "Contributions à la description de signaux, d'images et de volumes par l'approche probabiliste et statistique." Habilitation à diriger des recherches, Université de Poitiers, 2010. http://tel.archives-ouvertes.fr/tel-00573224.

Full text
Abstract:
Les éléments principaux apparaissant dans ce document de synthèse sont les suivants : - La mise en exergue de la pertinence du critère d'information $\phi_\beta$ qui offre la possibilité d'être ``réglé'' par apprentissage de $\beta$ et cela quelque soit le problème de sélection de modèles pour lequel il est possible d'écrire un critère d'information, possibilité qui a été illustrée dans divers contextes applicatifs (supports de prédiction linéaire et dimension du modèle utilisé pour les cinétiques de $\dot VO_2$). - Une méthode d'estimation d'histogrammes pour décrire de manière non-paramé-trique la distribution d'échantillons et son utilisation en reconnaissance de lois supervisée dans un contexte de canaux de transmission. \item Une méthode dite ``comparative descendante'' permettant de trouver la meilleure combinaison des paramètres pour décrire les données étudiées sans avoir à tester toutes les combinaisons, illustrée sur l'obtention de supports de prédiction linéaire 1-d et 2-d. - La mise en place de stratégies de choix de modèles par rapport à des contextes variés comme l'imagerie TEP et les lois de mélange de Gauss et de Poisson ou les espaces couleur et les lois de mélange gaussiennes multidimensionnelles. - L'exploration des modèles de prédiction linéaire vectorielle complexe sur les images représentées dans des espaces couleur séparant l'intensité lumineuse de la partie chromatique et l'usage qui peut en être fait en caractérisation de textures afin de les classifier ou de segmenter les images texturées couleur. \item Des apports en segmentation : optimisation d'une méthode de segmentation non-supervisée d'images texturées en niveaux de gris ; une nouvelle méthode supervisée de segmentation d'images texturées couleur exploitant les espaces couleur psychovisuels et les erreurs de prédiction linéaire vectorielle complexe ; prise en compte dans des distributions de Gibbs d'informations géométriques et topologiques sur le champ des régions afin de réaliser de la segmentation 3-d ``haut-niveau'' exploitant le formalisme des processus ponctuels. - L'illustration des méthodes MCMC dans des contextes divers comme l'estimation de paramètres, l'obtention de segmentations 2-d ou 3-d ou la simulation de processus. Et beaucoup d'autres éléments se révèleront à sa lecture ...
APA, Harvard, Vancouver, ISO, and other styles
19

Dubourg, Vincent. "Méta-modèles adaptatifs pour l'analyse de fiabilité et l'optimisation sous contrainte fiabiliste." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2011. http://tel.archives-ouvertes.fr/tel-00697026.

Full text
Abstract:
Cette thèse est une contribution à la résolution du problème d'optimisation sous contrainte de fiabilité. Cette méthode de dimensionnement probabiliste vise à prendre en compte les incertitudes inhérentes au système à concevoir, en vue de proposer des solutions optimales et sûres. Le niveau de sûreté est quantifié par une probabilité de défaillance. Le problème d'optimisation consiste alors à s'assurer que cette probabilité reste inférieure à un seuil fixé par les donneurs d'ordres. La résolution de ce problème nécessite un grand nombre d'appels à la fonction d'état-limite caractérisant le problème de fiabilité sous-jacent. Ainsi,cette méthodologie devient complexe à appliquer dès lors que le dimensionnement s'appuie sur un modèle numérique coûteux à évaluer (e.g. un modèle aux éléments finis). Dans ce contexte, ce manuscrit propose une stratégie basée sur la substitution adaptative de la fonction d'état-limite par un méta-modèle par Krigeage. On s'est particulièrement employé à quantifier, réduire et finalement éliminer l'erreur commise par l'utilisation de ce méta-modèle en lieu et place du modèle original. La méthodologie proposée est appliquée au dimensionnement des coques géométriquement imparfaites soumises au flambement.
APA, Harvard, Vancouver, ISO, and other styles
20

Phillips, Rhonda D. "A Probabilistic Classification Algorithm With Soft Classification Output." Diss., Virginia Tech, 2009. http://hdl.handle.net/10919/26701.

Full text
Abstract:
This thesis presents a shared memory parallel version of the hybrid classification algorithm IGSCR (iterative guided spectral class rejection), a novel data reduction technique that can be used in conjunction with PIGSCR (parallel IGSCR), a noise removal method based on the maximum noise fraction (MNF), and a continuous version of IGSCR (CIGSCR) that outputs soft classifications. All of the above are either classification algorithms or preprocessing algorithms necessary prior to the classification of high dimensional, noisy images. PIGSCR was developed to produce fast and portable code using Fortran 95, OpenMP, and the Hierarchical Data Format version 5 (HDF5) and accompanying data access library. The feature reduction method introduced in this thesis is based on the singular value decomposition (SVD). This feature reduction technique demonstrated that SVD-based feature reduction can lead to more accurate IGSCR classifications than PCA-based feature reduction. This thesis describes a new algorithm used to adaptively filter a remote sensing dataset based on signal-to-noise ratios (SNRs) once the maximum noise fraction (MNF) has been applied. The adaptive filtering scheme improves image quality as shown by estimated SNRs and classification accuracy improvements greater than 10%. The continuous iterative guided spectral class rejection (CIGSCR) classification method is based on the iterative guided spectral class rejection (IGSCR) classification method for remotely sensed data. Both CIGSCR and IGSCR use semisupervised clustering to locate clusters that are associated with classes in a classification scheme. This type of semisupervised classification method is particularly useful in remote sensing where datasets are large, training data are difficult to acquire, and clustering makes the identification of subclasses adequate for training purposes less difficult. Experimental results indicate that the soft classification output by CIGSCR is reasonably accurate (when compared to IGSCR), and the fundamental algorithmic changes in CIGSCR (from IGSCR) result in CIGSCR being less sensitive to input parameters that influence iterations.
Ph. D.
APA, Harvard, Vancouver, ISO, and other styles
21

Chaudhari, Upendra V. (Upendra Vasant) 1968. "Probabilistic pursuit, classification, and speech." Thesis, Massachusetts Institute of Technology, 1997. http://hdl.handle.net/1721.1/10199.

Full text
Abstract:
Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1997.
Includes bibliographical references (p. 138-140).
by Upendra V. Chaudhari.
Ph.D.
APA, Harvard, Vancouver, ISO, and other styles
22

Morales, quinga Katherine Tania. "Generative Markov models for sequential bayesian classification." Electronic Thesis or Diss., Institut polytechnique de Paris, 2024. http://www.theses.fr/2024IPPAS019.

Full text
Abstract:
Cette thèse vise à modéliser des données séquentielles à travers l'utilisation de modèles probabilistes à variables latentes et paramétrés par des architectures de type réseaux de neurones profonds. Notre objectif est de développer des modèles dynamiques capables de capturer des dynamiques temporelles complexes inhérentes aux données séquentielles tout en étant applicables dans des domaines variés tels que la classification, la prédiction et la génération de données pour n'importe quel type de données séquentielles. Notre approche se concentre sur plusieurs problématiques liés à la modélisation de ce type de données, chacune étant détaillé dans un chapitre de ce manuscrit. Dans un premier temps, nous balayons les principes fondamentaux de l'apprentissage profond et de l'estimation bayésienne. Par la suite, nous nous focalisations sur la modélisation de données séquentielles par des modèles de Markov cachés qui constitueront le socle commun des modèles génératifs développés par la suite. Plus précisément, notre travail s'intéresse au problème de la classification (bayésienne) séquentielle de séries temporelles dans différents contextes : supervisé (les données observées sont étiquetées) ; semi-supervisé (les données sont partiellement étiquetées) ; et enfin non supervisés (aucune étiquette n'est disponible). Pour cela, la combinaison de réseaux de neurones profonds avec des modèles probabilistes markoviens vise à améliorer le pouvoir génératif des modélisations plus classiques mais pose de nombreux défis du point de vue de l'inférence bayésienne : estimation d'un grand nombre de paramètres, estimation de lois à postériori et interprétabilité de certaines variables cachées (les labels). En plus de proposer une solution pour chacun de ces problèmes, nous nous intéressons également à des approches novatrices pour relever des défis spécifiques en imagerie médicale posés par le Groupe Européen de Recherche sur les Prothèses Appliquées à la Chirurgie Vasculaire (GEPROMED)
This thesis explores and models sequential data by applying various probabilistic models with latent variables, complemented by deep neural networks. The motivation for this research is the development of dynamic models that adeptly capture the complex temporal dynamics inherent in sequential data. Designed to be versatile and adaptable, these models aim to be applicable across domains including classification, prediction, and data generation, and adaptable to diverse data types. The research focuses on several key areas, each detailedin its respective chapter. Initially, the fundamental principles of deep learning, and Bayesian estimation are introduced. Sequential data modeling is then explored, emphasizing the Markov chain models, which set the stage for thegenerative models discussed in subsequent chapters. In particular, the research delves into the sequential Bayesian classificationof data in supervised, semi-supervised, and unsupervised contexts. The integration of deep neural networks with well-established probabilistic models is a key strategic aspect of this research, leveraging the strengths of both approaches to address complex sequential data problems more effectively. This integration leverages the capabilities of deep neural networks to capture complex nonlinear relationships, significantly improving the applicability and performance of the models.In addition to our contributions, this thesis also proposes novel approaches to address specific challenges posed by the Groupe Européen de Recherche sur les Prothèses Appliquées à la Chirurgie Vasculaire (GEPROMED). These proposed solutions reflect the practical and possible impactful application of this research, demonstrating its potential contribution to the field of vascular surgery
APA, Harvard, Vancouver, ISO, and other styles
23

Cheng, Chi Wa. "Probabilistic topic modeling and classification probabilistic PCA for text corpora." HKBU Institutional Repository, 2011. http://repository.hkbu.edu.hk/etd_ra/1263.

Full text
APA, Harvard, Vancouver, ISO, and other styles
24

Bouyanzer, Hassane. "Extraction automatique de caractéristiques sur des images couleurs : application à la mesure de paramètres." Rouen, 1992. http://www.theses.fr/1992ROUES059.

Full text
Abstract:
Dans cet ouvrage, nous avons mis en œuvre des méthodes de segmentation des images monochromes puis trichromes. L'emploi de la couleur en segmentation est un sujet de recherche récent, qui suscite un grand intérêt. L'application développée dans ce mémoire concerne l'automatisation de la procédure de calcul de paramètres sur des montures de lunettes. L'originalité du travail consiste en l'introduction de deux algorithmes de classification probabiliste EM et SEM
APA, Harvard, Vancouver, ISO, and other styles
25

Echard, Benjamin. "Evaluation par krigeage de la fiabilité des structures sollicitées en fatigue." Phd thesis, Université Blaise Pascal - Clermont-Ferrand II, 2012. http://tel.archives-ouvertes.fr/tel-00800208.

Full text
Abstract:
Les méthodes traditionnelles de dimensionnement à la fatigue s'appuient sur l'utilisation de coefficients dits de "sécurité" dans le but d'assurer l'intégrité de la structure en couvrant les incertitudes inhérentes à la fatigue. Ces méthodes de l'ingénieur ont le mérite d'être simples d'application et de donner des solutions heureusement satisfaisantes du point de vue de la sécurité. Toutefois, elles ne permettent pas au concepteur de connaître la véritable marge de sécurité de la structure et l'influence des différents paramètres de conception sur la fiabilité. Les approches probabilistes sont envisagées dans cette thèse afin d'acquérir ces informations essentielles pour un dimensionnement optimal de la structure vis-à-vis de la fatigue. Une approche générale pour l'analyse probabiliste en fatigue est proposée dans ce manuscrit. Elle s'appuie sur la modélisation des incertitudes (chargement, propriétés du matériau, géométrie, courbe de fatigue) et vise à quantifier le niveau de fiabilité de la structure étudiée pour un scénario de défaillance en fatigue. Les méthodes classiques de fiabilité nécessitent un nombre important d'évaluations du modèle mécanique de la structure et ne sont donc pas envisageables lorsque le calcul du modèle est coûteux en temps. Une famille de méthodes appelée AK-RM (Active learning and Kriging-based Reliability Methods) est précisément proposée dans ces travaux de thèse afin de résoudre le problème de fiabilité avec un minimum d'évaluations du modèle mécanique. L'approche générale est appliquée à deux cas-tests fournis par SNECMA dans le cadre du projet ANR APPRoFi.
APA, Harvard, Vancouver, ISO, and other styles
26

Gobeljic, Persa. "Classification of Probability of Defaultand Rating Philosophies." Thesis, KTH, Matematisk statistik, 2012. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-105903.

Full text
Abstract:
Basel II consists of international recommendations on banking regulations, mainly concerning how much capital banks and other financial institutions should be made to set aside in order to protect themselves from various types of risks. Implementing Basel II involves estimating risks; one of the main measurements is Probability of Default. Firm specific and macroeconomic risks cause obligors to default. Separating the two risk factors in order to define which of them affect the Probability of Default through the years. The aim of this thesis is to enable a separation of the risk variables in the structure of Probability of Default in order to classify the rating philosophy.
APA, Harvard, Vancouver, ISO, and other styles
27

Bazin, Alexander Ian. "On probabilistic methods for object description and classification." Thesis, University of Southampton, 2006. https://eprints.soton.ac.uk/263161/.

Full text
Abstract:
This thesis extends the utility of probabilistic methods in two diverse domains: multimodal biometrics and machine inspection. The attraction for this approach is that it is easily understood by those using such a system; however the advantages extend beyond the ease of human utility. Probabilistic measures are ideal for combination since they are guaranteed to be within a fixed range and are generally well scaled. We describe the background to probabilistic techniques and critique common implementations used by practitioners. We then set out our novel probabilistic framework for classification and verification, discussing the various optimisations and placing this framework within a data fusion context. Our work on biometrics describes the complex system we have developed for collection of multimodal biometrics, including collection strategies, system components and the modalities employed. We further examine the performance of multimodal biometrics; particularly examining performance prediction, modality correlation and the use of imbalanced classifiers. We show the benefits from score fused multimodal biometrics, even in the imbalanced case and how the decidability index may be used for optimal weighting and performance prediction. In examining machine inspection we describe in detail the development of a complex system for the automated examination of ophthalmic contact lenses. We demonstrate the performance of this system and describe the benefits that complex image processing techniques and probabilistic methods can bring to this field. We conclude by drawing these two areas together, critically evaluating the work and describing further work that we feel is necessary in the field.
APA, Harvard, Vancouver, ISO, and other styles
28

Schiele, Bernt. "Reconnaissance d'objets utilisant des histogrammes multidimensionnels de champs réceptifs." Phd thesis, Grenoble INPG, 1997. http://tel.archives-ouvertes.fr/tel-00004962.

Full text
Abstract:
Au cours des dernières années, l'intérêt pour des algorithmes de reconnaissance fondés sur l'apparence à considérablement augmenté. Ces algorithmes utilisent directement des informations d'images. A partir des images d'objets ces approches construisent des "modèles fondés sur l'apparence", car chaque image représentée correspond à une apparence particulière d'un objet. La fiabilité, la vitesse et le taux de reconnaissance élevé de ces techniques en constituent les intérêts majeurs. Le succès de ces méthodes est considérable pour la reconnaissance de visages, dans le contexte de l'interface homme-machine et pour l'accès à des bases d'images par leurs contenus. Cette thèse propose une technique ou les objets sont représentés par des statistiques sur des opérateurs locaux et robustes. On veut montrer qu'une telle représentation fondée sur l'apparence est fiable et extrêmement discriminante pour la reconnaissance d'objets. La motivation initiale de cette étude était la reconnaissance rapide d'objets par la méthode des histogrammes de couleurs. Cette méthode utilise les statistiques de couleurs comme modèle d'objets. La première partie de la thèse généralise cette approche en modélisant des objets par les statistiques de leurs caractéristiques locales. La technique généralisée - que l'on appelle "histogrammes multidimensionnels de champs" réceptifs - permet de discriminer un grand nombre d'objets. Les faiblesses de cette approche sont liées aux "défis des modèles fondés sur l'apparence". Ces défis concernent la reconnaissance en présence d'occultation partielle, la reconnaissance d'objets 3D à partir des images 2D et la classification d'objets comme généralisation en dehors de la base d'objets. La deuxième partie de la thèse examine chacun de ces défis et propose une extension appropriée de notre technique. L'intérêt principal de cette thèse est le développement d'un modèle de représentation d'objets qui utilise les statistiques de vecteurs de champs réceptifs. Plusieurs algorithmes de l'identification et aussi de la classification d'objets sont proposés. En particulier, un algorithme probabiliste est defini : il ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant le modèle de représentation proposé. dans un état de l'art on décrit brièvement des techniques qui ont étés sources d'inspiration : des techniques de histogrammes de couleurs, des algorithmes de reconnaissance fondée sur des descripteurs locaux et des approches de la représentation et reconnaissance statistique d'objet. Afin de généraliser la technique de la comparaison d'histogrammes de couleurs, des descripteurs locaux sont discutés. Différentes techniques de comparaison d'histogrammes sont proposées et leur robustesse par rapport au bruit et au changement de l'intensité d'éclairage est analysée. Dans des expérimentations de l'identification d'une centaine d'objets les différents degrés de liberté de la reconnaissance d'objets sont considérés : changements d'échelle et de la rotation d'image, variations du point de vue et occultation partielle. Un algorithme probabiliste est proposé, qui ne dépend pas de la correspondance entre les images de test et les objets de la base de données. Des expériences obtiennent des taux de reconnaissance élevés en utilisant seulement une petite partie visible d'objet. Enfin une extension de cet algorithme fondée sur une table de hachage dynamique est proposée pour la reconnaissance de plusieurs objets dans les scènes complexes. Deux algorithmes actifs de reconnaissance d'objets sont proposés. Un algorithme calcule des régions d'intérêt pour le contrôle de fixation d'une caméra en 2D. Le deuxième algorithme propose la planification de points de vue pour la reconnaissance des objets 3D à partir des apparence d'objets en 2D. Un dernier chapître propose le concept des classes visuelles définis par des similarites d'objets comme cadre général pour la classification d'objets. Une technique selon le maximum de vraisemblance est proposé pour la reconnaissance des classes visuelles et appliquée pour obtenir des images visuellement similaire d'une base d'images.
APA, Harvard, Vancouver, ISO, and other styles
29

Dang, Van Mô. "Classification de donnees spatiales : modeles probabilistes et criteres de partitionnement." Compiègne, 1998. http://www.theses.fr/1998COMP1173.

Full text
Abstract:
La problématique de la classification de données spatiales se pose par exemple lorsqu'on segmente une image en régions homogènes ou lorsqu'on cartographie des données multidimensionnelles localisées telles que des relevés physico-chimiques du sol. Dans ce travail, les méthodes proposées s'appuient sur des distributions de probabilité afin de modéliser les mécanismes engendrant la partition non observée et les observations. S'il s'agit d'effectuer les regroupements en se basant uniquement sur les valeurs observées, on rappelle que les modèles de mélange, la vraisemblance classifiante et l'algorithme EM procurent des solutions flexibles et relativement simples à mettre en œuvre. Afin d'intégrer en outre une hypothèse d'homogénéité spatiale de la partition, on se propose de conduire des raisonnements similaires dans le cadre des modèles utilisant un champ de Markov caché. D'une part, on démontre qu'en appliquant l'algorithme EM au cas des champs de potts cachés avec une approximation de champ moyen, on effectue les mêmes calculs que l'optimisation alternée d'une vraisemblance classifiante floue. Ce constat permet d'améliorer sur certains points une méthode de classification spatiale floue itérative récemment proposée. Sur des données simulées et réelles, la méthode obtenue fournit des résultats comparables aux techniques utilisant des simulations de Monte-Carlo pour un cout algorithmique moindre. D'autre part, on adapte l'approche précédente à des types particuliers de données spatiales. Pour un problème d'écologie numérique, on construit ainsi une méthode visant à classifier des indicateurs de présence/absence localisés. On propose selon une démarche analogue un algorithme de classification peu sensible aux valeurs atypiques. Enfin, pour traiter des données spatiales incomplètes, on propose d'optimiser une vraisemblance classifiante dont le modèle statistique sous-jacent intègre la notion de valeurs manquantes.
APA, Harvard, Vancouver, ISO, and other styles
30

Newling, James. "Novel methods of supernova classification and type probability estimation." Master's thesis, University of Cape Town, 2011. http://hdl.handle.net/11427/11174.

Full text
Abstract:
Future photometric surveys will provide vastly more supernovae than have presently been observed, the majority of which will not be spectroscopically typed. Key to extracting information from these future datasets will be the efficient use of light-curves. In the first part of this thesis we introduce two methods for distinguishing type Ia supernovae from their contaminating counterparts, kernel density estimation and boosting. In the second half of this thesis we shift focus from classification to the related problem of type probability estimation, and ask how best to use type probabilities.
APA, Harvard, Vancouver, ISO, and other styles
31

Dehkordi, Mandana Ebadian. "Style classification of cursive script recognition." Thesis, Nottingham Trent University, 2003. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.272442.

Full text
APA, Harvard, Vancouver, ISO, and other styles
32

Tyni, Elin, and Johanna Wikberg. "Classification of Wi-Fi Sensor Data for a Smarter City : Probabilistic Classification using Bayesian Statistics." Thesis, Umeå universitet, Institutionen för matematik och matematisk statistik, 2019. http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-159797.

Full text
Abstract:
As cities are growing with an increasing number of residents, problems with the traffic such as congestion and larger emission arise. The city planners have challenges with making it as easy as possible for the residents to commute and in as large scale as possible to avoid vehicles. Before any improvements or reconstructions can be made, the traffic situation has to be mapped. The results from a probabilistic classification on Wi-Fi sensor data collected in an area in the southern part of Stockholm showed that some streets are more likely to be trafficked by cyclists than pedestrians while other streets showed the opposite. The goal of this thesis was to classify observations as either pedestrians or as cyclists. To do that, Bayesian statistics was applied to perform a classification. Results from a cluster analysis performed with K-means algorithm were used as prior information to a probabilistic classification model. To be able to validate the results from this unsupervised statistical learning problem, several model diagnostic methods were used. The final model passes all limits of what is considered to be a stable model and shows clear signs of convergence. The data was collected using Wi-Fi sensors which detect a device passing by when the device is searching the area for a network to connect to. This thesis will focus on data from three months. Using Wi-Fi sensors as a data collection method makes it possible to track a device. However, many manufacturers produce network interface controllers that generate randomized addresses when the device is connecting to a network, which makes it difficult to track the majority of the devices. Therefore, Wi-Fi sensor data could be seen as not suitable for this type of study. Hence it is suggested that other methods should be used in the future.
I takt med att städer växer med ökat antal invånare uppståar det problem i trafiken såsom trängsel och utsläpp av partiklar. Trafikplanerare ställs inför utmaningar i form av hur de kan underlätta pendling för invånarna och hur de, i så stor utsträckning som möjligt, kan minska fordon i tätorten. Innan potentiella förbättringar och ombyggnationer kan genomföras måste trafiken kartläggas. Resultatet från en sannolikhetsklassificering på Wi-Fi sensordata insamlat i ett område i södra delen av Stockholm visar att vissa gator är mer trafikerade av cyclister än fotgängare medan andra gator visar på motsatt föhållande. Resultatet ger en indikation på hur proportionen mellan de två grupperna kan se ut. Målet var att klassificera varje observation som antingen fotgängare eller cyklist. För att göra det har Bayesiansk statistik applicerats i form av en sannolikhetsklassifikation. Reslutatet från en klusteranalys genomförd med ”K-means clustering algorithm” användes som prior information till klassificeringsmodellen. För att kunna validera resultatet från detta ”unsupervised statistical learning” -problem, användes olika metoder för modelldiagnostik. Den valda modellen uppfyller alla krav för vad som anses vara rimligt f ̈or en stabil modell och visar tydliga tecken på konvergens. Data samlades in med Wi-Fi sensorer som upptäcker förbipasserande enheter som söker efter potentiella nätverk att koppla upp sig mot. Denna metod har visat sig inte vara den mest optimala, eftersom tillverkare idag producerar nätverkskort som genererar en slumpad adress varje gång en enhet försöker ansluta till ett nätverk. De slumpade adresserna gör det svårt att följa majoriteten av enheterna mellan sensorera, vilket gör denna typ av data olämplig för denna typ av studie. Därf ̈or föreslås att andra metoder för att samla in data används i framtiden.
APA, Harvard, Vancouver, ISO, and other styles
33

Nelakanti, Anil Kumar. "Modélisation du langage à l'aide de pénalités structurées." Phd thesis, Université Pierre et Marie Curie - Paris VI, 2014. http://tel.archives-ouvertes.fr/tel-01001634.

Full text
Abstract:
Modeling natural language is among fundamental challenges of artificial intelligence and the design of interactive machines, with applications spanning across various domains, such as dialogue systems, text generation and machine translation. We propose a discriminatively trained log-linear model to learn the distribution of words following a given context. Due to data sparsity, it is necessary to appropriately regularize the model using a penalty term. We design a penalty term that properly encodes the structure of the feature space to avoid overfitting and improve generalization while appropriately capturing long range dependencies. Some nice properties of specific structured penalties can be used to reduce the number of parameters required to encode the model. The outcome is an efficient model that suitably captures long dependencies in language without a significant increase in time or space requirements. In a log-linear model, both training and testing become increasingly expensive with growing number of classes. The number of classes in a language model is the size of the vocabulary which is typically very large. A common trick is to cluster classes and apply the model in two-steps; the first step picks the most probable cluster and the second picks the most probable word from the chosen cluster. This idea can be generalized to a hierarchy of larger depth with multiple levels of clustering. However, the performance of the resulting hierarchical classifier depends on the suitability of the clustering to the problem. We study different strategies to build the hierarchy of categories from their observations.
APA, Harvard, Vancouver, ISO, and other styles
34

Malek, Salim. "Deep neural network models for image classification and regression." Doctoral thesis, Università degli studi di Trento, 2018. https://hdl.handle.net/11572/368992.

Full text
Abstract:
Deep learning, a branch of machine learning, has been gaining ground in many research fields as well as practical applications. Such ongoing boom can be traced back mainly to the availability and the affordability of potential processing facilities, which were not widely accessible than just a decade ago for instance. Although it has demonstrated cutting-edge performance widely in computer vision, and particularly in object recognition and detection, deep learning is yet to find its way into other research areas. Furthermore, the performance of deep learning models has a strong dependency on the way in which these latter are designed/tailored to the problem at hand. This, thereby, raises not only precision concerns but also processing overheads. The success and applicability of a deep learning system relies jointly on both components. In this dissertation, we present innovative deep learning schemes, with application to interesting though less-addressed topics. In this respect, the first covered topic is rough scene description for visually impaired individuals, whose idea is to list the objects that likely exist in an image that is grabbed by a visually impaired person, To this end, we proceed by extracting several features from the respective query image in order to capture the textural as well as the chromatic cues therein. Further, in order to improve the representativeness of the extracted features, we reinforce them with a feature learning stage by means of an autoencoder model. This latter is topped with a logistic regression layer in order to detect the presence of objects if any. In a second topic, we suggest to exploit the same model, i.e., autoencoder in the context of cloud removal in remote sensing images. Briefly, the model is learned on a cloud-free image pertaining to a certain geographical area, and applied afterwards on another cloud-contaminated image, acquired at a different time instant, of the same area. Two reconstruction strategies are proposed, namely pixel-based and patch-based reconstructions. From the earlier two topics, we quantitatively demonstrate that autoencoders can play a pivotal role in terms of both (i) feature learning and (ii) reconstruction and mapping of sequential data. Convolutional Neural Network (CNN) is arguably the most utilized model by the computer vision community, which is reasonable thanks to its remarkable performance in object and scene recognition, with respect to traditional hand-crafted features. Nevertheless, it is evident that CNN naturally is availed in its two-dimensional version. This raises questions on its applicability to unidimensional data. Thus, a third contribution of this thesis is devoted to the design of a unidimensional architecture of the CNN, which is applied to spectroscopic data. In other terms, CNN is tailored for feature extraction from one-dimensional chemometric data, whilst the extracted features are fed into advanced regression methods to estimate underlying chemical component concentrations. Experimental findings suggest that, similarly to 2D CNNs, unidimensional CNNs are also prone to impose themselves with respect to traditional methods. The last contribution of this dissertation is to develop new method to estimate the connection weights of the CNNs. It is based on training an SVM for each kernel of the CNN. Such method has the advantage of being fast and adequate for applications that characterized by small datasets.
APA, Harvard, Vancouver, ISO, and other styles
35

van, Kan Mark David. "A probabilistic target classification and description model for seismic sensors." Thesis, Monterey, Calif. : Springfield, Va. : Naval Postgraduate School ; Available from National Technical Information Service, 1994. http://handle.dtic.mil/100.2/ADA288548.

Full text
APA, Harvard, Vancouver, ISO, and other styles
36

Cherla, S. "Neural probabilistic models for melody prediction, sequence labelling and classification." Thesis, City, University of London, 2016. http://openaccess.city.ac.uk/17444/.

Full text
Abstract:
Data-driven sequence models have long played a role in the analysis and generation of musical information. Such models are of interest in computational musicology, computer-aided music composition, and tools for music education among other applications. This dissertation beginswith an experiment tomodel sequences of musical pitch in melodies with a class of purely data-driven predictive models collectively known as Connectionist models. It was demonstrated that a set of six such models could performon par with, or better than state-of-the-art n-gram models previously evaluated in an identical setting. A new model known as the Recurrent Temporal Discriminative Restricted Boltzmann Machine (RTDRBM), was introduced in the process and found to outperform the rest of the models. A generalisation of this modelling task was also explored, and involved extending the set of musical features used as input by the models while still predicting pitch as before. The improvement in predictive performance which resulted from adding these new input features is encouraging for future work in this direction. Based on the above success of the RTDRBM, its application was extended to a non-musical sequence labelling task, namely Optical Character Recognition. This extension involved a modification to the model’s original prediction algorithm as a result of relaxing an assumption specific to the melody modelling task. The generalised model was evaluated on a benchmark dataset and compared against a set of 8 baseline models where it faired better than all of them. Furthermore, a theoretical extension to an existingmodel which was also employed in the above pitch prediction task - the Discriminative Restricted Boltzmann Machine (DRBM) - was proposed. This led to three new variants of the DRBM (which originally contained Logistic Sigmoid hidden layer activations), withHyperbolic Tangent, Binomial and Rectified Linear hidden layer activations respectively. The first two of these have been evaluated here on the benchmark MNIST dataset and shown to perform on par with the original DRBM.
APA, Harvard, Vancouver, ISO, and other styles
37

Cossuth, Joshua Howard. "Climatology of Dvorak classifications for operational probabilistic genesis forecasts." Tallahassee, Fla. : Florida State University, 2010. http://purl.fcla.edu/fsu/lib/digcoll/undergraduate/honors-theses/2181932.

Full text
APA, Harvard, Vancouver, ISO, and other styles
38

ANOUAR, FATIHA. "Modélisation probabilistes des cartes auto-organisées : Application en classification et en régression." Paris, CNAM, 1996. http://www.theses.fr/1996CNAM0256.

Full text
Abstract:
La thèse tente de rapprocher les méthodes statistiques et les méthodes neuronales. L'algorithme de kohonen som est explique dans le cadre du formalisme des nuées dynamiques. Ensuite une modélisation probabiliste des cartes topologiques est proposée avec un algorithme d'apprentissage non supervisé qui maximise le critère du maximum de vraisemblance
APA, Harvard, Vancouver, ISO, and other styles
39

Proske, Dirk, Milad Mehdianpour, and Lucjan Gucma. "4th International Probabilistic Workshop: 12th-13th October 2006, Berlin, BAM (Federal Institute for Materials Research and Testing)." Universität für Bodenkultur Wien, 2009. https://slub.qucosa.de/id/qucosa%3A284.

Full text
Abstract:
Die heutige Welt der Menschen wird durch große Dynamik geprägt. Eine Vielzahl verschiedener Prozesse entfaltet sich parallel und teilweise auf unsichtbare Weise miteinander verbunden. Nimmt man z.B. den Prozess der Globalisierung: Hier erleben wir ein exponentielles Wachstum der internationalen Verknüpfungen von der Ebene einzelner Menschen und bis zur Ebene der Kulturen. Solche Verknüpfungen führen uns zum Begriff der Komplexität. Diese wird oft als Produkt der Anzahl der Elemente eines Systems mal Umfang der Verknüpfungen im System verstanden. In anderen Worten, die Welt wird zunehmend komplexer, denn die Verknüpfungen nehmen zu. Komplexität wiederum ist ein Begriff für etwas unverstandenes, unkontrollierbares, etwas unbestimmtes. Genau wie bei einem Menschen: Aus einer Zelle wächst ein Mensch, dessen Verhalten wir im Detail nur schwer vorhersagen können. Immerhin besitzt sein Gehirn 1011 Elemente (Zellen). Wenn also diese dynamischen sozialen Prozesse zu höherer Komplexität führen, müssen wir auch mehr Unbestimmtheit erwarten. Es bleibt zu Hoffen, dass die Unbestimmtheit nicht existenzielle Grundlagen betrifft. Was die Komplexität der Technik angeht, so versucht man hier im Gegensatz zu den gesellschaftlichen Unsicherheiten die Unsicherheiten zu erfassen und gezielt mit ihnen umzugehen. Das gilt für alle Bereiche, ob nun Naturgefahrenmanagement, beim Bau und Betrieb von Kernkraftwerken, im Bauwesen oder in der Schifffahrt. Und so verschieden diese Fachgebiete auch scheinen mögen, die an diesem Symposium teilnehmen: Sie haben erkannt, das verantwortungsvoller Umgang mit Technik einer Berücksichtigung der Unbestimmtheit bedarf. Soweit sind wir in gesellschaftlichen Prozessen noch nicht. Wünschenswert wäre, dass in einigen Jahren nicht nur Bauingenieure, Maschinenbauer, Mathematiker oder Schiffsbauer an einem solchen Probabilistik- Symposium teilnehmen, sondern auch Soziologen, Politiker oder Manager... (aus dem Vorwort) --- HINWEIS: Das Volltextdokument besteht aus einzelnen Beiträgen mit separater Seitenzählung.
PREFACE: The world today is shaped by high dynamics. Multitude of processes evolves parallel and partly connected invisible. For example, the globalisation is such a process. Here one can observe the exponential growing of connections form the level of single humans to the level of cultures. Such connections guide as to the term complexity. Complexity is often understood as product of the number of elements and the amount of connections in the system. In other words, the world is going more complex, if the connections increase. Complexity itself is a term for a system, which is not fully understood, which is partly uncontrollable and indeterminated: exactly as humans. Growing from a single cell, the humans will show latter a behaviour, which we can not predict in detail. After all, the human brain consists of 1011 elements (cells). If the social dynamical processes yield to more complexity, we have to accept more indetermination. Well, one has to hope, that such an indetermination does not affect the basic of human existence. If we look at the field of technology, we can detect, that here indetermination or uncertainty is often be dealt with explicitly. This is valid for natural risk management, for nuclear engineering, civil engineering or for the design of ships. And so different the fields are which contribute to this symposium for all is valid: People working in this field have realised, that a responsible usage of technology requires consideration of indetermination and uncertainty. This level is not yet reached in the social sciences. It is the wish of the organisers of this symposium, that not only civil engineers, mechanical engineers, mathematicians, ship builders take part in this symposium, but also sociologists, managers and even politicians. Therefore there is still a great opportunity to grow for this symposium. Indetermination does not have to be negative: it can also be seen as chance.
APA, Harvard, Vancouver, ISO, and other styles
40

Khoury, Mehdi. "A fuzzy probabilistic inference methodology for constrained 3D human motion classification." Thesis, University of Portsmouth, 2010. https://researchportal.port.ac.uk/portal/en/theses/a-fuzzy-probabilistic-inference-methodology-for-constrained-3d-human-motion-classification(74f66479-a548-400c-a6cc-8f44bf996cb0).html.

Full text
Abstract:
Enormous uncertainties in unconstrained human motions lead to a fundamental challenge that many recognising algorithms have to face in practice: efficient and correct motion recognition is a demanding task, especially when human kinematic motions are subject to variations of execution in the spatial and temporal domains, heavily overlap with each other,and are occluded. Due to the lack of a good solution to these problems, many existing methods tend to be either effective but computationally intensive or efficient but vulnerable to misclassification. This thesis presents a novel inference engine for recognising occluded 3D human motion assisted by the recognition context. First, uncertainties are wrapped into a fuzzy membership function via a novel method called Fuzzy Quantile Generation which employs metrics derived from the probabilistic quantile function. Then, time-dependent and context-aware rules are produced via a genetic programming to smooth the qualitative outputs represented by fuzzy membership functions. Finally, occlusion in motion recognition is taken care of by introducing new procedures for feature selection and feature reconstruction. Experimental results demonstrate the effectiveness of the proposed framework on motion capture data from real boxers in terms of fuzzy membership generation, context-aware rule generation, and motion occlusion. Future work might involve the extension of Fuzzy Quantile Generation in order to automate the choice of a probability distribution, the enhancement of temporal pattern recognition with probabilistic paradigms, the optimisation of the occlusion module, and the adaptation of the present framework to different application domains.
APA, Harvard, Vancouver, ISO, and other styles
41

Shaw, Donald B. "Classification of transmitter transients using fractal measures and probabilistic neural networks." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1997. http://www.collectionscanada.ca/obj/s4/f2/dsk2/ftp04/mq23494.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
42

Ferguson, Elayne V. "Computer-assisted methods in the classification and probabilistic identification of Streptomyces." Thesis, University of Newcastle Upon Tyne, 1996. http://ethos.bl.uk/OrderDetails.do?uin=uk.bl.ethos.361941.

Full text
APA, Harvard, Vancouver, ISO, and other styles
43

Rezvanizaniani, Seyed Mohammad. "Probabilistic Based Classification Techniques for Improved Prognostics Using Time Series Data." University of Cincinnati / OhioLINK, 2015. http://rave.ohiolink.edu/etdc/view?acc_num=ucin1428048932.

Full text
APA, Harvard, Vancouver, ISO, and other styles
44

Wang, Qing. "Development, improvement and assessment of image classification and probability mapping algorithms." OpenSIUC, 2018. https://opensiuc.lib.siu.edu/dissertations/1622.

Full text
Abstract:
Remotely sensed imagery is one of the most important data sources for large-scale and multi-temporal agricultural, forestry, soil, environmental, social and economic applications. In order to accurately extract useful thematic information of the earth surface from images, various techniques and methods have been developed. The methods can be divided into parametric and non-parametric based on the requirement of data distribution, or into global and local based on the characteristics of modeling global trends and local variability, or into unsupervised and supervised based on whether training data are required, and into design-based and model-based in terms of the theory based on which the estimators are developed. The methods have their own disadvantages that impede the improvement of estimation accuracy. Thus, developing novel methods and improving the existing methods are needed. This dissertation focused on the development of a feature-space indicator simulation (FSIS), the improvement of geographically weighted sigmoidal simulation (GWSS) and k-nearest neighbors (kNN), and their assessment of land use and land cover (LULC) classification and probability (fraction) mapping of percentage vegetation cover (PVC) in Duolun County, Xilingol League, Inner Mongolia, China. The FSIS employs an indicator simulation in a high-dimensional feature space and expends derivation of indicator variograms from geographic space to feature space that leads to feature space indicator variograms (FSIV), to circumvent the issues existing in traditional indicator simulation in geostatistics. The GWSS is a stochastic and probability mapping method and considers a spatially nonstationary sample data and the local variation of an interest variable. The improved kNN, called Optimal k-nearest neighbors (OkNN), searches for an optimal number of nearest neighbors at each location based on local variability, and can be used for both classification and probability mapping. Three methods were validated and compared with several widely used approaches for LULC classification and PVC mapping in the study area. The datasets used in the study included a Landsat 8 image and a total of 920 field plots. The results obtained showed that 1) Compared with maximum likelihood classification (ML), support vector machine (SVM) and random forest (RF), the proposed FSIS classifier led to statistically significantly higher classification accuracy of six LULC types (water, agricultural land, grassland, bare soil, built-up area, and forested area); 2) Compared with linear regression (LR), polynomial regression (PR), sigmoidal regression (SR), geographically weighted regression (GWR), and geographically weighted polynomial regression (GWPR), GWSS did not only resulted in more accurate estimates of PVC, but also greatly reduced the underestimations and overestimation of PVC for the small and large values respectively; 3) Most of the red and near infrared bands relevant vegetation indices had significant contributions to improving the accuracy of mapping PVC; 4) OkNN resulted in spatially variable and optimized k values and higher prediction accuracy of PVC than the global methods; and 5) The range parameter of FSIVs was the major factor that spatially affected the classification accuracy of LULC types, but the FSIVs were less sensitive to the number of training samples. Thus, the results answered all six research questions proposed.
APA, Harvard, Vancouver, ISO, and other styles
45

Gasse, Maxime. "Apprentissage de Structure de Modèles Graphiques Probabilistes : application à la Classification Multi-Label." Thesis, Lyon, 2017. http://www.theses.fr/2017LYSE1003/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons au problème spécifique de l'apprentissage de structure de modèles graphiques probabilistes, c'est-à-dire trouver la structure la plus efficace pour représenter une distribution, à partir seulement d'un ensemble d'échantillons D ∼ p(v). Dans une première partie, nous passons en revue les principaux modèles graphiques probabilistes de la littérature, des plus classiques (modèles dirigés, non-dirigés) aux plus avancés (modèles mixtes, cycliques etc.). Puis nous étudions particulièrement le problème d'apprentissage de structure de modèles dirigés (réseaux Bayésiens), et proposons une nouvelle méthode hybride pour l'apprentissage de structure, H2PC (Hybrid Hybrid Parents and Children), mêlant une approche à base de contraintes (tests statistiques d'indépendance) et une approche à base de score (probabilité postérieure de la structure). Dans un second temps, nous étudions le problème de la classification multi-label, visant à prédire un ensemble de catégories (vecteur binaire y P (0, 1)m) pour un objet (vecteur x P Rd). Dans ce contexte, l'utilisation de modèles graphiques probabilistes pour représenter la distribution conditionnelle des catégories prend tout son sens, particulièrement dans le but minimiser une fonction coût complexe. Nous passons en revue les principales approches utilisant un modèle graphique probabiliste pour la classification multi-label (Probabilistic Classifier Chain, Conditional Dependency Network, Bayesian Network Classifier, Conditional Random Field, Sum-Product Network), puis nous proposons une approche générique visant à identifier une factorisation de p(y|x) en distributions marginales disjointes, en s'inspirant des méthodes d'apprentissage de structure à base de contraintes. Nous démontrons plusieurs résultats théoriques, notamment l'unicité d'une décomposition minimale, ainsi que trois procédures quadratiques sous diverses hypothèses à propos de la distribution jointe p(x, y). Enfin, nous mettons en pratique ces résultats afin d'améliorer la classification multi-label avec les fonctions coût F-loss et zero-one loss
In this thesis, we address the specific problem of probabilistic graphical model structure learning, that is, finding the most efficient structure to represent a probability distribution, given only a sample set D ∼ p(v). In the first part, we review the main families of probabilistic graphical models from the literature, from the most common (directed, undirected) to the most advanced ones (chained, mixed etc.). Then we study particularly the problem of learning the structure of directed graphs (Bayesian networks), and we propose a new hybrid structure learning method, H2PC (Hybrid Hybrid Parents and Children), which combines a constraint-based approach (statistical independence tests) with a score-based approach (posterior probability of the structure). In the second part, we address the multi-label classification problem, which aims at assigning a set of categories (binary vector y P (0, 1)m) to a given object (vector x P Rd). In this context, probabilistic graphical models provide convenient means of encoding p(y|x), particularly for the purpose of minimizing general loss functions. We review the main approaches based on PGMs for multi-label classification (Probabilistic Classifier Chain, Conditional Dependency Network, Bayesian Network Classifier, Conditional Random Field, Sum-Product Network), and propose a generic approach inspired from constraint-based structure learning methods to identify the unique partition of the label set into irreducible label factors (ILFs), that is, the irreducible factorization of p(y|x) into disjoint marginal distributions. We establish several theoretical results to characterize the ILFs based on the compositional graphoid axioms, and obtain three generic procedures under various assumptions about the conditional independence properties of the joint distribution p(x, y). Our conclusions are supported by carefully designed multi-label classification experiments, under the F-loss and the zero-one loss functions
APA, Harvard, Vancouver, ISO, and other styles
46

Sutradhar, Santosh C. "Classification of a correlated binary observation." Thesis, National Library of Canada = Bibliothèque nationale du Canada, 1998. http://www.collectionscanada.ca/obj/s4/f2/dsk2/tape15/PQDD_0001/MQ36183.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
47

Rodrigues, Thiago Fredes. "A probabilistic and incremental model for online classification of documents : DV-INBC." reponame:Biblioteca Digital de Teses e Dissertações da UFRGS, 2016. http://hdl.handle.net/10183/142171.

Full text
Abstract:
Recentemente, houve um aumento rápido na criação e disponibilidade de repositórios de dados, o que foi percebido nas áreas de Mineração de Dados e Aprendizagem de Máquina. Este fato deve-se principalmente à rápida criação de tais dados em redes sociais. Uma grande parte destes dados é feita de texto, e a informação armazenada neles pode descrever desde perfis de usuários a temas comuns em documentos como política, esportes e ciência, informação bastante útil para várias aplicações. Como muitos destes dados são criados em fluxos, é desejável a criação de algoritmos com capacidade de atuar em grande escala e também de forma on-line, já que tarefas como organização e exploração de grandes coleções de dados seriam beneficiadas por eles. Nesta dissertação um modelo probabilístico, on-line e incremental é apresentado, como um esforço em resolver o problema apresentado. O algoritmo possui o nome DV-INBC e é uma extensão ao algoritmo INBC. As duas principais características do DV-INBC são: a necessidade de apenas uma iteração pelos dados de treino para criar um modelo que os represente; não é necessário saber o vocabulário dos dados a priori. Logo, pouco conhecimento sobre o fluxo de dados é necessário. Para avaliar a performance do algoritmo, são apresentados testes usando datasets populares.
Recently the fields of Data Mining and Machine Learning have seen a rapid increase in the creation and availability of data repositories. This is mainly due to its rapid creation in social networks. Also, a large part of those data is made of text documents. The information stored in such texts can range from a description of a user profile to common textual topics such as politics, sports and science, information very useful for many applications. Besides, since many of this data are created in streams, scalable and on-line algorithms are desired, because tasks like organization and exploration of large document collections would be benefited by them. In this thesis an incremental, on-line and probabilistic model for document classification is presented, as an effort of tackling this problem. The algorithm is called DV-INBC and is an extension to the INBC algorithm. The two main characteristics of DV-INBC are: only a single scan over the data is necessary to create a model of it; the data vocabulary need not to be known a priori. Therefore, little knowledge about the data stream is needed. To assess its performance, tests using well known datasets are presented.
APA, Harvard, Vancouver, ISO, and other styles
48

Chiappa, Silvia. "Analysis and classification of EEG signals using probabilistic models for brain computer interfaces /." [S.l.] : [s.n.], 2006. http://library.epfl.ch/theses/?nr=3547.

Full text
APA, Harvard, Vancouver, ISO, and other styles
49

Ekdahl, Magnus. "On approximations and computations in probabilistic classification and in learning of graphical models /." Linköping : Department of Mathematics, Linköpings universitet, 2007. http://www.bibl.liu.se/liupubl/disp/disp2007/tek1141s.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
50

Wang, Yi. "DNA microarray data classification based on sub-dimensional features and probabilistic neural networks." Thesis, The University of Sydney, 2008. https://hdl.handle.net/2123/29168.

Full text
Abstract:
This thesis presents a successful application of a modified probabilistic neural network for DNA microarray data classification based on sub-dimensional features. The first part of this thesis consists of an introduction and background review of relevant topics on the neural network classification. The particular method presented in this thesis, that is, the probabilistic neural network is explained in Chapter 3. Based on this classification process, we introduce the sub-dimension concept into the procedure. For normal supervised classification, one classifier will be formed after the entire datasets training has taken place. However, in our experiments, instead of training entire datasets simultaneously, we divide the input datasets into several small sub-dimensions based on features and then apply the training process on each smaller part. After this step, the result of the training does not consist of just one classifier, but of several classifiers formed simultaneously. The advantage of the proposed method is that the corrupted data in one feature hardly affects the performance of other classifiers. The proposed method can achieve the best performance especially if the input datasets are corrupted in some uncertain features. The following experiments show that the method achieves successful results. We also make use of an entropy based measurement as part of the feature extraction process. However, in our experiments, we simply adopt it as a measure to reduce the dimensions of the sub-dimensions formed according to Chapter 3. Especially in a corruption problem, dimension reduction can provide a competitive result compared to normal classification, while the system complexity and time spent is reduced significantly.
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography