Dissertations / Theses on the topic 'Classification des logiciels malveillants'

To see the other types of publications on this topic, follow the link: Classification des logiciels malveillants.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 47 dissertations / theses for your research on the topic 'Classification des logiciels malveillants.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Puodzius, Cassius. "Data-driven malware classification assisted by machine learning methods." Electronic Thesis or Diss., Rennes 1, 2022. https://ged.univ-rennes1.fr/nuxeo/site/esupversions/3dabb48c-b635-46a5-bcbe-23992a2512ec.

Full text
Abstract:
Historiquement, l'analyse des logiciels malveillants (ou MW) a fortement fait appel au savoir-faire humain pour la création manuelle de signatures permettant de détecter et de classer les MW. Cette procédure est très coûteuse et prend beaucoup de temps, ce qui ne permet pas de faire face aux scénario modernes de cybermenaces. La solution consiste à automatiser largement l'analyse des MW. Dans ce but, la classification des MW permet d'optimiser le traitement de grands corpus de MW en identifiant les ressemblances entre des instances similaires. La classification des MW est donc une activité clé liée à l'analyse des MW. Cette thèse aborde le problème de la classification des MW en adoptant une approche pour laquelle l'intervention humaine est évitée autant que possible. De plus, nous contournons la subjectivité inhérente à l'analyse humaine en concevant la classification uniquement à partir de données directement issues de l'analyse des MW, adoptant ainsi une approche dirigée par les données. Notre objectif est d'améliorer l'automatisation de l'analyse des MW et de la combiner avec des méthodes d'apprentissage automatique capables de repérer et de révéler de manière autonome des points communs imprévisibles au sein des données. Nous avons échelonné notre travail en trois étapes. Dans un premier temps, nous nous sommes concentrés sur l'amélioration de l'analyse des MW et sur son automatisation, étudiant de nouvelles façons d'exploiter l'exécution symbolique dans l'analyse des MW et développant un cadre d'exécution distribué pour augmenter notre puissance de calcul. Nous nous sommes ensuite concentrés sur la représentation du comportement des MW, en accordant une attention particulière à sa précision et à sa robustesse. Enfin, nous nous sommes focalisés sur le partitionnement des MW, en concevant une méthodologie qui qui ne restreint pas la combinaison des caractéristiques syntaxiques et comportementales, et qui monte bien en charge en pratique. Quant à nos principales contributions, nous revisitions l'usage de l'exécution symbolique pour l'analyse des MW en accordant une attention particulière à l'utilisation optimale des tactiques des solveurs SMT et aux réglages des hyperparamètres ; nous concevons un nouveau paradigme d'évaluation pour les systèmes d'analyse des MW ; nous formulons une représentation compacte du comportement sous la forme de graphe, ainsi qu'une fonction associée pour le calcul de la similarité par paire, qui est précise et robuste ; et nous élaborons une nouvelle stratégie de partitionnement des MW basée sur un partitionnement d'ensemble flexible en ce qui concerne la combinaison des caractéristiques syntaxiques et comportementales
Historically, malware (MW) analysis has heavily resorted to human savvy for manual signature creation to detect and classify MW. This procedure is very costly and time consuming, thus unable to cope with modern cyber threat scenario. The solution is to widely automate MW analysis. Toward this goal, MW classification allows optimizing the handling of large MW corpora by identifying resemblances across similar instances. Consequently, MW classification figures as a key activity related to MW analysis, which is paramount in the operation of computer security as a whole. This thesis addresses the problem of MW classification taking an approach in which human intervention is spared as much as possible. Furthermore, we steer clear of subjectivity inherent to human analysis by designing MW classification solely on data directly extracted from MW analysis, thus taking a data-driven approach. Our objective is to improve the automation of malware analysis and to combine it with machine learning methods that are able to autonomously spot and reveal unwitting commonalities within data. We phased our work in three stages. Initially we focused on improving MW analysis and its automation, studying new ways of leveraging symbolic execution in MW analysis and developing a distributed framework to scale up our computational power. Then we concentrated on the representation of MW behavior, with painstaking attention to its accuracy and robustness. Finally, we fixed attention on MW clustering, devising a methodology that has no restriction in the combination of syntactical and behavioral features and remains scalable in practice. As for our main contributions, we revamp the use of symbolic execution for MW analysis with special attention to the optimal use of SMT solver tactics and hyperparameter settings; we conceive a new evaluation paradigm for MW analysis systems; we formulate a compact graph representation of behavior, along with a corresponding function for pairwise similarity computation, which is accurate and robust; and we elaborate a new MW clustering strategy based on ensemble clustering that is flexible with respect to the combination of syntactical and behavioral features
APA, Harvard, Vancouver, ISO, and other styles
2

Calvet, Joan. "Analyse Dynamique de Logiciels Malveillants." Phd thesis, Université de Lorraine, 2013. http://tel.archives-ouvertes.fr/tel-00922384.

Full text
Abstract:
L'objectif de cette thèse est le développement de méthodes de compréhension des logiciels malveillants, afin d'aider l'analyste humain à mieux appréhender cette menace. La première réalisation de cette thèse est une analyse à grande échelle et en profondeur des protections de logiciels malveillants. Plus précisément, nous avons étudié des centaines d'exemplaires de logiciels malveillants, soigneusement sélectionnés pour leur dangerosité. En mesurant de façon automatique un ensemble de caractéristiques originales, nous avons pu alors montrer l'existence d'un modèle de protection particulièrement prévalent dans ces programmes, qui est basé sur l'auto modification du code et sur une limite stricte entre code de protection et code utile. Ensuite, nous avons développé une méthode d'identification d'implémentations cryptographiques adaptée aux programmes en langage machine protégés. Nous avons validé notre approche en identifiant de nombreuses implémentations d'algorithmes cryptographiques -- dont la majorité sont complètement invisibles pour les outils existants --, et ceci en particulier dans des protections singulièrement obscures de logiciels malveillants. Finalement, nous avons développé ce qui est, à notre connaissance, le premier environnement d'émulation de réseaux de machines infectées avec plusieurs milliers de machines. Grâce à cela, nous avons montré que l'exploitation d'une vulnérabilité du protocole pair-à-pair du réseau Waledac permet de prendre son contrôle.
APA, Harvard, Vancouver, ISO, and other styles
3

Thierry, Aurélien. "Désassemblage et détection de logiciels malveillants auto-modifiants." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0011/document.

Full text
Abstract:
Cette thèse porte en premier lieu sur l'analyse et le désassemblage de programmes malveillants utilisant certaines techniques d'obscurcissement telles que l'auto-modification et le chevauchement de code. Les programmes malveillants trouvés dans la pratique utilisent massivement l'auto-modification pour cacher leur code utile à un analyste. Nous proposons une technique d'analyse hybride qui utilise une trace d'exécution déterminée par analyse dynamique. Cette analyse découpe le programme auto-modifiant en plusieurs sous-parties non auto-modifiantes que nous pouvons alors étudier par analyse statique en utilisant la trace comme guide. Cette seconde analyse contourne d'autres techniques de protection comme le chevauchement de code afin de reconstruire le graphe de flot de contrôle du binaire analysé. Nous étudions également un détecteur de programmes malveillants, fonctionnant par analyse morphologique : il compare les graphes de flot de contrôle d'un programme à analyser à ceux de programmes connus comme malveillants. Nous proposons une formalisation de ce problème de comparaison de graphes, des algorithmes permettant de le résoudre efficacement et détaillons des cas concrets d'application à la détection de similarités logicielles
This dissertation explores tactics for analysis and disassembly of malwares using some obfuscation techniques such as self-modification and code overlapping. Most malwares found in the wild use self-modification in order to hide their payload from an analyst. We propose an hybrid analysis which uses an execution trace derived from a dynamic analysis. This analysis cuts the self-modifying binary into several non self-modifying parts that we can examine through a static analysis using the trace as a guide. This second analysis circumvents more protection techniques such as code overlapping in order to recover the control flow graph of the studied binary. Moreover we review a morphological malware detector which compares the control flow graph of the studied binary against those of known malwares. We provide a formalization of this graph comparison problem along with efficient algorithms that solve it and a use case in the software similarity field
APA, Harvard, Vancouver, ISO, and other styles
4

Pektaş, Abdurrahman. "Behavior based malware classification using online machine learning." Thesis, Université Grenoble Alpes (ComUE), 2015. http://www.theses.fr/2015GREAM065/document.

Full text
Abstract:
Les malwares, autrement dit programmes malicieux ont grandement évolué ces derniers temps et sont devenus une menace majeure pour les utilisateurs grand public, les entreprises et même le gouvernement. Malgré la présence et l'utilisation intensive de divers outils anti-malwares comme les anti-virus, systèmes de détection d'intrusions, pare-feux etc ; les concepteurs de malwares peuvent significativement contourner ses protections en utilisant les techniques d'offuscation. Afin de limiter ces problèmes, les chercheurs spécialisés dans les malwares ont proposé différentes approches comme l'exploration des données (data mining) ou bien l'apprentissage automatique (machine learning) pour détecter et classifier les échantillons de malwares en fonction de leur propriétés statiques et dynamiques. De plus les méthodes proposées sont efficaces sur un petit ensemble de malwares, le passage à l'échelle de ses méthodes pour des grands ensembles est toujours en recherche et n'a pas été encore résolu.Il est évident aussi que la majorité des malwares sont une variante des précédentes versions. Par conséquent, le volume des nouvelles variantes créées dépasse grandement la capacité d'analyse actuelle. C'est pourquoi développer la classification des malwares est essentiel pour lutter contre cette augmentation pour la communauté informatique spécialisée en sécurité. Le challenge principal dans l'identification des familles de malware est de réussir à trouver un équilibre entre le nombre d'échantillons augmentant et la précision de la classification. Pour surmonter cette limitation, contrairement aux systèmes de classification existants qui appliquent des algorithmes d'apprentissage automatique pour sauvegarder les données ; ce sont des algorithmes hors-lignes ; nous proposons une nouvelle classification de malwares en ligne utilisant des algorithmes d'apprentissage automatique qui peuvent fournir une mise à jour instantanée d'un nouvel échantillon de malwares en suivant son introduction dans le système de classification.Pour atteindre notre objectif, premièrement nous avons développé une version portable, évolutive et transparente d'analyse de malware appelée VirMon pour analyse dynamique de malware visant les OS windows. VirMon collecte le comportement des échantillons analysés au niveau bas du noyau à travers son pilote mini-filtre développé spécifiquement. Deuxièmement, nous avons mis en place un cluster de 5 machines pour notre module d'apprentissage en ligne ( Jubatus);qui permet de traiter une quantité importante de données. Cette configuration permet à chaque machine d'exécuter ses tâches et de délivrer les résultats obtenus au gestionnaire du cluster.Notre outil proposé consiste essentiellement en trois niveaux majeures. Le premier niveau permet l'extraction des comportements des échantillons surveillés et observe leurs interactions avec les ressources de l'OS. Durant cette étape, le fichier exemple est exécuté dans un environnement « sandbox ». Notre outil supporte deux « sandbox »:VirMon et Cuckoo. Durant le second niveau, nous appliquons des fonctionnalités d'extraction aux rapports d'analyses. Le label de chaque échantillon est déterminé Virustotal, un outil regroupant plusieurs anti-virus permettant de scanner en ligne constitués de 46 moteurs de recherches. Enfin au troisième niveau, la base de données de malware est partitionnée en ensemble de test et d'apprentissage. L'ensemble d'apprentissage est utilisé pour obtenir un modèle de classification et l'ensemble de test est utilisé pour l'évaluation.Afin de valider l'efficacité et l'évolutivité de notre méthode, nous l'avons évalué en se basant sur une base de 18 000 fichiers malicieux récents incluant des virus, trojans, backdoors, vers etc, obtenue depuis VirusShare. Nos résultats expérimentaux montrent que permet la classification de malware avec une précision de 92 %
Recently, malware, short for malicious software has greatly evolved and became a major threat to the home users, enterprises, and even to the governments. Despite the extensive use and availability of various anti-malware tools such as anti-viruses, intrusion detection systems, firewalls etc., malware authors can readily evade these precautions by using obfuscation techniques. To mitigate this problem, malware researchers have proposed various data mining and machine learning approaches for detecting and classifying malware samples according to the their static or dynamic feature set. Although the proposed methods are effective over small sample set, the scalability of these methods for large data-set are in question.Moreover, it is well-known fact that the majority of the malware is the variant of the previously known samples. Consequently, the volume of new variant created far outpaces the current capacity of malware analysis. Thus developing malware classification to cope with increasing number of malware is essential for security community. The key challenge in identifying the family of malware is to achieve a balance between increasing number of samples and classification accuracy. To overcome this limitation, unlike existing classification schemes which apply machine learning algorithm to stored data, i.e., they are off-line, we proposed a new malware classification system employing online machine learning algorithms that can provide instantaneous update about the new malware sample by following its introduction to the classification scheme.To achieve our goal, firstly we developed a portable, scalable and transparent malware analysis system called VirMon for dynamic analysis of malware targeting Windows OS. VirMon collects the behavioral activities of analyzed samples in low kernel level through its developed mini-filter driver. Secondly we set up a cluster of five machines for our online learning framework module (i.e. Jubatus), which allows to handle large scale of data. This configuration allows each analysis machine to perform its tasks and delivers the obtained results to the cluster manager.Essentially, the proposed framework consists of three major stages. The first stage consists in extracting the behavior of the sample file under scrutiny and observing its interactions with the OS resources. At this stage, the sample file is run in a sandboxed environment. Our framework supports two sandbox environments: VirMon and Cuckoo. During the second stage, we apply feature extraction to the analysis report. The label of each sample is determined by using Virustotal, an online multiple anti-virus scanner framework consisting of 46 engines. Then at the final stage, the malware dataset is partitioned into training and testing sets. The training set is used to obtain a classification model and the testing set is used for evaluation purposes .To validate the effectiveness and scalability of our method, we have evaluated our method on 18,000 recent malicious files including viruses, trojans, backdoors, worms, etc., obtained from VirusShare, and our experimental results show that our method performs malware classification with 92% of accuracy
APA, Harvard, Vancouver, ISO, and other styles
5

Lemay, Frédérick. "Instrumentation optimisée de code pour prévenir l'exécution de code malicieux." Thesis, Université Laval, 2012. http://www.theses.ulaval.ca/2012/29030/29030.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Khoury, Raphaël. "Détection du code malicieux : système de type à effets et instrumentation du code." Thesis, Université Laval, 2005. http://www.theses.ulaval.ca/2005/23250/23250.pdf.

Full text
Abstract:
Ce mémoire traite en premier lieu des avantages et des désavantages des différentes approches visant à assurer la sûreté et la sécurité des logiciels. En second lieu, il présente une nouvelle approche pour combiner l'analyse statique et l'analyse dynamique afin de produire une architecture de sécurité plus puissante. Les premiers chapitres du mémoire comportent une revue analytique des différentes approches statiques, dynamiques et hybrides qui peuvent être utilisées afin de sécuriser le code potentiellement malicieux. L'exposé identifie alors les avantages et les inconvénients de chaque approche ainsi que le champ des politiques de sécurité dans lesquels on peut l'appliquer. Le dernier chapitre traite de la possibilité de combiner l'analyse statique et l'analyse dynamique par une nouvelle approche hybride. Cette approche consiste à instrumenter le code seulement là où c'est nécessaire pour assurer satisfaire une politique de sécurité définie par l'usager et exprimée en un ensemble de propriétés exprimées μ-calcul modal. Cette instrumentation est guidée par une analyse statique effectuée à priori et basée sur un système de type à effets. Les effets représentent les accès aux ressources protégées du système.
The purpose of this thesis is twofold. In the first place it presents a comparative study of the advantages and drawbacks of several approaches to insure software safety and security. It then focuses more particularly on combining static analyses and dynamic monitoring in order to produce a more powerful security architecture. The first chapters of the thesis present an analytical review of the various static, dynamic and hybrid approaches that can be used to secure a potentially malicious code. The advantages and drawbacks of each approach are thereby analyzed and the field of security properties that can be enforced by using it are identified. The thesis then focuses on the possibility of combining static and dynamic analysis through a new hybrid approach. This approach consists in a code instrumentation, that only alters those parts of a program where it is necessary to do so to insure the respect of a user-defined security policy expressed in a set of modal μ-calculus properties. this instrumentation is guided by a static analysis based on a type and effect system. The effects represent the accesses made to pretested system ressources.
APA, Harvard, Vancouver, ISO, and other styles
7

Palisse, Aurélien. "Analyse et détection de logiciels de rançon." Thesis, Rennes 1, 2019. http://www.theses.fr/2019REN1S003/document.

Full text
Abstract:
La thèse s'intéresse aux logiciels de rançon, présente une plateforme d'analyse automatique et propose des contre-mesures. Nos contre-mesures sont conçues pour être temps réel et déployées sur une machine, c'est-à-dire ''End-Hosts''. En 2013 les logiciels de rançon font de nouveau parler d'eux, pour finalement devenir une des menaces les plus sérieuses à partir de 2015. Un état de l'art détaillé des contre-mesures existantes est fourni. On peut ainsi situer les contributions de cette thèse par rapport à la littérature. Nous présentons également une plateforme d'analyse automatique de logiciels malveillants composée de machines nues. L'objectif est de ne pas altérer le comportement des échantillons analysés. Une première contre-mesure basée sur l'utilisation d'une librairie cryptographique par les logiciels de rançon est proposée. Celle-ci peut être facilement contournée. Nous proposons donc une seconde contre-mesure générique et agnostique. Cette fois, des indicateurs de compromission sont utilisés pour analyser le comportement des processus sur le système de fichiers. Nous détaillons comment de manière empirique nous avons paramétré cette contre-mesure pour la rendre~: utilisable et efficace. Un des challenges de cette thèse étant de faire concilier performance, taux de détection et un faible taux de faux positifs. Enfin, les résultats d'une expérience utilisateur sont présentés. Cette expérience analyse le comportement des utilisateurs face à une menace. En dernière partie, nous proposons des améliorations à nos contributions mais aussi des pistes à explorer
This phD thesis takes a look at ransomware, presents an autonomous malware analysis platform and proposes countermeasures against these types of attacks. Our countermeasures are real-time and are deployed on a machine (i.e., end-hosts). In 2013, the ransomware become a hot subject of discussion again, before becoming one of the biggest cyberthreats beginning of 2015. A detailed state of the art for existing countermeasures is included in this thesis. This state of the art will help evaluate the contribution of this thesis in regards to the existing current publications. We will also present an autonomous malware analysis platform composed of bare-metal machines. Our aim is to avoid altering the behaviour of analysed samples. A first countermeasure based on the use of a cryptographic library is proposed, however it can easily be bypassed. It is why we propose a second generic and agnostic countermeasure. This time, compromission indicators are used to analyse the behaviour of process on the file system. We explain how we configured this countermeasure in an empiric way to make it useable and effective. One of the challenge of this thesis is to collate performance, detection rate and a small amount of false positive. To finish, results from a user experience are presented. This experience analyses the user's behaviour when faced with a threat. In the final part, I propose ways to enhance our contributions but also other avenues that could be explored
APA, Harvard, Vancouver, ISO, and other styles
8

Lespérance, Pierre-Luc. "Détection des variations d'attaques à l'aide d'une logique temporelle." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23481/23481.pdf.

Full text
Abstract:
La principale contribution de ce travail est de proposer une nouvelle logique, inspirée de la logique temporelle linéaire, qui permet d'améliorer les techniques standard de détection d'intrusions utilisant l'approche par scénarios, avec la possibilité de détecter des variantes d'attaques connues. La logique suggées pourrait trouver une trace de paquets qui correspondent, même partiellement avec une distance calculée, avec la formule qui décrit l'attaque. La deuxième partie consistera à décrire son implémentation et de montrer la contribution pour augmenter la performance et l'expressivité des règles des systèmes de détection d'intrusions et plus précisément, du système Snort.
APA, Harvard, Vancouver, ISO, and other styles
9

Beaucamps, Philippe. "Analyse de Programmes Malveillants par Abstraction de Comportements." Phd thesis, Institut National Polytechnique de Lorraine - INPL, 2011. http://tel.archives-ouvertes.fr/tel-00646395.

Full text
Abstract:
L'analyse comportementale traditionnelle opère en général au niveau de l'implantation du comportement malveillant. Pourtant, elle s'intéresse surtout à l'identification d'un comportement donné, indépendamment de sa mise en œuvre technique, et elle se situe donc plus naturellement à un niveau fonctionnel. Dans cette thèse, nous définissons une forme d'analyse comportementale de programmes qui opère non pas sur les interactions élémentaires d'un programme avec le système mais sur la fonction que le programme réalise. Cette fonction est extraite des traces d'un programme, un procédé que nous appelons abstraction. Nous définissons de façon simple, intuitive et formelle les fonctionnalités de base à abstraire et les comportements à détecter, puis nous proposons un mécanisme d'abstraction applicable à un cadre d'analyse statique ou dynamique, avec des algorithmes pratiques à complexité raisonnable, enfin nous décrivons une technique d'analyse comportementale intégrant ce mécanisme d'abstraction. Notre méthode est particulièrement adaptée à l'analyse des programmes dans des langages de haut niveau ou dont le code source est connu, pour lesquels l'analyse statique est facilitée : les programmes conçus pour des machines virtuelles comme Java ou .NET, les scripts Web, les extensions de navigateurs, les composants off-the-shelf. Le formalisme d'analyse comportementale par abstraction que nous proposons repose sur la théorie de la réécriture de mots et de termes, les langages réguliers de mots et de termes et le model checking. Il permet d'identifier efficacement des fonctionnalités dans des traces et ainsi d'obtenir une représentation des traces à un niveau fonctionnel ; il définit les fonctionnalités et les comportements de façon naturelle, à l'aide de formules de logique temporelle, ce qui garantit leur simplicité et leur flexibilité et permet l'utilisation de techniques de model checking pour la détection de ces comportements ; il opère sur un ensemble quelconque de traces d'exécution ; il prend en compte le flux de données dans les traces d'exécution ; et il permet, sans perte d'efficacité, de tenir compte de l'incertitude dans l'identification des fonctionnalités. Nous validons nos résultats par un ensemble d'expériences, menées sur des codes malicieux existants, dont les traces sont obtenues soit par instrumentation binaire dynamique, soit par analyse statique.
APA, Harvard, Vancouver, ISO, and other styles
10

Ta, Thanh Dinh. "Modèle de protection contre les codes malveillants dans un environnement distribué." Thesis, Université de Lorraine, 2015. http://www.theses.fr/2015LORR0040/document.

Full text
Abstract:
La thèse contient deux parties principales: la première partie est consacrée à l’extraction du format des messages, la deuxième partie est consacrée à l’obfuscation des comportements des malwares et la détection. Pour la première partie, nous considérons deux problèmes: "la couverture des codes" et "l’extraction du format des messages". Pour la couverture des codes, nous proposons une nouvelle méthode basée sur le "tainting intelligent" et sur l’exécution inversée. Pour l’extraction du format des messages, nous proposons une nouvelle méthode basée sur la classification de messages en utilisant des traces d’exécution. Pour la deuxième partie, les comportements des codes malveillants sont formalisés par un modèle abstrait pour la communication entre le programme et le système d’exploitation. Dans ce modèle, les comportements du programme sont des appels systèmes. Étant donné les comportements d’un programme bénin, nous montrons de façon constructive qu’il existe plusieurs programmes malveillants ayant également ces comportements. En conséquence, aucun détecteur comportemental n’est capable de détecter ces programmes malveillants
The thesis consists in two principal parts: the first one discusses the message for- mat extraction and the second one discusses the behavioral obfuscation of malwares and the detection. In the first part, we study the problem of “binary code coverage” and “input message format extraction”. For the first problem, we propose a new technique based on “smart” dynamic tainting analysis and reverse execution. For the second one, we propose a new method using an idea of classifying input message values by the corresponding execution traces received by executing the program with these input values. In the second part, we propose an abstract model for system calls interactions between malwares and the operating system at a host. We show that, in many cases, the behaviors of a malicious program can imitate ones of a benign program, and in these cases a behavioral detector cannot distinguish between the two programs
APA, Harvard, Vancouver, ISO, and other styles
11

Lacasse, Alexandre. "Approche algébrique pour la prévention d'intrusions." Thesis, Université Laval, 2006. http://www.theses.ulaval.ca/2006/23379/23379.pdf.

Full text
Abstract:
Dans ce travail, nous définissons une nouvelle algèbre de processus basée sur CCS. Cette algèbre, qui est destinée à la sécurisation formelle de réseaux, est munie d’un opérateur de surveillance qui permet de contrôler les entrées et les sorties d’un processus, ou d’un sous-processus, à l’image d’un pare-feu dans un réseau informatique. L’algèbre permet donc de modéliser des réseaux munis de moniteurs, et également, n’importe quel système communicant devant être contrôlé par des moniteurs. Avant d’entrer dans le vif du sujet, nous débutons par une revue des approches globales en détection d’intrusions, soient l’approche comportementale et l’approche par scénarios. Nous parcourons par la suite différents langages formels destinés à la modélisation de systèmes communicants, en prêtant une attention particulière aux algèbres de processus.
APA, Harvard, Vancouver, ISO, and other styles
12

Lebel, Bernard. "Analyse de maliciels sur Android par l'analyse de la mémoire vive." Master's thesis, Université Laval, 2018. http://hdl.handle.net/20.500.11794/29851.

Full text
Abstract:
Les plateformes mobiles font partie intégrante du quotidien. Leur flexibilité a permis aux développeurs d’applications d’y proposer des applications de toutes sortes : productivité, jeux, messageries, etc. Devenues des outils connectés d’agrégation d’informations personnelles et professionnelles, ces plateformes sont perçues comme un écosystème lucratif par les concepteurs de maliciels. Android est un système d’exploitation libre de Google visant le marché des appareils mobiles et est l’une des cibles de ces attaques, en partie grâce à la popularité de celuici. Dans la mesure où les maliciels Android constituent une menace pour les consommateurs, il est essentiel que la recherche visant l’analyse de maliciels s’intéresse spécifiquement à cette plateforme mobile. Le travail réalisé dans le cadre de cette maîtrise s’est intéressé à cette problématique, et plus spécifiquement par l’analyse de la mémoire vive. À cette fin, il a fallu s’intéresser aux tendances actuelles en matière de maliciels sur Android et les approches d’analyses statiques et dynamiques présentes dans la littérature. Il a été, par la suite, proposé d’explorer l’analyse de la mémoire vive appliquée à l’analyse de maliciels comme un complément aux approches actuelles. Afin de démontrer l’intérêt de l’approche pour la plateforme Android, une étude de cas a été réalisée où un maliciel expérimental a été conçu pour exprimer les comportements malicieux problématiques pour la plupart des approches relevées dans la littérature. Une approche appelée l’analyse différentielle de la mémoire vive a été présentée afin de faciliter l’analyse. Cette approche utilise le résultat de la différence entre les éléments présents après et avant le déploiement du maliciel pour réduire la quantité d’éléments à analyser. Les résultats de cette étude ont permis de démontrer que l’approche est prometteuse en tant que complément aux approches actuelles. Il est recommandé qu’elle soit le sujet d’études subséquentes afin de mieux détecter les maliciels sur Android et d’en automatiser son application.
Mobile devices are at the core of modern society. Their versatility has allowed third-party developers to generate a rich experience for the user through mobile apps of all types (e.g. productivity, games, communications). As mobile platforms have become connected devices that gather nearly all of our personal and professional information, they are seen as a lucrative market by malware developers. Android is an open-sourced operating system from Google targeting specifically the mobile market and has been targeted by malicious activity due the widespread adoption of the latter by the consumers. As Android malwares threaten many consumers, it is essential that research in malware analysis address specifically this mobile platform. The work conducted during this Master’s focuses on the analysis of malwares on the Android platform. This was achieved through a literature review of the current malware trends and the approaches in static and dynamic analysis that exists to mitigate them. It was also proposed to explore live memory forensics applied to the analysis of malwares as a complement to existing methods. To demonstrate the applicability of the approach and its relevance to the Android malwares, a case study was proposed where an experimental malware has been designed to express malicious behaviours difficult to detect through current methods. The approach explored is called differential live memory analysis. It consists of analyzing the difference in the content of the live memory before and after the deployment of the malware. The results of the study have shown that this approach is promising and should be explored in future studies as a complement to current approaches.
APA, Harvard, Vancouver, ISO, and other styles
13

RAMES, ERIC. "Sur la reutilisation de composants logiciels : classification et recherche." Toulouse 3, 1991. http://www.theses.fr/1991TOU30098.

Full text
Abstract:
Un des problemes essentiels poses par la reutilisation de logiciel est celui de la recherche, dans des bases existantes, de composants verifiant des criteres fonctionnels et/ou techniques particuliers. Dans la premiere partie de la these, nous analysons quelques modeles existants. Nous definissons ensuite un modele de recherche fonde sur une classification hierarchique et thematique des composants logiciels contenus dans une base. Dans la seconde partie de la these, nous proposons une methodologie permettant d'etablir manuellement des classifications hierarchiques et thematiques d'un domaine. Le modele propose est ensuite implemente sous forme de prototype, en utilisant un generateur de systemes experts (classic). Une evaluation des fonctions classement et recherche sur un echantillon de modules logiciels du domaine spatial est finalement presentee
APA, Harvard, Vancouver, ISO, and other styles
14

Nisi, Dario. "Unveiling and mitigating common pitfalls in malware analysis." Electronic Thesis or Diss., Sorbonne université, 2021. http://www.theses.fr/2021SORUS528.

Full text
Abstract:
L'importance des systèmes informatiques dans les sociétés modernes ne cesse de croître, tout comme les dommages causés par les logiciels malveillants. L'industrie de la sécurité et les auteurs de logiciels malveillants se sont engagés dans une course aux armements, dans laquelle les premiers créent de meilleurs systèmes de détection tandis que les seconds tentent de les contourner. En fait, toute hypothèse erronée (aussi subtile soit-elle) dans la conception d'un outil anti-malware peut créer de nouvelles voies pour échapper à la détection. Cette thèse se concentre sur deux aspects souvent négligés des techniques modernes d'analyse des logiciels malveillants : l'utilisation d'informations au niveau de l'API pour coder le comportement malveillant et la réimplémentation des routines d'analyse des formats de fichiers exécutables dans les outils orientés sécurité. Nous montrons qu'il est possible de tirer parti de ces pratiques à grande échelle et de manière automatisée. En outre, nous étudions la possibilité de résoudre ces problèmes à la racine, en mesurant les difficultés que les architectes anti-malware peuvent rencontrer et en proposant des stratégies pour les résoudre
As the importance of computer systems in modern-day societies grows, so does the damage that malicious software causes. The security industry and malware authors engaged in an arms race, in which the first creates better detection systems while the second try to evade them. In fact, any wrong assumption (no matter how subtle) in the design of an anti-malware tool may create new avenues for evading detection. This thesis focuses on two often overlooked aspects of modern malware analysis techniques: the use of API-level information to encode malicious behavior and the reimplementation of parsing routines for executable file formats in security-oriented tools. We show that taking advantage of these practices is possible on a large and automated scale. Moreover, we study the feasibility of fixing these problems at their roots, measuring the difficulties that anti-malware architects may encounter and providing strategies to solve them
APA, Harvard, Vancouver, ISO, and other styles
15

El, Hatib Souad. "Une approche sémantique de détection de maliciel Android basée sur la vérification de modèles et l'apprentissage automatique." Master's thesis, Université Laval, 2020. http://hdl.handle.net/20.500.11794/66322.

Full text
Abstract:
Le nombre croissant de logiciels malveillants Android s’accompagne d’une préoccupation profonde liée aux problèmes de la sécurité des terminaux mobiles. Les enjeux deviennent sans conteste de plus en plus importants, suscitant ainsi beaucoup d’attention de la part de la communauté des chercheurs. En outre, la prolifération des logiciels malveillants va de pair avec la sophistication et la complexité de ces derniers. En effet, les logiciels malveillants plus élaborés, tels que les maliciels polymorphes et métamorphiques, utilisent des techniques d’obscurcissement du code pour créer de nouvelles variantes qui préservent la sémantique du code original tout en modifiant sa syntaxe, échappant ainsi aux méthodes de détection usuelles. L’ambition de notre recherche est la proposition d’une approche utilisant les méthodes formelles et l’apprentissage automatique pour la détection des maliciels sur la plateforme Android. L’approche adoptée combine l’analyse statique et l’apprentissage automatique. En effet, à partir des applications Android en format APK, nous visons l’extraction d’un modèle décrivant de manière non ambiguë le comportement de ces dernières. Le langage de spécification formelle choisi est LNT. En se basant sur le modèle généré, les comportements malicieux exprimés en logique temporelle sont vérifiés à l’aide d’un vérificateur de modèle. Ces propriétés temporelles sont utilisées comme caractéristiques par un algorithme d’apprentissage automatique pour classifier les applications Android.
The ever-increasing number of Android malware is accompanied by a deep concern about security issues in the mobile ecosystem. Unquestionably, Android malware detection has received much attention in the research community and therefore it becomes a crucial aspect of software security. Actually, malware proliferation goes hand in hand with the sophistication and complexity of malware. To illustrate, more elaborated malware like polymorphic and metamorphic malware, make use of code obfuscation techniques to build new variants that preserve the semantics of the original code but modify it’s syntax and thus escape the usual detection methods. In the present work, we propose a model-checking based approach that combines static analysis and machine learning. Mainly, from a given Android application we extract an abstract model expressed in terms of LNT, a process algebra language. Afterwards, security related Android behaviours specified by temporal logic formulas are checked against this model, the satisfaction of a specific formula is considered as a feature, finally machine learning algorithms are used to classify the application as malicious or not.
APA, Harvard, Vancouver, ISO, and other styles
16

Rogouschi, Nicoleta. "Classification à base de modèles de mélanges topologiques des données catégorielles et continues." Paris 13, 2009. http://www.theses.fr/2009PA132015.

Full text
Abstract:
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de cartes auto-organisatrices dans un formalisme de modèles de mélanges pourle traitement de données qualitatives, mixtes et séquentielles. Pour chaque type de données, un modèle d'apprentissage non supervisé adapté est proposé. Le premier modèle, décrit dans cette étude, est un nouvel algorithme d'apprentissage des cartes topologiques BeSOM (Bernoulli Self-Organizing Map) dédié aux données binaires. Chaque cellule de la carte est associée à une distribution de Bernoulli. L'apprentissage dans ce modèle a pour objectif d'estimer la fonction densité sous forme d'un mélange de densités élémentaires. Chaque densité élémentaire est-elle aussi un mélange de lois Bernoulli définies sur un voisinage. Le second modèle aborde le problème des approches probabilistes pour le partitionnement des données mixtes (quantitatives et qualitatives). Le modèle s'inspire de travaux antérieurs qui modélisent une distribution par un mélange de lois de Bernoulli et de lois Gaussiennnes. Cette approche donne une autre dimension aux cartes topologiques : elle permet une interprétation probabiliste des cartes et offre la possibilité de tirer profit de la distribution locale associée aux variables continues et catégorielles. En ce qui concerne le troisième modèle présenté dans cette thèse, il décrit un nouveau formalisme de mélanges Markovien dédiés au traitement de données structurées en séquences. L'approche que nous proposons est une généralisation des chaines de Markov traditionnelles. Deux variantes sont développées : une approche globale où la topologie est utilisée d'une manière implicite et une approche locale où la topologie est utilisée d'une manière explicite. Les résultats obtenus sur la validation des approches traités dans cette étude sont encourageants et prometteurs à la fois pour la classification et pour la modélisation
The research presented in this thesis concerns the development of self-organising map approaches based on mixture models which deal with different kinds of data : qualitative, mixed and sequential. For each type of data we propose an adapted unsupervised learning model. The first model, described in this work, is a new learning algorithm of topological map BeSOM (Bernoulli Self-Organizing Map) dedicated to binary data. Each map cell is associated with a Bernoulli distribution. In this model, the learning has the objective to estimate the density function presented as a mixture of densities. Each density is as well a mixture of Bernoulli distribution defined on a neighbourhood. The second model touches upon the problem of probability approaches for the mixeddata clustering (quantitative and qualitative). The model is inspired by previous workswhich define a distribution by a mixture of Bernoulli and Gaussian distributions. This approach gives a different dimension to topological map : it allows probability map interpretation and others the possibility to take advantage of local distribution associated with continuous and categorical variables. As for the third model presented in this thesis, it is a new Markov mixture model applied to treatment of the data structured in sequences. The approach that we propose is a generalisation of traditional Markov chains. There are two versions : the global approach, where topology is used implicitly, and the local approach where topology is used explicitly. The results obtained upon the validation of all the methods are encouragingand promising, both for classification and modelling
APA, Harvard, Vancouver, ISO, and other styles
17

Grozavu, Nistor. "Classification topologique pondérée : approches modulaires, hybrides et collaboratives." Paris 13, 2009. http://www.theses.fr/2009PA132022.

Full text
Abstract:
Cette thèse est consacrée d'une part, à l'étude d'approches de caractérisation des classes découvertes pendant l'apprentissage non-supervisé, et d'autre part, à la classification non-supervisée modulaire, hybride et collaborative. L'étude se focalise essentiellement sur deux axes : - la caractérisation des classes en utilisant la pondération et la sélection des variables pertinentes, ainsi que l'utilisation de la notion de mémoire pendant le processus d'apprentissage topologique non-supervisé; - l'utilisation de plusieurs techniques de clustering en parallèle et en série : approches modulaires, hybrides et collaboratives. Nous nous intéressons plus particulièrement dans cette thèse aux cartes auto-organisatrices de Kohonen qui constituent une technique bien adaptée à la classification non-supervisée permettant une visualisation des résultats sous forme d'une carte topographique. Nous proposons plusieurs techniques de pondérations de l'apprentissage de ces cartes ainsi qu'une nouvelle stratégie de compétition permettant de garder en mémoire l'historique de l'apprentissage. En utilisant un test statistique pour la sélection des variables pertinentes pondérées, nous répondons au problème de la réduction des dimensions, ainsi qu'au problème de la caractérisation des classes découvertes. Concernant le deuxième axe, nous utilisons le formalisme mathématique de l'analyse relationnelle (AR) pour combiner plusieurs résultats de classification. Enfin, nous proposons une nouvelle approche conçue pour faire collaborer plusieurs classifications topographiques entre elles ,en préservant la confidentialité des données
This thesis is focused, on the one hand, to study clustering anlaysis approaches in an unsupervised topological learning, and in other hand, to the topological modular, hybrid and collaborative clustering. This study is adressed mainly on two problems: - cluster characterization using weighting and selection of relevant variables, and the use of the memory concept during the learning unsupervised topological process; - and the problem of the ensemble clustering techniques : the modularization, the hybridization and collaboration. We are particularly interested in this thesis in Kohonen's self-organizing maps which have been widely used for unsupervised classification and visualization of multidimensional datasets. We offer several weighting approaches and a new strategy which consists in the introduction of a memory process into the competition phase by calculating a voting matrix at each learning iteration. Using a statistical test for selecting relevant variables, we will respond to the problem of dimensionality reduction, and to the problem of the cluster characterization. For the second problem, we use the relational analysis approach (RA) to combine multiple topological clustering results
APA, Harvard, Vancouver, ISO, and other styles
18

Fortuner, Renaud. "Variabilité et identification des espèces chez les nématodes du genre Helicotylenchus." Lyon 1, 1986. http://www.theses.fr/1986LYO19023.

Full text
Abstract:
Probleme d'identification des nematodes, parasites des plantes cultivees, du genre helicotylenchus, du a une grande variabilite intraspecifique. Mise au point du logiciel nemaid pour aider a leur identification. Redescription de certaines especes et propositions de synonymes
APA, Harvard, Vancouver, ISO, and other styles
19

Piegay, Emmanuel. "Groupement, multirésolution, prétopologie : analogies entre la segmentation d'images et la classification automatique." Lyon, INSA, 1997. http://www.theses.fr/1997ISAL0119.

Full text
Abstract:
La classification automatique (ou apprentissage non supervisé) et la segmentation d'images sont des domaines de recherche situés dans des contextes applicatifs le plus souvent distincts, et manipulant des données de nature différente. Si ils ont, de par leur histoire, développé leurs propres méthodologies et outils, l'idée communément admise de l'existence de similitudes entre ces deux pôles de recherche laisse à penser que l'établissement de liens forts entre eux peut contribuer à leur enrichissement mutuel. Dans un premier temps, nous proposons d'apporter une contribution à ce rapprochement, suivant deux démarches. L'une est de type transfert méthodologique, et concerne l'introduction du concept de multirésolution dans le domaine de la classification automatique. L'autre va dans le sens d'une' vision unifiée des deux domaines, et résulte en la proposition d'une méthode de groupement par propagation "générique". Ces ponts entre la segmentation d'images et la classification automatique sont construits sur la base de la prétopologie, modèle mathématique dont l'axiomatique faible est à même de s'adapter au contexte de chacun de ces domaines. Dans un second temps, nous exploitons les liens précédemment établis. Ceci nous conduit à proposer, d'une part, une méthode de segmentation d'images procédant par détection de bassins versants, robuste au bruit et intrinsèquement parallélisable; d' autre part, une méthode de classification hiérarchique originale et performante, basée sur l'association "niveau de hiérarchie- niveau de résolution", complétée d'une approche de type esquisse initiale à partir de laquelle nous définissons une notion de significativité des classes
Clustering (or unsupervised learning) and picture segmentation fields are usually confined to different applied contexts, and handle data of different nature. Taken the fact that they have historically developed their own methodologies and tools; the commonly admitted idea of the existence of similarities between these research poles leads to the assumption that, putting up strong ties between them can contribute in their mutual enrichment. To start with, the following two steps contribute to this advance. The first one is of the methodological transfer type: we introduce the concept of multiresolution to the clustering field. The second one leads us into the direction of a unified vision of the two fields, and proposes a "generic" grouping method by spreading. These two ties between picture segmentation and clustering are built on the base of pretopology, a mathematical model of weak axiomatization which allows the adaptation to each of these fields. Later on we shall exploit these ties. It leads us to the proposal of a picture segmentation method employing the proceeding by catchment basins detection which has been made robust against noise and intrinsically paralyzed - on one band, and on an other - an original and powerful hierarchic clustering method, based on the association of hierarchy level and resolution level, completed by an approach of primal sketch from which we define cluster significance notion
APA, Harvard, Vancouver, ISO, and other styles
20

Cellier, Peggy Ducassé Mireille Ridoux Olivier. "DeLLIS débogage de programmes par localisation de fautes avec un système d'information logique /." Rennes : [s.n.], 2008. ftp://ftp.irisa.fr/techreports/theses/2008/cellier.pdf.

Full text
APA, Harvard, Vancouver, ISO, and other styles
21

Cellier, Peggy. "DeLLIS : débogage de programmes par localisation de fautes avec un système d’information logique." Rennes 1, 2008. ftp://ftp.irisa.fr/techreports/theses/2008/cellier.pdf.

Full text
Abstract:
La localisation de fautes consiste à donner des indices qui vont mener à la correction des fautes liées à des défaillances. La première contribution de cette thèse est une nouvelle structure de données pour la localisation de fautes: un treillis contenant des informations sur les traces d'exécution. Il est obtenu en combinant la recherche de règles d'association et l'analyse formelle de concepts, deux techniques de fouille de données. Le treillis permet d'ordonner partiellement les informations des traces d'exécution en échec. Ainsi les dépendances entre les éléments des traces sont pris en compte ce que ne font pas les autres méthodes de localisation de fautes. La deuxième contribution est un algorithme de parcours du treillis pour localiser plusieurs fautes en une seule exécution d'une suite de tests du programme. L'approche proposée ne fait aucune supposition a priori sur le nombre de fautes. Les expériences montrent que tout en ayant l'avantage de pouvoir traiter plusieurs fautes à la fois, l'approche n'est pas pénalisée en nombre de lignes à inspecter pour le cas d'un programme contenant une seule faute comparé aux meilleures méthodes localisant une seule faute. Une étude de la méthode en fonction des dépendances entre les fautes démontre que seul un cas, parmi les quatre cas de dépendances identifiés, ne peut être traité. La troisième contribution est un algorithme de recherche de règles d'association. Sa particularité est qu'il permet de traiter des taxonomies, comme la hiérarchie contenue dans l'arbre de syntaxe abstraite, en évitant les redondances. Il est utilisé pour générer les règles d'association dont est issu le treillis pour la localisation de fautes
When testing a program, some executions can fail. Fault localization gives clues to locate the faults that cause those failures. The first contribution of this thesis is a new data structure for fault localization: a lattice that contains information from execution traces. The lattice is computed thanks to the combination of association rules and formal concept analysis, two data mining techniques. The lattice computes all differences between execution traces and, at the same time, gives a partial ordering on those differences. Unlike existing work, the method takes into account the dependencies between elements of the traces thanks to the lattice. The second contribution of this thesis is an algorithm that traverses the lattice in order to locate several faults in one pass of a test suite of the program. Experiments show that while the method takes into account multiple faults, it is not penalized, compared to existing work, when the program contains only one fault (in terms of number of lines to inspect). In addition, the study of the impact on the method of the dependences between faults shows that in three out of the four identified cases of dependency the faults can be located. The third contribution is an algorithm to compute association rules. The particularity of that algorithm is that it can take into account taxonomies, such as the hierarchy of the abstract syntax tree, without redundancy. It is used to generate association rules to build the lattice for fault localization
APA, Harvard, Vancouver, ISO, and other styles
22

Contat, Marc. "Etude de stratégies d'allocation de ressources et de fusion de données dans un système multi-capteurs pour la classification et la reconnaissance de cibles aériennes." Paris 11, 2002. http://www.theses.fr/2002PA112310.

Full text
Abstract:
La nécessité d'obtenir une situation opérationnelle fidèle et de plus en plus précise dans des applications militaires ou civiles a conduit à un développement rapide des systèmes multi-capteurs. La multiplication des moyens de mesure et l'augmentation de leurs performances ont renforcé le besoin d'améliorer les stratégies d'acquisition de l'information. Ainsi une collaboration entre les capteurs d'un même système fournirait la possibilité d'accroître l'efficacité globale par un raffinement des mécanismes de prise de décision dépendant des caractéristiques des capteurs et de l'environnement. Par ailleurs, l'allocation des ressources gère le problème de l'adéquation entre les ressources physiques disponibles à capacité limitée et le volume d'informations à traiter. L'objet de cette thèse est d'étudier les stratégies d'allocation de ressources et de fusion de données pour le suivi et l'identification simultanés de plusieurs cibles. Dans cette optique, la classification et la reconnaissance des objets doivent être effectuées le plus rapidement possible, sans attendre toutes les données que peuvent fournir les capteurs. Un mécanisme est proposé afin d'ordonner le choix des attributs à déterminer en premier et ainsi la sélection du capteur et de son mode. Il effectue la gestion des requêtes adressées aux capteurs en fonction des informations a priori et des données reçues des précédentes mesures. Etabli sous forme modulaire, l'algorithme a été ensuite amélioré pour tenir compte de données contextuelles, dans le choix des modes de capteurs à mettre en oeuvre, en vue de les utiliser de façon optimale. Les résultats ont été validés sur un logiciel développé dans le cadre d'une application de reconnaissance non coopérative de cibles en surveillance aérienne
The need for obtaining a faithful and more and more precise operational situation in military or civil applications led to a fast development of the multisensor systems. The multiplication of the means of measurement and the increase in their performances reinforced the need to improve the strategies of acquisition for information. Thus a collaboration between the sensors of the same system would provide the possibility of increasing the total effectiveness by a refinement of the mechanisms of decision-making depending on the characteristics of the sensors and the environment. In addition, the resource allocation manages the problem of the adequacy between the available physical resources with limited capacity and the volume of information to be treated. The object of this thesis is to study the strategies of resource allocation and data fusion for the simultaneous follow-up and the identification of several targets. Accordingly, the classification and the recognition of the objects must be carried out as soon as possible, without awaiting all the data which the sensors can provide. A mechanism is proposed in order to rank the choice of the attributes to be determined in first and thus the selection of the sensor and its mode. It carries out the management of the requests addressed to the sensors according to a priori information and to the received data of preceding measurements. Firstly in modular form, the algorithm was then improved to take account of contextual information, for the choice of the modes of sensors to be implemented, in order to use them in an optimal way. The results were validated on a software developed within the framework of an application of non cooperative target recognition in air monitoring
APA, Harvard, Vancouver, ISO, and other styles
23

Jaziri, Rakia. "Modèles de mélanges topologiques pour la classification de données structurées en séquences." Paris 13, 2013. http://scbd-sto.univ-paris13.fr/secure/edgalilee_th_2013_jaziri.pdf.

Full text
Abstract:
Ces dernières années ont vu le développement des techniques de fouille de données séquentielles dans de nombreux domaines d’applications dans le but d’analyser des données temporelles, volumineuses et complexes. Dans le cadre de cette thèse, nous nous intéressons aux problèmes de classification et de structuration de données séquentielles, que nous proposons d’étudier à travers trois approches principales. Dans la première, il s’agit de mettre en oeuvre une nouvelle approche de classification topographique probabiliste dédiée aux données séquentielles, nous l’appellerons PrSOMS. Cette approche consiste à adapter la carte topographique déterministe à des séquences tout en s’appuyant sur les modèles de Markov cachés. On aboutit ainsi à une approche qui bénéficie du pouvoir de visualisation des SOM et de celui de structuration (modélisation) de séquences des HMM. Dans la deuxième, nous proposons une extension hiérarchique de l’approche PrSOMS. Cette approche permet de tirer partie de l’aspect complexe des données au sein du processus de classification. Nous avons constaté que le modèle obtenu ”H-PrSOMS” assure une bonne interprétabilité des classes construites. Dans la troisième, nous proposons une autre approche statistique topologique MGTM-TT, qui repose sur le même paradigme que celui des HMM. Il s’agit d’une modélisation générative topographique à densité d’observations mélanges, qui s’apparente à une extension hiérarchique du modèle GTM temporel. Ces propositions ont ensuite été appliquées à des données de test et à des données réelles issues de l’INA (Institut National de l’Audiovisuel). Dans le cas de l’INA, Ces approches consistent à proposer dans un premier temps une classification plus fine des segments audiovisuels diffusés. Puis, elles cherchent à définir une typologie des enchainements des segments (diffusion multiple d’un même programme, un programme entre deux inter-programme) afin de prévoir de manière statistique les caractéristiques des segments diffusés. La méthodologie globale offre ainsi un outil pour la classification et la structuration des données séquentielles
Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing sequential, large and complex data. In this work, the problem of clustering, visualization and structuring data is tackled by a three-stage proposal. The first proposal present a generative approach to learn a new probabilistic Self-Organizing Map (PrSOMS) for non independent and non identically distributed data sets. Our model defines a low dimensional manifold allowing friendly visualizations. To yield the topology preserving maps, our model exhibits the SOM like learning behavior with the advantages of probabilistic models. This new paradigm uses HMM (Hidden Markov Models) formalism and introduces relationships between the states. This allows us to take advantage of all the known classical views associated to topographic map. The second proposal concerns a hierarchical extension of the approach PrSOMS. This approach deals the complex aspect of the data in the classification process. We find that the resulting model ”H-PrSOMS” provides a good interpretability of classes built. The third proposal concerns an alternative approach statistical topological MGTM-TT, which is based on the same paradigm than HMM. It is a generative topographic modeling observation density mixtures, which is similar to a hierarchical extension of time GTM model. These proposals have then been applied to test data and real data from the INA (National Audiovisual Institute). This work is to provide a first step, a finer classification of audiovisual broadcast segments. In a second step, we sought to define a typology of the chaining of segments (multiple scattering of the same program, one of two inter-program) to provide statistically the characteristics of broadcast segments. The overall framework provides a tool for the classification and structuring of audiovisual programs
APA, Harvard, Vancouver, ISO, and other styles
24

Denoue, Laurent. "De la création à la capitalisation des annotations dans une espace personnel d'informations." Chambéry, 2000. http://www.theses.fr/2000CHAMS017.

Full text
Abstract:
Nous proposons un nouvel outil d'annotation permettant aux utilisateurs de personnaliser les documents lus sur Internet. Contrairement aux outils existants, notre système permet la création rapide d'annotations sans compromettre le caractère souvent confidentiel des annotations personnelles. L'outil propose également une interface pour rechercher les passages annotés et tire partie des annotations pour représenter chaque document. L'architecture et l'interface du système sont évalués par 20 utilisateurs pendant 2 mois et par deux utilisateurs pendant une année. Nous montrons ensuite comment tirer parti des annotations créées par l'utilisateur dans une tâche de classification automatique des documents annotés. Outre des gains de temps et d'encombrement mémoire, nous montrons que les classifications obtenues grâce aux annotations sont plus précises que celle obtenues en utilisant le texte intégral des documents. Tout en restant compréhensibles par d'autres utilisateurs, les annotations permettent de générer des classifications personnalisées. La classification automatique n'est pas la seule tâche pouvant exploiter les annotations. Nous présentons des travaux qui montrent comment les utiliser pour améliorer la recherche d'informations, aider à la lecture et faciliter la collaboration entre plusieurs utilisateurs. Nous présentons enfin des perspectives d'utilisation des annotations comme le résumé automatique de documents non annotés, la classification supervisée, la simplification des cartes de navigation graphique des annotations et enfin la prise en compte de la sémantique des annotations
APA, Harvard, Vancouver, ISO, and other styles
25

Gros, Damien. "Protection obligatoire répartie : usage pour le calcul intensif et les postes de travail." Thesis, Orléans, 2014. http://www.theses.fr/2014ORLE2017/document.

Full text
Abstract:
La thèse porte sur deux enjeux importants de sécurité. Le premier concerne l’amélioration de la sécurité des systèmes Linux présents dans le calcul intensif et le second la protection des postes de travail Windows. Elle propose une méthode commune pour l’observation des appels système et la répartition d’observateurs afin de renforcer la sécurité et mesurer les performances obtenues. Elle vise des observateurs du type moniteur de référence afin de garantir de la confidentialité et de l’intégrité. Une solution utilisant une méthode de calcul intensif est mise en oeuvre pour réduire les surcoûts de communication entre les deux moniteurs de référence SELinux et PIGA. L’évaluation des performances montre les surcoûts engendrés par les moniteurs répartis et analyse la faisabilité pour les différents noeuds d’environnements de calcul intensif. Concernant la sécurité des postes de travail, un moniteur de référence est proposé pour Windows. Il repose sur les meilleures protections obligatoires issues des systèmes Linux et simplifie l’administration. Nous présentons une utilisation de ce nouveau moniteur pour analyser le fonctionnement de logiciels malveillants. L’analyse permet une protection avancée qui contrôle l’ensemble du scénario d’attaque de façon optimiste. Ainsi, la sécurité est renforcée sans nuire aux activités légitimes
This thesis deals with two major issues in the computer security field. The first is enhancing the security of Linux systems for scientific computation, the second is the protection of Windows workstations. In order to strengthen the security and measure the performances, we offer a common method for the distributed observation of system calls. It relies on reference monitors to ensure confidentiality and integrity. Our solution uses specific high performance computing technologies to lower the communication latencies between the SELinux and PIGA monitors. Benchmarks study the integration of these distributed monitors in the scientific computation. Regarding workstation security, we propose a new reference monitor implementing state of the art protection models from Linux and simplifying administration. We present how to use our monitor to analyze the behavior of malware. This analysis enables an advanced protection to prevent attack scenarii in an optimistic manner. Thus, security is enforced while allowing legitimate activities
APA, Harvard, Vancouver, ISO, and other styles
26

Mahé, Serge-André. "La programmation typologique." Montpellier 2, 1992. http://www.theses.fr/1992MON20024.

Full text
Abstract:
La programmation typologique est une methode de conception a objets. Les specifications des classes d'objets sont formelles et executables. Ce sont des types abstraits qui appartiennent a des unites de conception, les bases conceptuelles ou des operations sont predefinies. Chaque type abstrait est une structure dynamique abstraite definie par typologie d'operations. Cette modelisation conceptuelle favorise la reutilisation d'algorithmes generiques dans la phase de conception. La programmation typologique a ete experimentee a l'universite de montpellier ii pour developper et utiliser un outil d'assistance a la programmation destinee a familiariser des etudiants a la reutilisation de specification formelles et de composants logiciels
APA, Harvard, Vancouver, ISO, and other styles
27

Chzhen, Evgenii. "Plug-in methods in classification." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC2027/document.

Full text
Abstract:
Ce manuscrit étudie plusieurs problèmes de classification sous contraintes. Dans ce cadre de classification, notre objectif est de construire un algorithme qui a des performances aussi bonnes que la meilleure règle de classification ayant une propriété souhaitée. Fait intéressant, les méthodes de classification de type plug-in sont bien appropriées à cet effet. De plus, il est montré que, dans plusieurs configurations, ces règles de classification peuvent exploiter des données non étiquetées, c'est-à-dire qu'elles sont construites de manière semi-supervisée. Le Chapitre 1 décrit deux cas particuliers de la classification binaire - la classification où la mesure de performance est reliée au F-score, et la classification équitable. A ces deux problèmes, des procédures semi-supervisées sont proposées. En particulier, dans le cas du F-score, il s'avère que cette méthode est optimale au sens minimax sur une classe usuelle de distributions non-paramétriques. Aussi, dans le cas de la classification équitable, la méthode proposée est consistante en terme de risque de classification, tout en satisfaisant asymptotiquement la contrainte d’égalité des chances. De plus, la procédure proposée dans ce cadre d'étude surpasse en pratique les algorithmes de pointe. Le Chapitre 3 décrit le cadre de la classification multi-classes par le biais d'ensembles de confiance. Là encore, une procédure semi-supervisée est proposée et son optimalité presque minimax est établie. Il est en outre établi qu'aucun algorithme supervisé ne peut atteindre une vitesse de convergence dite rapide. Le Chapitre 4 décrit un cas de classification multi-labels dans lequel on cherche à minimiser le taux de faux-négatifs sous réserve de contraintes de type presque sûres sur les règles de classification. Dans cette partie, deux contraintes spécifiques sont prises en compte: les classifieurs parcimonieux et ceux soumis à un contrôle des erreurs négatives à tort. Pour les premiers, un algorithme supervisé est fourni et il est montré que cet algorithme peut atteindre une vitesse de convergence rapide. Enfin, pour la seconde famille, il est montré que des hypothèses supplémentaires sont nécessaires pour obtenir des garanties théoriques sur le risque de classification
This manuscript studies several problems of constrained classification. In this frameworks of classification our goal is to construct an algorithm which performs as good as the best classifier that obeys some desired property. Plug-in type classifiers are well suited to achieve this goal. Interestingly, it is shown that in several setups these classifiers can leverage unlabeled data, that is, they are constructed in a semi-supervised manner.Chapter 2 describes two particular settings of binary classification -- classification with F-score and classification of equal opportunity. For both problems semi-supervised procedures are proposed and their theoretical properties are established. In the case of the F-score, the proposed procedure is shown to be optimal in minimax sense over a standard non-parametric class of distributions. In the case of the classification of equal opportunity the proposed algorithm is shown to be consistent in terms of the misclassification risk and its asymptotic fairness is established. Moreover, for this problem, the proposed procedure outperforms state-of-the-art algorithms in the field.Chapter 3 describes the setup of confidence set multi-class classification. Again, a semi-supervised procedure is proposed and its nearly minimax optimality is established. It is additionally shown that no supervised algorithm can achieve a so-called fast rate of convergence. In contrast, the proposed semi-supervised procedure can achieve fast rates provided that the size of the unlabeled data is sufficiently large.Chapter 4 describes a setup of multi-label classification where one aims at minimizing false negative error subject to almost sure type constraints. In this part two specific constraints are considered -- sparse predictions and predictions with the control over false negative errors. For the former, a supervised algorithm is provided and it is shown that this algorithm can achieve fast rates of convergence. For the later, it is shown that extra assumptions are necessary in order to obtain theoretical guarantees in this case
APA, Harvard, Vancouver, ISO, and other styles
28

Guilment, Thomas. "Classification de vocalises de mammifères marins en environnement sismique." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0080/document.

Full text
Abstract:
En partenariat avec l’entreprise Sercel, la thèse concerne la mise en œuvre d’algorithmes de reconnaissance des sons émis par les mysticètes (baleines à fanons). Cessons peuvent être étudiés grâce aux systèmes de surveillance par acoustique passive. L’entreprise Sercel, par ses activités sismiques liées à la prospection pétrolière, a son propre logiciel pour détecter et localiser les sources d’énergie sonores sous-marines. Le travail de la thèse consiste dès lors à ajouter un module de reconnaissance pour identifier si l'énergie détectée et localisée correspond bien à un éventuel mysticète. Les campagnes de tirs sismiques étant onéreuses, la méthode utilisée doit pouvoir réduire la probabilité de fausse alarme, la reconnaissance pouvant infirmer la détection. La méthode proposée est basée sur l’apprentissage de dictionnaire. Elle est dynamique, modulaire, ne dépend que de peu de paramètres et est robuste aux fausses alarmes. Une expérimentation sur cinq types de vocalises est présentée. Nous obtenons un rappel moyen de 92.1 % tout en rejetant 97.3 % des bruits (persistants et transitoires). De plus, un coefficient de confiance est associé à chaque reconnaissance et permet de réaliser de l’apprentissage incrémental semi-supervisé. Enfin, nous proposons une méthode capable de gérer la détection et la reconnaissance conjointement. Ce « détecteur multiclasses » respecte au mieux les contraintes de gestion des fausses alarmes et permet d’identifier plusieurs types de vocalises au même instant. Cette méthode est bien adaptée au contexte industriel pour lequel elle est dédiée. Elle ouvre également des perspectives très prometteuses dans le contexte bioacoustique
In partnership with Sercel, the thesis concerns the implementation of algorithms for recognizing the sounds emitted by mysticetes (baleen whales). These sounds can be studiedusing passive acoustic monitoring systems. Sercel, through its seismic activities related to oïl exploration, has its own software to detect and locate underwater sound energy sources. The thesis work therefore consists in adding a recognition module to identify if the detected andlocalized energy corresponds to a possible mysticete. Since seismic shooting campaigns areexpensive, the method used must be able to reduce the probability of false alarms, as recognitioncan invalidate detection. The proposed method is based on dictionary learning. It is dynamic, modular, depends on few parameters and is robust to false alarms. An experiment on five types of vocalizations is presented. We obtain an average recall of 92.1% while rejecting 97.3% of the noises (persistent and transient). In addition, a confidence coefficient is associated with each recognition and allows semi-supervised incremental learning to be achieved. Finally, we propose a method capable of managing detection and recognition together. This "multiclassdetector" best respects the constraints of false alarm management and allows several types of vocalizations to be identified at the same time. This method is well adapted to the industrial context for which it is dedicated. It also opens up very promising prospects in the bioacoustic context
APA, Harvard, Vancouver, ISO, and other styles
29

Risch, Jean-Charles. "Enrichissement des Modèles de Classification de Textes Représentés par des Concepts." Thesis, Reims, 2017. http://www.theses.fr/2017REIMS012/document.

Full text
Abstract:
La majorité des méthodes de classification de textes utilisent le paradigme du sac de mots pour représenter les textes. Pourtant cette technique pose différents problèmes sémantiques : certains mots sont polysémiques, d'autres peuvent être des synonymes et être malgré tout différenciés, d'autres encore sont liés sémantiquement sans que cela soit pris en compte et enfin, certains mots perdent leur sens s'ils sont extraits de leur groupe nominal. Pour pallier ces problèmes, certaines méthodes ne représentent plus les textes par des mots mais par des concepts extraits d'une ontologie de domaine, intégrant ainsi la notion de sens au modèle. Les modèles intégrant la représentation des textes par des concepts restent peu utilisés à cause des résultats peu satisfaisants. Afin d'améliorer les performances de ces modèles, plusieurs méthodes ont été proposées pour enrichir les caractéristiques des textes à l'aide de nouveaux concepts extraits de bases de connaissances. Mes travaux donnent suite à ces approches en proposant une étape d'enrichissement des modèles à l'aide d'une ontologie de domaine associée. J'ai proposé deux mesures permettant d'estimer l'appartenance aux catégories de ces nouveaux concepts. A l'aide de l'algorithme du classifieur naïf Bayésien, j'ai testé et comparé mes contributions sur le corpus de textes labéllisés Ohsumed et l'ontologie de domaine Disease Ontology. Les résultats satisfaisants m'ont amené à analyser plus précisément le rôle des relations sémantiques dans l'enrichissement des modèles. Ces nouveaux travaux ont été le sujet d'une seconde expérience où il est question d'évaluer les apports des relations hiérarchiques d'hyperonymie et d'hyponymie
Most of text-classification methods use the ``bag of words” paradigm to represent texts. However Bloahdom and Hortho have identified four limits to this representation: (1) some words are polysemics, (2) others can be synonyms and yet differentiated in the analysis, (3) some words are strongly semantically linked without being taken into account in the representation as such and (4) certain words lose their meaning if they are extracted from their nominal group. To overcome these problems, some methods no longer represent texts with words but with concepts extracted from a domain ontology (Bag of Concept), integrating the notion of meaning into the model. Models integrating the bag of concepts remain less used because of the unsatisfactory results, thus several methods have been proposed to enrich text features using new concepts extracted from knowledge bases. My work follows these approaches by proposing a model-enrichment step using a domain ontology, I proposed two measures to estimate to belong to the categories of these new concepts. Using the naive Bayes classifier algorithm, I tested and compared my contributions on the Ohsumed corpus using the domain ontology ``Disease Ontology”. The satisfactory results led me to analyse more precisely the role of semantic relations in the enrichment step. These new works have been the subject of a second experiment in which we evaluate the contributions of the hierarchical relations of hypernymy and hyponymy
APA, Harvard, Vancouver, ISO, and other styles
30

Wacquet, Guillaume. "Classification spectrale semi-supervisée : Application à la supervision de l'écosystème marin." Thesis, Littoral, 2011. http://www.theses.fr/2011DUNK0389/document.

Full text
Abstract:
Dans les systèmes d'aide à la décision, sont généralement à disposition des données numériques abondantes et éventuellement certaines connaissances contextuelles qualitatives, disponibles a priori ou fournies a posteriori par retour d'expérience. Les performances des approches de classification, en particulier spectrale, dépendent de l'intégration de ces connaissances dans leur conception. Les algorithmes de classification spectrale permettent de traiter la classification sous l'angle de coupes de graphe. Ils classent les données dans l'espace des vecteurs propres de la matrice Laplacienne du graphe. Cet espace est censé mieux révéler la présence de groupements naturels linéairement séparables. Dans ce travail, nous nous intéressons aux algorithmes intégrant des connaissances type contraintes de comparaison. L'espace spectral doit, dans ce cas, révéler la structuration en classes tout en respectant, autant que possible, les contraintes de comparaison. Nous présentons un état de l'art des approches spectrales semi-supervisées contraintes. Nous proposons un nouvel algorithme qui permet de générer un sous-espace de projection par optimisation d'un critère de multi-coupes normalisé avec ajustement des coefficients de pénalité dus aux contraintes. Les performances de l'algorithme sont mises en évidence sur différentes bases de données par comparaison à d'autres algorithmes de la littérature. Dans le cadre de la surveillance de l'écosystème marin, nous avons développé un système de classification automatique de cellules phytoplanctoniques, analysées par cytométrie en flux. Pour cela, nous avons proposé de mesurer les similarités entre cellules par comparaison élastique entre leurs signaux profils caractéristiques
In the decision support systems, often, there a huge digital data and possibly some contextual knowledge available a priori or provided a posteriori by feedback. The performances of classification approaches, particularly spectral ones, depend on the integration of the domain knowledge in their design. Spectral classification algorithms address the problem of classification in terms of graph cuts. They classify the data in the eigenspace of the graph Laplacian matrix. The generated eigenspace may better reveal the presence of linearly separable data clusters. In this work, we are particularly interested in algorithms integrating pairwise constraints : constrained spectral clustering. The eigenspace may reveal the data structure while respecting the constraints. We present a state of the art approaches to constrained spectral clustering. We propose a new algorithm, which generates a subspace projection, by optimizing a criterion integrating both normalized multicut and penalties due to the constraints. The performances of the algorithms are demonstrated on different databases in comparison to other algorithms in the literature. As part of monitoring of the marine ecosystem, we developed a phytoplankton classification system, based on flow cytometric analysis. for this purpose, we proposed to characterize the phytoplanktonic cells by similarity measures using elastic comparison between their cytogram signals
APA, Harvard, Vancouver, ISO, and other styles
31

Grosser, David. "Construction itérative de bases de connaissances descriptives et classificatoires avec la plate-forme à objets IKBS : application à la systèmatique des coraux des Mascareignes." La Réunion, 2002. http://tel.archives-ouvertes.fr/tel-00003415/fr/.

Full text
Abstract:
La modélisation du savoir-faire des systématiciens à l'aide de Bases de Connaissances, offre le moyen de mieux comprendre, préserver et transmettre aux générations futures les connaissances sur la biodiversité des espèces. Pour construire une base de connaissances, il est nécessaire de disposer de méthodes de gestion de connaissances, de modèles de représentation et d'outils informatiques adaptés d'une part, à la complexité des concepts manipulés par les systématiciens et d'autre part, à la richesse des descriptions des spécimens représentatifs des espèces. La plate-forme logicielle proposée, appelée IKBS, offre aux Systématiciens un environnement pour la construction de Bases de Connaissances évolutives, ainsi qu'une aide à l'identification et à la classification d'objets complexes. Elle met en œuvre une méthodologie itérative fondée sur l'approche expérimentale de nature inductive des naturalistes. Le paradigme objet utilisé pour sa réalisation favorise l'extensibilité et la réutilisabilité des composants logiciels développés. IKBS associé aux technologies multimédia et hypertextuelles a été utilisé par un groupe d'experts pour la réalisation d'une "base de connaissances sur les coraux des Mascareignes"
APA, Harvard, Vancouver, ISO, and other styles
32

Douar, Brahim. "Fouille de sous-graphes fréquents à base d'arc consistance." Thesis, Montpellier 2, 2012. http://www.theses.fr/2012MON20108/document.

Full text
Abstract:
Avec la croissance importante du besoin d'analyser une grande masse de données structurées tels que les composés chimiques, les structures de protéines ou même les réseaux sociaux, la fouille de sous-graphes fréquents est devenue un défi réel en matière de fouille de données. Ceci est étroitement lié à leur nombre exponentiel ainsi qu'à la NP-complétude du problème d'isomorphisme d'un sous-graphe général. Face à cette complexité, et pour gérer cette taille importante de l'espace de recherche, les méthodes classiques de fouille de graphes ont exploré des heuristiques de recherche basées sur le support, le langage de description des exemples (limitation aux chemins, aux arbres, etc.) ou des hypothèses (recherche de sous-arborescence communes, de chemins communs, etc.). Dans le cadre de cette thèse, nous nous basons sur une méthode d'appariement de graphes issue du domaine de la programmation par contraintes, nommée AC-projection, qui a le mérite d'avoir une complexité polynomiale. Nous introduisons des approches de fouille de graphes permettant d'améliorer les approches existantes pour ce problème. En particulier, nous proposons deux algorithmes, FGMAC et AC-miner, permettant de rechercher les sous-graphes fréquents à partir d'une base de graphes. Ces deux algorithmes profitent, différemment, des propriétés fortes intéressantes de l'AC-projection. En effet, l'algorithme FGMAC adopte un parcours en largeur de l'espace de recherche et exploite l'approche par niveau introduite dans Apriori, tandis que l'algorithme AC-miner parcourt l'espace en profondeur par augmentation de motifs, assurant ainsi une meilleure mise à l'échelle pour les grands graphes. Ces deux approches permettent l'extraction d'un type particulier de graphes, il s'agit de celui des sous-graphes AC-réduits fréquents. Dans un premier temps, nous prouvons, théoriquement, que l'espace de recherche de ces sous-graphes est moins important que celui des sous-graphes fréquents à un isomorphisme près. Ensuite, nous menons une série d'expérimentations permettant de prouver que les algorithmes FGMAC et AC-miner sont plus efficients que ceux de l'état de l'art. Au même temps, nous prouvons que les sous-graphes AC-réduits fréquents, en dépit de leur nombre sensiblement réduit, ont le même pouvoir discriminant que les sous-graphes fréquents à un isomorphisme près. Cette étude est menée en se basant sur une évaluation expérimentale de la qualité des sous-graphes AC-réduits fréquents dans un processus de classification supervisée de graphes
With the important growth of requirements to analyze large amount of structured data such as chemical compounds, proteins structures, social networks, to cite but a few, graph mining has become an attractive track and a real challenge in the data mining field. Because of the NP-Completeness of subgraph isomorphism test as well as the huge search space, frequent subgraph miners are exponential in runtime and/or memory use. In order to alleviate the complexity issue, existing subgraph miners have explored techniques based on the minimal support threshold, the description language of the examples (only supporting paths, trees, etc.) or hypothesis (search for shared trees or common paths, etc.). In this thesis, we are using a new projection operator, named AC-projection, which exhibits nice complexity properties as opposed to the graph isomorphism operator. This operator comes from the constraints programming field and has the advantage of a polynomial complexity. We propose two frequent subgraph mining algorithms based on the latter operator. The first one, named FGMAC, follows a breadth-first order to find frequent subgraphs and takes advantage of the well-known Apriori levelwise strategy. The second is a pattern-growth approach that follows a depth-first search space exploration strategy and uses powerful pruning techniques in order to considerably reduce this search space. These two approaches extract a set of particular subgraphs named AC-reduced frequent subgraphs. As a first step, we have studied the search space for discovering such frequent subgraphs and proved that this one is smaller than the search space of frequent isomorphic subgraphs. Then, we carried out experiments in order to prove that FGMAC and AC-miner are more efficient than the state-of-the-art algorithms. In the same time, we have studied the relevance of frequent AC-reduced subgraphs, which are much fewer than isomorphic ones, on classification and we conclude that we can achieve an important performance gain without or with non-significant loss of discovered pattern's quality
APA, Harvard, Vancouver, ISO, and other styles
33

Chebaro, Omar. "Classification de menaces d’erreurs par analyse statique, simplification syntaxique et test structurel de programmes." Thesis, Besançon, 2011. http://www.theses.fr/2011BESA2021/document.

Full text
Abstract:
La validation des logiciels est une partie cruciale dans le cycle de leur développement. Deux techniques de vérification et de validation se sont démarquées au cours de ces dernières années : l’analyse statique et l’analyse dynamique. Les points forts et faibles des deux techniques sont complémentaires. Nous présentons dans cette thèse une combinaison originale de ces deux techniques. Dans cette combinaison, l’analyse statique signale les instructions risquant de provoquer des erreurs à l’exécution, par des alarmes dont certaines peuvent être de fausses alarmes, puis l’analyse dynamique (génération de tests) est utilisée pour confirmer ou rejeter ces alarmes. L’objectif de cette thèse est de rendre la recherche d’erreurs automatique, plus précise, et plus efficace en temps. Appliquée à des programmes de grande taille, la génération de tests, peut manquer de temps ou d’espace mémoire avant de confirmer certaines alarmes comme de vraies erreurs ou conclure qu’aucun chemin d’exécution ne peut atteindre l’état d’erreur de certaines alarmes et donc rejeter ces alarmes. Pour surmonter ce problème, nous proposons de réduire la taille du code source par le slicing avant de lancer la génération de tests. Le slicing transforme un programme en un autre programme plus simple, appelé slice, qui est équivalent au programme initial par rapport à certains critères. Quatre utilisations du slicing sont étudiées. La première utilisation est nommée all. Elle consiste à appliquer le slicing une seule fois, le critère de simplification étant l’ensemble de toutes les alarmes du programme qui ont été détectées par l’analyse statique. L’inconvénient de cette utilisation est que la génération de tests peut manquer de temps ou d’espace et les alarmes les plus faciles à classer sont pénalisées par l’analyse d’autres alarmes plus complexes. Dans la deuxième utilisation, nommée each, le slicing est effectué séparément par rapport à chaque alarme. Cependant, la génération de tests est exécutée pour chaque programme et il y a un risque de redondance d’analyse si des alarmes sont incluses dans d’autres slices. Pour pallier ces inconvénients, nous avons étudié les dépendances entre les alarmes et nous avons introduit deux utilisations avancées du slicing, nommées min et smart, qui exploitent ces dépendances. Dans l’utilisation min, le slicing est effectué par rapport à un ensemble minimal de sous-ensembles d’alarmes. Ces sous-ensembles sont choisis en fonction de dépendances entre les alarmes et l’union de ces sous-ensembles couvre l’ensemble de toutes les alarmes. Avec cette utilisation, on a moins de slices qu’avec each, et des slices plus simples qu’avec all. Cependant, l’analyse dynamique de certaines slices peut manquer de temps ou d’espace avant de classer certaines alarmes, tandis que l’analyse dynamique d’une slice éventuellement plus simple permettrait de les classer. L’utilisation smart consiste à appliquer l’utilisation précédente itérativement en réduisant la taille des sous-ensembles quand c’est nécessaire. Lorsqu’une alarme ne peut pas être classée par l’analyse dynamique d’une slice, des slices plus simples sont calculées. Nous prouvons la correction de la méthode proposée. Ces travaux sont implantés dans sante, notre outil qui relie l’outil de génération de tests PathCrawler et la plate-forme d’analyse statique Frama-C. Des expérimentations ont montré, d’une part, que notre combinaison est plus performante que chaque technique utilisée indépendamment et, d’autre part, que la vérification devient plus rapide avec l’utilisation du slicing. De plus, la simplification du programme par le slicing rend les erreurs détectées et les alarmes restantes plus faciles à analyser
Software validation remains a crucial part in software development process. Two major techniques have improved in recent years, dynamic and static analysis. They have complementary strengths and weaknesses. We present in this thesis a new original combination of these methods to make the research of runtime errors more accurate, automatic and reduce the number of false alarms. We prove as well the correction of the method. In this combination, static analysis reports alarms of runtime errors some of which may be false alarms, and test generation is used to confirm or reject these alarms. When applied on large programs, test generation may lack time or space before confirming out certain alarms as real bugs or finding that some alarms are unreachable. To overcome this problem, we propose to reduce the source code by program slicing before running test generation. Program slicing transforms a program into another simpler program, which is equivalent to the original program with respect to certain criterion. Four usages of program slicing were studied. The first usage is called all. It applies the slicing only once, the simplification criterion is the set of all alarms in the program. The disadvantage of this usage is that test generation may lack time or space and alarms that are easier to classify are penalized by the analysis of other more complex alarms. In the second usage, called each, program slicing is performed with respect to each alarm separately. However, test generation is executed for each sliced program and there is a risk of redundancy if some alarms are included in many slices. To overcome these drawbacks, we studied dependencies between alarms on which we base to introduce two advanced usages of program slicing : min and smart. In the min usage, the slicing is performed with respect to subsets of alarms. These subsets are selected based on dependencies between alarms and the union of these subsets cover the whole set of alarms. With this usage, we analyze less slices than with each, and simpler slices than with all. However, the dynamic analysis of some slices may lack time or space before classifying some alarms, while the dynamic analysis of a simpler slice could possibly classify some. Usage smart applies previous usage iteratively by reducing the size of the subsets when necessary. When an alarm cannot be classified by the dynamic analysis of a slice, simpler slices are calculated. These works are implemented in sante, our tool that combines the test generation tool PathCrawler and the platform of static analysis Frama-C. Experiments have shown, firstly, that our combination is more effective than each technique used separately and, secondly, that the verification is faster after reducing the code with program slicing. Simplifying the program by program slicing also makes the detected errors and the remaining alarms easier to analyze
APA, Harvard, Vancouver, ISO, and other styles
34

Lefrère, Laurent. "Contribution au développement d'outils pour l'analyse automatique de documents cartographiques." Rouen, 1993. http://www.theses.fr/1993ROUES045.

Full text
Abstract:
Les travaux présentés dans ce mémoire abordent différents aspects de l'analyse de documents cartographiques, du prétraitement couleur à la reconnaissance de toponymes en passant par l'extraction d'objets géographiques. Le premier chapitre est consacré à la classification couleur. Ce prétraitement permet d'obtenir, à partir d'images de cartes numérisées en cyan, magenta, yellow, les plans couleurs rouge, vert, bleu et noir proches des planches-mères ayant permis l'impression des cartes. L'originalité de la segmentation CMY/TS est sa capacité à reconstruire les objets masqués par les superpositions. Cette classification permet d'apporter une information plus compacte et plus complète aux modules d'extraction subséquents. Le second chapitre présente d'une part, une méthode de caractérisation et d'extraction de zones texturées basée sur une modélisation structurelle et statistique des textures. Cette méthode permet de modéliser conjointement l'aspect macroscopique régulier et structuré des textures ainsi que leur aspect microscopique plus aléatoire. D'autre part, est présenté un module d'extraction des réseaux linéaires et plus particulièrement des réseaux routiers basé sur un suivi de trait particulier contrôlé par un ensemble de mesures statistiques regroupées en un critère dit de Gibbs. Le dernier chapitre présente une stratégie particulière de reconstruction de toponymes à partir d'une méthode originale de reconnaissance de caractères invariante à la translation, à l'homothétie et à la rotation. Ce module permet de plus de reconstituer les limites de parcelles formées de pointillés. Ces différents modules fournissent, à partir des cartes papier existantes, des données structurées et organisées, prêtes à être intégrées dans des systèmes d'information géographique
APA, Harvard, Vancouver, ISO, and other styles
35

Petitjean, François. "Dynamic time warping : apports théoriques pour l'analyse de données temporelles : application à la classification de séries temporelles d'images satellites." Thesis, Strasbourg, 2012. http://www.theses.fr/2012STRAD023.

Full text
Abstract:
Les séries temporelles d’images satellites (STIS) sont des données cruciales pour l’observation de la terre. Les séries temporelles actuelles sont soit des séries à haute résolution temporelle (Spot-Végétation, MODIS), soit des séries à haute résolution spatiale (Landsat). Dans les années à venir, les séries temporelles d’images satellites à hautes résolutions spatiale et temporelle vont être produites par le programme Sentinel de l’ESA. Afin de traiter efficacement ces immenses quantités de données qui vont être produites (par exemple, Sentinel-2 couvrira la surface de la terre tous les cinq jours, avec des résolutions spatiales allant de 10m à 60m et disposera de 13 bandes spectrales), de nouvelles méthodes ont besoin d’être développées. Cette thèse se focalise sur la comparaison des profils d’évolution radiométrique, et plus précisément la mesure de similarité « Dynamic Time Warping », qui constitue un outil permettant d’exploiter la structuration temporelle des séries d’images satellites
Satellite Image Time Series are becoming increasingly available and will continue to do so in the coming years thanks to the launch of space missions, which aim at providing a coverage of the Earth every few days with high spatial resolution (ESA’s Sentinel program). In the case of optical imagery, it will be possible to produce land use and cover change maps with detailed nomenclatures. However, due to meteorological phenomena, such as clouds, these time series will become irregular in terms of temporal sampling. In order to consistently handle the huge amount of information that will be produced (for instance, Sentinel-2 will cover the entire Earth’s surface every five days, with 10m to 60m spatial resolution and 13 spectral bands), new methods have to be developed. This Ph.D. thesis focuses on the “Dynamic Time Warping” similarity measure, which is able to take the most of the temporal structure of the data, in order to provide an efficient and relevant analysis of the remotely observed phenomena
APA, Harvard, Vancouver, ISO, and other styles
36

Picarougne, Fabien. "Recherche d'information sur Internet par algorithmes évolutionnaires." Phd thesis, Tours, 2004. http://tel.archives-ouvertes.fr/tel-00008013.

Full text
Abstract:
Dans ce travail de thèse, nous présentons le problème de recherche d'information sur Internet et plus généralement de veille stratégique. Nous remarquons généralement qu'il est nécessaire de passer beaucoup de temps à analyser les résultats fournis par les moteurs de recherche traditionnels afin d'obtenir une réponse satisfaisante. Dans cette thèse, nous avons donc développé un outil de recherche automatique basé sur une stratégie de recherche évolutionnaire. Cet outil explore les pages Web en partant des résultats fournis par les moteurs de recherche traditionnels (comme Google, Altavista, ...). Plusieurs méthodes d'optimisation ont été comparées : une approche génétique, une approche à base de population de fourmis et un algorithme tabou. L'effort de recherche a également été parallélisé et peut être distribué sur plusieurs machines distantes afin de maximiser les ressources disponibles à l'exécution de cette tâche et d'utiliser une architecture parallèle de grande ampleur. Enfin, nous proposons un système de visualisation des résultats d'un moteur de recherche basé sur les propriétés des nuages d'agents afin d'aider les utilisateurs à mieux comprendre les éléments renvoyés par le moteur et de diminuer ainsi le temps nécessaire à leur analyse.
APA, Harvard, Vancouver, ISO, and other styles
37

Njomgue, Sado Wilfried. "Indexation des documents dans un référentiel métier avec approche ontologique : Le système MAID au sein de l'Intranet de Suez-Environnement." Compiègne, 2005. http://www.theses.fr/2005COMP1572.

Full text
Abstract:
Ces travaux présentent le système MAID, Multi Approche pour l'Indexation des Documents à travers l'approche sémantico linguistico statistique mise en place pour l'indexation semiautomatique des documents de Suez-Environnement. Elle combine en amont l'annotation sémantique du document à indexer via une ontologie de domaine, l'analyse linguistique du document et enfin l'analyse statistique par la décomposition en valeurs singulières des mots composant le document. Nous mettrons également en évidence l'apport de la sémantique par rapport à l'approche linguistico statistique. Enfin, nous présentons les résultats de l'expérimentation menée sur un corpus de Suez-Environnement et les perspectives dégagées dans ce domaine
This work presents an automatic method of indexing documents based on semantic, linguistic and finally statistics approaches. System MAID, Multi-Approach for the Indexing of Documents applies successively these approaches: a semantic analysis of water domain' s ontology that annotates the document, a linguistic analysis that extracts significant terms, a statistical analysis by the decomposition in singular values of words composing the document. Here, weighting terms are set to take advantages of both their position compared to other terms (co-occurrence) and their local and global context. We will also highlight the contribution of semantics compared to the linguistic-statistic approach. MAID was developed in order to suggest assignments topics of documents to a referential. Finally, we will present experiments results (with or without semantic treatment) and evaluation carried out on documents of Suez-Environnement
APA, Harvard, Vancouver, ISO, and other styles
38

Achouri, Anouar. "Contribution à l'évaluation des technologies CPL bas débit dans l'environnement domestique." Thesis, Tours, 2015. http://www.theses.fr/2015TOUR4013/document.

Full text
Abstract:
Le Smart Grid a révolutionné la politique énergétique et a permis de redistribuer les rôles des différentes entités dans le marché de l'électricité. Le client résidentiel est au cceur de cette révolution. Il est désormais capable de gérer sa consommation à travers le contrôle et la commande des appareils électriques domestiques à distance, de produire de l'électricité, de la stocker et de la vendre. Le CPL bas débit est adopté par plusieurs acteurs de distribution d'électricité à l'échelle mondiale. Ce travail a comme objectif d'évaluer la possibilité de l'utilisation des protocoles CPL bas débit dans des applications de gestion de consommation électrique et de contrôle et de commande des appareils électriques domestiques à distance. Pour ce faire, nous avons réalisé une campagne de mesure de réponse du canal CPL dans 12 maisons pour caractériser et modéliser les fonctions de transfert dans la bande de fréquence [9kHz-500kHz]. A l'issue de cette campagne de mesure, nous avons distingué 5 classes de canaux selon leurs capacités de transmission et nous avons modélisé les fonctions de transfert à l'aide des filtres numériques FIR. En plus des réponses du canal, nous nous sommes intéressés aux perturbations électromagnétiques dans la bande [9kHz-500kHz]. Nous avons réalisé 376 enregistrements de bruits CPL dans différentes maisons. Les mesures de bruits ont été par la suite caractérisées et classifiées en bruits stationnaires, bruits périodiques et bruits apériodiques. Pour chaque type de bruit, nous avons proposé des exemples de régénération
The Smart Grid is an important part of the third technological revolution. The final client is now able to improve his energy consumption efficiency via the control of the domestic appliances. The narrowband power lines protocols are adopted by many international utilities and DSO to ensure the control of the distribution power grid. In this thesis, we propose to use theses protocols for domestic electrical grid management. To assess the performances of the narrowband PLC systems in domestic environment, we have realized two measurements campaigns in many houses. The first campaign is dedicated to the domestic PLC channel response in the band of [9kHz-500kHz]. The measurements are classified into 5 classes according to their transmission capacities. To model the channel measurements, a modeling approach based on FIR filters is adopted. The second measurements campaign aims to characterize and to reproduce the PLC domestic noise in the band of [9kHz-500kHz]. The measurements are classified into stationary noise, periodic noise and aperiodic noise. Some examples of noise generation are proposed for every form of noise
APA, Harvard, Vancouver, ISO, and other styles
39

Boughanem, Mohand. "Les systèmes de recherche d'informations d'un modèle classique à un modèle connexioniste." Toulouse 3, 1992. http://www.theses.fr/1992TOU30222.

Full text
Abstract:
Les travaux de recherche presentes dans ce memoire s'inscrivent dans le cadre des systemes de recherche documentaire et ont un double objectif. Le premier consiste a la realisation d'un systeme de recherche d'informations textuelles volumineuses, recolte, utilisant le langage naturel comme source d'informations et comme moyen d'interrogation. Notre contribution a alors permis: la construction d'un modele de representation et d'organisation des informations, la mise en uvre d'une procedure d'interrogation qui permet la collaboration de methodes de recherches en langage quasi naturel et de methodes de recherches multi-criteres. Le second objectif rentre dans le cadre du developpement des systemes dynamiques de recherche d'informations. Notre but est la realisation d'un systeme de recherche d'informations base sur les reseaux neuro-mimetiques. Le modele que nous proposons, presente les caracteristiques suivantes: il est construit suivant une architecture a trois couches interconnectees, pour modeliser l'ensemble de la connaissance documentaire. Elle est en effet constituee d'une couche de requetes et d'une couche de documents connectees a une couche de termes d'indexation; il permet de realiser deux fonctions. La premiere est la recherche d'informations. Le reseau offre a l'utilisateur des moyens, lors de l'interrogation de la base de documents, pour reformuler automatiquement les requetes et pour selectionner les documents susceptibles de repondre a sa demande. Cette tache est realisee par un processus d'activation/propagation pour lequel nous avons propose des regles d'activation/propagation inter-couches et intra-couches. La seconde fonction est le mecanisme d'apprentissage et de restructuration de la base. Il consiste, d'une facon generale, a modifier les liens entre les differentes cellules du reseau
APA, Harvard, Vancouver, ISO, and other styles
40

Dilmahomed, Bocus Sadeck. "Test sans contact des circuits intégrés CMOS : observabilité et contrôlabilité du Latchup par microscopie électronique à balayage et microscopie à émission." Montpellier 2, 1992. http://www.theses.fr/1992MON20079.

Full text
Abstract:
Le travail presente dans ce memoire s'inscrit dans le cadre du test sans contact des circuits integres cmos. Il concerne l'etude du latchup par microscopie electronique a balayage et microscopie a emission. Apres avoir fait le point sur le deverrouillage des dispositifs cmos par ses structures bipolaires parasites, les differents modes de declenchement sont analyses. Nous proposons deux nouvelles modelisations pour la caracterisation electrique du phenomene. La premiere concerne le regime statique et se traduit par un nouveau critere d'apparition de l'instabilite. La seconde concerne le regime dynamique et conduit a un critere de declenchement faisant intervenir les principaux parametres de la structure. Les mesures effectuees sur des vehicules de test fabriquees en technologies industrielles (1,5 et 2 m) valident ces modelisations. En caracterisation interne, nous montrons dans quelles mesure une irradiation electronique peut avoir un role actif sur la sensibilite au latchup d'un dispositif cmos lors de son test par faisceau d'electrons. Une modelisation de cette interaction nous conduit aux conditions optimales d'observation. Nous mettons en evidence les deux parametres cles que sont la dose d'electrons incidents et le champ d'extraction et determinons les valeurs critiques qui permettent un controle du declenchement du phenomene. Cette interpretation a ete validee sur les vehicules de test. Dans la suite, nous appliquons les methodes precedentes pour observer le developpement du latchup par microscopie electronique a balayage et microscopie a emission. Les resultats obtenus sur les vehicules de test et un microcontroleur sont presentes. Les possibilites temporelles et spatiales de chacune de deux methodes sont mises en evidence
APA, Harvard, Vancouver, ISO, and other styles
41

Hamdan, Hussam. "Sentiment analysis in social media." Thesis, Aix-Marseille, 2015. http://www.theses.fr/2015AIXM4356.

Full text
Abstract:
Dans cette thèse, nous abordons le problème de l'analyse des sentiments. Plus précisément, nous sommes intéressés à analyser le sentiment exprimé dans les textes de médias sociaux.Nous allons nous concentrer sur deux tâches principales: la détection de polarité de sentiment dans laquelle nous cherchons à déterminer la polarité (positive, négative ou neutre) d'un texte donné et l'extraction de cibles d’opinion et le sentiment exprimé vers ces cibles (par exemple, pour le restaurant nous allons extraire des cibles comme la nourriture, pizza, service). Notre principal objectif est de construire des systèmes à la pointe de la technologie qui pourrait faire les deux tâches. Par conséquent, nous avons proposé des systèmes supervisés différents suivants trois axes de recherche: l'amélioration de la performance du système par la pondération de termes, en enrichissant de la représentation de documents et en proposant un nouveau modèle pour la classification de sentiment.Pour l'évaluation, nous avons participé à un atelier international sur l'évaluation sémantique (Sem Eval), nous avons choisi deux tâches: l'analyse du sentiment sur Twitter dans laquelle nous déterminer la polarité d'un tweet et l'analyse des sentiments basée sur l’aspect dans laquelle nous extrayons les cibles d'opinion dans les critiques de restaurants, puis nous déterminons la polarité de chaque cible, nos systèmes ont été classés parmi les premiers trois meilleurs systèmes dans toutes les sous-tâches. Nous avons également appliqué nos systèmes sur un corpus des critiques de livres français construit par l'équipe Open Edition pour extraire les cibles d'opinion et leurs polarités
In this thesis, we address the problem of sentiment analysis. More specifically, we are interested in analyzing the sentiment expressed in social media texts such as tweets or customer reviews about restaurant, laptop, hotel or the scholarly book reviews written by experts. We focus on two main tasks: sentiment polarity detection in which we aim to determine the polarity (positive, negative or neutral) of a given text and the opinion target extraction in which we aim to extract the targets that the people tend to express their opinions towards them (e.g. for restaurant we may extract targets as food, pizza, service).Our main objective is constructing state-of-the-art systems which could do the two tasks. Therefore, we have proposed different supervised systems following three research directions: improving the system performance by term weighting, by enriching the document representation and by proposing a new model for sentiment classification. For evaluation purpose, we have participated at an International Workshop on Semantic Evaluation (SemEval), we have chosen two tasks: Sentiment analysis in twitter in which we determine the polarity of a tweet and Aspect-Based sentiment analysis in which we extract the opinion targets in restaurant reviews, then we determine the polarity of each target. Our systems have been among the first three best systems in all subtasks. We also applied our systems on a French book reviews corpus constructed by OpenEdition team for extracting the opinion targets and their polarities
APA, Harvard, Vancouver, ISO, and other styles
42

Lebboss, Georges. "Contribution à l’analyse sémantique des textes arabes." Thesis, Paris 8, 2016. http://www.theses.fr/2016PA080046/document.

Full text
Abstract:
La langue arabe est pauvre en ressources sémantiques électroniques. Il y a bien la ressource Arabic WordNet, mais il est pauvre en mots et en relations. Cette thèse porte sur l’enrichissement d’Arabic WordNet par des synsets (un synset est un ensemble de mots synonymes) à partir d’un corpus général de grande taille. Ce type de corpus n’existe pas en arabe, il a donc fallu le construire, avant de lui faire subir un certain nombre de prétraitements.Nous avons élaboré, Gilles Bernard et moi-même, une méthode de vectorisation des mots, GraPaVec, qui puisse servir ici. J’ai donc construit un système incluant un module Add2Corpus, des prétraitements, une vectorisation des mots à l’aide de patterns fréquentiels générés automatiquement, qui aboutit à une matrice de données avec en ligne les mots et en colonne les patterns, chaque composante représente la fréquence du mot dans le pattern.Les vecteurs de mots sont soumis au modèle neuronal Self Organizing Map SOM ; la classification produite par SOM construit des synsets. Pour validation, il a fallu créer un corpus de référence (il n’en existe pas en arabe pour ce domaine) à partir d’Arabic WordNet, puis comparer la méthode GraPaVec avec Word2Vec et Glove. Le résultat montre que GraPaVec donne pour ce problème les meilleurs résultats avec une F-mesure supérieure de 25 % aux deux autres. Les classes produites seront utilisées pour créer de nouveaux synsets intégrés à Arabic WordNet
The Arabic language is poor in electronic semantic resources. Among those resources there is Arabic WordNet which is also poor in words and relationships.This thesis focuses on enriching Arabic WordNet by synsets (a synset is a set of synonymous words) taken from a large general corpus. This type of corpus does not exist in Arabic, so we had to build it, before subjecting it to a number of pretreatments.We developed, Gilles Bernard and myself, a method of word vectorization called GraPaVec which can be used here. I built a system which includes a module Add2Corpus, pretreatments, word vectorization using automatically generated frequency patterns, which yields a data matrix whose rows are the words and columns the patterns, each component representing the frequency of a word in a pattern.The word vectors are fed to the neural model Self Organizing Map (SOM) ;the classification produced constructs synsets. In order to validate the method, we had to create a gold standard corpus (there are none in Arabic for this area) from Arabic WordNet, and then compare the GraPaVec method with Word2Vec and Glove ones. The result shows that GraPaVec gives for this problem the best results with a F-measure 25 % higher than the others. The generated classes will be used to create new synsets to be included in Arabic WordNet
APA, Harvard, Vancouver, ISO, and other styles
43

Maquin, Didier. "Observabilité, diagnostic et validation de données des procédés industriels." Nancy 1, 1987. http://www.theses.fr/1987NAN10347.

Full text
Abstract:
Présentation d'un logiciel de validation de données des systèmes décrits par des modèles structurellement exacts et représentés par des équations linéaires ou bilinéaires, grâce à l'équilibrage de bilan de ces systèmes dans le cas où ceux-ci sont complètement mesurés, un algorithme d'estimation permet de les résoudre
APA, Harvard, Vancouver, ISO, and other styles
44

Zaidi, Abdelhalim. "Recherche et détection des patterns d'attaques dans les réseaux IP à hauts débits." Phd thesis, Université d'Evry-Val d'Essonne, 2011. http://tel.archives-ouvertes.fr/tel-00878783.

Full text
Abstract:
Avec leur rôle important dans la protection des réseaux, les Systèmes de Détection d'Intrusion (IDS) doivent être capables d'adapter leurs modes de fonctionnement à toutes les innovations technologiques. L'IDS doit gérer une grande masse d'information et traiter un trafic réseau à une cadence très élevée à cause des vitesses de transfert et de la diversité des services offerts. Il doit aussi traiter un grand nombre d'attaques qui ne cesse d'augmenter. Par conséquent, améliorer les performances des IDS devient une tâche critique pour les concepteurs des mécanismes de protection. Dans notre thèse, nous nous focalisons sur les problèmes liés aux paramètres quantitatifs de l'utilisation des l'IDS. Nous proposons une approche pour la classification des signatures d'attaques en fonction de leurs sous-chaînes communes. Cette approche permet de réduire le nombre des signatures traitées et par conséquent réduire le temps d'exécution. Nous traitons aussi le problème de la masse de données analysée par l'IDS, nous proposons une architecture de détection basée sur la classification des connexions réseau. L'architecture proposée permet de décider de la nature d'une connexion : suspecte ou non. Dans le premier cas, la connexion doit être analysée par le système de détection d'intrusion. Sinon, si elle n'est pas suspecte nous pouvons décider de ne pas l'analyser par l'IDS.
APA, Harvard, Vancouver, ISO, and other styles
45

Pugeault, Florence. "Extraction dans les textes de connaissances structurées : une méthode fondée sur la sémantique lexicale linguistique." Toulouse 3, 1995. http://www.theses.fr/1995TOU30164.

Full text
Abstract:
Cette these presente des travaux qui s'inscrivent dans le cadre de l'informatique linguistique et plus precisement dans le domaine de l'extraction de connaissances a partir de textes. Notre but est d'aller au-dela de l'indexation classique par mots-cles en representant l'information retenue comme pertinente sous une forme structuree. Ce projet a fait l'objet d'une collaboration avec la direction des etudes et des recherches d'edf. Pour representer le contenu semantique de textes rediges sans contrainte d'expression, nous avons distingue trois niveaux d'analyse: le niveau pragmatique, le niveau linguistique et le niveau conceptuel. Le niveau pragmatique permet le decoupage d'un texte selon ses parties rhetoriques qui correspondent a des articulations. Le niveau linguistique consiste a structurer les fragments de phrases pertinents pour chaque articulation sous la forme de structures predicatives etiquetees par des roles thematiques precis. Enfin, le niveau conceptuel vise a ameliorer la qualite d'exploitation des resultats du niveau linguistique, notamment en vue de l'interrogation de bases documentaires. Apres analyse de differentes approches, nous avons retenu la lcs (structure lexicale conceptuelle), theorie de jackendoff, pour representer conceptuellement les predicats consideres. Notre contribution sur le plan linguistique a consiste en un travail en profondeur sur la definition de l'ensemble des ressources linguistiques necessaires aux differentes etapes d'analyse que nous avons identifiees. Nous avons notamment defini un ensemble de roles thematiques qio ont une dimension cognitive et un certain nombre de donnees supplementaires en relation avec la lcs (primitives, etc. ). Nous avons aussi caracterise des elements de methode pour la definition de ressources lcs specifiques a un corpus donne. Nos analyses ont ete validees par la mise en uvre du prototype papins (prototype d'analyse pour la production d'index semantiques) que nous avons developpe en prolog
APA, Harvard, Vancouver, ISO, and other styles
46

Puget, Dominique. "Aspects sémantiques dans les Systèmes de Recherche d'Informations." Toulouse 3, 1993. http://www.theses.fr/1993TOU30139.

Full text
Abstract:
Les travaux de recherche exposes dans ce memoire relevent du domaine de l'informatique documentaire, et se situent plus particulierement parmi les travaux sur les systemes intelligents en recherche d'informations. Notre etude s'inscrit dans le prolongement du projet infodiab, qui est un systeme de recherche d'informations utilisant le langage courant comme source d'informations et comme moyen d'interrogation. Ce systeme est destine a faciliter la prise en charge d'une maladie grave et contraignante: le diabete. Notre premiere contribution a permis le couplage de infodiab avec le systeme dialog (une messagerie et un forum) que nous avons developpe dans le but de favoriser le dialogue entre les patients diabetiques et leur medecin generaliste, mais egalement afin de pouvoir mettre a jour le fonds documentaire du systeme de recherche d'informations, et ceci principalement en fonction des besoins en informations des utilisateurs. Notre deuxieme contribution a pour but la realisation d'un systeme de recherche d'informations base sur un modele de representation qui s'inspire de la theorie des graphes conceptuels en reprenant les grands principes. La structure utilisee pour representer la connaissance est un graphe oriente assimilable a un graphe conceptuel que nous avons appele graphe syntaxique. L'interet de notre approche est de gerer la syntaxe et la semantique utiles et representatives dans le domaine de l'application pour la representation des documents et l'evaluation des requetes, et ceci afin d'obtenir un modele de representation suffisamment simple pour permettre une manipulation efficace. Par rapport aux systemes de recherche classiques, notre systeme offre tout d'abord une meilleure comprehension des documents et des requetes. Ceci se traduit par une reconnaissance des relations syntaxiques et semantiques entre les termes d'un document ou d'une requete. De plus, notre systeme permet une comparaison intelligente entre un document et une requete, ce qui signifie en fait l'utilisation des connaissances syntaxiques et semantiques entre les differents termes durant l'evaluation d'une requete. Ainsi, cela contribue a ameliorer le taux de rappel et le taux de precision du systeme
APA, Harvard, Vancouver, ISO, and other styles
47

Teboul, Bruno. "Le développement du neuromarketing aux Etats-Unis et en France. Acteurs-réseaux, traces et controverses." Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLED036/document.

Full text
Abstract:
Notre travail de recherche explore de manière comparée le développement du neuromarketing aux Etats-Unis et en France. Nous commençons par analyser la littérature sur le neuromarketing. Nous utilisons comme cadre théorique et méthodologique l’Actor Network Theory (ANT) ou Théorie de l’Acteur-Réseau (dans le sillage des travaux de Bruno Latour et Michel Callon). Nous montrons ainsi comment des actants « humains et non-humains »: acteurs-réseaux, traces (publications) et controverses forment les piliers d’une nouvelle discipline telle que le neuromarketing. Notre approche hybride « qualitative-quantitative », nous permet de construire une méthodologie appliquée de l’ANT: analyse bibliométrique (Publish Or Perish), text mining, clustering et analyse sémantique de la littérature scientifique et web du neuromarketing. A partir de ces résultats, nous construisons des cartographies, sous forme de graphes en réseau (Gephi) qui révèlent les interrelations et les associations entre acteurs, traces et controverses autour du neuromarketing
Our research explores the comparative development of neuromarketing between the United States and France. We start by analyzing the literature on neuromarketing. We use as theoretical and methodological framework the Actor Network Theory (ANT) (in the wake of the work of Bruno Latour and Michel Callon). We show how “human and non-human” entities (“actants”): actor-network, traces (publications) and controversies form the pillars of a new discipline such as the neuromarketing. Our hybrid approach “qualitative-quantitative” allows us to build an applied methodology of the ANT: bibliometric analysis (Publish Or Perish), text mining, clustering and semantic analysis of the scientific literature and web of the neuromarketing. From these results, we build data visualizations, mapping of network graphs (Gephi) that reveal the interrelations and associations between actors, traces and controversies about neuromarketing
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography