Thematische Bibliographien / Données massives – Analyse informatique

Auswahl der wissenschaftlichen Literatur zum Thema „Données massives – Analyse informatique“

Autor: Grafiati

Veröffentlicht am 13. Juli 2024

Geben Sie eine Quelle nach APA, MLA, Chicago, Harvard und anderen Zitierweisen an

Wählen Sie eine Art der Quelle aus:

Machen Sie sich mit den Listen der aktuellen Artikel, Bücher, Dissertationen, Berichten und anderer wissenschaftlichen Quellen zum Thema "Données massives – Analyse informatique" bekannt.

Neben jedem Werk im Literaturverzeichnis ist die Option "Zur Bibliographie hinzufügen" verfügbar. Nutzen Sie sie, wird Ihre bibliographische Angabe des gewählten Werkes nach der nötigen Zitierweise (APA, MLA, Harvard, Chicago, Vancouver usw.) automatisch gestaltet.

Sie können auch den vollen Text der wissenschaftlichen Publikation im PDF-Format herunterladen und eine Online-Annotation der Arbeit lesen, wenn die relevanten Parameter in den Metadaten verfügbar sind.

Zeitschriftenartikel zum Thema "Données massives – Analyse informatique"

ASSIS, Y., A. NAFI, X. NI, A. SAMET und G. GUARINO. „Analyse textuelle des RPQS pour la constitution de bases de connaissances“. 3, Nr. 3 (22.03.2021): 31–36. http://dx.doi.org/10.36904/tsm/202103031.

Der volle Inhalt der Quelle

Annotation:

Le rapport annuel sur le prix et la qualité du service de l’eau (RPQS) constitue une source potentielle pour accéder à des informations indisponibles dans le système d’information des services publics d’eau et d’assainissement (Sispea). Cependant, le format textuel des rapports rend difficile leur exploitation sur plusieurs années ou à grande échelle dans une optique d’analyse de données massives. Notre travail s’intéresse à l’utilisation d’approches de traitement automatique du langage pour puiser de l’information dans ces rapports afin de constituer une base de connaissances à l’échelle soit d’un service, soit de plusieurs services. Cette base peut servir pour valider/compléter en partie les données contenues dans la base Sispea sujette à des erreurs ou à des oublis, mais elle peut également constituer une source qui alimente des modèles prédictifs à des fins d’aide à la décision. Dans cet article, nous développons un programme informatique fondé sur notre solution Ro-CamemBERT (Recurrence over CamemBERT) qui est un modèle de traitement automatique de la langue française basé sur l’apprentissage profond ou « deep learning », ce dernier consiste à faire apprendre à un modèle ou à une machine à partir d’un réseau neuronal artificiel, qui est une architecture spécifique formée de couches qui structurent des fonctions explicatives entre des extrants (variables expliquées) et une masse de données (variables explicatives). Le programme ainsi développé permet de répondre automatiquement à des questions dont les réponses se trouvent potentiellement dans les RPQS. Le décideur peut formuler des questions dont la réponse constitue une donnée recherchée. Il est alors possible de compléter une base de données existante ou d’en créer une nouvelle. Le processus d’analyse des rapports est ainsi automatisé, une évaluation de l’erreur des réponses automatiques est également effectuée pour mesurer l’écart possible entre les réponses obtenues et celles attendues. Le modèle développé apparaît comme fiable à hauteur de 80 %. Il a été testé sur des RPQS de service d’eau en Alsace.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

CORPET, F., und C. CHEVALET. „Analyse informatique des données moléculaires“. INRAE Productions Animales 13, HS (22.12.2000): 191–95. http://dx.doi.org/10.20870/productions-animales.2000.13.hs.3837.

Der volle Inhalt der Quelle

Annotation:

Les données biologiques, en particulier les séquences d’ADN, s’accumulent extrêmement rapidement. Pour exploiter toutes ces données, une nouvelle science est née, la bioinformatique. Accéder de manière rapide et fiable aux données disponibles dans les banques internationales et analyser les données expérimentales produites à grande échelle nécessitent des outils informatiques puissants et en perpétuel développement. Assembler les séquences brutes, trouver les unités fonctionnelles des séquences génomiques, comparer les séquences entre elles, prédire les structures et les fonctions des macromolécules, comprendre les interactions entre les gènes et leurs produits en termes de réseaux métaboliques mais aussi d’évolution des espèces : toutes ces questions nécessitent l’utilisation de la bioinformatique et son développement.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mothe, Caroline, Estelle Delfosse und Anne Marie Bocquet. „L’analyse de données textuelles assistée par ordinateur“. Revue Française de Gestion 47, Nr. 295 (März 2021): 11–37. http://dx.doi.org/10.3166/rfg.2021.00525.

Der volle Inhalt der Quelle

Annotation:

L’analyse de données textuelles (ADT), courant qui s’est développé grâce aux techniques de la linguistique informatique, a évolué de l’analyse lexicale à l’analyse sémantique. Cette approche particulière est l’occasion d’une expérience amplifiée par les possibilités graphiques d’interaction et de partage du web. En mobilisant cette approche pour l’analyse d’un corpus de près de 200 documents sur les réseaux de chaleur en France, les auteurs montrent ainsi l’utilité de l’ADT assistée par ordinateur pour les chercheurs, les praticiens et tous les acteurs qui se trouvent face au défi de devoir traiter des données massives.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Sondi, Patrick. „Enseignement des modules Architecture-Systèmes-Réseaux en Licence Informatique à l’ère des objets connectés: plébiscite de l’apprentissage par problème ?“ J3eA 21 (2022): 2027. http://dx.doi.org/10.1051/j3ea/20222027.

Der volle Inhalt der Quelle

Annotation:

La Licence Informatique est un diplôme en plein questionnement sur son contenu et ses missions. L’essor des outils d’aide à la décision dopés par l’intelligence artificielle et la 5G qui a accéléré la virtualisation et la logicielisation des infrastructures pour l’Internet ouvrent de nouvelles compétences. A cela s’ajoutent diverses mutations : les méthodologies agiles en génie logiciel, la réalité augmentée dans les interactions homme-machine, les données massives dans les bases de données et enfin la généralisation du Web et des applications mobiles. Autant de pressions sur un programme de formation déjà mis à mal par la pluralité de métiers pour lesquels la Licence Informatique doit fournir un socle commun de connaissances au niveau national (futurs chercheurs, professionnels qualifiés, etc). Face aux moyens (volumes horaires, matériels, salles adaptées) devenus insuffisants pour former efficacement à autant d’innovations, une alternative à la fatalité réside dans les approches pédagogiques. A travers cet article, je partage une expérience personnelle sur une approche qui combine un enseignement classique afin de garantir la transmission des notions clés identifiées dans le programme, d’une part avec des travaux dirigés et pratiques construits selon l’approche de l’apprentissage par problème (APP), d’autre part. Un sondage par formulaire individuel et anonyme a permis de recueillir les impressions d’un échantillon représentatif d’étudiants en dernière année de Licence. L’article propose ainsi les données brutes relatives à ce retour afin que chacun en tire ses enseignements, face à l’analyse que j’en propose.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Dagher, Georges, Maria Luisa Lavitrano und Paul Hofman. „Le next-generation biobanking“. médecine/sciences 34, Nr. 10 (Oktober 2018): 849–51. http://dx.doi.org/10.1051/medsci/2018203.

Der volle Inhalt der Quelle

Annotation:

La recherche biomédicale connaît depuis le début du siècle un bouleversement de grande ampleur avec l’avènement de technologies à grand débit (les -omiques) appliquées à la biologie et associées à des approches biologiques, moléculaires ou aux techniques d’imagerie. Cette révolution méthodologique s’appuie sur l’analyse d’échantillons biologiques prélevés sur les patients puis conservés dans des biobanques. L’intégration des données massives obtenues par ces différentes technologies et leur analyse devrait permettre d’accroître nos connaissances des mécanismes complexes des pathologies humaines et une meilleure stratification des patients selon une nomenclature génétique ou moléculaire. L’accroissement exponentiel des données générées et leur complexité nécessitent cependant la mise en place d’infrastructures adaptées, de nouvelles modalités d’accès et d’échanges de ces données ainsi qu’une organisation optimisée des biobanques afin d’intégrer de nouvelles disciplines adaptées à l’analyse de ces données.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Gaultier, M. „Une base de données en anthropologie adaptée pour l'archéologie préventive. Usages, enjeux et limites au service de l'archéologie du département d'Indre-et-Loire (Sadil)“. Bulletins et Mémoires de la Société d'Anthropologie de Paris 29, Nr. 3-4 (17.03.2017): 159–64. http://dx.doi.org/10.1007/s13219-017-0179-8.

Der volle Inhalt der Quelle

Annotation:

Les pratiques professionnelles en archéologie préventive liées aux contraintes de temps imposées à la réalisation des recherches sur le terrain ou lors de la phase d'étude, ainsi que la normalisation toujours plus aboutie des rapports d'opérations, favorisent l'émergence et le développement d'outils informatiques aptes à seconder archéologues et anthropologues au quotidien. Pour la gestion de séries importantes de données issues de l'étude de nécropoles ou cimetières, la création et le développement d'une base de données s'avèrent ainsi indispensables tant pour le stockage des données brutes que pour leur manipulation : tri, comparaison, analyse. L'outil informatique permet également d'automatiser certaines tâches et de normaliser la présentation des données. Cette note présente l'expérience du service de l'archéologie du département d'Indre-et-Loire en la matière.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

ASTRUC, A., A. JOUANNIN, E. LOOTVOET, T. BONNET und F. CHEVALLIER. „LES DONNEES A CARACTERE PERSONNEL : QUELLES FORMALITES REGLEMENTAIRES POUR LES TRAVAUX DE RECHERCHE EN MEDECINE GENERALE ?“ EXERCER 32, Nr. 172 (01.04.2021): 178–84. http://dx.doi.org/10.56746/exercer.2021.172.178.

Der volle Inhalt der Quelle

Annotation:

La loi de 1978 modifiée, dite « Informatique et libertés », a été complétée au niveau européen en 2018 par le Règlement général sur la protection des données (RGPD). Ces réglementations encadrent précisément le traitement des données à caractère personnel (DCP). Le délégué à la protection des données (DPO) est désormais l’acteur incontournable auprès duquel tout chercheur devra se tourner pour un accompagnement et pour la validation des formalités réglementaires à accomplir : inscription au registre des traitements des données, analyse d’impact relative à la protection des données, modalités d’information des sujets de recherche. L’objectif était de clarifier les formalités à accomplir par les chercheurs en médecine générale dans leurs obligations relatives à la protection des DCP en réalisant une synthèse de la documentation existante afin d’aboutir à des conseils pratiques adaptés aux méthodes de recherche les plus courantes en médecine générale.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Pierrel, Jean-Marie. „Un ensemble de ressources de référence pour l’étude du français : tlfi, frantext et le logiciel stella“. Revue québécoise de linguistique 32, Nr. 1 (20.02.2006): 155–76. http://dx.doi.org/10.7202/012248ar.

Der volle Inhalt der Quelle

Annotation:

Résumé Les recherches en traitement automatique des langues nécessitent de vastes ressources de référence : corpus textuels, dictionnaires informatiques, outils de traitement. Cette contribution présente les ressources linguistiques informatisées du laboratoire atilf (Analyse et Traitement Informatique de la Langue Française) accessibles sur la toile ainsi que leur diversité d’exploitation potentielle. Regroupant un ensemble de plus de 3600 textes de langue française réunis dans frantext et divers dictionnaires, lexiques et autres bases de données, ces ressources exploitent les fonctionnalités du logiciel stella, qui correspond à un véritable moteur de recherche dédié aux bases textuelles s’appuyant sur une nouvelle théorie des objets textuels.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Nyandue Ompola, José. „La cartographie numérique et son apport dans l’organisation du recensement en République Démocratique du Congo“. Revue Congolaise des Sciences & Technologies 01, Nr. 02 (20.11.2022): 110–18. http://dx.doi.org/10.59228/rcst.022.v1.i2.14.

Der volle Inhalt der Quelle

Annotation:

La cartographie assisté par l’ordinateur (CAO) repose sur l’utilisation des systèmes d’information géographique, des images à haute résolution ainsi que des récepteurs GPS (systèmes de positionnement universel) pour le levé des coordonnées géographiques x et y. Ce qui conduit à une analyse spatiale à partir des images acquises et à l’utilisation des technologies géo-spatiales, ceux-ci entrainent la production des cartes, pour qu’elles soient produites par des moyens informatisés, il faut disposer des couches des données standards tels que le shape file de limite administrative, des routes, des villes, des territoires et des hydrographies qui constituent la base des activités de cartographie de recensement et de collecte des données. Le traitement automatique des données issues des activités en amont de cartographie de recensement présente à la fois deux avantages, le premier est lié à l’efficacité, qui se traduit par la quantité de résultats pouvant être obtenus par unité d’intrants, cela montre que l’on peut en faire plus en moindre coût, d’une part, l’avantage lié à l’utilité se traduit par des effets des programmes qui bénéficient d’informations améliorées, d’autre part. La cartographie numérique de recensement est ainsi une cartographie assistée par ordinateur, elle fait appel à une technologie informatique et en tire parti des nouvelles technologies géo-spatiales pour réaliser plus rapidement de meilleures cartes et améliorer la qualité globale des données de recensement que sa mise à jour. Mots clés: Télédétection, analyse spatiale, imagerie satellite et aérienne

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Andry, Tiffany, Julia Bonaccorsi, Gilles Gesquière, Arnaud Grignard und Thierry Joliveau. „À quoi rêvent les maquettes ? Maquette augmentée et médiation urbaine, un défi pluridisciplinaire“. SHS Web of Conferences 147 (2022): 02004. http://dx.doi.org/10.1051/shsconf/202214702004.

Der volle Inhalt der Quelle

Annotation:

Durant quatre années consécutives, un collectif d’enseignant.es et de chercheur.es a développé et suivi un projet de recherche-formation, prenant appui sur la place des maquettes dans la représentation et l’aménagement de la ville. « À quoi rêvent les maquettes ? » est un atelier de recherche-formation de plusieurs jours réunissant des groupes d’étudiant.es de master en information et communication, informatique, géographie numérique et urbanisme autour d’une maquette à « augmenter » grâce à la visualisation de données. Cet article interroge la problématique de l’usage de dispositifs de représentation urbaine tangibles dans le cadre de l’aide à la compréhension des territoires, tout en proposant une analyse réflexive qui interroge le dispositif pédagogique présenté.

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Dissertationen zum Thema "Données massives – Analyse informatique"

Haddad, Raja. „Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées“. Thesis, Paris Sciences et Lettres (ComUE), 2016. http://www.theses.fr/2016PSLED028/document.

Der volle Inhalt der Quelle

Annotation:

Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes
This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Adjout, Rehab Moufida. „Big Data : le nouvel enjeu de l'apprentissage à partir des données massives“. Thesis, Sorbonne Paris Cité, 2016. http://www.theses.fr/2016USPCD052.

Der volle Inhalt der Quelle

Annotation:

Le croisement du phénomène de mondialisation et du développement continu des technologies de l’information a débouché sur une explosion des volumes de données disponibles. Ainsi, les capacités de production, de stockage et de traitement des donnée sont franchi un tel seuil qu’un nouveau terme a été mis en avant : Big Data.L’augmentation des quantités de données à considérer, nécessite la mise en oeuvre de nouveaux outils de traitement. En effet, les outils classiques d’apprentissage sont peu adaptés à ce changement de volumétrie tant au niveau de la complexité de calcul qu’à la durée nécessaire au traitement. Ce dernier, étant le plus souvent centralisé et séquentiel,ce qui rend les méthodes d’apprentissage dépendantes de la capacité de la machine utilisée. Par conséquent, les difficultés pour analyser un grand jeu de données sont multiples.Dans le cadre de cette thèse, nous nous sommes intéressés aux problèmes rencontrés par l’apprentissage supervisé sur de grands volumes de données. Pour faire face à ces nouveaux enjeux, de nouveaux processus et méthodes doivent être développés afin d’exploiter au mieux l’ensemble des données disponibles. L’objectif de cette thèse est d’explorer la piste qui consiste à concevoir une version scalable de ces méthodes classiques. Cette piste s’appuie sur la distribution des traitements et des données pou raugmenter la capacité des approches sans nuire à leurs précisions.Notre contribution se compose de deux parties proposant chacune une nouvelle approche d’apprentissage pour le traitement massif de données. Ces deux contributions s’inscrivent dans le domaine de l’apprentissage prédictif supervisé à partir des données volumineuses telles que la Régression Linéaire Multiple et les méthodes d’ensemble comme le Bagging.La première contribution nommée MLR-MR, concerne le passage à l’échelle de la Régression Linéaire Multiple à travers une distribution du traitement sur un cluster de machines. Le but est d’optimiser le processus du traitement ainsi que la charge du calcul induite, sans changer évidement le principe de calcul (factorisation QR) qui permet d’obtenir les mêmes coefficients issus de la méthode classique.La deuxième contribution proposée est appelée "Bagging MR_PR_D" (Bagging based Map Reduce with Distributed PRuning), elle implémente une approche scalable du Bagging,permettant un traitement distribué sur deux niveaux : l’apprentissage et l’élagage des modèles. Le but de cette dernière est de concevoir un algorithme performant et scalable sur toutes les phases de traitement (apprentissage et élagage) et garantir ainsi un large spectre d’applications.Ces deux approches ont été testées sur une variété de jeux de données associées àdes problèmes de régression. Le nombre d’observations est de plusieurs millions. Nos résultats expérimentaux démontrent l’efficacité et la rapidité de nos approches basées sur la distribution de traitement dans le Cloud Computing
In recent years we have witnessed a tremendous growth in the volume of data generatedpartly due to the continuous development of information technologies. Managing theseamounts of data requires fundamental changes in the architecture of data managementsystems in order to adapt to large and complex data. Single-based machines have notthe required capacity to process such massive data which motivates the need for scalablesolutions.This thesis focuses on building scalable data management systems for treating largeamounts of data. Our objective is to study the scalability of supervised machine learningmethods in large-scale scenarios. In fact, in most of existing algorithms and datastructures,there is a trade-off between efficiency, complexity, scalability. To addressthese issues, we explore recent techniques for distributed learning in order to overcomethe limitations of current learning algorithms.Our contribution consists of two new machine learning approaches for large scale data.The first contribution tackles the problem of scalability of Multiple Linear Regressionin distributed environments, which permits to learn quickly from massive volumes ofexisting data using parallel computing and a divide and-conquer approach to providethe same coefficients like the classic approach.The second contribution introduces a new scalable approach for ensembles of modelswhich allows both learning and pruning be deployed in a distributed environment.Both approaches have been evaluated on a variety of datasets for regression rangingfrom some thousands to several millions of examples. The experimental results showthat the proposed approaches are competitive in terms of predictive performance while reducing significantly the time of training and prediction

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Ledieu, Thibault. „Analyse et visualisation de trajectoires de soins par l’exploitation de données massives hospitalières pour la pharmacovigilance“. Thesis, Rennes 1, 2018. http://www.theses.fr/2018REN1B032/document.

Der volle Inhalt der Quelle

Annotation:

Le phénomène de massification des données de santé constitue une opportunité de répondre aux questions des vigilances et de qualité des soins. Dans les travaux effectués au cours de cette thèse, nous présenterons des approches permettant d’exploiter la richesse et le volume des données intra hospitalières pour des cas d’usage de pharmacovigilance et de surveillance de bon usage du médicament. Cette approche reposera sur la modélisation de trajectoires de soins intra hospitalières adaptées aux besoins spécifiques de la pharmacovigilance. Il s’agira, à partir des données d’un entrepôt hospitalier de caractériser les événements d’intérêt et d’identifier un lien entre l’administration de ces produits de santé et l’apparition des effets indésirables, ou encore de rechercher les cas de mésusage du médicament. L’hypothèse posée dans cette thèse est qu’une approche visuelle interactive serait adaptée pour l’exploitation de ces données biomédicales hétérogènes et multi-domaines dans le champ de la pharmacovigilance. Nous avons développé deux prototypes permettant la visualisation et l’analyse des trajectoires de soins. Le premier prototype est un outil de visualisation du dossier patient sous forme de frise chronologique. La deuxième application est un outil de visualisation et fouille d’une cohorte de séquences d’événements. Ce dernier outil repose sur la mise en œuvre d’algorithme d’analyse de séquences (Smith-Waterman, Apriori, GSP) pour la recherche de similarité ou de motifs d’événements récurrents. Ces interfaces homme-machine ont fait l’objet d’études d’utilisabilité sur des cas d’usage tirées de la pratique réelle qui ont prouvé leur potentiel pour un usage en routine
The massification of health data is an opportunity to answer questions about vigilance and quality of care. The emergence of big data in health is an opportunity to answer questions about vigilance and quality of care. In this thesis work, we will present approaches to exploit the diversity and volume of intra-hospital data for pharmacovigilance use and monitoring the proper use of drugs. This approach will be based on the modelling of intra-hospital care trajectories adapted to the specific needs of pharmacovigilance. Using data from a hospital warehouse, it will be necessary to characterize events of interest and identify a link between the administration of these health products and the occurrence of adverse reactions, or to look for cases of misuse of the drug. The hypothesis put forward in this thesis is that an interactive visual approach would be suitable for the exploitation of these heterogeneous and multi-domain biomedical data in the field of pharmacovigilance. We have developed two prototypes allowing the visualization and analysis of care trajectories. The first prototype is a tool for visualizing the patient file in the form of a timeline. The second application is a tool for visualizing and searching a cohort of event sequences The latter tool is based on the implementation of sequence analysis algorithms (Smith-Waterman, Apriori, GSP) for the search for similarity or patterns of recurring events. These human-machine interfaces have been the subject of usability studies on use cases from actual practice that have proven their potential for routine use

APA, Harvard, Vancouver, ISO und andere Zitierweisen

El, Ouazzani Saïd. „Analyse des politiques publiques en matière d’adoption du cloud computing et du big data : une approche comparative des modèles français et marocain“. Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLE009/document.

Der volle Inhalt der Quelle

Annotation:

Notre recherche repose sur l’analyse des politiques publiques françaises et marocaines en matière d’adoption des technologies du Cloud Computing et du Big Data. Nous avons analysé ce que les Etats, français et marocain, font — ou ne font pas — pour faire face aux enjeux du numérique. Enjeux pour lesquels l’Etat doit apporter aujourd’hui des réponses politiques et techniques. En effet, l’Etat, dans une acception weberienne, voit sa représentation idéal-typique se modifier en un cyber-Etat qui a pour mission :— Assurer une souveraineté en développant des plateformes Cloud Computing nationales susceptibles de fournir les mêmes services que des plateformes étrangères ;— Développer des outils numériques du type Big Data articulés à des solutions « Cloud Computing » afin d’améliorer des services publics. — Développer et assurer la présence de l’Etat et de ses administrations dans le cyberespace ;— Mettre les outils du type Coud Computing au service de la sécurité nationale pour faire face aux dispositifs de cyber-renseignement étrangers.Dans un contexte de transformations profondes de la société induites par le numérique, l’Etat doit réaffirmer ses droits sur son propre territoire. En effet, le Net offre aux individus des possibilités de sociabilité croissantes à travers une «vie numérique» qui constitue une facette, un prolongement de la vie réelle. Cette vie numérique individuelle évolue en suivant les transformations de la technologie qui potentialisent la sociabilité en ligne et qui s’accompagnent de contraintes liées au traitement des données personnelles et font surgir des débats relatifs à la vie privée.Pour faire face aux risques sécuritaires, l’Etat français comme l’Etat marocain se sont dotés des instruments juridiques et techniques qui s’appuient précisément sur les technologies du Cloud Computing et du Big Data. L’arsenal juridique français s’est vu renforcé dernièrement par l’adoption successive et accélérée — sans débat national — de la Loi de programmation militaire (2014-2019) puis sur les lois anti-terroriste (2014) et sur le Renseignement (2015). Ces différents textes ont agité le débat politique en instillant une inquiétude grandissante relative au déploiement de dispositifs numériques de surveillance. Surveillance, ou cyber-surveillance, qui trouve sa légitimité dans la lutte contre le terrorisme en faisant, à chaque fois, référence à la notion de sécurité nationale, concept au contenu juridiquement flou et dépendant des autorités publiques. Notre travail couvre quatre axes principaux : 1- L’évolution de la conception même de l’Etat qui implique la mise en place de cyber-politiques publiques ainsi que le développement d’un cyber-secteur public, d’un cyber-service publique et également d’une évolution de la fonction publique elle-même.2- Les enjeux sécuritaires à l’ère du Cyber-Etat. Nous avons ainsi pu traiter des notions comme celles de cyber-sécurité, de cyber-souveraineté et de cyber-surveillance au sein du Cyber-Etat.3- Les enjeux liés au traitement des données personnelles au sein du Cyber-Etat et produites par les activités quotidiennes du cyber-citoyen.4- Les fondements techniques du Cyber-Etat : le Cloud Computing et et le Big Data. On pu être ainsi analysées techniquement ces deux technologies.C’est grâce à la collaboration avec des partenaires français et nord-américains : la Mairie de Boulogne Billancourt et les Engaged Public et CausesLabs que nous avons pu montrer, à travers une étude de cas, l’apport concret du Cloud Computing dans le cadre d’une collectivité locale française. Une expérimentation qu’il conviendra de suivre, si ce n’est développer, dans l’avenir
Our research concerns the public policy analysis on how Cloud Computing and Big data are adopted by French and Moroccan States with a comparative approach between the two models. We have covered these main areas: The impact of the digital on the organization of States and Government ; The digital Public Policy in both France and Morocco countries ;The concept related to the data protection, data privacy ; The limits between security, in particular home security, and the civil liberties ; The future and the governance of the Internet ; A use case on how the Cloud could change the daily work of a public administration ; Our research aims to analyze how the public sector could be impacted by the current digital (re) evolution and how the States could be changed by emerging a new model in digital area called Cyber-State. This term is a new concept and is a new representation of the State in the cyberspace. We tried to analyze the digital transformation by looking on how the public authorities treat the new economics, security and social issues and challenges based on the Cloud Computing and Big Data as the key elements on the digital transformation. We tried also to understand how the States – France and Morocco - face the new security challenges and how they fight against the terrorism, in particular, in the cyberspace. We studied the recent adoption of new laws and legislation that aim to regulate the digital activities. We analyzed the limits between security risks and civil liberties in context of terrorism attacks. We analyzed the concepts related to the data privacy and the data protection. Finally, we focused also on the future of the internet and the impacts on the as is internet architecture and the challenges to keep it free and available as is the case today

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Belghache, Elhadi. „AMAS4BigData : analyse dynamique de grandes masses de données par systèmes multi-agents adaptatifs“. Thesis, Toulouse 3, 2019. http://www.theses.fr/2019TOU30149.

Der volle Inhalt der Quelle

Annotation:

L'ère des grandes masses de données (big data) nous a mis face à de nouvelles problématiques de gestion et de traitement des données. Les outils conventionnels actuels d'analyse sont maintenant proches de répondre aux problématiques actuelles et de fournir des résultats satisfaisants avec un coût raisonnable. Mais la vitesse à laquelle les nouvelles données sont générées et la nécessité de gérer les modifications de ces données à la fois dans le contenu et la structure conduisent à de nouvelles problématiques émergentes. La théorie des AMAS (Adaptive Multi-Agent Systems) propose de résoudre par autoorganisation des problèmes complexes pour lesquels aucune solution algorithmique n'est connue. Le comportement coopératif des agents permet au système de s'adapter à un environnement dynamique pour maintenir le système dans un état de fonctionnement adéquat. Les systèmes ambiants présentent un exemple typique de système complexe nécessitant ce genre d'approche, et ont donc été choisis comme domaine d'application pour notre travail. Cette thèse vise à explorer et décrire comment la théorie des Systèmes Multi-Agents Adaptatifs peut être appliquée aux grandes masses de données en fournissant des capacités d'analyse dynamique, en utilisant un nouvel outil analytique qui mesure en temps réel la similarité des évolutions des données. Cette recherche présente des résultats prometteurs et est actuellement appliquée dans l'opération neOCampus, le campus ambiant de l'Université Toulouse III
Understanding data is the main purpose of data science and how to achieve it is one of the challenges of data science, especially when dealing with big data. The big data era brought us new data processing and data management challenges to face. Existing state-of-the-art analytics tools come now close to handle ongoing challenges and provide satisfactory results with reasonable cost. But the speed at which new data is generated and the need to manage changes in data both for content and structure lead to new rising challenges. This is especially true in the context of complex systems with strong dynamics, as in for instance large scale ambient systems. One existing technology that has been shown as particularly relevant for modeling, simulating and solving problems in complex systems are Multi-Agent Systems. The AMAS (Adaptive Multi-Agent Systems) theory proposes to solve complex problems for which there is no known algorithmic solution by self-organization. The cooperative behavior of the agents enables the system to self-adapt to a dynamical environment so as to maintain the system in a functionality adequate state. In this thesis, we apply this theory to Big Data Analytics. In order to find meaning and relevant information drowned in the data flood, while overcoming big data challenges, a novel analytic tool is needed, able to continuously find relations between data, evaluate them and detect their changes and evolution over time. The aim of this thesis is to present the AMAS4BigData analytics framework based on the Adaptive Multi-agent systems technology, which uses a new data similarity metric, the Dynamics Correlation, for dynamic data relations discovery and dynamic display. This framework is currently being applied in the neOCampus operation, the ambient campus of the University Toulouse III - Paul Sabatier

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Cantu, Alma. „Proposition de modes de visualisation et d'interaction innovants pour les grandes masses de données et/ou les données structurées complexes en prenant en compte les limitations perceptives des utilisateurs“. Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2018. http://www.theses.fr/2018IMTA0068/document.

Der volle Inhalt der Quelle

Annotation:

Suite à l’amélioration des outils de capture et de stockage des données, ces dernières années ont vu les quantités de données à traiter croître énormément. De nombreux travaux, allant du traitement automatique à la visualisation d’information, ont alors été mis en place, mais certains domaines sont encore trop spécifiques pour en profiter. C’est le cas du Renseignement d’Origine ÉlectroMagnétique (ROEM). Ce domaine ne fait pas uniquement face à de grandes quantités de données mais doit aussi gérer des données et des usages complexes ainsi que des populations d’utilisateurs ayant de moins en moins d’expérience. Dans cette thèse nous nous sommes intéressés à l’usage de l’existant et des nouvelles technologies appliquées à la visualisation pour proposer des solutions à la combinaison de problématiques comme les données en grandes quantité et les données complexes. Nous commençons par présenter une analyse du domaine du ROEM qui a permis d’extraire les problématiques auxquelles il doit faire face. Nous nous intéressons ensuite aux solutions gérant les combinaisons de telles problématiques. L’existant ne contenant pas directement de telles solutions, nous nous intéressons alors à la description des problématiques de visualisation et proposons une caractérisation de ces problématiques. Cette caractérisation nous permet de décrire les représentations existantes et de mettre en place un outil de recommandation des représentations basé sur la façon dont l’existant résout les problématiques. Enfin nous nous intéressons à identifier de nouvelles métaphores pour compléter l’existant et proposons une représentation immersive permettant de résoudre les problématiques du ROEM. Ces contributions permettent d’analyser et d’utiliser l’existant et approfondissent l’usage des représentations immersives pour la visualisation d’information
As a result of the improvement of data capture and storage, recent years have seen the amount of data to be processed increase dramatically. Many studies, ranging from automatic processing to information visualization, have been performed, but some areas are still too specific to take advantage of. This is the case of ELectromagnetic INTelligence(ELINT). This domain does not only deal with a huge amount of data but also has to handle complex data and usage as well as populations of users with less and less experience. In this thesis we focus on the use of existing and new technologies applied to visualization to propose solutions to the combination of issues such as huge amount and complex data. We begin by presenting an analysis of the ELINT field which made it possible to extract the issues that it must faces. Then, we focus on the visual solutions handling the combinations of such issues but the existing work do not contain directly such solutions. Therefore, we focus on the description of visual issues and propose a characterization of these issues. This characterization allows us to describe the existing representations and to build a recommendation tool based on how the existing work solves the issues. Finally, we focus on identifying new metaphors to complete the existing work and propose an immersive representation to solve the issues of ELINT. These contributions make it possible to analyze and use the existing and deepen the use of immersive representations for the visualization of information

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Soler, Maxime. „Réduction et comparaison de structures d'intérêt dans des jeux de données massifs par analyse topologique“. Electronic Thesis or Diss., Sorbonne université, 2019. http://www.theses.fr/2019SORUS364.

Der volle Inhalt der Quelle

Annotation:

Dans cette thèse, nous proposons différentes méthodes, basées sur l'analyse topologique de données, afin de répondre aux problématiques modernes concernant l'analyse de données scientifiques. Dans le cas de données scalaires, extraire un savoir pertinent à partir de données statiques, de données qui varient dans le temps, ou données d'ensembles s'avère de plus en plus difficile. Nos approches pour la réduction et l'analyse de telles données reposent sur l'idée de définir des structures d'intérêt dans les champs scalaires à l’aide d’abstractions topologiques. Dans un premier temps, nous proposons un nouvel algorithme de compression avec pertes offrant de fortes garanties topologiques, afin de préserver les structures topologiques tout au long de la compression. Des extensions sont proposées pour offrir un contrôle supplémentaire sur l'erreur géométrique. Nous ciblons ensuite les données variables dans le temps en proposant une nouvelle méthode de suivi des structures topologiques, basée sur des métriques topologiques. Ces métriques sont étendues pour être plus robustes. Nous proposons un nouvel algorithme efficace pour les calculer, obtenant des accélérations de plusieurs ordres de grandeur par rapport aux approches de pointe. Enfin, nous appliquons et adaptons nos méthodes aux données d'ensemble relatives à la simulation de réservoir, dans un cas de digitation visqueuse en milieu poreux. Nous adaptons les métriques topologiques pour quantifier l’écart entre les simulations et la vérité terrain, évaluons les métriques proposées avec le retour d’experts, puis implémentons une méthode de classement in-situ pour évaluer la fidélité des simulations
In this thesis, we propose different methods, based on topological data analysis, in order to address modern problematics concerning the increasing difficulty in the analysis of scientific data. In the case of scalar data defined on geometrical domains, extracting meaningful knowledge from static data, then time-varying data, then ensembles of time-varying data proves increasingly challenging. Our approaches for the reduction and analysis of such data are based on the idea of defining structures of interest in scalar fields as topological features. In a first effort to address data volume growth, we propose a new lossy compression scheme which offers strong topological guarantees, allowing topological features to be preserved throughout compression. The approach is shown to yield high compression factors in practice. Extensions are proposed to offer additional control over the geometrical error. We then target time-varying data by designing a new method for tracking topological features over time, based on topological metrics. We extend the metrics in order to overcome robustness and performance limitations. We propose a new efficient way to compute them, gaining orders of magnitude speedups over state-of-the-art approaches. Finally, we apply and adapt our methods to ensemble data related to reservoir simulation, for modeling viscous fingering in porous media. We show how to capture viscous fingers with topological features, adapt topological metrics for capturing discrepancies between simulation runs and a ground truth, evaluate the proposed metrics with feedback from experts, then implement an in-situ ranking framework for rating the fidelity of simulation runs

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Liu, Rutian. „Semantic services for assisting users to augment data in the context of analytic data sources“. Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS208.

Der volle Inhalt der Quelle

Annotation:

La production de collections de données analytiques est une tendance importante et a dépassé le cadre des technologies traditionnelles de production d'information et de données. Les collections de données analytiques sont maintenant directement créées par les utilisateurs (experts, data scientists). Malgré l'apparition des nouvelles technologies "big data" et d'outils de préparation de données agiles, l'intégration et l'enrichissement de schémas analytiques avec des attributs provenant d'autres sources de données reste une tâche difficile qui nécessite une bonne connaissance des schémas de données manipulées. Cette thèse présente une nouvelle solution pour compléter des schémas de données analytiques avec des attributs provenant d'autres sources de données sémantiquement liées : -Nous introduisons les graphes d'attributs comme une nouvelle façon concise et naturelle pour représenter les dépendances fonctionnelles littérales sur des attributs de dimensions hiérarchiques et pour déduire des identificateurs uniques de dimensions et de tables de faits. -Nous donnons des définitions formelles d'augmentation de schémas, de complément de schémas et de requête de fusion dans le contexte des données analytiques. Nous introduisons ensuite plusieurs opérations de réduction pour éviter la multiplication de lignes dans la table de données augmentée. -Nous définissons des critères formels de qualité et des algorithmes pour contrôler l'exactitude, la non-ambiguïté et l'exhaustivité des augmentations et des compléments de schéma générés. -Nous décrivons l'implémentation de notre solution au sein de la plate-forme SAP HANA et fournissons une description détaillée de nos algorithmes. -Nous évaluons la performance de nos algorithmes et analysons l'efficacité de notre approche avec deux scénarios d'application
The production of analytic datasets is a significant big data trend and has gone well beyond the scope of traditional IT-governed dataset development. Analytic datasets are now created by data scientists and data analysts using bigdata frameworks and agile data preparation tools. However, it still remains difficult for a data analyst to start from a dataset at hand and customize it with additional attributes coming from other existing datasets. This thesis presents a new solution for business users and data scientists who want to augment the schema of analytic datasets with attributes coming from other semantically related datasets : We introduce attribute graphs as a novel concise and natural way to represent literal functional dependencies over hierarchical dimension level types to infer unique dimension and fact table identifiers We give formal definitions for schema augmentation, schema complement, and merge query in the context of analytic tables. We then introduce several reduction operations to enforce schema complements when schema augmentation yields a row multiplication in the augmented dataset. We define formal quality criteria and algorithms to control the correctness, non-ambiguity, and completeness of generated schema augmentations and schema complements. We describe the implementation of our solution as a REST service within the SAP HANA platform and provide a detailed description of our algorithms. We evaluate the performance of our algorithms to compute unique identifiers in dimension and fact tables and analyze the effectiveness of our REST service using two application scenarios

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Baudin, Alexis. „Cliques statiques et temporelles : algorithmes d'énumération et de détection de communautés“. Electronic Thesis or Diss., Sorbonne université, 2023. http://www.theses.fr/2023SORUS609.

Der volle Inhalt der Quelle

Annotation:

Les graphes sont des objets mathématiques qui permettent de modéliser des interactions ou connexions entre entités de types variés. Un graphe peut représenter par exemple un réseau social qui connecte les utilisateurs entre eux, un réseau de transport comme le métro où les stations sont connectées entre elles, ou encore un cerveau avec les milliards de neurones en interaction qu'il contient. Depuis quelques années, la forte dynamicité de ces structures a été mise en évidence, ainsi que l'importance de prendre en compte l'évolution temporelle de ces réseaux pour en comprendre le fonctionnement. Alors que de nombreux concepts et algorithmes ont été développés sur les graphes pour décrire des structures de réseaux statiques, il reste encore beaucoup à faire pour formaliser et développer des algorithmes pertinents pour décrire la dynamique des réseaux réels. Cette thèse vise à mieux comprendre comment sont structurés les graphes massifs qui sont issus du monde réel et à développer des outils pour étendre notre compréhension à des structures évoluant dans le temps. Il a été montré que ces graphes ont des propriétés particulières, qui les distinguent des graphes théoriques ou tirés aléatoirement. Exploiter ces propriétés permet alors de concevoir des algorithmes pour résoudre certains problèmes difficiles beaucoup plus rapidement sur ces instances que dans le cas général. La thèse se focalise sur les cliques, qui sont des groupes d'éléments tous connectés entre eux. Nous étudions l'énumération des cliques dans les graphes statiques et temporels et la détection de communautés qu'elles permettent de mettre en œuvre. Les communautés d'un graphe sont des ensembles de sommets tels qu'au sein d'une communauté, les sommets interagissent fortement entre eux, et peu avec le reste du graphe. Leur étude aide à comprendre les propriétés structurelles et fonctionnelles des réseaux. Nous évaluons nos algorithmes sur des graphes massifs issus du monde réel, ouvrant ainsi de nouvelles perspectives pour comprendre les interactions au sein de ces réseaux. Nous travaillons d'abord sur des graphes, sans tenir compte de la composante temporelle des interactions. Nous commençons par utiliser la méthode de détection de communautés par percolation de cliques, en mettant en évidence ses limites en mémoire, qui empêchent de l'appliquer à des graphes trop massifs. En introduisant un algorithme de résolution approchée du problème, nous dépassons cette limite. Puis, nous améliorons l'énumération des cliques maximales dans le cas des graphes particuliers dits bipartis. Ils correspondent à des interactions entre des groupes de sommets de type différent, par exemple des liens entre des personnes et du contenu consulté, la participation à des événements, etc. Ensuite, nous considérons des interactions qui ont lieu au cours du temps, grâce au formalisme des flots de liens. Nous cherchons à étendre les algorithmes présentés en première partie, pour exploiter leurs avantages dans l'étude des interactions temporelles. Nous fournissons un nouvel algorithme d'énumération des cliques maximales dans les flots de liens, beaucoup plus efficace que l'état de l'art sur des jeux de données massifs. Enfin, nous nous intéressons aux communautés dans les flots de liens par percolation de cliques, en développant une extension de la méthode utilisée sur les graphes. Les résultats montrent une amélioration significative par rapport à l'état de l'art, et nous analysons les communautés obtenues pour fournir des informations pertinentes sur l'organisation des interactions temporelles dans les flots de liens. Mon travail de thèse a permis d’apporter de nouvelles réflexions sur l’étude des réseaux massifs issus du monde réel. Cela montre l'importance d'explorer le potentiel des graphes dans un contexte réel, et pourrait contribuer à l'émergence de solutions novatrices pour les défis complexes de notre société moderne
Graphs are mathematical objects used to model interactions or connections between entities of various types. A graph can represent, for example, a social network that connects users to each other, a transport network like the metro where stations are connected to each other, or a brain with the billions of interacting neurons it contains. In recent years, the dynamic nature of these structures has been highlighted, as well as the importance of taking into account the temporal evolution of these networks to understand their functioning. While many concepts and algorithms have been developed on graphs to describe static network structures, much remains to be done to formalize and develop relevant algorithms to describe the dynamics of real networks. This thesis aims to better understand how massive graphs are structured in the real world, and to develop tools to extend our understanding to structures that evolve over time. It has been shown that these graphs have particular properties, which distinguish them from theoretical or randomly drawn graphs. Exploiting these properties then enables the design of algorithms to solve certain difficult problems much more quickly on these instances than in the general case. My PhD thesis focuses on cliques, which are groups of elements that are all connected to each other. We study the enumeration of cliques in static and temporal graphs and the detection of communities they enable. The communities of a graph are sets of vertices such that, within a community, the vertices interact strongly with each other, and little with the rest of the graph. Their study helps to understand the structural and functional properties of networks. We are evaluating our algorithms on massive real-world graphs, opening up new perspectives for understanding interactions within these networks. We first work on graphs, without taking into account the temporal component of interactions. We begin by using the clique percolation method of community detection, highlighting its limitations in memory, which prevent it from being applied to graphs that are too massive. By introducing an approximate problem-solving algorithm, we overcome this limitation. Next, we improve the enumeration of maximal cliques in the case of bipartite graphs. These correspond to interactions between groups of vertices of different types, e.g. links between people and viewed content, participation in events, etc. Next, we consider interactions that take place over time, using the link stream formalism. We seek to extend the algorithms presented in the first part, to exploit their advantages in the study of temporal interactions. We provide a new algorithm for enumerating maximal cliques in link streams, which is much more efficient than the state-of-the-art on massive datasets. Finally, we focus on communities in link streams by clique percolation, developing an extension of the method used on graphs. The results show a significant improvement over the state of the art, and we analyze the communities obtained to provide relevant information on the organization of temporal interactions in link streams. My PhD work has provided new insights into the study of massive real-world networks. This shows the importance of exploring the potential of graphs in a real-world context, and could contribute to the emergence of innovative solutions for the complex challenges of our modern society

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Larroche, Corentin. „Network-wide intrusion detection through statistical analysis of event logs : an interaction-centric approach“. Electronic Thesis or Diss., Institut polytechnique de Paris, 2021. http://www.theses.fr/2021IPPAT041.

Der volle Inhalt der Quelle

Annotation:

Les journaux d’événements sont des données structurées décrivant toutes sortes d’activités au sein d’un réseau informatique. En particulier, les comportements malveillants adoptés par d’éventuels attaquants sont susceptibles de laisser une trace dans ces journaux, rendant ces derniers utiles pour la supervision et la détection d’intrusion. Cependant, le volume considérable des journaux d’événements générés en production en rend l’analyse difficile. Cette problématique a suscité de nombreux travaux de recherche sur l’analyse statistique de journaux d’événements pour la détection d’intrusion.Cette thèse étudie certaines des principales difficultés rendant actuellement peu aisé le déploiementde telles approches. Tout d’abord, il n’est pas évident de construire une représentation abstraite des journaux d’événements : ces données sont complexes et peuvent être abordées sous de multiples perspectives, et il est donc difficile d’en capturer tout le sens dans un objet mathématique simple. Nous choisissons une approche centrée sur la notion d’interaction, motivée par l’idée que de nombreux événements malveillants peuvent être vus comme des interactions inattendues entre des entités (utilisateurs, hôtes, etc.). Tout en préservant les informations les plus cruciales, cette représentation rend cependant la modélisation statistique ardue. Nous proposons donc un modèle ad hoc ainsi que la procédure d’inférence associée, en nous inspirant de concepts tels que les modèles à espace d’états, le filtrage bayésien et l’apprentissage multitâche.Une autre caractéristique des journaux d’événements est qu’ils contiennent une large majorité d’événements bénins, dont certains sont incongrus bien que légitimes. Il n’est donc pas suffisant de détecter des événements anormaux, et nous étudions également la détection de clusters d’événementspotentiellement malveillants. Nous nous appuyons pour cela sur la notion de graphe d’événements afinde redéfinir les scores d’anormalité associés aux événements comme un signal structuré en graphe. Cela permet l’usage d’outils de traitement du signal afin de débruiter les scores d’anormalité produits par un modèle statistique. Enfin, nous proposons des méthodes efficaces pour la détection de cluster anormal dans un graphe de grande taille dont les sommets portent des observations scalaires
Event logs are structured records of all kinds of activities taking place in a computer network. In particular, malicious actions taken by intruders are likely to leave a trace in the logs, making this data source useful for security monitoring and intrusion detection. However, the considerable volume of real-world event logs makes them difficult to analyze. This limitation has motivated a fair amount of research on malicious behavior detection through statistical methods. This thesis addresses some of the challenges that currently hinder the use of this approach in realistic settings. First of all, building an abstract representation of the data is nontrivial: event logs are complex and multi-faceted, making it difficult to capture all the relevant information they contain in a simple mathematical object. We take an interaction-centric approach to event log representation, motivated by the intuition that malicious events can often be seen as unexpected interactions between entities (users, hosts, etc.). While this representation preserves critical information, it also makes statistical modelling difficult. We thus build an ad hoc model and design a suitable inference procedure, using elements of latent space modelling, Bayesian filtering and multi-task learning.Another key challenge in event log analysis is that benign events account for a vast majority of the data, including a lot of unusual albeit legitimate events. Detecting individually anomalous events is thus not enough, and we also deal with spotting clusters of potentially malicious events. To that end, we leverage the concept of event graph and recast event-wise anomaly scores as a noisy graph-structured signal. This allows us to use graph signal processing tools to improve anomaly scores provided by statistical models.Finally, we propose scalable methods for anomalous cluster detection in node-valued signals defined over large graphs

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Bücher zum Thema "Données massives – Analyse informatique"

Herman, Jacques. Analyse de données qualitatives. Paris: Masson, 1986.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Jambu, Michel. Introduction au data mining: Analyse intelligente des données. Paris: Eyrolles, 1999.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Gross, Ju rgen. Grundlegende Statistik mit R: Eine anwendungsorientierte Einfu hrung in die Verwendung der Statistik Software R. Wiesbaden: Teubner, 2010.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

A, Accomazzi, Heck A und Murtagh Fionn, Hrsg. Knowledge-based systems in astronomy: A topical volume with contributions by A. Accomazzi ... [et al.]. Berlin: Springer-Verlag, 1989.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Das, Swagatam. Metaheuristic clustering. Berlin: Springer, 2009.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Arson, Benoît. Web analytics: Méthode pour l'analyse Web. Paris: Pearson, 2012.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Coad, Peter. Object-oriented design. Englewood Cliffs, N.J: Yourdon Press, 1991.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Coad, Peter. Object oriented design. Hemel Hempstead: Prentice-Hall, 1991.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

McCumber, John. Assessing and managing security risk in IT systems: A structured methodology. Boca Raton, FL: Auerbach Publications, 2005.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Yourdon, Edward. Object-oriented systems design: An integrated approach. Englewood Cliffs, NJ: Prentice-Hall International, 1994.

Den vollen Inhalt der Quelle finden

APA, Harvard, Vancouver, ISO und andere Zitierweisen

Mehr Quellen

Wir bieten Rabatte auf alle Premium-Pläne für Autoren, deren Werke in thematische Literatursammlungen aufgenommen wurden. Kontaktieren Sie uns, um einen einzigartigen Promo-Code zu erhalten!