Log in

Relevant bibliographies by topics / Apprentissage automatique sur données confidentielles

Academic literature on the topic 'Apprentissage automatique sur données confidentielles'

Author: Grafiati

Published: 1 June 2024

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the lists of relevant articles, books, theses, conference reports, and other scholarly sources on the topic 'Apprentissage automatique sur données confidentielles.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Contents

Journal articles
Dissertations / Theses

Journal articles on the topic "Apprentissage automatique sur données confidentielles":

1

Önen, Melek, Francesco Cremonesi, and Marco Lorenzi. "Apprentissage automatique fédéré pour l’IA collaborative dans le secteur de la santé." Revue internationale de droit économique XXXVI, no. 3 (April 21, 2023): 95–113. http://dx.doi.org/10.3917/ride.363.0095.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

L’apprentissage fédéré ou federated learning (FL) représente aujourd’hui un paradigme de travail essentiel pour renforcer la recherche en IA tout en garantissant la gouvernance et la confidentialité des données grâce à des applications d’apprentissage décentralisées. L’apprentissage fédéré permet à différents clients d’apprendre conjointement un modèle global sans partager leurs données respectives, et est donc particulièrement adapté aux applications d’IA contenant des données sensibles, comme dans le domaine de la santé. Néanmoins, l’utilisation de l’apprentissage fédéré dans le domaine médical en est actuellement à ses débuts, avec seulement une poignée d’applications pionnières démontrées dans des conditions réelles. L’un des aspects critiques de son application dans des conditions réelles concerne les aspects de sécurité et de sûreté. Des parties mal intentionnées peuvent intervenir pendant la procédure pour dégrader/modifier les performances des modèles ou récupérer des informations sur les données d’autres clients. Il existe actuellement une zone grise de menaces potentielles pour la vie privée associées au développement et à l’exploitation de méthodes complexes d’IA sur des données sensibles. Ces menaces apparaissent chaque fois que nous pouvons interférer avec les processus d’apprentissage ou d’exploitation du modèle, afin de recueillir plus d’informations sur les données utilisées pour générer un tel modèle. Dans ce travail, nous fournissons une vue d’ensemble des recherches et des défis actuels sur la sécurité et la sûreté de l’apprentissage fédéré, avec un accent particulier sur les applications de soins de santé.

2

HARINAIVO, A., H. HAUDUC, and I. TAKACS. "Anticiper l’impact de la météo sur l’influent des stations d’épuration grâce à l’intelligence artificielle." Techniques Sciences Méthodes 3 (March 20, 2023): 33–42. http://dx.doi.org/10.36904/202303033.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le changement climatique a pour conséquence l’apparition de forts événements pluvieux de plus en plus fréquents, occasionnant de fortes variations de débit et de concentrations à l’influent des stations d’épuration. La connaissance des risques d’orage et des débits potentiels plusieurs heures ou plusieurs jours en avance permettrait d’anticiper les adaptations opérationnelles pour préparer la station et protéger les différents ouvrages des risques de défaillance. Dans cette étude, les données météorologiques (pluies, température, vents, humidités, précipitations…) et l’historique des données d’influent de la station sont utilisés pour entraîner un algorithme d’intelligence artificielle, d’apprentissage automatique et d’apprentissage profond pour prédire les débits entrants sur la station jusqu’à une semaine en avance. Trois jeux de données journalières et horaires, de 1 à 3 ans, sont utilisés pour entraîner un modèle de Forêt aléatoire à 30 arbres, un modèle LSTM (long short-term memory) et un modèle GRU (gate recurrent unit) à trois couches de 100 neurones suivis chacun d’un dropout de 20 % et une couche de sortie entièrement connectée. Les données sont préalablement nettoyées pour supprimer les valeurs aberrantes et sont réparties à 80 % pour les données pour l’apprentissage et 20 % pour les données de test afin d’obtenir des modèles avec les meilleures prédictions. Les algorithmes utilisés dans cette étude sont simples et détectent bien les pics. La durée de l’entraînement sur les données de trois ans se fait en moins de deux minutes pour la Forêt aléatoire et en moins d’une demi-heure pour les réseaux de neurones LSTM et GRU. Les résultats montrent que les données horaires et la prise en compte de l’effet de l’historique par l’utilisation des réseaux de neurones récurrents LSTM et GRU permettent d’obtenir une meilleure prédiction des débits d’influent. Les séries de données plus longues permettent également un meilleur apprentissage des algorithmes et une meilleure prédiction du modèle.

3

Joan Casademont, Anna, Nancy Gagné, and Èric Viladrich Castellanas. "Allers-retours entre recherche et pratique : Analyse de besoins et capsules de microapprentissage en apprentissage d’une langue tierce ou additionnelle." Médiations et médiatisations, no. 12 (November 29, 2022): 8–33. http://dx.doi.org/10.52358/mm.vi12.288.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le lien entre la recherche et la pratique est central en enseignement. Or on critique souvent la recherche en acquisition des langues secondes de manquer d’implications claires pour la pratique. On sait cependant que le lien entre la recherche et le terrain est fondamental si l’on veut optimiser le choix du matériel approprié en classe (Haukås, 2016). La présente étude expose donc les résultats préliminaires des premières phases d’un vaste projet proposant un aller-retour entre la recherche et la pratique en se penchant sur l’impact formatif de capsules de microapprentissage offertes en complément à l’enseignement fait en classe. Les capsules proposent une activité d’apprentissage et un volet de microapprentissage avec rétroaction automatique (directe et indirecte) dans les cours de langue en contexte authentique (hybride et à distance). Leur contenu est basé sur les défis communs des apprenants (grammaticaux, lexicaux et morphologiques) à l’écrit identifiés à partir d’une analyse de corpus constitués de textes d’apprenants universitaires d’une langue tierce ou additionnelle (catalan). De capsules de microapprentissage et d’exercices sont offertes à la communauté afin de soutenir l’apprentissage en salle de classe. Les résultats de la mise à disposition de capsules complémentaires de microapprentissage montrent que les capsules ciblées sur les défis des apprenants sont perçues comme utiles par les participants. Aussi, l'approche écologique utilisée contribue au partage d'avancées scientifiques en offrant aux enseignants de langues modimes, comme le catalan dans le cas présent, d’avoir accès à du matériel provenant de la recherche par le biais d’une communauté de pratique en ligne, matériel basé sur les données issues du terrain.

4

Ithurralde, Guillaume, and Franck Maurel. "Inspection Ultrasonore Robotisée de Pièces Composites." e-journal of nondestructive testing 28, no. 9 (September 2023). http://dx.doi.org/10.58286/28516.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Depuis plusieurs dizaines d’années, les matériaux composites à fibres de carbone ont grignoté une proportion de plus en plus importante dans les structures aéronautiques, grâce à leurs propriétés mécaniques et de leur faible densité. Les critères de sécurité associés à ce type de transport exigent un contrôle à 100% quasi-systématique en fabrication. Parmi les méthodes CND, les ultrasons restent la méthode la plus couramment utilisée, car ils permettent de détecter les défauts francs, estimer le taux de porosité et mesurer des épaisseurs (en réflexion). TESTIA & ACTEMIUM ont conjugué leurs expertises pour définir, assembler, mettre au point et livrer des machines robotisées d’inspection ultrasonore dédiées à ces matériaux. Quatre exemples différents illustrent nos réalisations conjointes. Le premier concerne le contrôle de demi-produits, à savoir des plaques monolithiques, destinées à la découpe et au formage de petits composants raidisseurs. Le deuxième se rapporte à celui des pièces élémentaires d’aéronefs, monolithiques et sandwich, de dimensions variées. Le troisième est lié à l’examen de pales de moteurs à hélices, dont la structure est particulièrement complexe. Enfin le quatrième a été défini pour balayer des panneaux de fuselage auto-raidis de plus de 10m². Si toutes ces machines ont été bâties sur des composants standards, leur intégration a bien évidemment été effectuée en tenant compte des exigences et des contraintes de nos clients, tels que les critères de détection, la cadence et les flux de production, la surface au sol disponible, etc. Bien souvent, des outillages spécifiques ont été développés. Les trajectoires ont été définies soit en apprentissage, soit en programmation hors ligne. Plusieurs effecteurs ont été conçus pour inspecter les pièces tantôt en immersion complète, tantôt en immersion locale, tantôt en transmission jets d’eau. Des logiciels de supervision et des séquenceurs calqués sur le ‘process’ ont toujours été élaborés pour gérer l’acquisition automatique de données 2D ou 3D, C-scan ou A-scan ou mulipics, et assister les opérateurs dans leurs analyses. Au gré des projets passés, TESTIA & ACTEMIUM se sont forgés un savoir-faire permettant d’aborder de très nombreuses applications, grâce à la complémentarité de leurs compétences : TESTIA dans le CND et ACTEMIUM dans l’intégration de procédés robotisés. Ce savoir-faire pourrait se décliner également sur des pièces métalliques, en dehors de l’aéronautique.

Dissertations / Theses on the topic "Apprentissage automatique sur données confidentielles":

1

Saadeh, Angelo. "Applications of secure multi-party computation in Machine Learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2023. http://www.theses.fr/2023IPPAT022.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

La préservation des données privées dans l'apprentissage automatique et l'analyse des données devient de plus en plus importante à mesure que la quantité d'informations personnelles sensibles collectées et utilisées par les organisations continue de croître. Cela pose le risque d'exposer des informations personnelles sensibles à des tiers malveillants, ce qui peut entraîner un vol d'identité, une fraude financière ou d'autres types de cybercriminalité. Les lois contre l'utilisation des données privées sont importantes pour protéger les individus contre l'utilisation et le partage de leurs informations. Cependant, ce faisant, les lois sur la protection des données limitent les applications des modèles d'apprentissage automatique, et certaines de ces applications pourraient sauver des vies, comme dans le domaine médical.Le calcul multipartite sécurisé (MPC) permet à plusieurs partis de calculer collaborativement une fonction sur leurs entrées sans avoir à révéler ou à échanger les données elles-mêmes. Cet outil peut être utilisé pour entraîner et utiliser des modèles d'apprentissage automatique collaboratif lorsqu'il existe des problèmes de confidentialité concernant l'échange d'ensembles de données sensibles entre différentes entités.Dans cette thèse, nous (I) utilisons des algorithmes de calcul multipartite sécurisés existants et en développons de nouveaux, (II) introduisons des approximations cryptographiques des fonctions couramment utilisées en apprentissage automatique, et (III) complémentons le calcul multipartite sécurisé avec d'autres outils de confidentialité. Ce travail est effectué dans le but de mettre en œuvre des algorithmes d'apprentissage automatique et d'analyse de données préservant la confidentialité.Notre travail et nos résultats expérimentaux montrent qu'en exécutant les algorithmes à l'aide du calcul multipartite sécurisé, la confidentialités des données est préservée et l'exactitude du résultat est satisfait. En d'autres termes, aucun parti n'a accès aux informations d'un autre et les résultats obtenus par les modèles d'apprentissage automatique et des algorithmes d'analyse de données sont les mêmes par rapport aux résultats des algorithmes exécutés sur données non chiffrés.Dans son ensemble, cette thèse offre une vision globale du calcul multipartite sécurisé pour l'apprentissage automatique, démontrant son potentiel à révolutionner le domaine. Cette thèse contribue au déploiement et à l'acceptabilité du calcul multipartite sécurisé en apprentissage automatique et en analyse de données
Privacy-preserving in machine learning and data analysis is becoming increasingly important as the amount of sensitive personal information collected and used by organizations continues to grow. This poses the risk of exposing sensitive personal information to malicious third parties - which can lead to identity theft, financial fraud, or other types of cybercrime. Laws against the use of private data are important to protect individuals from having their information used and shared. However, by doing so, data protection laws limit the applications of machine learning models, and some of these applications could be life-saving - like in the medical field.Secure multi-party computation (MPC) allows multiple parties to jointly compute a function over their inputs without having to reveal or exchange the data itself. This tool can be used for training collaborative machine learning models when there are privacy concerns about exchanging sensitive datasets between different entities.In this thesis, we (I) use existing and develop new secure multi-party computation algorithms, (II) introduce cryptography-friendly approximations of common machine functions, and (III) complement secure multi-party computation with other privacy tools. This work is done in the goal of implementing privacy-preserving machine learning and data analysis algorithms.Our work and experimental results show that by executing the algorithms using secure multi-party computation both security and correctness are satisfied. In other words, no party has access to another's information and they are still being able to collaboratively train machine learning models with high accuracy results, and to collaboratively evaluate data analysis algorithms in comparison with non-encrypted datasets.Overall, this thesis provides a comprehensive view of secure multi-party computation for machine learning, demonstrating its potential to revolutionize the field. This thesis contributes to the deployment and acceptability of secure multi-party computation in machine learning and data analysis

2

Girard, Régis. "Classification conceptuelle sur des données arborescentes et imprécises." La Réunion, 1997. http://elgebar.univ-reunion.fr/login?url=http://thesesenligne.univ.run/97_08_Girard.pdf.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les travaux exposés dans cette thèse se situent dans le cadre de la classification conceptuelle automatique. Nous présentons un formalisme de représentations de données structurées et imprécises fondées sur la notion d'attribut et de valeur : les arborescences symboliques nuancées (ASN). La définition de treillis de nuances permet de prendre en compte l'imprécision d'une valeur. Les attributs peuvent être de plusieurs types : simple, structure ou même récursif et permettent de manipuler des données de nature arborescente. L'introduction de contraintes de validité entre les valeurs des attributs donne la possibilité de représenter des connaissances sur le domaine d'application. Nous proposons des algorithmes permettant de manipuler des observations définies à partir du modèle proposé et de trouver des concepts aisément interprétables. Dans un premier temps, nous définissons une correspondance de galois entre des entités et leurs descriptions à partir d'attributs nuancés mais non structurés, et nous proposons un algorithme de calcul des concepts. Ensuite, nous précisons les algorithmes de généralisation et de comparaison de deux ASN et nous présentons un algorithme incrémental de construction du treillis de galois entre des entités et des ASN. Nous étendons ainsi les treillis de galois au cas de données arborescentes et nuancées. Les concepts trouvés sont décrits de manière imprécise par des ASN. Le treillis des concepts étant de grande taille, l'introduction d'un indice de distance défini sur les ASN nous permet de générer un sous-treillis de galois formé de concepts ne dépassant pas un seuil donné de généralité. Enfin, nous définissons une mesure de similarité sur les ASN et nous proposons un algorithme d'extraction d'un graphe hiérarchique de concepts à partir d'un treillis de galois. Dans la dernière partie de la thèse, nous présentons le système CID fondé sur le formalisme des ASN et nous terminons par deux exemples d'application.

3

Allesiardo, Robin. "Bandits Manchots sur Flux de Données Non Stationnaires." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLS334/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le problème des bandits manchots est un cadre théorique permettant d'étudier le compromis entre exploration et exploitation lorsque l'information observée est partielle. Dans celui-ci, un joueur dispose d'un ensemble de K bras (ou actions), chacun associé à une distribution de récompenses D(µk) de moyenne µk Є [0, 1] et de support [0, 1]. A chaque tour t Є [1, T], il choisit un bras kt et observe la récompense y kt tirée depuis D (µkt). La difficulté du problème vient du fait que le joueur observe uniquement la récompense associée au bras joué; il ne connaît pas celle qui aurait pu être obtenue en jouant un autre bras. À chaque choix, il est ainsi confronté au dilemme entre l'exploration et l'exploitation; explorer lui permet d'affiner sa connaissance des distributions associées aux bras explorés tandis qu'exploiter lui permet d'accumuler davantage de récompenses en jouant le meilleur bras empirique (sous réserve que le meilleur bras empirique soit effectivement le meilleur bras). Dans la première partie de la thèse nous aborderons le problème des bandits manchots lorsque les distributions générant les récompenses sont non-stationnaires. Nous étudierons dans un premier temps le cas où même si les distributions varient au cours du temps, le meilleur bras ne change pas. Nous étudierons ensuite le cas où le meilleur bras peut aussi changer au cours du temps. La seconde partie est consacrée aux algorithmes de bandits contextuels où les récompenses dépendent de l'état de l'environnement. Nous étudierons l'utilisation des réseaux de neurones et des forêts d'arbres dans le cas des bandits contextuels puis les différentes approches à base de méta-bandits permettant de sélectionner en ligne l'expert le plus performant durant son apprentissage
The multi-armed bandit is a framework allowing the study of the trade-off between exploration and exploitation under partial feedback. At each turn t Є [1,T] of the game, a player has to choose an arm kt in a set of K and receives a reward ykt drawn from a reward distribution D(µkt) of mean µkt and support [0,1]. This is a challeging problem as the player only knows the reward associated with the played arm and does not know what would be the reward if she had played another arm. Before each play, she is confronted to the dilemma between exploration and exploitation; exploring allows to increase the confidence of the reward estimators and exploiting allows to increase the cumulative reward by playing the empirical best arm (under the assumption that the empirical best arm is indeed the actual best arm).In the first part of the thesis, we will tackle the multi-armed bandit problem when reward distributions are non-stationary. Firstly, we will study the case where, even if reward distributions change during the game, the best arm stays the same. Secondly, we will study the case where the best arm changes during the game. The second part of the thesis tacles the contextual bandit problem where means of reward distributions are now dependent of the environment's current state. We will study the use of neural networks and random forests in the case of contextual bandits. We will then propose meta-bandit based approach for selecting online the most performant expert during its learning

4

Bascol, Kevin. "Adaptation de domaine multisource sur données déséquilibrées : application à l'amélioration de la sécurité des télésièges." Thesis, Lyon, 2019. http://www.theses.fr/2019LYSES062.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Bluecime a mis au point un système de vidéosurveillance à l'embarquement de télésièges qui a pour but d'améliorer la sécurité des passagers. Ce système est déjà performant, mais il n'utilise pas de techniques d'apprentissage automatique et nécessite une phase de configuration chronophage. L’apprentissage automatique est un sous-domaine de l'intelligence artificielle qui traite de l'étude et de la conception d'algorithmes pouvant apprendre et acquérir des connaissances à partir d'exemples pour une tâche donnée. Une telle tâche pourrait consister à classer les situations sûres ou dangereuses dans les télésièges à partir d'exemples d'images déjà étiquetées dans ces deux catégories, appelés exemples d’entraînement. L'algorithme d'apprentissage automatique apprend un modèle capable de prédire la catégories de nouveaux cas. Depuis 2012, il a été démontré que les modèles d'apprentissage profond sont les modèles d'apprentissage machine les mieux adaptés pour traiter les problèmes de classification d'images lorsque de nombreuses données d’entraînement sont disponibles. Dans ce contexte, cette thèse, financée par Bluecime, vise à améliorer à la fois le coût et l'efficacité du système actuel de Bluecime grâce à l'apprentissage profond
Bluecime has designed a camera-based system to monitor the boarding station of chairlifts in ski resorts, which aims at increasing the safety of all passengers. This already successful system does not use any machine learning component and requires an expensive configuration step. Machine learning is a subfield of artificial intelligence which deals with studying and designing algorithms that can learn and acquire knowledge from examples for a given task. Such a task could be classifying safe or unsafe situations on chairlifts from examples of images already labeled with these two categories, called the training examples. The machine learning algorithm learns a model able to predict one of these two categories on unseen cases. Since 2012, it has been shown that deep learning models are the best suited machine learning models to deal with image classification problems when many training data are available. In this context, this PhD thesis, funded by Bluecime, aims at improving both the cost and the effectiveness of Bluecime's current system using deep learning

5

Vandromme, Maxence. "Optimisation combinatoire et extraction de connaissances sur données hétérogènes et temporelles : application à l’identification de parcours patients." Thesis, Lille 1, 2017. http://www.theses.fr/2017LIL10044.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les données hospitalières présentent de nombreuses spécificités qui rendent difficilement applicables les méthodes de fouille de données traditionnelles. Dans cette thèse, nous nous intéressons à l'hétérogénéité de ces données ainsi qu'à leur aspect temporel. Dans le cadre du projet ANR ClinMine et d'une convention CIFRE avec la société Alicante, nous proposons deux nouvelles méthodes d'extraction de connaissances adaptées à ces types de données. Dans la première partie, nous développons l'algorithme MOSC (Multi-Objective Sequence Classification) pour la classification supervisée sur données hétérogènes, numériques et temporelles. Cette méthode accepte, en plus des termes binaires ou symboliques, des termes numériques et des séquences d'événements temporels pour former des ensembles de règles de classification. MOSC est le premier algorithme de classification supportant simultanément ces types de données. Dans la seconde partie, nous proposons une méthode de biclustering pour données hétérogènes, un problème qui n'a à notre connaissance jamais été exploré. Cette méthode, HBC (Heterogeneous BiClustering), est étendue pour supporter les données temporelles de différents types : événements temporels et séries temporelles irrégulières. HBC est utilisée pour un cas d'étude sur un ensemble de données hospitalières, dont l'objectif est d'identifier des groupes de patients ayant des profils similaires. Les résultats obtenus sont cohérents et intéressants d'un point de vue médical ; et amènent à la définition de cas d'étude plus précis. L'intégration dans une solution logicielle est également engagée, avec une version parallèle de HBC et un outil de visualisation des résultats
Hospital data exhibit numerous specificities that make the traditional data mining tools hard to apply. In this thesis, we focus on the heterogeneity associated with hospital data and on their temporal aspect. This work is done within the frame of the ANR ClinMine research project and a CIFRE partnership with the Alicante company. In this thesis, we propose two new knowledge discovery methods suited for hospital data, each able to perform a variety of tasks: classification, prediction, discovering patients profiles, etc.In the first part, we introduce MOSC (Multi-Objective Sequence Classification), an algorithm for supervised classification on heterogeneous, numeric and temporal data. In addition to binary and symbolic terms, this method uses numeric terms and sequences of temporal events to form sets of classification rules. MOSC is the first classification algorithm able to handle these types of data simultaneously. In the second part, we introduce HBC (Heterogeneous BiClustering), a biclustering algorithm for heterogeneous data, a problem that has never been studied so far. This algorithm is extended to support temporal data of various types: temporal events and unevenly-sampled time series. HBC is used for a case study on a set of hospital data, whose goal is to identify groups of patients sharing a similar profile. The results make sense from a medical viewpoint; they indicate that relevant, and sometimes new knowledge is extracted from the data. These results also lead to further, more precise case studies. The integration of HBC within a software is also engaged, with the implementation of a parallel version and a visualization tool for biclustering results

6

Jaillet, Simon. "Catégorisation automatique de documents textuels : D'une représentation basée sur les concepts aux motifs séquentiels." Montpellier 2, 2005. http://www.theses.fr/2005MON20030.

Full text

APA, Harvard, Vancouver, ISO, and other styles

7

Allart, Thibault. "Apprentissage statistique sur données longitudinales de grande taille et applications au design des jeux vidéo." Electronic Thesis or Diss., Paris, CNAM, 2017. http://www.theses.fr/2017CNAM1136.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Cette thèse s'intéresse à l'analyse des données longitudinales, potentiellement grandes selon les trois axes suivants : nombre d'individus, fréquence d'observation et nombre de covariables. A partir de ces données, éventuellement censurées, nous considérons comme facteur d'étude le temps d'apparition d'un ou plusieurs évènements. Nous cherchons dans des classes de modèles à coefficients dépendant du temps à estimer l’intensité d’apparition des événements. Or les estimateurs actuels, ne permettent pas de traiter efficacement un grand nombre d’observations et/ou un grand nombre de covariables. Nous proposons un nouvel estimateur défini via la vraisemblance complète de Cox et une pénalisation permettant à la fois la sélection de variables et de forcer, quand c’est possible, les coefficients à être constants. Nous introduisons des algorithmes d'optimisation proximaux, permettant d'estimer les coefficients du modèle de manière efficace. L'implémentation de ces méthodes en C++ et dans le package R coxtv permet d'analyser des jeux de données de taille supérieure à la mémoire vive; via un streaming du flux de données et des méthodes d'apprentissage en ligne, telles que la descente de gradient stochastique proximale aux pas adaptatifs. Nous illustrons les performances du modèle sur des simulations en nous comparant aux méthodes existantes. Enfin, nous nous intéressons à la problématique du design des jeux vidéo. Nous montrons que l'application directe de ce modèle, sur les grands jeux de données dont dispose l'industrie du jeu vidéo, permet de mettre en évidence des leviers d'amélioration du design des jeux étudiés. Nous nous intéressons d'abord à l'analyse des composantes bas niveau, telles que les choix d'équipement fait par les joueurs au fils du temps et montrons que le modèle permet de quantifier l'effet de chacun de ces éléments de jeu, offrant ainsi aux designers des leviers d'amélioration direct du design. Enfin, nous montrons que le modèle permet de dégager des enseignements plus généraux sur le design tels que l'influence de la difficulté sur la motivation des joueurs
This thesis focuses on longitudinal time to event data possibly large along the following tree axes : number of individuals, observation frequency and number of covariates. We introduce a penalised estimator based on Cox complete likelihood with data driven weights. We introduce proximal optimization algorithms to efficiently fit models coefficients. We have implemented thoses methods in C++ and in the R package coxtv to allow everyone to analyse data sets bigger than RAM; using data streaming and online learning algorithms such that proximal stochastic gradient descent with adaptive learning rates. We illustrate performances on simulations and benchmark with existing models. Finally, we investigate the issue of video game design. We show that using our model on large datasets available in video game industry allows us to bring to light ways of improving the design of studied games. First we have a look at low level covariates, such as equipment choices through time and show that this model allows us to quantify the effect of each game elements, giving to designers ways to improve the game design. Finally, we show that the model can be used to extract more general design recommendations such as dificulty influence on player motivations

8

Dragoni, Laurent. "Tri de potentiels d'action sur des données neurophysiologiques massives : stratégie d’ensemble actif par fenêtre glissante pour l’estimation de modèles convolutionnels en grande dimension." Thesis, Université Côte d'Azur, 2022. http://www.theses.fr/2022COAZ4016.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Au sein du système nerveux, des cellules appelées neurones sont spécialisées dans la communication de l'information. À travers l'émission et la propagation de courants électriques nommés potentiels d'action, les neurones peuvent transmettre l'information dans le corps. Étant donné le rôle prééminent des neurones, afin de mieux comprendre le fonctionnement du système nerveux, une vaste gamme de méthodes ont été proposées pour l'étude de ces cellules. Dans cette thèse, nous nous intéressons à l'analyse de signaux ayant été enregistrés par des électrodes, et plus spécifiquement, des tétrodes et des multi-electrode arrays (MEA). Ces appareils mesurant en général l'activité d'un ensemble de neurones, les signaux enregistrés forment souvent un mélange de l'activité de plusieurs neurones. Afin de gagner plus d'information sur ce type de données, un pré-traitement crucial appelé tri de potentiels d'action est requis pour séparer l'activité de chaque neurone. Actuellement, la procédure générale de tri de potentiels d'action repose sur une procédure en trois étapes : seuillage, extraction de caractéristiques et partitionnement de données. Malheureusement cette méthodologie requiert un grand nombre d'opérations manuelles. De plus, elle devient encore plus difficile à mettre en oeuvre sur de grands volumes de données, en particulier pour des enregistrements de MEA qui ont tendance à présenter davantage de synchronisations de neurones. Dans cette thèse, nous présentons une stratégie de tri de potentiels d'action permettant l'analyse de grands volumes de données et qui requiert peu d'opérations manuelles. Cette stratégie utilise un modèle convolutionnel dont le but est de représenter les signaux mesurés en convolutions temporelles entre deux facteurs : les activations de neurones et les formes de potentiels d'action. L'estimation de ces deux facteurs est généralement traitée par optimisation alternée. Étant la tâche la plus difficile, nous nous concentrons ici sur l'estimation des activations, en supposant que les formes de potentiels d'action sont connues. Le célèbre estimateur Lasso présente d'intéressantes propriétés mathématiques pour la résolution d'un tel problème. Néanmoins son calcul demeure difficile sur des problèmes de grande taille. Nous proposons un algorithme basé sur la stratégie d'ensemble actif afin de calculer efficacement le Lasso. Cet algorithme exploite la structure particulière du problème, déduite de propriétés biologiques, en utilisant des fenêtres glissantes temporelles, lui permettant d'être appliqué en grande dimension. De plus, nous adaptons des résultats théoriques sur le Lasso pour montrer que, sous des hypothèses raisonnables, notre estimateur retrouve le support du vrai vecteur d'activation avec grande probabilité. Nous proposons également des modèles pour la distribution spatiale et des temps d'activations des neurones qui nous permettent de quantifier la taille du problème et de déduire la complexité temporelle théorique de notre algorithme. En particulier, nous obtenons une complexité quasi-linéaire par rapport à la taille du signal enregistré. Finalement nous présentons des expériences numériques illustrant à la fois les résultats théoriques et les performances de notre approche
In the nervous system, cells called neurons are specialized in the communication of information. Through the generation and propagation of electrical currents named action potentials, neurons are able to transmit information in the body. Given the importance of the neurons, in order to better understand the functioning of the nervous system, a wide range of methods have been proposed for studying those cells. In this thesis, we focus on the analysis of signals which have been recorded by electrodes, and more specifically, tetrodes and multi-electrode arrays (MEA). Since those devices usually record the activity of a set of neurons, the recorded signals are often a mixture of the activity of several neurons. In order to gain more knowledge from this type of data, a crucial pre-processing step called spike sorting is required to separate the activity of each neuron. Nowadays, the general procedure for spike sorting consists in a three steps procedure: thresholding, feature extraction and clustering. Unfortunately this methodology requires a large number of manual operations. Moreover, it becomes even more difficult when treating massive volumes of data, especially MEA recordings which also tend to feature more neuronal synchronizations. In this thesis, we present a spike sorting strategy allowing the analysis of large volumes of data and which requires few manual operations. This strategy makes use of a convolutional model which aims at breaking down the recorded signals as temporal convolutions between two factors: neuron activations and action potential shapes. The estimation of these two factors is usually treated through alternative optimization. Being the most difficult task, we only focus here on the estimation of the activations, assuming that the action potential shapes are known. Estimating the activations is traditionally referred to convolutional sparse coding. The well-known Lasso estimator features interesting mathematical properties for the resolution of such problem. However its computation remains challenging on high dimensional problems. We propose an algorithm based of the working set strategy in order to compute efficiently the Lasso. This algorithm takes advantage of the particular structure of the problem, derived from biological properties, by using temporal sliding windows, allowing it to scale in high dimension. Furthermore, we adapt theoretical results about the Lasso to show that, under reasonable assumptions, our estimator recovers the support of the true activation vector with high probability. We also propose models for both the spatial distribution and activation times of the neurons which allow us to quantify the size of our problem and deduce the theoretical complexity of our algorithm. In particular, we obtain a quasi-linear complexity with respect to the size of the recorded signal. Finally we present numerical results illustrating both the theoretical results and the performances of our approach

9

Roudiere, Gilles. "Détection d'attaques sur les équipements d'accès à Internet." Thesis, Toulouse, INSA, 2018. http://www.theses.fr/2018ISAT0017/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Les anomalies réseaux, et en particulier les attaques par déni de service distribuées, restent une menace considérable pour les acteurs de l'Internet. La détection de ces anomalies requiert des outils adaptés, capables non seulement d'opérer une détection correcte, mais aussi de répondre aux nombreuses contraintes liées à un fonctionnement dans un contexte industriel. Entre autres, la capacité d'un détecteur à opérer de manière autonome, ainsi qu'à fonctionner sur du trafic échantillonné sont des critères importants. Au contraire des approches supervisées ou par signatures, la détection non-supervisée des attaques ne requiert aucune forme de connaissance préalable sur les propriétés du trafic ou des anomalies. Cette approche repose sur une caractérisation autonome du trafic en production, et ne nécessite l'intervention de l'administrateur qu'à postériori, lorsqu’une déviation du trafic habituel est détectée. Le problème avec de telle approches reste que construire une telle caractérisation est algorithmiquement complexe, et peut donc nécessiter des ressources de calculs conséquentes. Cette exigence, notamment lorsque la détection doit fonctionner sur des équipements réseaux aux charges fonctionnelles déjà lourdes, est dissuasive quant à l'adoption de telles approches. Ce constat nous amène à proposer un nouvel algorithme de détection non-supervisé plus économe en ressources de calcul, visant en priorité les attaques par déni de service distribuées. Sa détection repose sur la création à intervalles réguliers d'instantanés du trafic, et produit des résultats simples à interpréter, aidant le diagnostic de l'administrateur. Nous évaluons les performances de notre algorithme sur deux jeux de données pour vérifier à la fois sa capacité à détecter correctement les anomalies sans lever de faux-positifs et sa capacité à fonctionner en temps réel avec des ressources de calcul limitées, ainsi que sur du trafic échantillonné. Les résultats obtenus sont comparés à ceux de deux autres détecteurs, FastNetMon et UNADA
Network anomalies, and specifically distributed denial of services attacks, are still an important threat to the Internet stakeholders. Detecting such anomalies requires dedicated tools, not only able to perform an accurate detection but also to meet the several constraints due to an industrial operation. Such constraints include, amongst others, the ability to run autonomously or to operate on sampled traffic. Unlike supervised or signature-based approaches, unsupervised detection do not require any kind of knowledge database on the monitored traffic. Such approaches rely on an autonomous characterization of the traffic in production. They require the intervention of the network administrator a posteriori, when it detects a deviation from the usual shape of the traffic. The main problem with unsupervised detection relies on the fact that building such characterization is complex, which might require significant amounts of computing resources. This requirement might be deterrent, especially when the detection should run on network devices that already have a significant workload. As a consequence, we propose a new unsupervised detection algorithm that aims at reducing the computing power required to run the detection. Its detection focuses on distributed denial of service attacks. Its processing is based upon the creation, at a regular interval, of traffic snapshots, which helps the diagnosis of detected anomalies. We evaluate the performances of the detector over two datasets to check its ability to accurately detect anomalies and to operate, in real time, with limited computing power resources. We also evaluate its performances over sampled traffic. The results we obtained are compared with those obtained with FastNetMon and UNADA

10

Eude, Thibaut. "Forage des données et formalisation des connaissances sur un accident : Le cas Deepwater Horizon." Thesis, Paris Sciences et Lettres (ComUE), 2018. http://www.theses.fr/2018PSLEM079/document.

Full text

APA, Harvard, Vancouver, ISO, and other styles

Abstract:

Le forage de données, méthode et moyens développés dans cette thèse, redéfinit le processus d’extraction de données, de la formalisation de la connaissance et de son enrichissement notamment dans le cadre de l’élucidation d’évènements qui n’ont pas ou peu été documentés. L’accident de la plateforme de forage Deepwater Horizon, opérée pour le compte de BP dans le Golfe du Mexique et victime d’un blowout le 20 avril 2010, sera notre étude de cas pour la mise en place de notre preuve de concept de forage de données. Cet accident est le résultat d’un décalage inédit entre l’état de l’art des heuristiques des ingénieurs de forage et celui des ingénieurs antipollution. La perte de contrôle du puits MC 252-1 est donc une faillite d’ingénierie et il faudra quatre-vingt-sept jours à l’équipe d’intervention pour reprendre le contrôle du puits devenu sauvage et stopper ainsi la pollution. Deepwater Horizon est en ce sens un cas d’ingénierie en situation extrême, tel que défini par Guarnieri et Travadel.Nous proposons d’abord de revenir sur le concept général d’accident au moyen d’une analyse linguistique poussée présentant les espaces sémantiques dans lesquels se situe l’accident. Cela permet d’enrichir son « noyau de sens » et l’élargissement de l’acception commune de sa définition.Puis, nous amenons que la revue de littérature doit être systématiquement appuyée par une assistance algorithmique pour traiter les données compte tenu du volume disponible, de l’hétérogénéité des sources et des impératifs d’exigences de qualité et de pertinence. En effet, plus de huit cent articles scientifiques mentionnant cet accident ont été publiés à ce jour et une vingtaine de rapports d’enquêtes, constituant notre matériau de recherche, ont été produits. Notre méthode montre les limites des modèles d’accidents face à un cas comme Deepwater Horizon et l’impérieuse nécessité de rechercher un moyen de formalisation adéquat de la connaissance.De ce constat, l’utilisation des ontologies de haut niveau doit être encouragée. L’ontologie DOLCE a montré son grand intérêt dans la formalisation des connaissances à propos de cet accident et a permis notamment d’élucider très précisément une prise de décision à un moment critique de l’intervention. La population, la création d’instances, est le coeur de l’exploitation de l’ontologie et son principal intérêt mais le processus est encore très largement manuel et non exempts d’erreurs. Cette thèse propose une réponse partielle à ce problème par un algorithme NER original de population automatique d’une ontologie.Enfin, l’étude des accidents n’échappe pas à la détermination des causes et à la réflexion sur les « faits socialement construits ». Cette thèse propose les plans originaux d’un « pipeline sémantique » construit à l’aide d’une série d’algorithmes qui permet d’extraire la causalité exprimée dans un document et de produire un graphe représentant ainsi le « cheminement causal » sous-jacent au document. On comprend l’intérêt pour la recherche scientifique ou industrielle de la mise en lumière ainsi créée du raisonnement afférent de l’équipe d’enquête. Pour cela, ces travaux exploitent les avancées en Machine Learning et Question Answering et en particulier les outils Natural Language Processing.Cette thèse est un travail d’assembleur, d’architecte, qui amène à la fois un regard premier sur le cas Deepwater Horizon et propose le forage des données, une méthode et des moyens originaux pour aborder un évènement, afin de faire émerger du matériau de recherche des réponses à des questionnements qui échappaient jusqu’alors à la compréhension
Data drilling, the method and means developed in this thesis, redefines the process of data extraction, the formalization of knowledge and its enrichment, particularly in the context of the elucidation of events that have not or only slightly been documented. The Deepwater Horizon disaster, the drilling platform operated for BP in the Gulf of Mexico that suffered a blowout on April 20, 2010, will be our case study for the implementation of our proof of concept for data drilling. This accident is the result of an unprecedented discrepancy between the state of the art of drilling engineers' heuristics and that of pollution response engineers. The loss of control of the MC 252-1 well is therefore an engineering failure and it will take the response party eighty-seven days to regain control of the wild well and halt the pollution. Deepwater Horizon is in this sense a case of engineering facing extreme situation, as defined by Guarnieri and Travadel.First, we propose to return to the overall concept of accident by means of an in-depth linguistic analysis presenting the semantic spaces in which the accident takes place. This makes it possible to enrich its "core meaning" and broaden the shared acceptance of its definition.Then, we bring that the literature review must be systematically supported by algorithmic assistance to process the data taking into account the available volume, the heterogeneity of the sources and the requirements of quality and relevance standards. In fact, more than eight hundred scientific articles mentioning this accident have been published to date and some twenty investigation reports, constituting our research material, have been produced. Our method demonstrates the limitations of accident models when dealing with a case like Deepwater Horizon and the urgent need to look for an appropriate way to formalize knowledge.As a result, the use of upper-level ontologies should be encouraged. The DOLCE ontology has shown its great interest in formalizing knowledge about this accident and especially in elucidating very accurately a decision-making process at a critical moment of the intervention. The population, the creation of instances, is the heart of the exploitation of ontology and its main interest, but the process is still largely manual and not without mistakes. This thesis proposes a partial answer to this problem by an original NER algorithm for the automatic population of an ontology.Finally, the study of accidents involves determining the causes and examining "socially constructed facts". This thesis presents the original plans of a "semantic pipeline" built with a series of algorithms that extract the expressed causality in a document and produce a graph that represents the "causal path" underlying the document. It is significant for scientific or industrial research to highlight the reasoning behind the findings of the investigation team. To do this, this work leverages developments in Machine Learning and Question Answering and especially the Natural Language Processing tools.As a conclusion, this thesis is a work of a fitter, an architect, which offers both a prime insight into the Deepwater Horizon case and proposes the data drilling, an original method and means to address an event, in order to uncover answers from the research material for questions that had previously escaped understanding

More sources