Dissertations / Theses on the topic 'Apprentissage automatique – Prévision – Utilisation'

To see the other types of publications on this topic, follow the link: Apprentissage automatique – Prévision – Utilisation.

Create a spot-on reference in APA, MLA, Chicago, Harvard, and other styles

Select a source type:

Consult the top 50 dissertations / theses for your research on the topic 'Apprentissage automatique – Prévision – Utilisation.'

Next to every source in the list of references, there is an 'Add to bibliography' button. Press on it, and we will generate automatically the bibliographic reference to the chosen work in the citation style you need: APA, MLA, Harvard, Chicago, Vancouver, etc.

You can also download the full text of the academic publication as pdf and read online its abstract whenever available in the metadata.

Browse dissertations / theses on a wide variety of disciplines and organise your bibliography correctly.

1

Loisel, Julie. "Détection des ruptures de la chaîne du froid par une approche d'apprentissage automatique." Electronic Thesis or Diss., université Paris-Saclay, 2023. http://www.theses.fr/2023UPASB014.

Full text
Abstract:
La chaîne du froid est indispensable pour assurer la sécurité sanitaire et éviter le gaspillage alimentaire. Pour suivre l'évolution de la température de l'air à travers la chaîne du froid, les capteurs sans fil sont de plus en plus utilisés, mais l'exploitation de ces mesures est encore limitée. Cette thèse explore comment l'apprentissage automatique peut être utilisé pour prédire la température de différents types de produits alimentaires à partir d'une mesure de la température de l'air dans une palette et détecter les ruptures de chaîne du froid. Nous avons d'abord introduit une définition de rupture de la chaîne du froid en fonction de deux grandes catégories de produits : les produits qui doivent être conservés à une température réglementée tels que les viandes et les poissons et les produits pour lesquels une température de conservation est recommandée tels que les fruits et légumes. Pour les premiers, les ruptures de la chaîne du froid peuvent entraîner une intoxication alimentaire et pour les seconds, elles peuvent dégrader les qualités organoleptiques.Pour les produits à température réglementée, il est crucial de prédire la température des produits afin d'assurer qu'ils ne dépassent pas le seuil réglementaire. Bien que plusieurs études aient déjà démontré l'efficacité des réseaux de neurones pour la prédiction de la température des produits, aucune n'a comparé les données synthétiques et expérimentales pour les entraîner. Dans cette thèse, nous avons proposé de comparer ces deux types de données afin de fournir des directives précises pour le développement de réseaux de neurones. En pratique, les produits et les emballages sont très variés, il est donc impossible de faire des expériences à chaque application en raison de la lourdeur de la mise en œuvre.En comparant les données synthétiques et expérimentales, nous avons pu déterminer les meilleures lignes directrices pour développer des réseaux de neurones pour prédire la température des produits et maintenir la chaîne du froid.Pour les produits dont la température est réglementaire, une fois la rupture détectée, ils ne sont plus consommables et doivent être éliminés. Pour les produits dont la température recommandée, nous avons comparé trois approches différentes pour détecter les ruptures et mettre en place une action correctrice : a) méthode basée sur un seuil de température, b) méthode basée sur un classifieur qui détermine si le produit sera livré avec les qualités attendues et c) méthode également basée un classifieur mais qui intègre le coût de l'action correctrice dans la prise de décision. Les performances des trois méthodes sont discutées et des perspectives d'amélioration sont proposées
The cold chain is essential to ensure food safety and avoid food waste. Wireless sensors are increasingly used to monitor the air temperature through the cold chain, however, the exploitation of these measurements is still limited. This thesis explores how machine learning can be used to predict the temperature of different food products types from the measured air temperature in a pallet and detect cold chain breaks. We introduced, firstly, a definition of a cold chain break based on two main product categories: products obligatorily preserved at a regulated temperature such as meat and fish, and products for which a temperature is recommended such as fruits and vegetables. The cold chain break leads to food poisoning for the first product category and organoleptic quality degradation for the second one.For temperature-regulated products, it is crucial to predict the product temperature to ensure that it does not exceed the regulatory temperature. Although several studies demonstrated the effectiveness of neural networks for the prediction, none has compared the synthetic and experimental data to train them. In this thesis, we proposed to compare these two types of data in order to provide guidelines for the development of neural networks. In practice, the products and packaging are diverse; experiments for each application are impossible due to the complexity of implementation. By comparing synthetic and experimental data, we were able to determine best practices for developing neural networks to predict product temperature and maintain cold chain. For temperature-regulated products, once the cold chain break is detected, they are no more consumable and must be eliminated. For temperature-recommended products, we compared three different approaches to detect cold chain breaks and implement corrective actions: a) method based on a temperature threshold, b) method based on a classifier which determines whether the products will be delivered with the expected qualities, and c) method also based on a classifier but which integrates the cost of the corrective measure in the decision-making process. The performances of the three methods are discussed and prospects for improvement are proposed
APA, Harvard, Vancouver, ISO, and other styles
2

De, Carvalho Gomes Fernando. "Utilisation d'algorithmes stochastiques en apprentissage." Montpellier 2, 1992. http://www.theses.fr/1992MON20254.

Full text
Abstract:
Dans le cadre de l'apprentissage inductif, les données sont souvent mal décrites et bruitées. Dans ce cas, la génération de procédures de classification présentant une parfaite adéquation aux données, produit des résultats de taille (ou complexité) importante. Les performances sont excellentes sur les données ayant servi à apprendre, mais mauvaises sur un ensemble test. On cherche alors des procédures présentant un bon compromis complexité adéquation aux données et la tache se rapproche de l'optimisation. Plusieurs approches gloutonnes ont été proposées. L'objet de cette thèse est de proposer une approche plus puissante. L'apport principal est un algorithme d'apprentissage base sur la recherche stochastique d'une liste de décision de faible complexité. Cet algorithme procède en deux phases distinctes: la diversification et l'intensification de la recherche, exécutées respectivement par le recuit simule et par la méthode tabou
APA, Harvard, Vancouver, ISO, and other styles
3

Toqué, Florian. "Prévision et visualisation de l'affluence dans les transports en commun à l'aide de méthodes d'apprentissage automatique." Thesis, Paris Est, 2019. http://www.theses.fr/2019PESC2029.

Full text
Abstract:
Dans le cadre de la lutte contre le réchauffement climatique, plusieurs pays du monde notamment le Canada et certains pays européens dont la France, ont établi des mesures afin de réduire les nuisances environnementales. L'un des axes majeurs abordés par les états concerne le secteur du transport et plus particulièrement le développement des systèmes de transport en commun en vue de réduire l'utilisation de la voiture personnelle et les émissions de gaz à effet de serre. A cette fin, les collectivités concernées visent à mettre en place des systèmes de transports urbains plus accessibles, propres et durables. Dans ce contexte, cette thèse en codirection entre l'Université Paris-Est, l'Institut français des sciences et technologies des transports, de l'aménagement et des réseaux (IFSTTAR) et Polytechnique Montréal au Canada, s'attache à analyser la mobilité urbaine au travers de recherches menées sur la prévision et la visualisation de l'affluence des passagers dans les transports en commun à l'aide de méthodes d'apprentissage automatique. Les motivations finales concernent l'amélioration des services de transport proposés aux usagers, tels qu'une meilleure planification de l'offre de transport et une amélioration de l'information voyageur (e.g., proposition d'itinéraire en cas d'événement/incident, information concernant le taux de de remplissage des trains à un horaire choisi, etc.). Cette thèse s'inscrit dans un contexte général de valorisation des traces numériques et d'essor du domaine de la science des données (e.g., collecte et stockage des données, développement de méthodes d'apprentissage automatique, etc.). Les travaux comportent trois volets principaux à savoir (i) la prévision long terme de l'affluence des passagers à l'aide de base de données événementielles et de données billettiques, (ii) la prévision court terme de l'affluence des passagers et (iii) la visualisation de l'affluence des passagers dans les transports en commun. Les recherches se basent principalement sur l'utilisation de données billettiques fournies par les opérateurs de transports et ont été menées sur trois cas d'études réels, le réseau de métro et de bus de la ville de Rennes, le réseau ferré et de tramway du quartier d'affaire de la Défense à Paris en France, et le réseau de métro de Montréal, Québec au Canada
As part of the fight against global warming, several countries around the world, including Canada and some European countries, including France, have established measures to reduce greenhouse gas emissions. One of the major areas addressed by the states concerns the transport sector and more particularly the development of public transport to reduce the use of private cars. To this end, the local authorities concerned aim to establish more accessible, clean and sustainable urban transport systems. In this context, this thesis, co-directed by the University of Paris-Est, the french institute of science and technology for transport, development and network (IFSTTAR) and Polytechnique Montréal in Canada, focuses on the analysis of urban mobility through research conducted on the forecasting and visualization of public transport ridership using machine learning methods. The main motivations concern the improvement of transport services offered to passengers such as: better planning of transport supply, improvement of passenger information (e.g., proposed itinerary in the case of an event/incident, information about the crowd in the train at a chosen time, etc.). In order to improve transport operators' knowledge of user travel in urban areas, we are taking advantage of the development of data science (e.g., data collection, development of machine learning methods). This thesis thus focuses on three main parts: (i) long-term forecasting of passenger demand using event databases, (ii) short-term forecasting of passenger demand and (iii) visualization of passenger demand on public transport. The research is mainly based on the use of ticketing data provided by transport operators and was carried out on three real case study, the metro and bus network of the city of Rennes, the rail and tramway network of "La Défense" business district in Paris, France, and the metro network of Montreal, Quebec in Canada
APA, Harvard, Vancouver, ISO, and other styles
4

Kashnikov, Yuriy. "Une approche holistique pour la prédiction des optimisations du compilateur par apprentissage automatique." Versailles-St Quentin en Yvelines, 2013. http://www.theses.fr/2013VERS0047.

Full text
Abstract:
Un choix efficace des optimisations de compilation améliore notablement la performances des applications. En raison du grand nombre de choix possibles une approche exhaustive est irréalisable et l'exploration peut facilement tomber dans un minimum local. Les compilateurs utilisent des heuristiques qui parfois dégradent la performance, ce qui contraint les utilisateurs à des ajustements manuels. Cette thèse propose une approche holistique basée sur l'apprentissage automatique pour améliorer la sélection des optimisations du compilateur. L'analyse statique d'un grand nombre de boucles permet de montrer l'existence d'un potentiel d'optimisation significatif. On applique ensuite Milepost GCC, un compilateur basé sur l'apprentissage automatique, pour optimiser différentes applications. Il utilise les caractéristiques statiques des fonctions et un algorithme de classification, pour prédire une bonne séquence d'optimisations. Milepost apporte une accélération significative qui surpasse les solutions existantes. La contribution majeure de cette thèse est une méthode de méta-optimisation, ULM. Elle exploite des données statiques et dynamiques afin de déterminer les meilleurs jeux d'apprentissage pour différent algorithmes de classification. En mettant plusieurs algorithmes en compétition, ULM construit un prédicteur plus efficace que les solutions existantes. ULM prédit dans 92% des cas étudiés la meilleure combinaison d'optimisations
Effective compiler optimizations can greatly improve applications performance. These optimizations are numerous and can be applied in any order. Compilers select these optimizations using solutions driven by heuristics which may degrade programs performance. Therefore, developers resort to the tedious manual search for the best optimizations. Combinatorial search space makes this effort intractable and one can easily fall into a local minimum and miss the best combination. This thesis develops a holistic approach to improve applications performance with compiler optimizations and machine learning. A combination of static loop analysis and statistical learning is used to analyze a large corpus of loops and reveal good potential for compiler optimizations. Milepost GCC, a machine-learning based compiler, is applied to optimize benchmarks and an industrial database application. It uses function level static features and classification algorithms to predict a good sequence of optimizations. While Milepost GCC can mispredict the best optimizations, in general it obtains considerable speedups and outperforms state-of-the-art compiler heuristics. The culmination of this thesis is the ULM meta-optimization framework. ULM characterizes applications at different levels with static code features and hardware performance counters and finds the most important combination of program features. By selecting among three classification algorithms and tuning their parameters, ULM builds a sophisticated predictor that can outperform existing solutions. As a result, the ULM framework predicted correctly the best sequence of optimizations sequence in 92% of cases
APA, Harvard, Vancouver, ISO, and other styles
5

Dupont, Pierre. "Utilisation et apprentissage de modèles de langage pour la reconnaissance de la parole continue /." Paris : École nationale supérieure des télécommunications, 1996. http://catalogue.bnf.fr/ark:/12148/cb35827695q.

Full text
APA, Harvard, Vancouver, ISO, and other styles
6

Melzi, Fateh. "Fouille de données pour l'extraction de profils d'usage et la prévision dans le domaine de l'énergie." Thesis, Paris Est, 2018. http://www.theses.fr/2018PESC1123/document.

Full text
Abstract:
De nos jours, les pays sont amenés à prendre des mesures visant à une meilleure rationalisation des ressources en électricité dans une optique de développement durable. Des solutions de comptage communicantes (Smart Meters), sont mises en place et autorisent désormais une lecture fine des consommations. Les données spatio-temporelles massives collectées peuvent ainsi aider à mieux connaitre les habitudes de consommation et pouvoir les prévoir de façon précise. Le but est d'être en mesure d'assurer un usage « intelligent » des ressources pour une meilleure consommation : en réduisant par exemple les pointes de consommations ou en ayant recours à des sources d'énergies renouvelables. Les travaux de thèse se situent dans ce contexte et ont pour ambition de développer des outils de fouille de données en vue de mieux comprendre les habitudes de consommation électrique et de prévoir la production d'énergie solaire, permettant ensuite une gestion intelligente de l'énergie.Le premier volet de la thèse s'intéresse à la classification des comportements types de consommation électrique à l'échelle d'un bâtiment puis d'un territoire. Dans le premier cas, une identification des profils types de consommation électrique journalière a été menée en se basant sur l'algorithme des K-moyennes fonctionnel et sur un modèle de mélange gaussien. A l'échelle d'un territoire et en se plaçant dans un contexte non supervisé, le but est d'identifier des profils de consommation électrique types des usagers résidentiels et de relier ces profils à des variables contextuelles et des métadonnées collectées sur les usagers. Une extension du modèle de mélange gaussien classique a été proposée. Celle-ci permet la prise en compte de variables exogènes telles que le type de jour (samedi, dimanche et jour travaillé,…) dans la classification, conduisant ainsi à un modèle parcimonieux. Le modèle proposé a été comparé à des modèles classiques et appliqué sur une base de données irlandaise incluant à la fois des données de consommations électriques et des enquêtes menées auprès des usagers. Une analyse des résultats sur une période mensuelle a permis d'extraire un ensemble réduit de groupes d'usagers homogènes au sens de leurs habitudes de consommation électrique. Nous nous sommes également attachés à quantifier la régularité des usagers en termes de consommation ainsi que l'évolution temporelle de leurs habitudes de consommation au cours de l'année. Ces deux aspects sont en effet nécessaires à l'évaluation du potentiel de changement de comportement de consommation que requiert une politique d'effacement (décalage des pics de consommations par exemple) mise en place par les fournisseurs d'électricité.Le deuxième volet de la thèse porte sur la prévision de l'irradiance solaire sur deux horizons temporels : à court et moyen termes. Pour ce faire, plusieurs méthodes ont été utilisées parmi lesquelles des méthodes statistiques classiques et des méthodes d'apprentissage automatique. En vue de tirer profit des différents modèles, une approche hybride combinant les différents modèles a été proposée. Une évaluation exhaustive des différents approches a été menée sur une large base de données incluant des paramètres météorologiques mesurés et des prévisions issues des modèles NWP (Numerical Weather Predictions). La grande diversité des jeux de données relatifs à quatre localisations aux climats bien distincts (Carpentras, Brasilia, Pampelune et Ile de la Réunion) a permis de démontrer la pertinence du modèle hybride proposé et ce, pour l'ensemble des localisations
Nowadays, countries are called upon to take measures aimed at a better rationalization of electricity resources with a view to sustainable development. Smart Metering solutions have been implemented and now allow a fine reading of consumption. The massive spatio-temporal data collected can thus help to better understand consumption behaviors, be able to forecast them and manage them precisely. The aim is to be able to ensure "intelligent" use of resources to consume less and consume better, for example by reducing consumption peaks or by using renewable energy sources. The thesis work takes place in this context and aims to develop data mining tools in order to better understand electricity consumption behaviors and to predict solar energy production, then enabling intelligent energy management.The first part of the thesis focuses on the classification of typical electrical consumption behaviors at the scale of a building and then a territory. In the first case, an identification of typical daily power consumption profiles was conducted based on the functional K-means algorithm and a Gaussian mixture model. On a territorial scale and in an unsupervised context, the aim is to identify typical electricity consumption profiles of residential users and to link these profiles to contextual variables and metadata collected on users. An extension of the classical Gaussian mixture model has been proposed. This allows exogenous variables such as the type of day (Saturday, Sunday and working day,...) to be taken into account in the classification, thus leading to a parsimonious model. The proposed model was compared with classical models and applied to an Irish database including both electricity consumption data and user surveys. An analysis of the results over a monthly period made it possible to extract a reduced set of homogeneous user groups in terms of their electricity consumption behaviors. We have also endeavoured to quantify the regularity of users in terms of consumption as well as the temporal evolution of their consumption behaviors during the year. These two aspects are indeed necessary to evaluate the potential for changing consumption behavior that requires a demand response policy (shift in peak consumption, for example) set up by electricity suppliers.The second part of the thesis concerns the forecast of solar irradiance over two time horizons: short and medium term. To do this, several approaches have been developed, including autoregressive statistical approaches for modelling time series and machine learning approaches based on neural networks, random forests and support vector machines. In order to take advantage of the different models, a hybrid model combining the different models was proposed. An exhaustive evaluation of the different approaches was conducted on a large database including four locations (Carpentras, Brasilia, Pamplona and Reunion Island), each characterized by a specific climate as well as weather parameters: measured and predicted using NWP models (Numerical Weather Predictions). The results obtained showed that the hybrid model improves the results of photovoltaic production forecasts for all locations
APA, Harvard, Vancouver, ISO, and other styles
7

Thorey, Jean. "Prévision d’ensemble par agrégation séquentielle appliquée à la prévision de production d’énergie photovoltaïque." Thesis, Paris 6, 2017. http://www.theses.fr/2017PA066526/document.

Full text
Abstract:
Notre principal objectif est d'améliorer la qualité des prévisions de production d'énergie photovoltaïque (PV). Ces prévisions sont imparfaites à cause des incertitudes météorologiques et de l'imprécision des modèles statistiques convertissant les prévisions météorologiques en prévisions de production d'énergie. Grâce à une ou plusieurs prévisions météorologiques, nous générons de multiples prévisions de production PV et nous construisons une combinaison linéaire de ces prévisions de production. La minimisation du Continuous Ranked Probability Score (CRPS) permet de calibrer statistiquement la combinaison de ces prévisions, et délivre une prévision probabiliste sous la forme d'une fonction de répartition empirique pondérée.Dans ce contexte, nous proposons une étude du biais du CRPS et une étude des propriétés des scores propres pouvant se décomposer en somme de scores pondérés par seuil ou en somme de scores pondérés par quantile. Des techniques d'apprentissage séquentiel sont mises en oeuvre pour réaliser cette minimisation. Ces techniques fournissent des garanties théoriques de robustesse en termes de qualité de prévision, sous des hypothèses minimes. Ces méthodes sont appliquées à la prévision d'ensoleillement et à la prévision de production PV, fondée sur des prévisions météorologiques à haute résolution et sur des ensembles de prévisions classiques
Our main objective is to improve the quality of photovoltaic power forecasts deriving from weather forecasts. Such forecasts are imperfect due to meteorological uncertainties and statistical modeling inaccuracies in the conversion of weather forecasts to power forecasts. First we gather several weather forecasts, secondly we generate multiple photovoltaic power forecasts, and finally we build linear combinations of the power forecasts. The minimization of the Continuous Ranked Probability Score (CRPS) allows to statistically calibrate the combination of these forecasts, and provides probabilistic forecasts under the form of a weighted empirical distribution function. We investigate the CRPS bias in this context and several properties of scoring rules which can be seen as a sum of quantile-weighted losses or a sum of threshold-weighted losses. The minimization procedure is achieved with online learning techniques. Such techniques come with theoretical guarantees of robustness on the predictive power of the combination of the forecasts. Essentially no assumptions are needed for the theoretical guarantees to hold. The proposed methods are applied to the forecast of solar radiation using satellite data, and the forecast of photovoltaic power based on high-resolution weather forecasts and standard ensembles of forecasts
APA, Harvard, Vancouver, ISO, and other styles
8

Nachouki, Mirna. "L'acquisition de connaissances dans les systèmes dynamiques : production et utilisation dans le cadre de l'atelier de génie didacticiel intégré." Toulouse 3, 1995. http://www.theses.fr/1995TOU30001.

Full text
Abstract:
Pour personnaliser l'enseignement, les systemes d'environnement interactif d'apprentissage avec l'ordinateur doivent pouvoir imiter le comportement de l'enseignant qui exerce son activite dans le monde reel. Ainsi, durant leur utilisation, ils doivent acquerir des connaissances et revetir un aspect evolutif et dynamique. Dans le but de garantir l'evolutivite des connaissances, nous soulignons que le processus d'acquisition doit, dans un systeme dynamique, etre complete par un mecanisme d'evaluation des connaissances. Aussi, nous definissons un cycle de vie du processus d'acquisition au cours duquel les connaissances sont raffinees de maniere progressive avant d'etre integrees dans la representation la plus adequate. Nous decrivons alors une representation permettant de formaliser differentes methodes d'acquisition respectant le cycle de vie propose. Pour supporter ce processus, nous proposons une architecture basee sur trois modeles. Le premier est constitue des connaissances necessaires au fonctionnement du systeme. Le second s'articule autour d'une base de taches representant la globalite des operations conceptuelles impliquees dans une methode d'acquisition de connaissances. Pour realiser une tache dans un contexte bien particulier, des agents (concept issu de l'intelligence artificielle distribuee) ont ete formalises. Chacun d'eux represente une methode possible de resolution de cette tache. Le troisieme modele est constitue des metaconnaissances qui assurent le pilotage et le controle des deux autres modeles, grace aux differentes methodes d'acquisition. Nos travaux constituent un pas supplementaire vers le developpement des systemes d'apprentissage reellement dynamiques, donc plus reactifs et mieux adaptes a chaque situation d'enseignement
APA, Harvard, Vancouver, ISO, and other styles
9

Baudin, Paul. "Prévision séquentielle par agrégation d'ensemble : application à des prévisions météorologiques assorties d'incertitudes." Thesis, Université Paris-Saclay (ComUE), 2015. http://www.theses.fr/2015SACLS117/document.

Full text
Abstract:
Dans cette thèse, nous nous intéressons à des problèmes de prévision tour après tour. L'objectif est d'imaginer et d'appliquer des stratégies automatiques, qui tirent de l'expérience du passé et s'aident éventuellement de prédicteurs élémentaires. Nous souhaitons que ces stratégies obtiennent des garanties mathématiques robustes et soient valables dans des cas de figure très généraux. Cela nous permet en pratique d'appliquer les algorithmes qui en découlent à la prévision concrète de grandeurs météorologiques. Enfin, nous nous intéressons aux déclinaisons théoriques et pratiques dans un cadre de prévision de fonctions de répartition. Nous étudions dans un premier temps la prévision séquentielle de processus bornés stationnaires ergodiques. Dans ce but, nous nous plaçons dans le cadre des suites individuelles et proposons un arbre de régression déterministe dont les prévisions sont asymptotiquement meilleures que le meilleur prédicteur lipschitzien pour une certaine constante L. Puis nous montrons que les bornes de regret obtenues impliquent que les stratégies envisagées sont asymptotiquement optimales par rapport à la classe des processus stationnaire ergodique bornés. Dans un second temps, nous présentons une méthode d'agrégation séquentielle des simulations météorologiques de pression réduite au niveau de la mer. L'objectif est d'obtenir, grâce à l'algorithme ridge, de meilleures performances en prévision qu'une certaine prévision de référence, à préciser. Tout d'abord, nous rappelons le cadre mathématique et les fondamentaux des sciences environnementales. Puis nous décrivons en détail les jeux de données utilisés et les performances pratiques de l'algorithme. Enfin, nous précisons certains aspects du jeu de données et certaines sensibilités aux paramètres l'algorithme ridge. Puis, nous déclinons la méthode précédente à l'étude d'une seconde grandeur physique : la norme de la vitesse du vent à dix mètres au-dessus du sol. Plusieurs remarques d'ordre physique sont faites au passage concernant ce jeu de données. Dans le dernier chapitre, nous présentons les enjeux et les outils de la prévision probabiliste avant de mettre en pratique deux algorithmes sur les jeux de données décrits précédemment. La première partie motive l'utilisation de prévisions probabilistes et expose l'état de l'art dans ce domaine et la seconde partie présente des scores probabilistes historiques et populaires. Les algorithmes utilisés sont ensuite décrits dans la troisième partie avant que ne soient détaillés les résultats empiriques de ceux-ci sur les jeux de données de pression réduite au niveau de la mer et de norme de la vitesse du vent
In this thesis, we study sequential prediction problems. The goal is to devise and apply automatic strategy, learning from the past, with potential help from basis predictors. We desire these strategies to have strong mathematical guarantees and to be valid in the most general cases. This enables us to apply the algorithms deriving from the strategies to meteorological data predictions. Finally, we are interested in theoretical and practical versions of this sequential prediction framework to cumulative density function prediction. Firstly, we study online prediction of bounded stationary ergodic processes. To do so, we consider the setting of prediction of individual sequences and propose a deterministic regression tree that performs asymptotically as well as the best L-Lipschitz predictor. Then, we show why the obtained regret bound entails the asymptotical optimality with respect to the class of bounded stationary ergodic processes. Secondly, we propose a specific sequential aggregation method of meteorological simulation of mean sea level pressure. The aim is to obtain, with a ridge regression algorithm, better prediction performance than a reference prediction, belonging to the constant linear prediction of basis predictors. We begin by recalling the mathematical framework and basic notions of environmental science. Then, the used datasets and practical performance of strategies are studied, as well as the sensitivity of the algorithm to parameter tuning. We then transpose the former method to another meteorological variable: the wind speed 10 meter above ground. This study shows that the wind speed exhibits different behaviors on a macro level. In the last chapter, we present the tools used in a probabilistic prediction framework and underline their merits. First, we explain the relevancy of probabilistic prediction and expose this domain's state of the art. We carry on with an historical approach of popular probabilistic scores. The used algorithms are then thoroughly described before the descriptions of their empirical results on the mean sea level pressure and wind speed
APA, Harvard, Vancouver, ISO, and other styles
10

Desrousseaux, Christophe. "Utilisation d'un critère entropique dans les systèmes de détection." Lille 1, 1998. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1998/50376-1998-229.pdf.

Full text
Abstract:
La theorie classique de la detection repose sur le postulat de centralisation de l'information qui suppose que l'information ainsi que le traitement qui lui est applique soient regroupes en un meme lieu. Une alternative a la structure centralisee a ete developpee sous la forme d'architectures imposees pour lesquelles le traitement est decompose en plusieurs etapes. Par exemple, dans le cas d'une architecture parallele, chaque source elabore un resume de son observation, qui est ensuite transmis a un operateur central de decision. Dans ce travail, nous rappelons les resultats importants de la theorie de la detection en distinguant les differentes architectures rencontrees dans la litterature : la detection centralisee, decentralisee parallele et serie. Lors de l'optimisation de ces systemes, deux criteres sont employes : le critere de bayes et celui de neyman-pearson. Les architectures decentralisees n'ont pour l'instant pu etre optimisees que pour des systemes comportant peu de capteurs et en supposant l'independance des observations. Partant de l'analogie entre les systemes de communication numeriques et les systemes de detection, nous proposons l'introduction d'un critere entropique dans les systemes de detection. Nous demontrons que les differentes architectures de detection peuvent alors etre optimisees en utilisant un critere base sur l'entropie conditionnelle de shannon. L'utilisation de l'entropie ayant ete justifiee, nous proposons d'introduire une phase d'apprentissage dans les problemes de detection. Nous suggerons de limiter le nombre de capteurs a prendre en compte lors de l'optimisation du systeme de detection. Parmi tous les capteurs disponibles, nous ne faisons intervenir que ceux apportant de l'information au processus de decision. D'autre part, nous proposons des methodes d'optimisation rapides des systemes de detection decentralisee parallele. Ces techniques d'optimisation sont ensuite etendues au probleme de la quantification repartie.
APA, Harvard, Vancouver, ISO, and other styles
11

Monsifrot, Antoine. "Utilisation du raisonnement à partir de cas et de l'apprentissage pour l'optimisation de code." Rennes 1, 2002. http://www.theses.fr/2002REN10107.

Full text
Abstract:
Des transformations de code permettent de réduire le temps d'exécution des programmes en améliorant l'exploitation des processeurs. Pour déterminer les transformations à appliquer, les outils automatiques reposent sur des heuristisques complexes à produire car les transformations peuvent avoir des effets de bord et interagissent entre elles. D'autre part, toutes les optimisations ne sont pas à la portée de ces outils. Ainsi, la production de code efficace se termine encore aujourd'hui par une phase de "tuning". Nous proposons, au travers de cette thèse l'utilisation de techniques provenant de l'intelligence artificielle : le raisonnement à partir de cas pour détecter les opportunités de transformations et les techniques d'apprentissage pour produire les heuristiques de compilateur. La mise en oeuvre du prototype CAHT (Computer Aided Hand Tuning) nous a permi de valider notre approche dans les domaines des applications numériques et des applications enfouies.
APA, Harvard, Vancouver, ISO, and other styles
12

Kritter, Thibaut. "Utilisation de données cliniques pour la construction de modèles en oncologie." Thesis, Bordeaux, 2018. http://www.theses.fr/2018BORD0166/document.

Full text
Abstract:
Cette thèse présente des travaux en lien avec l’utilisation de données cliniques dans la construction de modèles appliqués à l’oncologie. Les modèles actuels visant à intégrer plusieurs mécanismes biologiques liés à la croissance tumorale comportent trop de paramètres et ne sont pas calibrables sur des cas cliniques. A l’inverse, les modèles plus simples ne parviennent pas à prédire précisément l’évolution tumorale pour chaque patient. La multitude et la variété des données acquises par les médecins sont de nouvelles sources d’information qui peuvent permettre de rendre les estimations des modèles plus précises. A travers deux projets différents, nous avons intégré des données dans le processus de modélisation afin d’en tirer le maximum d’information. Dans la première partie, des données d’imagerie et de génétique de patients atteints de gliomes sont combinées à l’aide de méthodes d’apprentissage automatique. L’objectif est de différencier les patients qui rechutent rapidement au traitement de ceux qui ont une rechute plus lente. Les résultats montrent que la stratification obtenue est plus efficace que celles utilisées actuellement par les cliniciens. Cela permettrait donc d’adapter le traitement de manière plus spécifique pour chaque patient. Dans la seconde partie, l’utilisation des données est cette fois destinée à corriger un modèle simple de croissance tumorale. Même si ce modèle est efficace pour prédire le volume d’une tumeur, sa simplicité ne permet pas de rendre compte de l’évolution de forme. Or pouvoir anticiper la future forme d’une tumeur peut permettre au clinicien de mieux planifier une éventuelle chirurgie. Les techniques d’assimilation de données permettent d’adapter le modèle et de reconstruire l’environnement de la tumeur qui engendre ces changements de forme. La prédiction sur des cas de métastases cérébrales est alors plus précise
This thesis deals with the use of clinical data in the construction of models applied to oncology. Existing models which take into account many biological mechanisms of tumor growth have too many parameters and cannot be calibrated on clinical cases. On the contrary, too simple models are not able to precisely predict tumor evolution for each patient. The diversity of data acquired by clinicians is a source of information that can make model estimations more precise. Through two different projets, we integrated data in the modeling process in order to extract more information from it. In the first part, clinical imaging and biopsy data are combined with machine learning methods. Our aim is to distinguish fast recurrent patients from slow ones. Results show that the obtained stratification is more efficient than the stratification used by cliniciens. It could help physicians to adapt treatment in a patient-specific way. In the second part, data is used to correct a simple tumor growth model. Even though this model is efficient to predict the volume of a tumor, its simplicity prevents it from accounting for shape evolution. Yet, an estimation of the tumor shape enables clinician to better plan surgery. Data assimilation methods aim at adapting the model and rebuilding the tumor environment which is responsible for these shape changes. The prediction of the growth of brain metastases is then more accurate
APA, Harvard, Vancouver, ISO, and other styles
13

Dione, Mamadou. "Prévision court terme de la production éolienne par Machine learning." Electronic Thesis or Diss., Institut polytechnique de Paris, 2020. http://www.theses.fr/2020IPPAG004.

Full text
Abstract:
La loi de transition énergétique votée par l’Etat français a des implications précises sur les énergies renouvelables, en particulier sur leur mécanisme de rémunération. Jusqu’en 2015, un contrat d’obligation d’achat permettait de vendre l’électricité d’origine éolienne à un tarif fixe. A partir de 2015 certains parcs éoliens ont commencé à sortir de l’obligation d’achat. En effet, l’énergie éolienne commence à être directement vendue sur le marché par les producteurs à cause de la rupture des contrats d’obligation d’achat. Les gestionnaires de réseaux de distribution et les gestionnaires de réseaux de transport demandent ou même obligent les producteurs à fournir au moins des prévisions de production un jour à l’avance pour rééquilibrer le marché. Une surestimation ou une sous-estimation pourrait être exposée à des pénalités. Il existe donc un besoin énorme de prévisions précises. C’est dans ce contexte que cette thèse a été lancée avec pour objectif de proposer un modèle de prévision de la production des parcs éoliens par apprentissage statistique. Nous disposons de données de production et de mesures réelles du vent ainsi que des données de modèles météorologiques. Nous avons d’abord comparé les performances des modèles GFS et ECMWF et étudié les relations entre ces deux modèles par l’analyse de corrélation canonique. Nous avons ensuite appliqué des modèles de machine learning pour valider un premier modèle de prévision par forêts aléatoires. Nous avons ensuite modélisé la dynamique spatio-temporelle du vent et l’avons intégrée dans le modèle de prévision ce qui a amélioré l’erreur de prévision de 3%. Nous avons aussi étudié la sélection de points de grille par une mesure d’importance de groupe de variables à l’aide des forêts aléatoires. Les intervalles de prévision par forêt aléatoire associés aux prévisions ponctuelles de la production des parcs éoliens sont aussi étudiés. Le modèle de prévisions découlant de ces travaux a été développé pour permettre au Groupe ENGIE d’avoir chaque jour ses propres prévisions pour l’ensemble de ses parcs éoliens
The energy transition law passed by the French government has specific implications for renewable energies, in particular for their remuneration mechanism. Until 2015, a purchase obligation contract made it possible to sell electricity from wind power at a fixed rate. From 2015 onwards, some wind farms began to be exempted from the purchase obligation. This is because wind energy is starting to be sold directly on the market by the producers because of the breach of the purchase obligation contracts. Distribution system operators and transmission system operators require or even oblige producers to provide at least a production forecast one day in advance in order to rebalance the market. Over- or underestimation could be subject to penalties. There is, therefore, a huge need for accurate forecasts. It is in this context that this thesis was launched with the aim of proposing a model for predicting wind farms production by machine learning. We have production data and real wind measurements as well as data from meteorological models. We first compared the performances of the GFS and ECMWF models and studied the relationships between these two models through canonical correlation analysis. We then applied machine learning models to validate a first random forest prediction model. We then modeled the spatio-temporal wind dynamics and integrated it into the prediction model, which improved the prediction error by 3%. We also studied the selection of grid points by a variable group importance measure using random forests. Random forest prediction intervals associated with point forecasts of wind farm production are also studied. The forecasting model resulting from this work was developed to enable the ENGIE Group to have its own daily forecasts for all its wind farms
APA, Harvard, Vancouver, ISO, and other styles
14

Abdellaoui, Redhouane. "Utilisation de données du Web communautaire à des fins de surveillance de l’usage de médicaments." Thesis, Sorbonne université, 2018. http://www.theses.fr/2018SORUS548.

Full text
Abstract:
La pharmacovigilance souffre d’une sous notification chronique des effets indésirables de la part des professionnels de santé. La FDA (US Food and Drug Administration), l’EMA (European Medicines Agency), et d’autres agences sanitaires, suggèrent que les réseaux sociaux pourraient constituer une source de données supplémentaire pour la détection de signaux faibles de pharmacovigilance. L’OMS (Organisation Mondiale de la Santé) a publié un rapport en 2003 exposant le problème que pose la non-observance au traitement sur le long terme et son caractère préjudiciable à l’efficacité des systèmes de santé au niveau mondial. Les données nécessaires à la mise au point d’un système d’extraction d’informations de santé depuis les forums de patients sont mise à disposition par la société́ Kappa Santé. La première approche proposée s’inscrit dans un contexte de détection de cas de pharmacovigilance à partir d’échanges entre patients sur des forums de santé. Nous proposons un filtre basé sur le nombre de mots séparant le nom du médicament évoqué dans le message du terme considéré́ comme un potentiel effet indésirable. Nous proposons une seconde approche basée sur les « topic models » afin de cibler les groupes de messages abordant les thèmes traitant de non-observance. En terme de pharmacovigilance, le filtre gaussien proposé permet d’identifier 50.03% des faux positifs avec une précision de 95.8% et un rappel de 50%. L’approche de détection de cas de non-observance permet l’identification de ces derniers avec une précision de 32.6% et un rappel de 98.5%
Pharmacovigilance suffers from chronic underreporting of drug's adverse effects from health professional's part. The FDA (US Food and Drug Administration), The EMA (European Medicines Agency), and other health agencies, suggest that social media could constitute an additional data source for detection of weak pharmacovigilance signals. The WHO (World Health Organization) published a report in 2003 outlining the problem of non-compliance with treatment over long term and its prejudicial effectiveness on health systems worldwide. The necessary data for development of an information extraction system from patient's forums are made available by the company Kappa Sante. The first proposed approach fits into a context of pharmacovigilance case detection from patient's online discussions on health forums. We propose a filter based on the number of words separating the name of the mentioned drug in the message from the term considered as a potential adverse effect. We propose a second approach based on topic models to target groups of messages addressing topics dealing with non-compliance. In terms of pharmacovigilance, the proposed Gaussian filter identifies 50.03% of false positives with a precision of 95.8% and a recall of 50%. The case detection approach of non-compliance allows the identification of messages describing this kind of behaviors with a precision of 32.6% and a recall of 98.5%
APA, Harvard, Vancouver, ISO, and other styles
15

Grenet, Ingrid. "De l’utilisation des données publiques pour la prédiction de la toxicité des produits chimiques." Thesis, Université Côte d'Azur (ComUE), 2019. http://www.theses.fr/2019AZUR4050.

Full text
Abstract:
L’évaluation de la sécurité des composés chimiques repose principalement sur les résultats des études in vivo, réalisées sur des animaux de laboratoire. Cependant, ces études sont coûteuses en terme de temps, d'argent et d'utilisation d'animaux, ce qui les rend inadaptées à l'évaluation de milliers de composés. Afin de prédire rapidement la toxicité potentielle des composés et de les prioriser pour de futures études, des solutions alternatives sont actuellement envisagées telles que les essais in vitro et les modèles prédictifs d'apprentissage automatique. L’objectif de cette thèse est d’évaluer comment les données publiques de ToxCast et ToxRefDB peuvent permettre de construire de tels modèles afin de prédire les effets in vivo induits par les composés, uniquement à partir de leur structure chimique. A cette fin, et après pré-traitement des données, nous nous focalisons d’abord sur la prédiction de la bioactivité in vitro à partir de la structure chimique puis sur la prédiction des effets in vivo à partir des données de bio-activité in vitro. Pour la prédiction de la bio-activité in vitro, nous construisons et testons différents modèles de machine learning dont les descripteurs reflètent la structure chimique des composés. Puisque les données d'apprentissage sont fortement déséquilibrées en faveur des composés non toxiques, nous testons une technique d'augmentation de données et montrons qu’elle améliore les performances des modèles. Aussi, par une étude à grande échelle sur des centaines de tests in vitro de ToxCast, nous montrons que la méthode ensembliste "stacked generalization" mène à des modèles fiables sur leur domaine d'applicabilité. Pour la prédiction des effets in vivo, nous évaluons le lien entre les résultats des essais in vitro ciblant des voies connues pour induire des effets endocriniens et les effets in vivo observés dans les organes endocriniens lors d'études long terme. Nous montrons que, de manière inattendue, ces essais ne sont pas prédictifs des effets in vivo, ce qui soulève la question essentielle de la pertinence des essais in vitro. Nous faisons alors l’hypothèse que le choix d’essais capables de prédire les effets in vivo devrait reposer sur l’utilisation d'informations complémentaires comme, en particulier, les données mécanistiques
Currently, chemical safety assessment mostly relies on results obtained in in vivo studies performed in laboratory animals. However, these studies are costly in term of time, money and animals used and therefore not adapted for the evaluation of thousands of compounds. In order to rapidly screen compounds for their potential toxicity and prioritize them for further testing, alternative solutions are envisioned such as in vitro assays and computational predictive models. The objective of this thesis is to evaluate how the public data from ToxCast and ToxRefDB can allow the construction of this type of models in order to predict in vivo effects induced by compounds, only based on their chemical structure. To do so, after data pre-processing, we first focus on the prediction of in vitro bioactivity from chemical structure and then on the prediction of in vivo effects from in vitro bioactivity data. For the in vitro bioactivity prediction, we build and test various models based on compounds’ chemical structure descriptors. Since learning data are highly imbalanced in favor of non-toxic compounds, we test a data augmentation technique and show that it improves models’ performances. We also perform a largescale study to predict hundreds of in vitro assays from ToxCast and show that the stacked generalization ensemble method leads to reliable models when used on their applicability domain. For the in vivo effects prediction, we evaluate the link between results from in vitro assays targeting pathways known to induce endocrine effects and in vivo effects observed in endocrine organs during longterm studies. We highlight that, unexpectedly, these assays are not predictive of the in vivo effects, which raises the crucial question of the relevance of in vitro assays. We thus hypothesize that the selection of assays able to predict in vivo effects should be based on complementary information such as, in particular, mechanistic data
APA, Harvard, Vancouver, ISO, and other styles
16

Larlus, Diane. "Création et utilisation de vocabulaires visuels pour la catégorisation d'images et la segmentation de classes d'objets." Phd thesis, Grenoble INPG, 2008. http://tel.archives-ouvertes.fr/tel-00343665.

Full text
Abstract:
Cette thèse s'intéresse à l'interprétation d'images fixes et en particulier à la reconnaissance de classes d'objets. Les différentes approches considérées sont toutes des variations du modèle par sac-de-mots, utilisant des représentations locales, quantifiées à l'aide d'un vocabulaire visuel.
Nous nous intéresserons tout d'abord à l'étude de différentes méthodes de création du vocabulaire visuel et à l'évaluation de ces vocabulaires dans le contexte de la catégorisation d'images.
Dans un deuxième temps, nous étudierons la segmentation de classes d'objets et verrons en particulier comment combiner les propriétés de régularisation très locales permises par un champ de Markov avec un modèle d'apparence basé sur des régions qui représentent chacune un objet et qui sont considérées comme des collections de mots visuels.
APA, Harvard, Vancouver, ISO, and other styles
17

Hamadi, Abdelkader. "Utilisation du contexte pour l'indexation sémantique des images et vidéos." Thesis, Grenoble, 2014. http://www.theses.fr/2014GRENM047/document.

Full text
Abstract:
L'indexation automatisée des documents image fixe et vidéo est un problème difficile en raison de la ``distance'' existant entre les tableaux de nombres codant ces documents et les concepts avec lesquels on souhaite les annoter (personnes, lieux, événements ou objets, par exemple). Des méthodes existent pour cela mais leurs résultats sont loin d'être satisfaisants en termes de généralité et de précision. Elles utilisent en général un ensemble unique de tels exemples et le considère d'une manière uniforme. Ceci n'est pas optimal car un même concept peut apparaître dans des contextes très divers et son apparence peut être très différente en fonction de ces contextes. Dans le cadre de cette thèse, nous avons considéré l'utilisation du contexte pour l'indexation des documents multimédia. Le contexte a largement été utilisé dans l'état de l'art pour traiter diverses problématiques. Dans notre travail, nous retenons les relations entre les concepts comme source de contexte sémantique. Pour le cas des vidéos, nous exploitons le contexte temporel qui modélise les relations entre les plans d'une même vidéo. Nous proposons plusieurs approches utilisant les deux types de contexte ainsi que leur combinaison, dans différents niveaux d'un système d'indexation. Nous présentons également le problème de détection simultanée de groupes de concepts que nous jugeons lié à la problématique de l'utilisation du contexte. Nous considérons que la détection d'un groupe de concepts revient à détecter un ou plusieurs concepts formant le groupe dans un contexte ou les autres sont présents. Nous avons étudié et comparé pour cela deux catégories d'approches. Toutes nos propositions sont génériques et peuvent être appliquées à n'importe quel système pour la détection de n'importe quel concept. Nous avons évalué nos contributions sur les collections de données TRECVid et VOC, qui sont des standards internationaux et reconnues par la communauté. Nous avons obtenu de bons résultats, comparables à ceux des meilleurs systèmes d'indexation évalués ces dernières années dans les compagnes d'évaluation précédemment citées
The automated indexing of image and video is a difficult problem because of the``distance'' between the arrays of numbers encoding these documents and the concepts (e.g. people, places, events or objects) with which we wish to annotate them. Methods exist for this but their results are far from satisfactory in terms of generality and accuracy. Existing methods typically use a single set of such examples and consider it as uniform. This is not optimal because the same concept may appear in various contexts and its appearance may be very different depending upon these contexts. In this thesis, we considered the use of context for indexing multimedia documents. The context has been widely used in the state of the art to treat various problems. In our work, we use relationships between concepts as a source of semantic context. For the case of videos, we exploit the temporal context that models relationships between the shots of the same video. We propose several approaches using both types of context and their combination, in different levels of an indexing system. We also present the problem of multiple concept detection. We assume that it is related to the context use problematic. We consider that detecting simultaneously a set of concepts is equivalent to detecting one or more concepts forming the group in a context where the others are present. To do that, we studied and compared two types of approaches. All our proposals are generic and can be applied to any system for the detection of any concept. We evaluated our contributions on TRECVID and VOC collections, which are of international standards and recognized by the community. We achieved good results comparable to those of the best indexing systems evaluated in recent years in the evaluation campaigns cited previously
APA, Harvard, Vancouver, ISO, and other styles
18

Prudhomme, Elie. "Représentation et fouille de données volumineuses." Thesis, Lyon 2, 2009. http://www.theses.fr/2009LYO20048/document.

Full text
Abstract:
Le stockage n'étant plus soumis à des contraintes de coût importantes, les systèmes d'information collectent une quantité croissante de données, souvent via des processus d'acquisition automatique. En parallèle, les objets d'intérêt sont devenus plus complexes. C'est le cas, par exemple, des images, du texte ou encore des puces à ADN. Pour leur analyse, les méthodes d'apprentissage doivent alors prendre en compte l'augmentation massive et conjointe du nombre d'exemples et d'attributs qui en résultent. Or, les outils classiques de l'apprentissage automatique ne sont pas toujours adaptés à ce changement de volumétrie tant au niveau de leur complexité algorithmique que pour appréhender la structure des données. Dans ce contexte de données volumineuses en apprentissage supervisé, nous nous sommes intéressés à l'extraction de deux catégories de connaissances, conjointement à la prédiction, la première relative à l'organisation des exemples entre eux et la seconde relative aux interactions qui existent entre les attributs. Pour nous intéresser aux relations entre les exemples, nous définissons le concept de représentation en apprentissage supervisé comme une modélisation et une visualisation des données à la fois du point de vue de la proximité entre les exemples et du lien entre la position des exemples et leur étiquette. Parmi les différents algorithmes recensés qui conduisent à l'obtention d'une telle représentation, nous retenons les cartes auto-organisatrices qui présentent la plus faible complexité algorithmique, ce qui les rend adaptées aux données volumineuses. L'algorithme des cartes auto-organisatrices étant nonsupervis é, nous proposons une adaptation à l'apprentissage supervisé par le biais des cartes étiquetées (Prudhomme et Lallich, 2005b). Nous montrons également qu'il est possible de valider statistiquement la qualité de la représentation obtenue par une telle carte (Prudhomme et Lallich, 2005a). Les statistiques que nous proposons sont corrélées avec le taux d'erreur en généralisation, ce qui permet de juger a priori de la qualité de la prédiction qui résulte de la carte. Néanmoins, la prédiction des cartes auto-organisatrices n'est pas toujours satisfaisante face à des données en grandes dimensions. Dans ce cas, nous avons recours aux méthodes ensemblistes. Ces méthodes agrègent la prédiction de plusieurs classifieurs simples. En créant une certaine diversité entre les prédictions de ces classifieurs, les méthodes ensemblistes améliorent la prédiction qui aurait été obtenue par un seul classifieur. Pour créer cette diversité, nous apprenons chaque classifieur simple (dans notre cas, des cartes auto-organisatrices) sur un sous-espace de l'espace d'apprentissage. La diversité est ainsi l'occasion de diminuer la dimensionnalité du problème. Afin de choisir au mieux les sous-espaces, nous nous sommes inspirés des connaissances théoriques disponibles sur la répartition de l'erreur en généralisation d'un ensemble. Nous avons alors proposé deux heuristiques. La première heuristique est non-supervisée. Elle repose sur l'interprétation des corrélations entre attributs pour déterminer les sous-espaces à apprendre (Prudhomme et Lallich, 2007). La seconde heuristique, au contraire, est supervisée. Elle optimise par un algorithme génétique une mesure de l'erreur d'un ensemble en fonction de l'erreur des classifieurs qui le composent (Prudhomme et Lallich, 2008b). Ces deux heuristiques conduisent à des ensembles de cartes (ou des comités de cartes) dont l'erreur en généralisation est plus faible que celle d'une carte seule apprise sur la totalité des attributs. Néanmoins, ils conduisent également à une multitude de représentations. Pour proposer une seule représentation à l'issue de l'apprentissage, nous introduisons la notion de stacking géographique. (...)
/
APA, Harvard, Vancouver, ISO, and other styles
19

Allain, Guillaume. "Prévision et analyse du trafic routier par des méthodes statistiques." Toulouse 3, 2008. http://thesesups.ups-tlse.fr/351/.

Full text
Abstract:
La société Mediamobile édite et diffuse de l'information sur le trafic aux usagers. L'objectif de ce travail est l'enrichissement de cette information par la prévision et la complétion des conditions de route. Notre approche s'inspire parfois de la modélisation physique du trafic routier mais fait surtout appel à des méthodes statistiques afin de proposer des solutions automatisables, modulaires et adaptées aux contraintes industrielles. Dans un premier temps, nous décrivons une méthode de prévision de la vitesse de quelques minutes à plusieurs heures. Nous supposons qu'il existe un nombre fini de comportements types du trafic sur le réseau, dus aux déplacements périodiques des usagers. Nous faisons alors l'hypothèse que les courbes de vitesses observées en chaque point du réseau sont issues d'un modèle de mélange. Nous cherchons ensuite à améliorer cette méthode générale de prévision. La prévision à moyen terme fait appel à des variables bâties sur le calendrier. Nous retenons le modèle de mélange des courbes de vitesse et nous proposons également des modèles de régression fonctionnelle pour les courbes de vitesses. Ensuite nous proposons une modélisation par régression locale afin de capturer la dynamique physique du trafic à très court terme. Nous estimons la fonction de noyau à partir des observations du phénomène en intégrant des connaissances a priori sur la dynamique du trafic. La dernière partie est dédiée à l'analyse des vitesses issues de véhicules traceurs. Ces vitesses sont irrégulièrement observées en temps et en espace sur un axe routier. Nous proposons un modèle de régression locale à l'aide de polynômes locaux pour compléter et lisser ces données
The industrial partner of this work is Mediamobile/V-trafic, a company which processes and broadcasts live road-traffic information. The goal of our work is to enhance traffic information with forecasting and spatial extending. Our approach is sometimes inspired by physical modelling of traffic dynamic, but it mainly uses statistical methods in order to propose self-organising and modular models suitable for industrial constraints. In the first part of this work, we describe a method to forecast trafic speed within a time frame of a few minutes up to several hours. Our method is based on the assumption that traffic on the a road network can be summarized by a few typical profiles. Those profiles are linked to the users' periodical behaviors. We therefore make the assumption that observed speed curves on each point of the network are stemming from a probabilistic mixture model. The following parts of our work will present how we can refine the general method. Medium term forecasting uses variables built from the calendar. The mixture model still stands. Additionnaly we use a fonctionnal regression model to forecast speed curves. We then introduces a local regression model in order to stimulate short-term trafic dynamics. The kernel function is built from real speed observations and we integrate some knowledge about traffic dynamics. The last part of our work focuses on the analysis of speed data from in traffic vehicles. These observations are gathered sporadically in time and on the road segment. The resulting data is completed and smoothed by local polynomial regression
APA, Harvard, Vancouver, ISO, and other styles
20

Koehl, Ludovic. "Conception et réalisation d'un estimateur de dimension fractale par utilisation de techniques floues." Lille 1, 1998. https://pepite-depot.univ-lille.fr/LIBRE/Th_Num/1998/50376-1998-1.pdf.

Full text
Abstract:
Nombre de paramètres permettent de caractériser la géométrie fractale, parmi lesquels la dimension fractale est la plus importante. Une nouvelle méthode d'estimation de la dimension fractale de courbes conciliant a la fois précision, rapidité et lisibilité est proposée. Le modèle mis en oeuvre est base sur des techniques floues particulièrement bien adaptées aux problèmes de modélisation complexes de nature descriptive ou intuitive. L'optimisation des paramètres internes du modèle flou et une simplification de ce dernier par la construction d'une structure hiérarchique sont réalisées conjointement par algorithme génétique et l'emploi d'un automate d'apprentissage.
APA, Harvard, Vancouver, ISO, and other styles
21

Frigui, Nejm Eddine. "Maintenance automatique du réseau programmable d'accès optique de très haut débit." Thesis, Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire, 2019. http://www.theses.fr/2019IMTA0127/document.

Full text
Abstract:
Les réseaux optiques passifs (PONs, Passive Optical Networks) représentant l’une des solutions les plus performantes du réseau d’accès FTTH ont été largement déployés par les opérateurs grâce à leur capacité d’offrir des services de très haut débit. Cependant, en raison de la dynamicité du trafic des différents clients, ces réseaux doivent s’appuyer sur un mécanisme efficace pour l’allocation de ressources, plus particulièrement dans le sens montant. Ce mécanisme est actuellement limité par la nature statique des paramètres SLA (Service Level Agreement). Ceci peut avoir une influence négative sur la qualité de service ressentie par les utilisateurs. L’objectif de cette thèse est de proposer une nouvelle architecture pour optimiser l’allocation de ressources dans les réseaux PON tout en agissant uniquement sur les paramètres SLA, désignés comme des paramètres gérables par l’opérateur. Des techniques de classification basées sur l’apprentissage automatique et la prédiction sont utilisées pour analyser le comportement des différents utilisateurs et déterminer leurs tendances de trafic. Un ajustement dynamique sur la base du concept autonomique de certains paramètres SLA est ensuite effectué afin de maximiser la satisfaction globale des clients vis-à-vis du réseau
Passive Optical Network (PON) representing one of the most attractive FTTH access network solutions, have been widely deployed for several years thanks to their ability to offer high speed services. However, due to the dynamicity of users traffic patterns, PONs need to rely on an efficient upstream bandwidth allocation mechanism. This mechanism is currently limited by the static nature of Service Level Agreement (SLA) parameters which can lead to an unoptimized bandwidth allocation in the network. The objective of this thesis is to propose a new management architecture for optimizing the upstream bandwidth allocation in PON while acting only on manageable parameters to allow the involvement of self-decision elements into the network. To achieve this, classification techniques based on machine learning approaches are used to analyze the behavior of PON users and to specify their upstream data transmission tendency. A dynamic adjustment of some SLA parameters is then performed to maximize the overall customers’ satisfaction with the network
APA, Harvard, Vancouver, ISO, and other styles
22

Sqali, Houssaini Mamoun. "Utilisation du formalisme DEVS pour la validation de comportements des systèmes à partir des scénarios UML." Thesis, Aix-Marseille, 2012. http://www.theses.fr/2012AIXM4318.

Full text
Abstract:
Un développement d'un système débute par la constitution, dans la phase de spécification des besoins, d'un cahier des charges dans lequel un ensemble de scénarios d'utilisation du système est défini avec les contraintes auxquelles il doit obéir, dans lequel chaque scénario est un simple exemple d'exécution du système à concevoir. Une fois que tous les scénarios sont précisés, on obtient une description complète des interactions entre les composants. Toutefois, cette spécification n'est pas directement implémentable, car il est difficile, surtout pour les systèmes les plus complexes, d'apercevoir le comportement d'un système dans sa globalité directement à partir des scénarios. C'est pour cela que ces derniers sont souvent intégrés à d'autres modèles, utilisés dans la conception détaillée, qu'on appelle "les modèles de comportement", en particulier les machines à états [Harel 87] qui permettent de passer de la vue partielle à la vue globale du système afin de répondre à différents problèmes comme la validation du comportement ou la détection des inconsistances au sein du système. Notre thèse a pour but, d'une part, de recenser et étudier différents langages de scénarios, particulièrement les diagrammes de séquences UML et les diagrammes MSC's, et d'autre part de proposer une méthode se synthèse automatique permettant de générer des modèles exécutables à évènements discrets DEVS [Zeigler 76] à partir d'une base de scénarios décrivant le comportement fonctionnel du système. Les modèles obtenus sont déterministes et avec une sémantique formelle qui garantit une interprétation unique de chaque élément des modèles
A development of a system begins with the constitution, in the phase of requirements analysis, a specification in which a set of scenarios describing the behavior of the system is defined with the constraints that it must obey, where each scenario is a partial representation of the system behavior. However, this specification is not directly implementable, because it is difficult, especially for more complex systems, to observe the global behavior of a system directly from scenario. That is why they are often integrated with other models used in the detailed design, called "behavioral models", in particular State Machines [Harel 87], who allow to move from partial to global view of the system in order to answer different problems such as validation of the behavior or the detection of system inconsistencies. Our thesis aims, firstly, to study different languages of scenarios, especially UML sequence diagrams, and MSC's (Message Sequence Charts), and secondly to propose an automatic synthesis method who generate executable discrete event DEVS models [Zeigler 76] from scenarios describing the desired behavior of a system. The resulting models are executable and deterministic with a formal semantics that ensures a unique interpretation of each element of models. The use of final models simulation traces, taking into account the coverage of the simulation compared to the number of states and transitions visited, allow validating the behavior
APA, Harvard, Vancouver, ISO, and other styles
23

Kosowska-Stamirowska, Zuzanna. "Évolution et robustesse du réseau maritime mondial : une approche par les systèmes complexes." Thesis, Paris 1, 2020. http://www.theses.fr/2020PA01H022.

Full text
Abstract:
Plus de 70% de la valeur totale du commerce international est acheminée par voie maritime, ce qui représente 80% de la totalité du fret en volume. En 2016, le secrétaire général de l’ONU a attiré l’attention sur le rôle du transport maritime, qu’il décrit comme « l’épine dorsale du commerce mondial et de l’économie mondiale”. Les flux du commerce maritime ont un impact non seulement sur le développement économique des régions concernées, mais également sur leurs écosystèmes. Les navires en mouvement étant notamment un important vecteur de propagation pour les bioinvasions. En parallèle, l’avenir du secteur du transport maritime est inextricablement lié au changement climatique : les mouvements de navires contribuent de manière significative aux émissions mondiales de CO2, de NOx et de SOx, avec des émissions de CO2 comparables à celles de l’Allemagne et des émissions de NOx et de SOx comparables à celles des États-Unis. Le développement de la navigation dans l’Arctique devenant une réalité, la nécessité de comprendre le comportement de ce système et de prévoir les futurs flux du commerce maritime s’impose. Malgré l’importance évidente et cruciale de la logistique maritime pour l’économie mondiale, très peu de travaux fournissent une vue détaillée de la répartition mondiale des flux commerciaux maritimes, et encore moins n’analysent leur évolution sur le long terme et les règles qui les régissent. Dans cette thèse, nous utilisons une base de données unique sur les mouvements quotidiens de la flotte mondiale entre 1977 et 2008, fournie par l’assureur maritime Lloyd’s, afin de constituer un réseau complexe des flux du commerce maritime où les ports représentent les nœuds et les liens sont créés par les traversées de navires. Dans cette thèse, nous effectuons une analyse du réseau du commerce maritime qui est entièrement data-driven. Nous utilisons des outils issus de la science de la complexité et de Machine Learning appliqués aux données de réseau pour étudier les propriétés de ce réseau et développer des modèles de prévision des ouvertures de nouvelles lignes maritimes et des volumes des flux commerciaux futurs sur des liens. L’application du Machine Learning pour analyser les flux commerciaux sur le réseau nous paraît être une nouvelle approche par rapport à l’état de l’art. Cette approche nécessitait une sélection et une modification soigneuses des outils d’apprentissage automatique existants pour les adapter aux données de type réseau et sur des flux physiques. Les résultats de la thèse suggèrent que le commerce maritime suit une marche aléatoire sur la structure sous-jacente du réseau. [...] Grâce à une expérience naturelle impliquant une redirection du trafic du port de Kobe après le tremblement de terre de 1995, nous constatons que le trafic a été redirigé de préférence vers les ports qui avaient le plus grand nombre de voisins communs avec Kobe avant la catastrophe naturelle. Ensuite, en simulant des attaques ciblées sur le réseau du commerce maritime, nous analysons les meilleurs critères qui permettraient de maximiser les dommages causés au réseau, ainsi que la robustesse générale du réseau face aux différents types d’attaques. Tous ces résultats suggèrent que les flux commerciaux maritimes suivent une forme de marche aléatoire sur le réseau des connexions maritimes, ce qui fournit la preuve d’une vision nouvelle de la nature des flux commerciaux
Over 70% of the total value of international trade is carried by sea, accounting for 80% of all cargo in terms of volume. In 2016, the UN Secretary General drew attention to the role of maritime transport, describing it as “the backbone of global trade and of the global economy”. Maritime trade flows impact not only the economic development of the concerned regions, but also their ecosystems. Moving ships are an important vector of spread for bioinvasions. Shipping routes are constantly evolving and likely to be affected by the consequences of Climate Change, while at the same time ships are a considerable source of air pollution, with CO2 emissions at a level comparable to Germany, and NOx and SOx emissions comparable to the United States. With the development of Arctic shipping becoming a reality, the need to understand the behavior of this system and to forecast future maritime trade flows reasserts itself. Despite their scope and crucial importance, studies of maritime trade flows on a global scale, based on data and formal methods are scarce, and even fewer studies address the question of their evolution. In this thesis we use a unique database on daily movements of the world fleet between 1977 and 2008 provided by the maritime insurer Lloyd’s in order to build a complex network of maritime trade flows where ports stand for nodes and links are created by ship voyages. In this thesis we perform a data-driven analysis of the maritime trade network. We use tools from Complexity Science and Machine Learning applied on network data to study the network’s properties and develop models for predicting the opening of new shipping lines and for forecasting future trade volume on links. Applying Machine Learning to analyse networked trade flows appears to be a new approach with respect to the state-of-the-art, and required careful selection and customization of existing Machine Learning tools to make them fit networked data on physical flows. The results of the thesis suggest a hypothesis of trade following a random walk on the underlying network structure. [...] Thanks to a natural experiment, involving traffic redirection from the port of Kobe after the 1995 earthquake, we find that the traffic was redirected preferentially to ports which had the highest number of Common Neighbors with Kobe before the cataclysm. Then, by simulating targeted attacks on the maritime trade network, we analyze the best criteria which may serve to maximize the harm done to the network and analyse the overall robustness of the network to different types of attacks. All these results hint that maritime trade flows follow a form of random walk on the network of sea connections, which provides evidence for a novel view on the nature of trade flows
APA, Harvard, Vancouver, ISO, and other styles
24

Matteo, Lionel. "De l’image optique "multi-stéréo" à la topographie très haute résolution et la cartographie automatique des failles par apprentissage profond." Thesis, Université Côte d'Azur, 2020. http://www.theses.fr/2020COAZ4099.

Full text
Abstract:
Les failles sismogéniques sont la source des séismes. L'étude de leurs propriétés nous informe donc sur les caractéristiques des forts séismes qu'elles peuvent produire. Les failles sont des objets 3D qui forment des réseaux complexes incluant une faille principale et une multitude de failles et fractures secondaires qui "découpent" la roche environnante à la faille principale. Mon objectif dans cette thèse a été de développer des approches pour aider à étudier cette fracturation secondaire intense. Pour identifier, cartographier et mesurer les fractures et les failles dans ces réseaux, j'ai adressé deux défis :1) Les failles peuvent former des escarpements topographiques très pentus à la surface du sol, créant des "couloirs" ou des canyons étroits et profond où la topographie et donc, la trace des failles, peut être difficile à mesurer en utilisant des méthodologies standard (comme des acquisitions d'images satellites optiques stéréo et tri-stéréo). Pour répondre à ce défi, j'ai utilisé des acquisitions multi-stéréos avec différentes configurations (différents angles de roulis et tangage, différentes dates et modes d'acquisitions). Notre base de données constituée de 37 images Pléiades dans trois sites tectoniques différents dans l'Ouest américain (Valley of Fire, Nevada ; Granite Dells, Arizona ; Bishop Tuff, California) m'a permis de tester différentes configurations d'acquisitions pour calculer la topographie avec trois approches différentes. En utilisant la solution photogrammétrique open-source Micmac (IGN ; Rupnik et al., 2017), j'ai calculé la topographie sous la forme de Modèles Numériques de Surfaces (MNS) : (i) à partir de combinaisons de 2 à 17 images Pléiades, (ii) en fusionnant des MNS calculés individuellement à partir d'acquisitions stéréo et tri-stéréo, évitant alors l'utilisant d'acquisitions multi-dates et (iii) en fusionnant des nuages de points calculés à partir d'acquisitions tri-stéréos en suivant la méthodologie multi-vues développée par Rupnik et al. (2018). J’ai aussi combiné, dans une dernière approche (iv), des acquisitions tri-stéréos avec la méthodologie multi-vues stéréos du CNES/CMLA (CARS) développé par Michel et al. (2020), en combinant des acquisitions tri-stéréos. A partir de ces quatre approches, j'ai calculé plus de 200 MNS et mes résultats suggèrent que deux acquisitions tri-stéréos ou une acquisition stéréo combinée avec une acquisition tri-stéréo avec des angles de roulis opposés permettent de calculer les MNS avec la surface topographique la plus complète et précise.2) Couramment, les failles sont cartographiées manuellement sur le terrain ou sur des images optiques et des données topographiques en identifiant les traces curvilinéaires qu'elles forment à la surface du sol. Néanmoins, la cartographie manuelle demande beaucoup de temps ce qui limite notre capacité à produire cartographies et des mesures complètes des réseaux de failles. Pour s'affranchir de ce problème, j'ai adopté une approche d'apprentissage profond, couramment appelé un réseau de neurones convolutifs (CNN) - U-Net, pour automatiser l'identification et la cartographie des fractures et des failles dans des images optiques et des données topographiques. Volontairement, le modèle CNN a été entraîné avec une quantité modérée de fractures et failles cartographiées manuellement à basse résolution et dans un seul type d'images optiques (photographies du sol avec des caméras classiques). A partir d'un grand nombre de tests, j'ai sélectionné le meilleur modèle, MRef et démontre sa capacité à prédire des fractures et des failles précisément dans données optiques et topographiques de différents types et différentes résolutions (photographies prises au sol, avec un drone et par satellite). Le modèle MRef montre de bonnes capacités de généralisations faisant alors de ce modèle un bon outil pour cartographie rapidement et précisément des fractures et des failles dans des images optiques et des données topographiques
Seismogenic faults are the source of earthquakes. The study of their properties thus provides information on some of the properties of the large earthquakes they might produce. Faults are 3D features, forming complex networks generally including one master fault and myriads of secondary faults and fractures that intensely dissect the master fault embedding rocks. I aim in my thesis to develop approaches to help studying this intense secondary faulting/fracturing. To identify, map and measure the faults and fractures within dense fault networks, I have handled two challenges:1) Faults generally form steep topographic escarpments at the ground surface that enclose narrow, deep corridors or canyons, where topography, and hence fault traces, are difficult to measure using the available standard methods (such as stereo and tri-stereo of optical satellite images). To address this challenge, I have thus used multi-stéréo acquisitions with different configuration such as different roll and pitch angles, different date of acquisitions and different mode of acquisitions (mono and tri-stéréo). Our dataset amounting 37 Pléiades images in three different tectonic sites within Western USA (Valley of Fire, Nevada; Granite Dells, Arizona; Bishop Tuff, California) allow us to test different configuration of acquisitions to calculate the topography with three different approaches. Using the free open-source software Micmac (IGN ; Rupnik et al., 2017), I have calculated the topography in the form of Digital Surface Models (DSM): (i) with the combination of 2 to 17 Pleiades images, (ii) stacking and merging DSM built from individual stéréo or tri-stéréo acquisitions avoiding the use of multi-dates combinations, (iii) stacking and merging point clouds built from tri-stereo acquisitions following the multiview pipeline developped by Rupnik et al., 2018. We used the recent multiview stereo pipeling CARS (CNES/CMLA) developped by Michel et al., 2020 as a last approach (iv), combnining tri-stereo acquisitions. From the four different approaches, I have thus calculated more than 200 DSM and my results suggest that combining two tri-stéréo acquisitions or one stéréo and one tri-stéréo acquisitions with opposite roll angles leads to the most accurate DSM (with the most complete and precise topography surface).2) Commonly, faults are mapped manually in the field or from optical images and topographic data through the recognition of the specific curvilinear traces they form at the ground surface. However, manual mapping is time-consuming, which limits our capacity to produce complete representations and measurements of the fault networks. To overcome this problem, we have adopted a machine learning approach, namely a U-Net Convolutional Neural Network, to automate the identification and mapping of fractures and faults in optical images and topographic data. Intentionally, we trained the CNN with a moderate amount of manually created fracture and fault maps of low resolution and basic quality, extracted from one type of optical images (standard camera photographs of the ground surface). Based on the results of a number of performance tests, we select the best performing model, MRef, and demonstrate its capacity to predict fractures and faults accurately in image data of various types and resolutions (ground photographs, drone and satellite images and topographic data). The MRef predictions thus enable the statistical analysis of the fault networks. MRef exhibits good generalization capacities, making it a viable tool for fast and accurate extraction of fracture and fault networks from image and topographic data
APA, Harvard, Vancouver, ISO, and other styles
25

Cimmino, Francesco Maria. "Essais sur la création d'une centrale électrique virtuelle pour les petites et moyennes entreprises." Thesis, Aix-Marseille, 2021. http://www.theses.fr/2021AIXM0564.

Full text
Abstract:
Une thèse « d’exercice » fait le pont entre le monde académique et le monde de l’économie. Dans cette thèse, ces deux univers ont été réunis pour pouvoir apporter des solutions aux entreprises suisses qui veulent créer des centrales virtuelles de production (Virtual power plant - VPP). Pour pouvoir affronter le sujet, j’ai commencé la thèse en analysant les aspects législatifs qui ont permis le développement de cette technologie où l’élément le plus important est le « Winter pack » de la Commission européenne sur l’ouverture du marché. Je me suis ensuite concentré sur les explications des développements techniques nécessaires au VPP, qui sont liées aux développements du « smart grid ». La fin de l’introduction de ma thèse explique dans les grandes lignes les différentes théories économiques qui permettent de comprendre la structure des marchés financiers où la valorisation du VPP est possible. Après cette introduction, qui permettra aux lecteurs de se familiariser avec le sujet, il y a trois articles scientifiques dans lesquels j’analyse des questions majeures auxquelles les entreprises sont confrontées dans ce secteur, à savoir la prévision de la demande d’énergie, de la production et des prix du marché secondaire. Les articles ont permis de répondre à ces questions en fournissant des méthodologies de prévision efficientes en comparaison avec la littérature ; en outre, certains de ces modèles sont utilisés par des entreprises. Les méthodologies pour répondre à ces questions sont issues du monde de la finance (ARMA, SETAR, VAR) et du « machine learning » (LSTM, GRU), mais aussi d’autres disciplines comme le marketing (MCA) et la géostatistique (IWD)
A PhD thesis "on the job" is a bridge between the academic and the economic world. In this thesis, these two worlds came together to provide solutions to Swiss companies that want to create virtual power plants (VPP). In order to be able to tackle the subject, I started the thesis by analysing the legislative aspects that have allowed the development of this technology, where the most important element is the "Winter pack" of the European Commission which define common rules to open the energy market. Then I focused on the explanations of the technical developments for the VPP, which are linked to the developments of the "Smart Grid" concept. The end of the introduction of my thesis is a short view on economic theories, which allows the reader to understand the structure of the financial markets where the VPP valuation is possible.After this introduction, which will enable the readers to become familiar with the subject, there are three scientific articles where I have analysed problems that companies are facing in this sector. The forecasting of energy demand, production, and secondary market prices.The articles have helped to address the issues by providing efficient forecasting methodologies in comparison with the literature; in addition, companies use some of these models.The methodologies to answer these issues come from the world of finance (ARMA, SETAR, Var) and machine learning (LSTM, GRU), but also from contributions from other disciplines such as marketing (MCA) and geostatistics (IWD)
APA, Harvard, Vancouver, ISO, and other styles
26

Sheeren, David. "Méthodologie d' évaluation de la cohérence inter-représentations pour l'intégration de bases de données spatiales : une approche combinant l' utilisation de métadonnées et l' apprentissage automatique." Paris 6, 2005. https://tel.archives-ouvertes.fr/tel-00085693.

Full text
APA, Harvard, Vancouver, ISO, and other styles
27

Brédy, Jhemson, and Jhemson Brédy. "Prévision de la profondeur de la nappe phréatique d'un champ de canneberges à l'aide de deux approches de modélisation des arbres de décision." Master's thesis, Université Laval, 2019. http://hdl.handle.net/20.500.11794/37875.

Full text
Abstract:
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
La gestion intégrée de l’eau souterraine constitue un défi majeur pour les activités industrielles, agricoles et domestiques. Dans certains systèmes agricoles, une gestion optimisée de la nappe phréatique représente un facteur important pour améliorer les rendements des cultures et l’utilisation de l'eau. La prévision de la profondeur de la nappe phréatique (PNP) devient l’une des stratégies utiles pour planifier et gérer en temps réel l’eau souterraine. Cette étude propose une approche de modélisation basée sur les arbres de décision pour prédire la PNP en fonction des précipitations, des précédentes PNP et de l'évapotranspiration pour la gestion de l’eau souterraine des champs de canneberges. Premièrement, deux modèles: « Random Forest (RF) » et « Extreme Gradient Boosting (XGB) » ont été paramétrisés et comparés afin de prédirela PNP jusqu'à 48 heures. Deuxièmement, l’importance des variables prédictives a été déterminée pour analyser leur influence sur la simulation de PNP. Les mesures de PNP de trois puits d'observation dans un champ de canneberges, pour la période de croissance du 8 juillet au 30 août 2017, ont été utilisées pour entraîner et valider les modèles. Des statistiques tels que l’erreur quadratique moyenne, le coefficient de détermination et le coefficient d’efficacité de Nash-Sutcliffe sont utilisés pour mesurer la performance des modèles. Les résultats montrent que l'algorithme XGB est plus performant que le modèle RF pour prédire la PNP et est sélectionné comme le modèle optimal. Parmi les variables prédictives, les valeurs précédentes de PNP étaient les plus importantes pour la simulation de PNP, suivie par la précipitation. L’erreur de prédiction du modèle optimal pour la plage de PNP était de ± 5 cm pour les simulations de 1, 12, 24, 36 et 48 heures. Le modèle XGB fournit des informations utiles sur la dynamique de PNP et une simulation rigoureuse pour la gestion de l’irrigation des canneberges.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
Integrated ground water management is a major challenge for industrial, agricultural and domestic activities. In some agricultural production systems, optimized water table management represents a significant factor to improve crop yields and water use. Therefore, predicting water table depth (WTD) becomes an important means to enable real-time planning and management of groundwater resources. This study proposes a decision-tree-based modelling approach for WTD forecasting as a function of precipitation, previous WTD values and evapotranspiration with applications in groundwater resources management for cranberry farming. Firstly, two models-based decision trees, namely Random Forest (RF) and Extrem Gradient Boosting (XGB), were parameterized and compared to predict the WTD up to 48-hours ahead for a cranberry farm located in Québec, Canada. Secondly, the importance of the predictor variables was analyzed to determine their influence on WTD simulation results. WTD measurements at three observation wells within acranberry field, for the growing period from July 8, 2017 to August 30, 2017, were used for training and testing the models. Statistical parameters such as the mean squared error, coefficient of determination and Nash-Sutcliffe efficiency coefficient were used to measure models performance. The results show that the XGB algorithm outperformed the RF model for predictions of WTD and was selected as the optimal model. Among the predictor variables, the antecedent WTD was the most important for water table depth simulation, followed by the precipitation. Base on the most important variables and optimal model, the prediction error for entire WTD range was within ± 5 cm for 1-, 12-, 24-, 26-and 48-hour prediction. The XGB model can provide useful information on the WTD dynamics and a rigorous simulation for irrigation planning and management in cranberry fields.
APA, Harvard, Vancouver, ISO, and other styles
28

Yang, Gen. "Modèles prudents en apprentissage statistique supervisé." Thesis, Compiègne, 2016. http://www.theses.fr/2016COMP2263/document.

Full text
Abstract:
Dans certains champs d’apprentissage supervisé (e.g. diagnostic médical, vision artificielle), les modèles prédictifs sont non seulement évalués sur leur précision mais également sur la capacité à l'obtention d'une représentation plus fiable des données et des connaissances qu'elles induisent, afin d'assister la prise de décisions de manière prudente. C'est la problématique étudiée dans le cadre de cette thèse. Plus spécifiquement, nous avons examiné deux approches existantes de la littérature de l'apprentissage statistique pour rendre les modèles et les prédictions plus prudents et plus fiables: le cadre des probabilités imprécises et l'apprentissage sensible aux coûts. Ces deux domaines visent tous les deux à rendre les modèles d'apprentissage et les inférences plus fiables et plus prudents. Pourtant peu de travaux existants ont tenté de les relier, en raison de problèmes à la fois théorique et pratique. Nos contributions consistent à clarifier et à résoudre ces problèmes. Sur le plan théorique, peu de travaux existants ont abordé la manière de quantifier les différentes erreurs de classification quand des prédictions sous forme d'ensembles sont produites et quand ces erreurs ne se valent pas (en termes de conséquences). Notre première contribution a donc été d'établir des propriétés générales et des lignes directrices permettant la quantification des coûts d'erreurs de classification pour les prédictions sous forme d'ensembles. Ces propriétés nous ont permis de dériver une formule générale, le coût affaiblie généralisé (CAG), qui rend possible la comparaison des classifieurs quelle que soit la forme de leurs prédictions (singleton ou ensemble) en tenant compte d'un paramètre d'aversion à la prudence. Sur le plan pratique, la plupart des classifieurs utilisant les probabilités imprécises ne permettent pas d'intégrer des coûts d'erreurs de classification génériques de manière simple, car la complexité du calcul augmente de magnitude lorsque des coûts non unitaires sont utilisés. Ce problème a mené à notre deuxième contribution, la mise en place d'un classifieur qui permet de gérer les intervalles de probabilités produits par les probabilités imprécises et les coûts d'erreurs génériques avec le même ordre de complexité que dans le cas où les probabilités standards et les coûts unitaires sont utilisés. Il s'agit d'utiliser une technique de décomposition binaire, les dichotomies emboîtées. Les propriétés et les pré-requis de ce classifieur ont été étudiés en détail. Nous avons notamment pu voir que les dichotomies emboîtées sont applicables à tout modèle probabiliste imprécis et permettent de réduire le niveau d'indétermination du modèle imprécis sans perte de pouvoir prédictif. Des expériences variées ont été menées tout au long de la thèse pour appuyer nos contributions. Nous avons caractérisé le comportement du CAG à l’aide des jeux de données ordinales. Ces expériences ont mis en évidence les différences entre un modèle basé sur les probabilités standards pour produire des prédictions indéterminées et un modèle utilisant les probabilités imprécises. Ce dernier est en général plus compétent car il permet de distinguer deux sources d'indétermination (l'ambiguïté et le manque d'informations), même si l'utilisation conjointe de ces deux types de modèles présente également un intérêt particulier dans l'optique d'assister le décideur à améliorer les données ou les classifieurs. De plus, des expériences sur une grande variété de jeux de données ont montré que l'utilisation des dichotomies emboîtées permet d'améliorer significativement le pouvoir prédictif d'un modèle imprécis avec des coûts génériques
In some areas of supervised machine learning (e.g. medical diagnostics, computer vision), predictive models are not only evaluated on their accuracy but also on their ability to obtain more reliable representation of the data and the induced knowledge, in order to allow for cautious decision making. This is the problem we studied in this thesis. Specifically, we examined two existing approaches of the literature to make models and predictions more cautious and more reliable: the framework of imprecise probabilities and the one of cost-sensitive learning. These two areas are both used to make models and inferences more reliable and cautious. Yet few existing studies have attempted to bridge these two frameworks due to both theoretical and practical problems. Our contributions are to clarify and to resolve these problems. Theoretically, few existing studies have addressed how to quantify the different classification errors when set-valued predictions are produced and when the costs of mistakes are not equal (in terms of consequences). Our first contribution has been to establish general properties and guidelines for quantifying the misclassification costs for set-valued predictions. These properties have led us to derive a general formula, that we call the generalized discounted cost (GDC), which allow the comparison of classifiers whatever the form of their predictions (singleton or set-valued) in the light of a risk aversion parameter. Practically, most classifiers basing on imprecise probabilities fail to integrate generic misclassification costs efficiently because the computational complexity increases by an order (or more) of magnitude when non unitary costs are used. This problem has led to our second contribution, the implementation of a classifier that can manage the probability intervals produced by imprecise probabilities and the generic error costs with the same order of complexity as in the case where standard probabilities and unitary costs are used. This is to use a binary decomposition technique, the nested dichotomies. The properties and prerequisites of this technique have been studied in detail. In particular, we saw that the nested dichotomies are applicable to all imprecise probabilistic models and they reduce the imprecision level of imprecise models without loss of predictive power. Various experiments were conducted throughout the thesis to illustrate and support our contributions. We characterized the behavior of the GDC using ordinal data sets. These experiences have highlighted the differences between a model based on standard probability framework to produce indeterminate predictions and a model based on imprecise probabilities. The latter is generally more competent because it distinguishes two sources of uncertainty (ambiguity and the lack of information), even if the combined use of these two types of models is also of particular interest as it can assist the decision-maker to improve the data quality or the classifiers. In addition, experiments conducted on a wide variety of data sets showed that the use of nested dichotomies significantly improves the predictive power of an indeterminate model with generic costs
APA, Harvard, Vancouver, ISO, and other styles
29

Brochero, Darwin. "Hydroinformatics and diversity in hydrological ensemble prediction systems." Thesis, Université Laval, 2013. http://www.theses.ulaval.ca/2013/29908/29908.pdf.

Full text
Abstract:
Nous abordons la prévision probabiliste des débits à partir de deux perspectives basées sur la complémentarité de multiples modèles hydrologiques (diversité). La première exploite une méthodologie hybride basée sur l’évaluation de plusieurs modèles hydrologiques globaux et d’outils d’apprentissage automatique pour la sélection optimale des prédicteurs, alors que la seconde fait recourt à la construction d’ensembles de réseaux de neurones en forçant la diversité. Cette thèse repose sur le concept de la diversité pour développer des méthodologies différentes autour de deux problèmes pouvant être considérés comme complémentaires. La première approche a pour objet la simplification d’un système complexe de prévisions hydrologiques d’ensemble (dont l’acronyme anglais est HEPS) qui dispose de 800 scénarios quotidiens, correspondant à la combinaison d’un modèle de 50 prédictions météorologiques probabilistes et de 16 modèles hydrologiques globaux. Pour la simplification, nous avons exploré quatre techniques: la Linear Correlation Elimination, la Mutual Information, la Backward Greedy Selection et le Nondominated Sorting Genetic Algorithm II (NSGA-II). Nous avons plus particulièrement développé la notion de participation optimale des modèles hydrologiques qui nous renseigne sur le nombre de membres météorologiques représentatifs à utiliser pour chacun des modèles hydrologiques. La seconde approche consiste principalement en la sélection stratifiée des données qui sont à la base de l’élaboration d’un ensemble de réseaux de neurones qui agissent comme autant de prédicteurs. Ainsi, chacun d’entre eux est entraîné avec des entrées tirées de l’application d’une sélection de variables pour différents échantillons stratifiés. Pour cela, nous utilisons la base de données du deuxième et troisième ateliers du projet international MOdel Parameter Estimation eXperiment (MOPEX). En résumé, nous démontrons par ces deux approches que la diversité implicite est efficace dans la configuration d’un HEPS de haute performance.
In this thesis, we tackle the problem of streamflow probabilistic forecasting from two different perspectives based on multiple hydrological models collaboration (diversity). The first one favours a hybrid approach for the evaluation of multiple global hydrological models and tools of machine learning for predictors selection, while the second one constructs Artificial Neural Network (ANN) ensembles, forcing diversity within. This thesis is based on the concept of diversity for developing different methodologies around two complementary problems. The first one focused on simplifying, via members selection, a complex Hydrological Ensemble Prediction System (HEPS) that has 800 daily forecast scenarios originating from the combination of 50 meteorological precipitation members and 16 global hydrological models. We explore in depth four techniques: Linear Correlation Elimination, Mutual Information, Backward Greedy Selection, and Nondominated Sorting Genetic Algorithm II (NSGA-II). We propose the optimal hydrological model participation concept that identifies the number of meteorological representative members to propagate into each hydrological model in the simplified HEPS scheme. The second problem consists in the stratified selection of data patterns that are used for training an ANN ensemble or stack. For instance, taken from the database of the second and third MOdel Parameter Estimation eXperiment (MOPEX) workshops, we promoted an ANN prediction stack in which each predictor is trained on input spaces defined by the Input Variable Selection application on different stratified sub-samples. In summary, we demonstrated that implicit diversity in the configuration of a HEPS is efficient in the search for a HEPS of high performance.
APA, Harvard, Vancouver, ISO, and other styles
30

Cablé, Baptiste. "Vers la gestion de scénarios pour la reconnaissance et l'anticipation de situations dynamiques." Troyes, 2011. http://www.theses.fr/2011TROY0007.

Full text
Abstract:
Cette étude est dédiée à la reconnaissance et l’anticipation des situations dynamiques à des fins d’assistance. Certains outils comme les Modèles de Markov Cachés ou les Réseaux de Petri sont déjà utilisés dans ce contexte mais pour pouvoir fonctionner en temps-réel, le concepteur doit préciser au préalable les différentes situations possibles. Nous proposons un algorithme générique qui acquiert lui-même les connaissances du système dynamique observé. Il s’adapte à l’utilisateur et aux situations rencontrées pour effectuer des prédictions. Nous représentons le déroulement des situations dynamiques sous forme de scénarios. Un scénario correspond à une période temporelle où les évènements ont une influence les uns sur les autres. Il est constitué d’une succession d’états et d’actions sous forme de symboles. Cet algorithme est inspiré du Raisonnement à Partir de Cas. Il a été imaginé et développé dans un souci de rapidité et pour une bonne gestion de l’évolution temporelle. La validation est effectuée par application à deux domaines indépendants. La première consiste à assister l’utilisateur d’un fauteuil roulant électrique. Sans connaissance initiale de l’environnement et après avoir appris les trajets habituellement effectués, l’algorithme décharge l’utilisateur d’une partie des commandes. Dans la seconde application, l’expérience de tous les utilisateurs d’un jeu multi-joueurs est collectée pour assister les joueurs débutants : la prédiction de l’issue du combat en cours leur est indiquée
Our study deals with the problem of recognition and anticipation of dynamic situations for user assistance. Existing tools like Hidden Markov Models or Petri Nets are already used in this context. However, learning this kind of models is complicated and slow. Thus, the de-signer has to specify every model of situation so that the program can work in real-time. Our solution is a generic algorithm which build itself the representation of the dynamic system. It adapts to the user and the situation in order to make predictions. Dynamic situations are modeled by scenarios. A scenario corresponds to a period during which every event has an influence on other. It is made of an ordered series of states and actions in the form of symbols. The algorithm is a kind of Case-Based Reason-ing method but some modifications are made. Representations and computations are oriented towards simplicity and speed. Moreover, the algorithm is suitable for problems which evolve in time. The approach is applied to two distinct fields. The first application consists in assisting the user of a powered wheelchair. Without knowing initially the environment, the algorithm memorizes the usual paths of the user. This knowledge is used to drive automatically the wheelchair during usual paths. The second ap-plication is dedicated to the assistance of novice players in a multi-player online game. Experience of dynamic situations is learned from all the players and is used to predict the consequences of every battle
APA, Harvard, Vancouver, ISO, and other styles
31

Bako, Maria. "Utilisation de l'ordinateur pour le développemnt de la vision spatiale." Toulouse 3, 2006. http://www.theses.fr/2006TOU30041.

Full text
Abstract:
L'objectif principal de notre travail était de déterminer si l'ordinateur peut effectivement aider au développement de la vision spatiale en géométrie, et, si oui, comment il peut le faire. D'abord nous avons analysé si l'ordinateur peut remplacer l'utilisation des maquettes dans l'enseignement. Le but de la première expérience était de comparer la maquette et l'ordinateur, en cherchant les sections planes du cube. L'expérience a montré que ce n'est pas suffisant d'énuméré les solutions. Pour que les résultats soit durables, les élèves doivent travailler sur le problème. En se basent sur ces résultats, nous avons écrit des logiciels qui utilisent des rétroactions perceptives, pour développer la capacité de visualisation, rotation mentale, relations spatiales et orientation (composantes de la vision spatiale). Les logiciels génèrent des exercices au format HTML dynamique. Dans le cas de la rotation mentale nous avons effectué une expérience qui a montré que les résultats des élèves se sont amélioré au fur et à mesure
The aim of this thesis is to decide that the computer programs can help in improvement of spatial intelligence. At first we examined that the computer programs could replace the models in the education, or not. The aim of the first experiment was to compare the result of tests based on programs and models about plane sections. The result indicates that it is not enough to rattle off the solutions, but students need to work up the computer-generated answers to burn into their mind. To improve the student's spatial abilities we prepared several programs to generate different kinds of spatial problems, and correct their answers. The programs generating the tests were written in Javascript and were embedded in the source of the HTML pages, as well the routines of checking. Our experiments show by using these programs the students' results are getting better and better, so we can improve their spatial intelligence, moreover the students like to use computer programs to study spatial geometry
APA, Harvard, Vancouver, ISO, and other styles
32

Cherif, Aymen. "Réseaux de neurones, SVM et approches locales pour la prévision de séries temporelles." Thesis, Tours, 2013. http://www.theses.fr/2013TOUR4003/document.

Full text
Abstract:
La prévision des séries temporelles est un problème qui est traité depuis de nombreuses années. On y trouve des applications dans différents domaines tels que : la finance, la médecine, le transport, etc. Dans cette thèse, on s’est intéressé aux méthodes issues de l’apprentissage artificiel : les réseaux de neurones et les SVM. On s’est également intéressé à l’intérêt des méta-méthodes pour améliorer les performances des prédicteurs, notamment l’approche locale. Dans une optique de diviser pour régner, les approches locales effectuent le clustering des données avant d’affecter les prédicteurs aux sous ensembles obtenus. Nous présentons une modification dans l’algorithme d’apprentissage des réseaux de neurones récurrents afin de les adapter à cette approche. Nous proposons également deux nouvelles techniques de clustering, la première basée sur les cartes de Kohonen et la seconde sur les arbres binaires
Time series forecasting is a widely discussed issue for many years. Researchers from various disciplines have addressed it in several application areas : finance, medical, transportation, etc. In this thesis, we focused on machine learning methods : neural networks and SVM. We have also been interested in the meta-methods to push up the predictor performances, and more specifically the local models. In a divide and conquer strategy, the local models perform a clustering over the data sets before different predictors are affected into each obtained subset. We present in this thesis a new algorithm for recurrent neural networks to use them as local predictors. We also propose two novel clustering techniques suitable for local models. The first is based on Kohonen maps, and the second is based on binary trees
APA, Harvard, Vancouver, ISO, and other styles
33

Ben, Hassine Nesrine. "Machine Learning for Network Resource Management." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLV061.

Full text
Abstract:
Une exploitation intelligente des données qui circulent sur les réseaux pourrait entraîner une amélioration de la qualité d'expérience (QoE) des utilisateurs. Les techniques d'apprentissage automatique offrent des fonctionnalités multiples, ce qui permet d’optimiser l'utilisation des ressources réseau.Dans cette thèse, deux contextes d’application sont étudiés : les réseaux de capteurs sans fil (WSNs) et les réseaux de contenus (CDNs). Dans les WSNs, il s’agit de prédire la qualité des liens sans fil afin d’améliorer la qualité des routes et donc d’augmenter le taux de remise des paquets ce qui améliore la qualité de service offerte à l’utilisateur. Dans les CDNs, il s’agit de prédire la popularité des contenus vidéo afin de mettre en cache les contenus les plus populaires, au plus près des utilisateurs qui les demandent. Ceci contribue à réduire la latence pour satisfaire les requêtes des utilisateurs.Dans ce travail, nous avons orchestré des techniques d’apprentissage issues de deux domaines différents, à savoir les statistiques et le Machine Learning. Chaque technique est représentée par un expert dont les paramètres sont réglés suite à une analyse hors-ligne. Chaque expert est chargé de prédire la prochaine valeur de la métrique. Vu la variété des experts retenus et comme aucun d’entre eux ne domine toujours tous les autres, un deuxième niveau d’expertise est nécessaire pour fournir la meilleure prédiction. Ce deuxième niveau est représenté par un expert particulier, appelé forecaster. Le forecaster est chargé de fournir des prédictions à partir des prédictions fournies par un sous ensemble des meilleurs experts.Plusieurs méthodes d’identification de ce sous ensemble sont étudiées. Elles dépendent de la fonction de perte utilisée pour évaluer les prédictions des experts et du nombre k, représentant les k meilleurs experts. Les tâches d’apprentissage et de prédiction sont effectuées en-ligne sur des data sets réels issus d’un WSN déployé à Stanford et de YouTube pour le CDN. La méthodologie adoptée dans cette thèse s’applique à la prédiction de la prochaine valeur d’une série temporelle.Plus précisément, nous montrons comment dans le contexte WSN, la qualité des liens peut être évaluée par le Link Quality Indicator (LQI) et comment les experts Single Exponential Smoothing (SES) et Average Moving Window (AMW) peuvent prédire la prochaine valeur de LQI. Ces experts réagissent rapidement aux changements des valeurs LQI que ce soit lors d’une brusque baisse de la qualité du lien ou au contraire lors d’une forte augmentation de la qualité. Nous proposons deux forecasters, Exponential Weighted Average (EWA) et Best Expert (BE), et fournissons la combinaison Expert-Forecaster permettant de fournir la meilleure prédiction.Dans le contexte des CDNs, nous évaluons la popularité de chaque contenu vidéo par le nombre journalier de requêtes. Nous utilisons à la fois des experts statistiques (ARMA) et des experts issus du Machine Learning (DES, régression polynômiale). Nous introduisons également des forecasters qui diffèrent par rapport à l’horizon des observations utilisées pour la prédiction, la fonction de perte et le nombre d’experts utilisés. Ces prédictions permettent de décider quels contenus seront placés dans les caches proches des utilisateurs. L’efficacité de la technique de caching basée sur la prédiction de la popularité est évaluée en termes de hit ratio et d’update ratio. Nous mettons en évidence les apports de cette technique de caching par rapport à un algorithme de caching classique, Least Frequently Used (LFU).Cette thèse se termine par des recommandations concernant l’utilisation des techniques d’apprentissage en ligne et hors-ligne pour les réseaux (WSN, CDN). Au niveau des perspectives, nous proposons différentes applications où l’utilisation de ces techniques permettrait d’améliorer la qualité d’expérience des utilisateurs mobiles ou des utilisateurs des réseaux IoT
An intelligent exploitation of data carried on telecom networks could lead to a very significant improvement in the quality of experience (QoE) for the users. Machine Learning techniques offer multiple operating, which can help optimize the utilization of network resources.In this thesis, two contexts of application of the learning techniques are studied: Wireless Sensor Networks (WSNs) and Content Delivery Networks (CDNs). In WSNs, the question is how to predict the quality of the wireless links in order to improve the quality of the routes and thus increase the packet delivery rate, which enhances the quality of service offered to the user. In CDNs, it is a matter of predicting the popularity of videos in order to cache the most popular ones as close as possible to the users who request them, thereby reducing latency to fulfill user requests.In this work, we have drawn upon learning techniques from two different domains, namely statistics and Machine Learning. Each learning technique is represented by an expert whose parameters are tuned after an off-line analysis. Each expert is responsible for predicting the next metric value (i.e. popularity for videos in CDNs, quality of the wireless link for WSNs). The accuracy of the prediction is evaluated by a loss function, which must be minimized. Given the variety of experts selected, and since none of them always takes precedence over all the others, a second level of expertise is needed to provide the best prediction (the one that is the closest to the real value and thus minimizes a loss function). This second level is represented by a special expert, called a forecaster. The forecaster provides predictions based on values predicted by a subset of the best experts.Several methods are studied to identify this subset of best experts. They are based on the loss functions used to evaluate the experts' predictions and the value k, representing the k best experts. The learning and prediction tasks are performed on-line on real data sets from a real WSN deployed at Stanford, and from YouTube for the CDN. The methodology adopted in this thesis is applied to predicting the next value in a series of values.More precisely, we show how the quality of the links can be evaluated by the Link Quality Indicator (LQI) in the WSN context and how the Single Exponential Smoothing (SES) and Average Moving Window (AMW) experts can predict the next LQI value. These experts react quickly to changes in LQI values, whether it be a sudden drop in the quality of the link or a sharp increase in quality. We propose two forecasters, Exponential Weighted Average (EWA) and Best Expert (BE), as well as the Expert-Forecaster combination to provide better predictions.In the context of CDNs, we evaluate the popularity of each video by the number of requests for this video per day. We use both statistical experts (ARMA) and experts from the Machine Learning domain (e.g. DES, polynomial regression). These experts are evaluated according to different loss functions. We also introduce forecasters that differ in terms of the observation horizon used for prediction, loss function and number of experts selected for predictions. These predictions help decide which videos will be placed in the caches close to the users. The efficiency of the caching technique based on popularity prediction is evaluated in terms of hit rate and update rate. We highlight the contributions of this caching technique compared to a classical caching algorithm, Least Frequently Used (LFU).This thesis ends with recommendations for the use of online and offline learning techniques for networks (WSN, CDN). As perspectives, we propose different applications where the use of these techniques would improve the quality of experience for mobile users (cellular networks) or users of IoT (Internet of Things) networks, based, for instance, on Time Slotted Channel Hopping (TSCH)
APA, Harvard, Vancouver, ISO, and other styles
34

Neumann, Andreas. "Introduction d'outils de l'intelligence artificielle dans la prévision de pluie par radar." Phd thesis, Ecole Nationale des Ponts et Chaussées, 1991. http://tel.archives-ouvertes.fr/tel-00520834.

Full text
Abstract:
L'objectif de l'étude présentée est le développement d'un système de prévision de pluie par radar, qui est adapté aux besoins de l'hydrologie urbaine. Un système automatisé structuré, baptisé PROPHETIA, est présenté, dont le fonctionnement est basé sur l'observation des cellules de pluie. L'algorithme de PROPHETIA de prévision de pluie à partir d'une série d'images (I1 In), mesurées aux instants t1 tn, comprend quatre étapes: - identification et description des échos des cellules sur l'image actuelle In - appariement des cellules observées sur les images I1 In avec les échos sur l'image In - caractérisation des cellules dans l'intervalle (t1, tn) - prévision de pluie par extrapolation des caractéristiques dans l'avenir. Une technique de seuillage est appliquée pour l'identification des cellules. Pour leur appariement sur des images successives, une base de règles sous la forme d'un arbre de décision a été constituée par apprentissage automatique à partir d'exemples, qui ont été définis manuellement. La très bonne performance de la base de règles est mise en évidence par la comparaison avec les appariements manuels. La prévision de PROPHETIA repose dans un premier temps sur la seule caractéristique de l'advection des cellules. Les résultats de cette prévision sont analysés selon un nouveau critère hydrologique, baptisé TMP. La qualité atteinte par PROPHETIA est comparée à celle d'autres systèmes de prévision. PROPHETIA est surtout plus performant pour les pluies convectives. L'examen détaillé des erreurs de la prévision par PROPHETIA a révélé que leur origine provient de l'hypothèse d'absence de développement des cellules à l'horizon de la prévision. L'étude des facteurs influant sur le développement des cellules a mené à la proposition d'un modèle des cellules reliant le développement aux masses d'air alimentant la cellule. La localisation du développement des cellules de pluie convective de la base de données est possible et apporterait un gain de prévision si le taux de ce développement pouvait être prédit, comme cela a été démontré pour un échantillon de 12 pluies convectives. Or celui-ci dépend manifestement, comme l'étude des cycles de vie de quelques cellules l'a montré, de la possibilité de caractériser correctement les secteurs géographiques d'influence très différente sur la convection : une meilleure caractérisation de ces secteurs devrait être l'objectif qui suivrait celle-ci.
APA, Harvard, Vancouver, ISO, and other styles
35

Caigny, Arno de. "Innovation in customer scoring for the financial services industry." Thesis, Lille, 2019. http://www.theses.fr/2019LIL1A011.

Full text
Abstract:
Cette thèse améliore la notation des clients. L’évaluation des clients est importante pour les entreprises dans leurs processus de prise de décision parce qu'elle aide à résoudre des problèmes de gestion clés tels que le choix des clients à cibler pour une campagne de marketing ou l'analyse des clients qui sont susceptibles de quitter l'entreprise. La recherche effectuée dans le cadre de cette thèse apporte plusieurs contributions dans trois domaines de la littérature sur la notation des clients. Premièrement, de nouvelles sources de données sont utilisées pour évaluer les clients. Deuxièmement, la méthodologie pour passer des données aux décisions est améliorée. Troisièmement, la prédiction des événements courants du client est proposée comme une nouvelle application de la notation des clients. Tous les résultats présentés dans cette thèse sont issus de données réelles et sont non seulement d'une grande valeur académique, mais aussi d'une grande pertinence commerciale
This dissertation improves customer scoring. Customer scoring is important for companies in their decision making processes because it helps to solve key managerial issues such as the decision of which customers to target for a marketing campaign or the assessment of customer that are likely to leave the company. The research in this dissertation makes several contributions in three areas of the customer scoring literature. First, new sources of data are used to score customers. Second, methodology to go from data to decisions is improved. Third, customer life event prediction is proposed as a new application of customer scoring
APA, Harvard, Vancouver, ISO, and other styles
36

Gerchinovitz, Sébastien. "Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation." Phd thesis, Université Paris Sud - Paris XI, 2011. http://tel.archives-ouvertes.fr/tel-00653550.

Full text
Abstract:
Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique.
APA, Harvard, Vancouver, ISO, and other styles
37

Lam, Chi-Nguyen. "Méthodes de Machine Learning pour le suivi de l'occupation du sol des deltas du Viêt-Nam." Thesis, Brest, 2021. http://www.theses.fr/2021BRES0074.

Full text
Abstract:
Le développement socio-économique au Vietnam est associé à l'existence des grands deltas fluviaux. En outre, les facteurs environnementaux tels que la sécheresse et l’inondation jouent un rôle important dans le changement de l’occupation du sol au niveau de ces deltas. Ces changements ne sont pas sans impact sur l’équilibre naturel et économique du pays. Dans cette optique, cette thèse a pour objectifs de proposer des méthodes de traitement des données satellites pour une cartographie et suivi efficaces de l’occupation du sol au niveau des deux principaux deltas du Viêt- Nam, fleuve rouge et du Mékong. En effet, un travail expérimental a été effectué en vérifiant et évaluant l’apport du traitement d’images multi-capteurs par de nombreuses approches de segmentation d’image et d’apprentissage automatique peu profond et profond. Ainsi, un modèle de Convolutional Neural Network (CNN) adapté au contexte de l’étude, a démontré sa robustesse pour la détection et la cartographie de l’occupation du sol afin de caractériser l’aléa de l’inondation et d’analyser les enjeux
Socio-economic development in Vietnam is associated with the existence of large fluvial deltas. Furthermore, environmental factors such as dryness and flooding have an important role in the change of land use/land cover within these deltas. These changes have an impact on the natural and economic balance of the country. In this perspective, the objectives of the present thesis are to suggest processing methods of satellite data for an efficient mapping and monitoring of land use in the two main deltas of Vietnam, the Red River and the Mekong Delta. Indeed, experimental work has been carried out by verifying and evaluating the contribution of multi-sensor image processing through various image segmentation approaches and machine/deep learning algorithms. Thus, a Convolutional Neural Network (CNN) model adapted to the context of the study demonstrated its robustness for the detection and mapping of land use in order to characterise the flood hazard and analyse the issues at risk
APA, Harvard, Vancouver, ISO, and other styles
38

Thomas, Julien. "Apprentissage supervisé de données déséquilibrées par forêt aléatoire." Thesis, Lyon 2, 2009. http://www.theses.fr/2009LYO22004/document.

Full text
Abstract:
La problématique des jeux de données déséquilibrées en apprentissage supervisé est apparue relativement récemment, dès lors que le data mining est devenu une technologie amplement utilisée dans l'industrie. Le but de nos travaux est d'adapter différents éléments de l'apprentissage supervisé à cette problématique. Nous cherchons également à répondre aux exigences spécifiques de performances souvent liées aux problèmes de données déséquilibrées. Ce besoin se retrouve dans notre application principale, la mise au point d'un logiciel d'aide à la détection des cancers du sein.Pour cela, nous proposons de nouvelles méthodes modifiant trois différentes étapes d'un processus d'apprentissage. Tout d'abord au niveau de l'échantillonnage, nous proposons lors de l'utilisation d'un bagging, de remplacer le bootstrap classique par un échantillonnage dirigé. Nos techniques FUNSS et LARSS utilisent des propriétés de voisinage pour la sélection des individus. Ensuite au niveau de l'espace de représentation, notre contribution consiste en une méthode de construction de variables adaptées aux jeux de données déséquilibrées. Cette méthode, l'algorithme FuFeFa, est basée sur la découverte de règles d'association prédictives. Enfin, lors de l'étape d'agrégation des classifieurs de base d'un bagging, nous proposons d'optimiser le vote à la majorité en le pondérant. Pour ce faire nous avons mis en place une nouvelle mesure quantitative d'évaluation des performances d'un modèle, PRAGMA, qui permet la prise en considération de besoins spécifiques de l'utilisateur vis-à-vis des taux de rappel et de précision de chaque classe
The problem of imbalanced datasets in supervised learning has emerged relatively recently, since the data mining has become a technology widely used in industry. The assisted medical diagnosis, the detection of fraud, abnormal phenomena, or specific elements on satellite imagery, are examples of industrial applications based on supervised learning of imbalanced datasets. The goal of our work is to bring supervised learning process on this issue. We also try to give an answer about the specific requirements of performance often related to the problem of imbalanced datasets, such as a high recall rate for the minority class. This need is reflected in our main application, the development of software to help radiologist in the detection of breast cancer. For this, we propose new methods of amending three different stages of a learning process. First in the sampling stage, we propose in the case of a bagging, to replaced classic bootstrap sampling by a guided sampling. Our techniques, FUNSS and LARSS use neighbourhood properties for the selection of objects. Secondly, for the representation space, our contribution is a method of variables construction adapted to imbalanced datasets. This method, the algorithm FuFeFa, is based on the discovery of predictive association rules. Finally, at the stage of aggregation of base classifiers of a bagging, we propose to optimize the majority vote in using weightings. For this, we have introduced a new quantitative measure of model assessment, PRAGMA, which allows taking into account user specific needs about recall and precision rates of each class
APA, Harvard, Vancouver, ISO, and other styles
39

Fernandez, Tamayo Borja. "L'importance des données textuelles dans le Capital Privé. Prévision des rendements des fonds, grâce à l'intelligence artificielle, à partir des documents envoyés par les gestionnaires de fonds pre et post investissement." Thesis, Université Côte d'Azur, 2022. http://theses.univ-cotedazur.fr/2022COAZ0033.

Full text
Abstract:
Les actifs sous gestion du marché privée sont passés de moins de 1 000 milliards en 2004 à plus de 10 000 milliards en 2021. Ce marché est dominé par des investisseurs institutionnels qui consacrent de nombreuses ressources à la sélection et au suivi des investissements. Les investisseurs reçoivent un Private Placement Memorandum (PPM), qui définit l'offre de fonds aux investisseurs. La littérature antérieure se limite aux informations quantitatives disponibles dans le PPM. Après avoir investi dans un fonds, les investisseurs (LP) reçoivent des rapports réguliers des managers (GP) qui investissent au nom des LPs. Ces rapports comprennent des informations quantitatives et une lettre décrivant le développement du portefeuille. Cette étude examine l'importance du texte détaillant les approches d'investissement dans le PPM (chapitres 1 et 2) et de la lettre aux investisseurs (chapitre 3) pour expliquer la performance des fonds et la vitesse de levée de fonds. Le chapitre 1 examine la relation entre la lisibilité de l'approche d'investissement et la performance des fonds avec 373 PPM. Nous utilisons plusieurs mesures de lisibilité suggérées par la littérature antérieure pour évaluer la lisibilité des approches d'investissement. Conformément au l'hypothèse de « Management obfuscation », nous établissons un lien négatif entre l'approche d'investissement et les rendements du fonds pour les GPs ayant une mauvaise performance au moment de la levée de fonds d'un nouveau fonds. Cet effet résiste à plusieurs mesures de la qualité de le performance antérieure. Nous examinons l'association entre la lisibilité de l'approche d'investissement et la vitesse de levée de fonds. On trouve que l'approche d'investissement n'est pas liée à la vitesse de levée de fonds. Nos conclusions impliquent que les investisseurs fondent leurs décisions d'investissement sur des informations quantitatives.Le chapitre 2 analyse le potentiel de la combinaison des approches de traitement du langage naturel (NLP) et d'apprentissage automatique pour sélectionner et désélectionner des fonds en fonction de l'approche d'investissement. Nous utilisons NLP pour convertir l'approche d'investissement en vecteurs numériques. Ensuite, nous formons des modèles d'apprentissage automatique avec des fonds levés avant 2012. Enfin, nous testons la capacité des algorithmes à prédire la performance des fonds 2012-2014. Nos modèles d'apprentissage automatique sont précis à 60 %. Cela signifie que les algorithmes classent 60 % des fonds non formés comme surperformant ou sous-performant.Ces taux de précision sont robustes lors du backtesting des modèles avec des fonds levés avant 2008 et après 2011. Après avoir contrôlé les autres facteurs de performance des fonds, nous trouvons une relation positive entre la probabilité de succès prédite par l'algorithme et les rendements des fonds. Enfin, nous montrons que l'utilisation d'algorithmes d'apprentissage automatique pour sélectionner les GPs génère des rendements supérieurs.Le chapitre 3 examine le lien entre le sentiment managérial dans les lettres aux investisseurs et les rendements des fonds. Nous recueillons le sentiment de GP avec FinBERT, un algorithme basé sur un réseau de neurones formé pour évaluer le sentiment d'une phrase. Nous examinons ensuite si le sentiment managérial prédit les rendements futurs des fonds. Nos données révèlent que le sentiment managérial est associé aux retours deux ans après l'émission d'une lettre. Enfin, comme les GPs ont besoin d'un nouveau fonds pour continuer à investir et à percevoir des honoraires, nous examinons le sentiment du GP lorsqu'il lève un nouveau fonds. Nous constatons que les GPs avec de mauvaises performances et une faible réputation à risque utilisent un sentiment anormalement positif lorsqu'ils tentent de lever des fonds pour un nouveau fonds, ce qui suggère que ces GPs gonflent leur sentiment de manière opportuniste pour assurer une levée de fonds réussie
Private equity AUM rose from less than 1 trillion in 2004 to over 10 trillion in 2021. This large market is dominated by institutional investors who spend many resources on investment selection and monitoring. Investors receive a Private Placement Memorandums (PPM), which defines the fund offering to investors. Previous literature is limited to quantitative information such as the track record and manager's experience available in the PPM. After investing in a fund, Limited Partners (LP) receive regular updates from General Partners (GPs) who invest on behalf of LPs. These reports include quantitative information and a letter describing the funds' investing, value creation, and exiting investments. While the quantitative information of these reports and its association with future fund returns has been explored thoroughly, the qualitative content in the letter has not. This study examines the importance of the PPM text detailing investing approaches (Chapters 1 and 2) and the investor letter (Chapter 3) in explaining fund performance and fundraising success. Chapter 1 examines the relationship between investment approach readability and fund returns using 373 PPMs. We use several readability measures suggested by accounting and finance literature to evaluate the readability of the investment approach descriptions. In line with the management obfuscation hypothesis, we establish a negative link between the investment approach description and fund returns for fund managers with bad performance at the time of a new fund's fundraising. This effect is resilient to multiple measures of track record quality. We examine the association between the readability of the investment approach description and the number of days needed to reach the final fund closing (fundraising speed). Our data imply that the investment approach's readability is not linked with fundraising speed, in line with the intuition that investors don't use the textual information in PPMs to select funds. Our findings imply investors base investment decisions on quantitative information, mainly the GP's track record.Chapter 2 analyzes the potential of combining Natural Language Processing (NLP) and machine learning approaches to select and deselect funds based on the investment approach description. First, we use NLP to convert the investment approach description into numerical vectors as forecasting regressors. Then, we train machine learning models with funds raised before 2012. Finally, we test the algorithms' ability to predict 2012-2014 fund performance (i.e., not used to train the algorithms). Our machine learning models are 60% accurate. This means algorithms classify 60% of non-trained funds as outperformers or underperformers.These accuracy rates are robust when backtesting models with funds raised before 2008 and after 2011. After controlling for other fund performance factors, we find a positive relationship between algorithm-predicted probability of success and fund returns. Finally, we show that using machine learning algorithms to select fund managers generates higher returns.Chapter 3 examines the link between managerial tone in investor letters and fund returns. We gather GP's sentiment with FinBERT, a neural network-based system trained to assess the sentiment of a sentence. We then explore whether managerial tone predicts future fund returns. Our data reveal that managerial tone is associated with the returns two years after a letter is issued. Finally, because managers need a new fund to continue investing and earning fees, we examine the GP's tone when raising a new fund. We find that managers with bad performance and low reputation at risk (i.e., young managers) employ an excessively optimistic tone while raising a new fund, suggesting they inflate their tone to secure successful fundraising. This finding proves the presence of agency costs between fund managers and investors due to information asymmetries
APA, Harvard, Vancouver, ISO, and other styles
40

Çinar, Yagmur Gizem. "Prédiction de séquences basée sur des réseaux de neurones récurrents dans le contexte des séries temporelles et des sessions de recherche d'information." Thesis, Université Grenoble Alpes (ComUE), 2019. http://www.theses.fr/2019GREAM079.

Full text
Abstract:
Cette thèse examine les défis de la prédiction de séquence dans différents scénarios, tels que la prédiction de séquence à l'aide de réseaux de neurones récurrents (RNN) dans le contexte des séries temporelles et des sessions de recherche d'informations (RI). Prédire les valeurs inconnues suivant certaines valeurs précédemment observées est appelée prédiction de séquence. Elle est largement applicable à de nombreux domaines où un comportement séquentiel est observé dans les données. Dans cette étude, nous nous concentrons sur deux tâches de prédiction de séquences: la prévision de séries temporelles et la prédiction de la requête suivante dans une session de recherche d'informations.Les séries temporelles comprennent souvent des pseudo-périodes, c'est-à-dire des intervalles de temps avec une forte corrélation entre les valeurs des séries temporelles. Les changements saisonniers dans les séries temporelles météorologiques ou la consommation d'électricité le jour et la nuit sont quelques exemples de pseudo-périodes. Dans un scénario de prévision, les pseudo-périodes correspondent à la différence entre les positions de la sortie prévue et les entrées spécifiques. Afin de capturer des périodes dans des RNN, une mémoire de la séquence d'entrée est requise. Les RNN séquence à séquence (avec mécanisme d'attention) réutilisent des (représentations des) valeurs d'entrée spécifiques pour prédire les valeurs de sortie. Les RNN séquence à séquence avec un mécanisme d'attention semblent convenir à la capture de périodes. Ainsi, nous explorons d’abord la capacité d’un mécanisme d’attention dans ce contexte. Cependant, selon notre analyse initiale, un mécanisme d’attention standard ne permet pas de capturer les périodes. Par conséquent, nous proposons un modèle RNN d’attention basé sur le contenu et sensible à la période. Ce modèle étend les RNN séquence à séquence de l'état de l'art avec un mécanisme d’attention. Il vise à capturer les périodes dans une série temporelle avec ou sans valeurs manquantes. Nos résultats expérimentaux avec des RNN contenant un mécanisme d'attention basé sur le contenu et sensible à la période montrent une amélioration significative des performances de prévision des séries temporelles univariées et multivariées sur plusieurs ensembles de données disponibles publiquement.La prédiction de la requête suivante est un autre défi de la prédiction de séquence. La prédiction de la requête suivante aide les utilisateurs à désambiguïser leur requête, à explorer différents aspects de leur besoin en information ou à former une requête précise et succincte qui permet d’optimiser les performances de la recherche. Une session de recherche est dynamique et les besoins en informations d'un utilisateur peuvent changer au cours d'une session de recherche à la suite des interactions de recherche. De plus, les interactions d'un utilisateur avec un moteur de recherche influencent les reformulations de requêtes de l'utilisateur. Considérant cette influence sur les formulations de requête, nous analysons d’abord l’origine des mots des requêtes suivantes. En utilisant l’analyse des sources des mots de requête, nous proposons deux approches de prédiction de requête: une vue d'ensemble et une vue de séquence. La vue d'ensemble adapte une approche de sac de mots en utilisant un nouvel ensemble de traits définis en fonction des sources d'analyse des mots des requêtes suivantes. Ici, la prochaine requête est prédite en utilisant un apprentissage de classification. La vue de séquence étend un modèle RNN hiérarchique en prenant en compte les sources des mots des requêtes suivantes dans la prédiction. Les sources des mots des requêtes suivantes sont incorporées à l'aide d'un mécanisme d'attention sur les mots d'interaction. Nous avons observé que l’utilisation de l’approche séquentielle, une formulation naturelle du problème, et l’exploitation de toutes les sources des mots permettent d’améliorer la prédiction des requêtes suivantes
This thesis investigates challenges of sequence prediction in different scenarios such as sequence prediction using recurrent neural networks (RNNs) in the context of time series and information retrieval (IR) search sessions. Predicting the unknown values that follow some previously observed values is basically called sequence prediction.It is widely applicable to many domains where a sequential behavior is observed in the data. In this study, we focus on two different types of sequence prediction tasks: time series forecasting and next query prediction in an information retrieval search session.Time series often display pseudo-periods, i.e. time intervals with strong correlation between values of time series. Seasonal changes in weather time series or electricity usage at day and night time are some examples of pseudo-periods. In a forecasting scenario, pseudo-periods correspond to the difference between the positions of the output being predicted and specific inputs.In order to capture periods in RNNs, one needs a memory of the input sequence. Sequence-to-sequence RNNs (with attention mechanism) reuse specific (representations of) input values to predict output values. Sequence-to-sequence RNNs with an attention mechanism seem to be adequate for capturing periods. In this manner, we first explore the capability of an attention mechanism in that context. However, according to our initial analysis, a standard attention mechanism did not perform well to capture the periods. Therefore, we propose a period-aware content-based attention RNN model. This model is an extension of state-of-the-art sequence-to-sequence RNNs with attention mechanism and it is aimed to capture the periods in time series with or without missing values.Our experimental results with period-aware content-based attention RNNs show significant improvement on univariate and multivariate time series forecasting performance on several publicly available data sets.Another challenge in sequence prediction is the next query prediction. The next query prediction helps users to disambiguate their search query, to explore different aspects of the information they need or to form a precise and succint query that leads to higher retrieval performance. A search session is dynamic, and the information need of a user might change over a search session as a result of the search interactions. Furthermore, interactions of a user with a search engine influence the user's query reformulations. Considering this influence on the query formulations, we first analyze where the next query words come from? Using the analysis of the sources of query words, we propose two next query prediction approaches: a set view and a sequence view.The set view adapts a bag-of-words approach using a novel feature set defined based on the sources of next query words analysis. Here, the next query is predicted using learning to rank. The sequence view extends a hierarchical RNN model by considering the sources of next query words in the prediction. The sources of next query words are incorporated by using an attention mechanism on the interaction words. We have observed using sequence approach, a natural formulation of the problem, and exploiting all sources of evidence lead to better next query prediction
APA, Harvard, Vancouver, ISO, and other styles
41

Faouzi, Johann. "Machine learning to predict impulse control disorders in Parkinson's disease." Electronic Thesis or Diss., Sorbonne université, 2020. http://www.theses.fr/2020SORUS048.

Full text
Abstract:
Les troubles du contrôle de l'impulsivité sont une classe de troubles psychiatriques caractérisés par des difficultés dans la maîtrise de ses émotions, pensées et comportements. Ces troubles sont courants dans la maladie de Parkinson et associés à une baisse de la qualité de vie des patients ainsi qu'à une augmentation de la charge des aidants. Pouvoir prédire quels sont les sujets les plus à risque de développer ces troubles et quand ces troubles apparaissent est de grande importance. L'objectif de cette thèse est d'étudier les troubles du contrôle de l'impulsivité dans la maladie de Parkinson à partir des approches statistique et de l'apprentissage automatique, et se divise en deux parties. La première partie consiste à analyser la performance prédictive de l'ensemble des facteurs associés à ces troubles dans la littérature. La seconde partie consiste à étudier l'association et l'utilité d'autres facteurs, en particulier des données génétiques, pour améliorer la performance prédictive
Impulse control disorders are a class of psychiatric disorders characterized by impulsivity. These disorders are common during the course of Parkinson's disease, decrease the quality of life of subjects, and increase caregiver burden. Being able to predict which individuals are at higher risk of developing these disorders and when is of high importance. The objective of this thesis is to study impulse control disorders in Parkinson's disease from the statistical and machine learning points of view, and can be divided into two parts. The first part consists in investigating the predictive performance of the altogether factors associated with these disorders in the literature. The second part consists in studying the association and the usefulness of other factors, in particular genetic data, to improve the predictive performance
APA, Harvard, Vancouver, ISO, and other styles
42

Alaoui, Ismaili Oumaima. "Clustering prédictif Décrire et prédire simultanément." Thesis, Université Paris-Saclay (ComUE), 2016. http://www.theses.fr/2016SACLA010.

Full text
Abstract:
Le clustering prédictif est un nouvel aspect d’apprentissage supervisé dérivé du clustering standard. Les algorithmes appartenant à ce type de l’apprentissage cherchent à décrire et à prédire d’une manière simultanée. Il s’agit de découvrir la structure interne d’une variable cible. Puis munis de cette structure, de prédire la classe des nouvelles instances.Pour atteindre l’objectif de la thèse qui est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée, nous avons choisi de modifier l’algorithme des K-moyennes standard. Cette version modifiée est nommée les K-moyennes prédictives. Elle contient 7 différentes étapes dont chacune peut être supervisée indépendamment des autres.Au cours de cette thèse, nous nous intéressons à la supervision de quatre étapes, à savoir : 1) le prétraitement des données, 2) l’initialisation des centres, 3) le choix de la meilleure partition et 4) la mesure d’importance des variables.Nos résultats expérimentaux montrent d’une part qu’avec la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres, l’algorithme des K-moyennes prédictives parvient à avoir des performances très compétitives ou meilleures que celles obtenues par certains algorithmes de clustering prédictif.D’autre part, ces résultats expérimentaux mettent l’accent sur la capacité de nos méthodes de prétraitement à aider l’algorithme des K-moyennes prédictives à fournir des résultats facilement interprétables par l’utilisateur.Nous montrons enfin dans ce mémoire qu’avec l’aide du critère d’évaluation proposé dans cette thèse, l’algorithme des K-moyennes prédictives parvient à sélectionner la partition optimale qui réalise le bon compromis entre la description et la prédiction. Ceci permet à l’utilisateur de découvrir les différentes raisons qui peuvent mener à une même prédiction
Predictive clustering is a new supervised learning framework derived from traditional clustering. This new framework allows to describe and to predict simultaneously. Compared to a classical supervised learning, predictive clsutering algorithms seek to discover the internal structure of the target class in order to use it for predicting the class of new instances.The purpose of this thesis is to look for an interpretable model of predictive clustering. To acheive this objective, we choose to modified traditional K-means algorithm. This new modified version is called predictive K-means. It contains 7 differents steps, each of which can be supervised seperatly from the others. In this thesis, we only deal four steps : 1) data preprocessing, 2) initialization of centers, 3) selecting of the best partition, and 4) importance of features.Our experimental results show that the use of just two supervised steps (data preprocessing and initialization of centers), allow the K-means algorithm to acheive competitive performances with some others predictive clustering algorithms.These results show also that our preprocessing methods can help predictive K-means algorithm to provide results easily comprehensible by users. We are also showing in this thesis that the use of our new measure to evaluate predictive clustering quality, helps our predictive K-means algorithm to find the optimal partition that establishes the best trade-off between description and prediction. It thus allows users to find the different reasons behind the same prediction : two differents instances could have the same predicted label
APA, Harvard, Vancouver, ISO, and other styles
43

Brégère, Margaux. "Stochastic bandit algorithms for demand side management Simulating Tariff Impact in Electrical Energy Consumption Profiles with Conditional Variational Autoencoders Online Hierarchical Forecasting for Power Consumption Data Target Tracking for Contextual Bandits : Application to Demand Side Management." Thesis, université Paris-Saclay, 2020. http://www.theses.fr/2020UPASM022.

Full text
Abstract:
L'électricité se stockant difficilement à grande échelle, l'équilibre entre la production et la consommation doit être rigoureusement maintenu. Une gestion par anticipation de la demande se complexifie avec l'intégration au mix de production des énergies renouvelables intermittentes. Parallèlement, le déploiement des compteurs communicants permet d'envisager un pilotage dynamique de la consommation électrique. Plus concrètement, l'envoi de signaux - tels que des changements du prix de l'électricité – permettrait d'inciter les usagers à moduler leur consommation afin qu'elle s'ajuste au mieux à la production d'électricité. Les algorithmes choisissant ces signaux devront apprendre la réaction des consommateurs face aux envois tout en les optimisant (compromis exploration-exploitation). Notre approche, fondée sur la théorie des bandits, a permis de formaliser ce problème d'apprentissage séquentiel et de proposer un premier algorithme pour piloter la demande électrique d'une population homogène de consommateurs. Une borne supérieure d'ordre T⅔ a été obtenue sur le regret de cet algorithme. Des expériences réalisées sur des données de consommation de foyers soumis à des changements dynamiques du prix de l'électricité illustrent ce résultat théorique. Un jeu de données en « information complète » étant nécessaire pour tester un algorithme de bandits, un simulateur de données de consommation fondé sur les auto-encodeurs variationnels a ensuite été construit. Afin de s'affranchir de l'hypothèse d'homogénéité de la population, une approche pour segmenter les foyers en fonction de leurs habitudes de consommation est aussi proposée. Ces différents travaux sont finalement combinés pour proposer et tester des algorithmes de bandits pour un pilotage personnalisé de la consommation électrique
As electricity is hard to store, the balance between production and consumption must be strictly maintained. With the integration of intermittent renewable energies into the production mix, the management of the balance becomes complex. At the same time, the deployment of smart meters suggests demand response. More precisely, sending signals - such as changes in the price of electricity - would encourage users to modulate their consumption according to the production of electricity. The algorithms used to choose these signals have to learn consumer reactions and, in the same time, to optimize them (exploration-exploration trade-off). Our approach is based on bandit theory and formalizes this sequential learning problem. We propose a first algorithm to control the electrical demand of a homogeneous population of consumers and offer T⅔ upper bound on its regret. Experiments on a real data set in which price incentives were offered illustrate these theoretical results. As a “full information” dataset is required to test bandit algorithms, a consumption data generator based on variational autoencoders is built. In order to drop the assumption of the population homogeneity, we propose an approach to cluster households according to their consumption profile. These different works are finally combined to propose and test a bandit algorithm for personalized demand side management
APA, Harvard, Vancouver, ISO, and other styles
44

El, Garrab Hamza. "Amélioration de la chaine logistique de pièces de rechange en boucle fermée : application des modèles d’apprentissage." Thesis, Angers, 2020. http://www.theses.fr/2020ANGE0019.

Full text
Abstract:
Dans le domaine de service après-vente et particulièrement dans la maintenance, l’intervention rapide et la réparation du bien du client est un élément clé pour sa satisfaction et pour la création de l’image de marque dans le marché. Le travail présenté dans cette thèse propose une approche Big Data et Machine Learning pour l’amélioration du flux informationnel de la chaine logistique de pièces de rechange. Notre contribution se focalise sur la prévision de la charge dans les centres de réparation des pièces de rechange, qui sont les fournisseurs principaux des pièces utilisés pour réparer les systèmes des clients. La grandeur de la chaine logistique et sa complexité, le grand nombre des références de pièces ainsi que la multitude des cas spéciaux (pays avec de lois spécifiques, pièces particulières…) fait que les approches classiques n’offrent pas des prévisions fiables pour les services de réparation. Dans ce projet, nous proposons des algorithmes d’apprentissage permettant la construction de la connaissance à partir de grands volumes de données, au lieu de l’implémentation manuelle. Nous allons voir les modèles dans la littérature, présenter notre méthodologie, et ensuite implémenter les modèles et évaluer leur performance en comparaison avec les algorithmes existants
In the field of after-sales service and particularly in maintenance, the quick intervention and repair of the customer's property is a key element for his satisfaction and for the creation of the brand image in the market. The work presented in this thesis proposes a Big Data and Machine Learning approach for the improvement of the information flow in the spare parts supply chain. Our contribution focuses on load forecasting in spare parts repair centers, which are the main suppliers of parts used to repair customers' systems. The size of the supply chain and its complexity, the large number of part numbers as well as the multitude of special cases (countries with specific laws, special parts...) makes that classical approaches do not offer reliable forecasts for repair services. In this project, we propose learning algorithms allowing the construction of knowledge from large volumes of data, instead of manual implementation. We will see the models in the literature, present our methodology, and then implement the models and evaluate their performance in comparison with existing algorithms
APA, Harvard, Vancouver, ISO, and other styles
45

Bahri, Emna. "Amélioration des procédures adaptatives pour l'apprentissage supervisé des données réelles." Thesis, Lyon 2, 2010. http://www.theses.fr/2010LYO20089/document.

Full text
Abstract:
L'apprentissage automatique doit faire face à différentes difficultés lorsqu'il est confronté aux particularités des données réelles. En effet, ces données sont généralement complexes, volumineuses, de nature hétérogène, de sources variées, souvent acquises automatiquement. Parmi les difficultés les plus connues, on citera les problèmes liés à la sensibilité des algorithmes aux données bruitées et le traitement des données lorsque la variable de classe est déséquilibrée. Le dépassement de ces problèmes constitue un véritable enjeu pour améliorer l'efficacité du processus d'apprentissage face à des données réelles. Nous avons choisi dans cette thèse de réfléchir à des procédures adaptatives du type boosting qui soient efficaces en présence de bruit ou en présence de données déséquilibrées.Nous nous sommes intéressés, d’abord, au contrôle du bruit lorsque l'on utilise le boosting. En effet, les procédures de boosting ont beaucoup contribué à améliorer l'efficacité des procédures de prédiction en data mining, sauf en présence de données bruitées. Dans ce cas, un double problème se pose : le sur-apprentissage des exemples bruités et la détérioration de la vitesse de convergence du boosting. Face à ce double problème, nous proposons AdaBoost-Hybride, une adaptation de l’algorithme Adaboost fondée sur le lissage des résultats des hypothèses antérieures du boosting, qui a donné des résultats expérimentaux très satisfaisants.Ensuite, nous nous sommes intéressés à un autre problème ardu, celui de la prédiction lorsque la distribution de la classe est déséquilibrée. C'est ainsi que nous proposons une méthode adaptative du type boosting fondée sur la classification associative qui a l’intérêt de permettre la focalisation sur des petits groupes de cas, ce qui est bien adapté aux données déséquilibrées. Cette méthode repose sur 3 contributions : FCP-Growth-P, un algorithme supervisé de génération des itemsets de classe fréquents dérivé de FP-Growth dans lequel est introduit une condition d'élagage fondée sur les contre-exemples pour la spécification des règles, W-CARP une méthode de classification associative qui a pour but de donner des résultats au moins équivalents à ceux des approches existantes pour un temps d'exécution beaucoup plus réduit, enfin CARBoost, une méthode de classification associative adaptative qui utilise W-CARP comme classifieur faible. Dans un chapitre applicatif spécifique consacré à la détection d’intrusion, nous avons confronté les résultats de AdaBoost-Hybride et de CARBoost à ceux des méthodes de référence (données KDD Cup 99)
Machine learning often overlooks various difficulties when confronted real data. Indeed, these data are generally complex, voluminous, and heterogeneous, due to the variety of sources. Among these problems, the most well known concern the sensitivity of the algorithms to noise and unbalanced data. Overcoming these problems is a real challenge to improve the effectiveness of the learning process against real data. In this thesis, we have chosen to improve adaptive procedures (boosting) that are less effective in the presence of noise or with unbalanced data.First, we are interested in robustifying Boosting against noise. Most boosting procedures have contributed greatly to improve the predictive power of classifiers in data mining, but they are prone to noisy data. In this case, two problems arise, (1) the over-fitting due to the noisy examples and (2) the decrease of convergence rate of boosting. Against these two problems, we propose AdaBoost-Hybrid, an adaptation of the Adaboost algorithm that takes into account mistakes made in all the previous iteration. Experimental results are very promising.Then, we are interested in another difficult problem, the prediction when the class is unbalanced. Thus, we propose an adaptive method based on boosted associative classification. The interest of using associations rules is allowing the focus on small groups of cases, which is well suited for unbalanced data. This method relies on 3 contributions: (1) FCP-Growth-P, a supervised algorithm for extracting class frequent itemsets, derived from FP-Growth by introducing the condition of pruning based on counter-examples to specify rules, (2) W-CARP associative classification method which aims to give results at least equivalent to those of existing approaches but in a faster manner, (3) CARBoost, a classification method that uses adaptive associative W-CARP as weak classifier. Finally, in a chapter devoted to the specific application of intrusion’s detection, we compared the results of AdaBoost-Hybrid and CARBoost to those of reference methods (data KDD Cup 99)
APA, Harvard, Vancouver, ISO, and other styles
46

Daouayry, Nassia. "Détection d’évènements anormaux dans les gros volumes de données d’utilisation issues des hélicoptères." Thesis, Lyon, 2020. http://www.theses.fr/2020LYSEI084.

Full text
Abstract:
Cette thèse aborde le sujet de la normalité de fonctionnement des systèmes composants l’hélicoptère à travers l’exploitation des données d’utilisation issues du système de surveillances du HUMS (Health and Usage Monitoring System) pour la maintenance. Les hélicoptères sont des systèmes complexes et sont soumis à des exigences réglementaires strictes imposées par les autorités concernées par la sécurité en vol. L’analyse des données de surveillance est par conséquent un moyen privilégié pour améliorer la maintenance des hélicoptères. De plus, les données produites par le système HUMS représentent une ressource indispensable pour se rendre compte de l’état de santé des systèmes après chaque vol. Les données collectées sont nombreuses et la complexité des différents systèmes permettent difficilement des analyses cas par cas. Les travaux de cette thèse abordent principalement les problématiques liées à l’exploitation des séries multivariées pour la visualisation et la mise en place d’outil de détection d’anomalie au sein d’Airbus Helicopters. Nous avons développé différentes approches pour permettre de capter dans les données de vol une forme de normalité, relative à un système donné. Un travail sur la visualisation des séries temporelles a été développé pour identifier, avec un minimum d’apriori, les patterns représentants la normalité de fonctionnement d’un système. En se basant sur cette approche, nous avons développé « un capteur virtuel » permettant d’estimer les valeurs d’un capteur réel à partir d’un ensemble de paramètres de vol afin de détecter des évènements anormaux lorsque les valeurs de ces deux capteurs tendent à diverger
This thesis addresses the topic of the normality of the helicopter component systems functioning through the exploitation of the usage data coming from the HUMS (Health and Usage Monitoring System) for the maintenance. Helicopters are complex systems and are subject to strict regulatory requirements imposed by the authorities in charge of flight safety. The analysis of monitoring data is therefore a preferred means of improving helicopter maintenance. In addition, the data produced by the HUMS system are an indispensable resource for assessing the health of the systems after each flight. The data collected are numerous and the complexity of the different systems makes it difficult to analyze them on a case-by-case basis.The work of this thesis deals mainly with the issues related to the utilization of multivariate series for the visualization and the implementation of anomaly detection tools within Airbus Helicopters.We have developed different approaches to catch in the flight data a relative normality for a given system.A work on the visualization of time series has been developed to identify the patterns representing the normality of a system's operation.Based on this approach, we have developed a "virtual sensor" allowing to estimate the values of a real sensor from a set of flight parameters in order to detect abnormal events when the values of these two sensors tend to diverge
APA, Harvard, Vancouver, ISO, and other styles
47

Tabarly, Guilhem. "The Financial Cycle and the Business Cycle : it Takes Two to Tango." Thesis, Paris Sciences et Lettres (ComUE), 2019. http://www.theses.fr/2019PSLED007.

Full text
Abstract:
La thèse explore, via différents outils statistiques, les interactions entre la sphère financière et la sphère réelle, dont la compréhension est cruciale pour assurer la stabilité financière. Le chapitre introductif détaille l’importance des frictions financières pour les mécanismes de transmissions macro-financiers, et illustre ces phénomènes avec la récente crise financière. Le deuxième chapitre décompose le Cycle Financier en deux composantes, le Cycle du Crédit et le Cycle des Conditions Financières. Les deux composantes sont identifiées en fonction de leur impact négatif non-linéaire sur l’activité économique et leur pertinence est évaluée à l’aune de leur contribution à la mesure de l’écart de production en temps réel. Le troisième chapitre étudie l’impact réel d’un choc financier structurel, grâce à une méthode d’identification statistique des liens de causalité entre les variables économiques et financières. Le dernier chapitre interroge les fondements de l’instabilité chronique du contenu prédictif des variables financières à l’aide de nombreux modèles économétriques et d’apprentissage automatique
The interplay between financial factors and the real economy is now a focal point of macroeconomic research. The introductory chapter seeks to provide a conceptual framework for the study of macro-financial linkages. The rest of the thesis falls within the impetus to research programs brought to the fore by the recent crisis. The second chapter claims that the Financial Cycle is made up of two different components, the Credit Cycle and the Financial Condition Cycle. The two cycles are identified in the light of their impact on economic activity and their relevance is assessed on the grounds of their contribution for the real-time estimation of the output gap. The third chapter uses a datadriven technique to unravel the contemporaneous causal ordering between economic variables and financial variables and investigates the impact of structural financial shocks on economic activity. The final chapter explores, via a battery of econometric and Machine Learning models, whether the inherently unstable nature of financial variables’ predictive power for output is related to the modelling framework or to the variables themselves
APA, Harvard, Vancouver, ISO, and other styles
48

Dohmatob, Elvis. "Amélioration de connectivité fonctionnelle par utilisation de modèles déformables dans l'estimation de décompositions spatiales des images de cerveau." Thesis, Université Paris-Saclay (ComUE), 2017. http://www.theses.fr/2017SACLS297/document.

Full text
Abstract:
Cartographier la connectivité fonctionnelle du cerveau à partir des donnés d'IRMf est devenu un champ de recherche très actif. Cependant, les outils théoriques et pratiques sont limités et plusieurs tâches importantes, telles que la définition empirique de réseaux de connexion cérébrale, restent difficiles en l’absence d'un cadre pour la modélisation statistique de ces réseaux. Nous proposons de développer au niveau des populations, des modèles joints de connectivité anatomique et fonctionnelle et l'alignement inter-sujets des structures du cerveau. Grâce à une telle contribution, nous allons développer des nouvelles procédures d'inférence statistique afin de mieux comparer la connectivité fonctionnelle entre différents sujets en présence du bruit (bruit scanner, bruit physiologique, etc.)
Mapping the functions of the human brain using fMRI data has become a very active field of research. However, the available theoretical and practical tools are limited and many important tasks like the empirical definition of functional brain networks, are difficult to implement due to lack of a framework for statistical modelling of such networks. We propose to develop at the population level, models that jointly perform estimation of functional connectivity and alignment the brain data across the different individuals / subjects in the population. Building upon such a contribution, we will develop new methods for statistical inference to help compare functional connectivity across different individuals in the presence of noise (scanner noise, physiological noise, etc.)
APA, Harvard, Vancouver, ISO, and other styles
49

Richard, Michael. "Évaluation et validation de prévisions en loi." Thesis, Orléans, 2019. http://www.theses.fr/2019ORLE0501.

Full text
Abstract:
Cette thèse porte sur l’évaluation et la validation de prévisions en loi. Dans la première partie, nous nous intéressons à l’apport du machine learning vis à vis des prévisions quantile et des prévisions en loi. Pour cela, nous avons testé différents algorithmes de machine learning dans un cadre de prévisions de quantiles sur données réelles. Nous tentons ainsi de mettre en évidence l’intérêt de certaines méthodes selon le type de données auxquelles nous sommes confrontés. Dans la seconde partie, nous exposons quelques tests de validation de prévisions en loi présents dans la littérature. Certains de ces tests sont ensuite appliqués sur données réelles relatives aux log-rendements d’indices boursiers. Dans la troisième, nous proposons une méthode de recalibration permettant de simplifier le choix d’une prévision de densité en particulier par rapport à d’autres. Cette recalibration permet d’obtenir des prévisions valides à partir d’un modèle mal spécifié. Nous mettons également en évidence des conditions sous lesquelles la qualité des prévisions recalibrées, évaluée à l’aide du CRPS, est systématiquement améliorée, ou très légèrement dégradée. Ces résultats sont illustrés par le biais d’applications sur des scénarios de températures et de prix
In this thesis, we study the evaluation and validation of predictive densities. In a first part, we are interested in the contribution of machine learning in the field of quantile and densityforecasting. We use some machine learning algorithms in quantile forecasting framework with real data, inorder to highlight the efficiency of particular method varying with nature of the data.In a second part, we expose some validation tests of predictive densities present in the literature. Asillustration, we use two of the mentionned tests on real data concerned about stock indexes log-returns.In the third part, we address the calibration constraint of probability forecasting. We propose a generic methodfor recalibration, which allows us to enforce this constraint. Thus, it permits to simplify the choice betweensome density forecasts. It remains to be known the impact on forecast quality, measured by predictivedistributions sharpness, or specific scores. We show that the impact on the Continuous Ranked ProbabilityScore (CRPS) is weak under some hypotheses and that it is positive under more restrictive ones. We use ourmethod on weather and electricity price ensemble forecasts.Keywords : Density forecasting, quantile forecasting, machine learning, validity tests, calibration, bias correction,PIT series , Pinball-Loss, CRPS
APA, Harvard, Vancouver, ISO, and other styles
50

Wohlfarth, Till. "Machine-learning pour la prédiction des prix dans le secteur du tourisme en ligne." Thesis, Paris, ENST, 2013. http://www.theses.fr/2013ENST0090/document.

Full text
Abstract:
Nous nous intéressons au problème de la prédiction de l’occurrence d’une baisse de prix pour fournir un conseil à l’achat immédiat ou reporté d’un voyage sur un site web de comparaison des prix. La méthodologie proposée repose sur l’apprentissage statistique d’un modèle d’évolution du prix à partir de l’information conjointe d’attributs du voyage considéré et d’observations passées du prix et de la "popularité" celui-ci. L’originalité principale consiste à représenter l’évolution des prix par le processus ponctuel inhomogène des sauts de celui-ci. A partir d’une base de données constituée par liligo.com, nous mettons en oeuvre une méthode d’apprentissage d’un modèle d’évolution des prix. Ce modèle permet de fournir un prédicteur de l’occurrence d’une baisse du prix sur une période future donnée et donc de prodiguer un conseil d’achat ou d’attente au client
The goal of this paper is to consider the design of decision-making tools in the context of varying travel prices from the customer’s perspective. Based on vast streams of heterogeneous historical data collected through the internet, we describe here two approaches to forecasting travel price changes at a given horizon, taking as input variables a list of descriptive characteristics of the flight, together with possible features of the past evolution of the related price series. Though heterogeneous in many respects ( e.g. sampling, scale), the collection of historical prices series is here represented in a unified manner, by marked point processes (MPP). State-of-the-art supervised learning algorithms, possibly combined with a preliminary clustering stage, grouping flights whose related price series exhibit similar behavior, can be next used in order to help the customer to decide when to purchase her/his ticket
APA, Harvard, Vancouver, ISO, and other styles
We offer discounts on all premium plans for authors whose works are included in thematic literature selections. Contact us to get a unique promo code!

To the bibliography