Tesis: "Régressions pénalisées"

1

Gnanguenon, guesse Girault. "Modélisation et visualisation des liens entre cinétiques de variables agro-environnementales et qualité des produits dans une approche parcimonieuse et structurée". Electronic Thesis or Diss., Montpellier, 2021. http://www.theses.fr/2021MONTS139.

Texto completo

Resumen

L'essor de l'agriculture numérique permet de plus en plus d'observer de manière automatisée et parfois à haute fréquence des dynamiques d'élaboration de la production et de sa qualité en fonction du climat. Les données issues de ces observations dynamiques peuvent être considérées comme des données fonctionnelles. Analyser ce nouveau type de données nécessite d'étendre les outils statistiques usuels au cas fonctionnel ou d'en proposer de nouveaux.Nous avons proposé dans cette thèse une nouvelle approche (SpiceFP: Sparse and Structured Procedure to Identify Combined Effects of Functional Predictors) permettant d'expliquer les variations d'une variable réponse scalaire par deux ou trois prédicteurs fonctionnels dans un contexte d'influence conjointe de ces derniers. Une attention particulière a été apportée à l'interprétabilité des résultats via l'utilisation de classes d'intervalles combinées définissant une partition du domaine d'observation des facteurs explicatifs. Les développements récents autour des modèles LASSO (Least Absolute Shrinkage and Selection Operator) ont été adaptés pour estimer les régions d'influence dans la partition via une régression pénalisée généralisée. L'approche intègre aussi une double sélection, de modèles (parmi les partitions possibles) et de variables (pour une partition donnée) à partir des critères d'information AIC et BIC. La présentation méthodologique de l'approche, son étude grâce à des simulations ainsi qu'une étude de cas basée sur des données réelles ont été présentés dans le chapitre 2.Les données réelles utilisées au cours de cette thèse proviennent d'une expérimentation viticole visant à mieux comprendre l'impact du changement climatique sur l'accumulation d'anthocyanes dans les baies. L'analyse de ces données dans le chapitre 3 à l'aide de l'approche SpiceFP que nous avons étendue a permis d'identifier un impact négatif des combinaisons matinales de faible irradiance (inférieure à environ 100 µmol/s/m2 ou 45 µmol/s/m2 selon l'état avancé-retardé des baies) et température élevée (supérieure à environ 25°C). Une légère différence induite par la température de la nuit a été observée entre ces effets identifiés en matinée.Dans le chapitre 4 de cette thèse, nous proposons une implémentation de l'approche proposée sous la forme d'un package R. Cette implémentation fournit un ensemble de fonctions permettant de construire les intervalles de classes suivant des échelles linéaire ou logarithmique, de transformer les prédicteurs fonctionnels grâces aux classes d'intervalles combinées puis de mettre en oeuvre l'approche en deux ou trois dimensions. D'autres fonctions facilitent la réalisation de post-traitements ou permettent à l'utilisateur de s'intéresser à d'autres modèles que ceux retenus par l'approche comme par exemple une moyenne de différents modèles.Mots clés: Régressions pénalisées, Interaction, critères d'information, scalar-on-function, coefficients interprétables, microclimat de la vigne
The development of digital agriculture allows to observe at high frequency the dynamics of production according to the climate. Data from these dynamic observations can be considered as functional data. To analyze this new type of data, it is necessary to extend the usual statistical tools to the functional case or develop new ones.In this thesis, we have proposed a new approach (SpiceFP: Sparse and Structured Procedure to Identify Combined Effects of Functional Predictors) to explain the variations of a scalar response variable by two or three functional predictors in a context of joint influence of these predictors. Particular attention was paid to the interpretability of the results through the use of combined interval classes defining a partition of the observation domain of the explanatory factors. Recent developments around LASSO (Least Absolute Shrinkage and Selection Operator) models have been adapted to estimate the areas of influence in the partition via a generalized penalized regression. The approach also integrates a double selection, of models (among the possible partitions) and of variables (areas inside a given partition) based on AIC and BIC information criteria. The methodological description of the approach, its study through simulations as well as a case study based on real data have been presented in chapter 2 of this thesis.The real data used in this thesis were obtained from a vineyard experiment aimed at understanding the impact of climate change on anthcyanins accumulation in berries. Analysis of these data in chapter 3 using SpiceFP and one extension identified a negative impact of morning combinations of low irradiance (lower than about 100 µmol/s/m2 or 45 µmol/s/m2 depending on the advanced-delayed state of the berries) and high temperature (higher than about 25°C). A slight difference associated with overnight temperature occurred between these effects identified in the morning.In chapter 4 of this thesis, we propose an implementation of the proposed approach as an R package. This implementation provides a set of functions allowing to build the class intervals according to linear or logarithmic scales, to transform the functional predictors using the joint class intervals and finally to execute the approach in two or three dimensions. Other functions help to perform post-processing or allow the user to explore other models than those selected by the approach, such as an average of different models.Keywords: Penalized regressions, Interaction, information criteria, scalar-on-function, interpretable coefficients,grapevine microclimate