Apprentissage par renforcement pour l'aide à la conduite des cultures des petits agriculteurs des pays du Sud : vers la maîtrise des risques

Gautron Romain. 2022. Apprentissage par renforcement pour l'aide à la conduite des cultures des petits agriculteurs des pays du Sud : vers la maîtrise des risques. Montpellier : Institut Agro Montpellier, 181 p. Thèse de doctorat : Apprentissage automatique appliqué à l'agronomie : Institut agro Montpellier

Thèse

Prévisualisation

Version publiée - Anglais
Utilisation soumise à autorisation de l'auteur ou du Cirad.
608461.pdf
Télécharger (12MB) | Prévisualisation

Titre anglais : Reinforcement learning for crop management support to smallholder farmers in countries of the South: towards risk management

Encadrement : Corbeels, Marc ; Preux, Philippe ; Maillard, Odalric-Ambrym

Résumé : Crop management is the logical and ordered combination of agricultural operations applied to a field in order to obtain a particular crop production. Decisions about these operations are not straightforward as they occur in the face of uncertain events, such as weather events. After decades of development of computerized decision-making tools for crop management support, these specialized decision support systems (DSS) are still facing a poor adoption. DSS users deemed that information cannot directly be turned into actions, that farmers' natural decision-making processes are not adequately taken into account, that the sequential nature of decisions is poorly modeled or that risk management is lacking in the decision process. Reinforcement learning (RL), a branch of machine learning, addresses the control of uncertain and unknown dynamical systems. RL inherently deals with sequences of decisions with uncertain consequences, and shares some similarities with how farmers are described to address crop management, e.g. learning by trial and errors. Yet, very few applications of RL for crop management support are found. RL generally requires millions of interactions to solve simple decision problems compared to crop management. In this thesis, we study how RL can improve the decision support of crop management, focusing on smallholder farmers of southern regions. In this context, crop management support is even more challenging because of the data scarcity and high yield variability in rainfed cropping systems. We provide a generic method to turn crop models into standardized and easy to manipulate RL environments, which allow to extensively train RL agents at a negligible computational cost. In simulated conditions, we successfully learn sustainable crop practices with an RL algorithm. Yet, we show that for most applications, considering both a risk-neutral and risk-aware decision criterion, the statistical significance of the identification of best practices from model simulations to reality is unlikely to be supported by enough statistical evidences. We then consider the collaborative identification of best management practices by a group of farmers performing on-farm trials. In a simulated exercise, we mimic the growing conditions of Southern Mali. We design an identification method based on a multi-armed bandit algorithm, a special case of RL, using a risk-aware decision criterion, with the constraint of minimizing farmers' crop yield losses occurring during this identification. By leveraging the expert knowledge to reduce the sample complexity of the decision problem, the identification method can be realistically employed in real conditions, and in most cases is better at reducing farmers' yield losses than equi-proportional field trials of each crop operation during a fixed number of years.

Résumé (autre langue) : Un itinéraire technique est défini comme la suite logique et ordonnée d'opérations culturales appliquées à une parcelle dans le but d'atteindre des objectifs de production donnés. Ces séquences de décisions d'opérations culturales ne sont pas triviales, du fait qu'elles font face à des évènements incertains, comme les évènements météorologiques. Après plusieurs décennies de développement de logiciels informatiques dédiés à l'aide à la décision pour les itinéraires techniques, ces logiciels (decision support systems en anglais) sont toujours peu adoptés en pratique. Les utilisateurs ont jugé que l'information ne peut pas être directement traduite en actions, que les processus cognitifs des agriculteurs ne sont pas bien pris en compte, que le caractère séquentiel des prises de décision n'est pas bien modélisé ou encore que la gestion du risque dans les décisions manque. L'apprentissage par renforcement (AR) est un domaine de l'apprentissage automatique qui s'attache au contrôle des systèmes dynamiques, incertains et inconnus. L'AR traite de manière inhérente avec de séquences d'actions aux conséquences incertaines, et partage des similarités avec la manière dont les agriculteurs abordent la conduite des cultures, e.g. apprentissage par essai-erreur. Cependant, la littérature montre très peu d'applications de l'AR pour la conduite des cultures. L'AR requiert généralement des millions d'interactions pour résoudre des problèmes simples comparés à celui de la conduite des cultures. Nous étudions comment l'AR peut améliorer la prise de décision pour les itinéraires techniques, en particulier pour les petits agriculteurs des régions du Sud. Dans ce contexte, l'aide à la conduite des cultures est ardue, du fait de la faible disponibilité des données et de la grande variabilité des rendements dans les systèmes non irrigués. Nous proposons une méthode générique pour convertir des modèles de culture en environnements d'apprentissage par renforcement faciles à manipuler et standardisés. Ces environnements permettent d'entraîner des agents d'AR avec un coût de calcul négligeable. En conditions simulées, à l'aide d'un algorithme d'AR, nous apprenons avec succès des pratiques durables de conduite des cultures. Cependant, nous montrons que, pour la plupart des applications, la signification statistique de l'identification d'une meilleure pratique pour les conditions réelles au champ en se basant sur les simulations est peu probablement appuyée par des preuves statistiques suffisantes. Nous avons considéré à la fois un critère de décision neutre face au risque et un critère avec aversion au risque. Nous nous attachons enfin à l'identification collaborative des meilleures opérations culturales par un groupe d'agriculteurs conduisant des essais au champ. Dans un exercice simulé, nous reproduisons les conditions de culture de Sud du Mali. Nous concevons une méthode d'identification des meilleures opérations culturales à l'aide d'un algorithme de bandit à plusieurs bras, un cas particulier d'AR, avec un critère de décision avec aversion au risque. L'algorithme a la contrainte de minimiser les pertes accumulées par les agriculteurs durant le processus d'identification. En tirant parti des connaissances d'experts afin de réduire la complexité du problème de décision, nous montrons que la méthode d'identification avec l'algorithme de bandit pourrait être appliquée en conditions réelles. Par ailleurs, ladite méthode réduit davatange les pertes des agriculteurs dans la plupart des cas, comparé à la méthode classique qui consiste en des essais au champ équiproportionnels de chaque opération culturale durant un nombre fixe d'années.

Auteurs et affiliations

Gautron Romain, CIRAD-PERSYST-UPR AIDA (COL)

Source : Cirad-Agritrop (https://agritrop.cirad.fr/608461/)

Voir la notice (accès réservé à Agritrop)

[ Page générée et mise en cache le 2024-02-19 ]

Apprentissage par renforcement pour l'aide à la conduite des cultures des petits agriculteurs des pays du Sud : vers la maîtrise des risques

Téléchargements Agritrop