Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura

Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024

Guardado en:
Detalles Bibliográficos
Autor principal: Suarez, Franco Marcelo
Otros Autores: Córdoba, Mariano Augusto
Formato: doctoralThesis
Lenguaje:Español
Publicado: 2024
Materias:
SIG
Acceso en línea:http://hdl.handle.net/11086/553312
Aporte de:
id I10-R141-11086-553312
record_format dspace
institution Universidad Nacional de Córdoba
institution_str I-10
repository_str R-141
collection Repositorio Digital Universitario (UNC)
language Español
topic Estadística
Métodos estadísticos
Análisis de datos
Análisis multivariante
Técnicas de predicción
Cartografía
SIG
spellingShingle Estadística
Métodos estadísticos
Análisis de datos
Análisis multivariante
Técnicas de predicción
Cartografía
SIG
Suarez, Franco Marcelo
Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
topic_facet Estadística
Métodos estadísticos
Análisis de datos
Análisis multivariante
Técnicas de predicción
Cartografía
SIG
description Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024
author2 Córdoba, Mariano Augusto
author_facet Córdoba, Mariano Augusto
Suarez, Franco Marcelo
format doctoralThesis
author Suarez, Franco Marcelo
author_sort Suarez, Franco Marcelo
title Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_short Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_full Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_fullStr Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_full_unstemmed Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
title_sort avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura
publishDate 2024
url http://hdl.handle.net/11086/553312
work_keys_str_mv AT suarezfrancomarcelo avancesestadisticoscomputacionalesparaprocesarinformaciongeorreferenciadaconaplicacionenagricultura
_version_ 1809206904922046464
spelling I10-R141-11086-5533122024-08-19T15:43:32Z Avances estadísticos computacionales para procesar información georreferenciada con aplicación en agricultura Suarez, Franco Marcelo Córdoba, Mariano Augusto Balzarini, Mónica Graciela Estadística Métodos estadísticos Análisis de datos Análisis multivariante Técnicas de predicción Cartografía SIG Tesis (Doctor en Ciencias Agropecuarias) -- UNC- Facultad de Ciencias Agropecuarias, 2024 Fil: Franco Marcelo Suarez. Universidad Católica de Córdoba. Facultad de Ciencias Agropecuarias; Argentina. Fil: Córdoba, Mariano Augusto. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Córdoba, Mariano Augusto. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Córdoba, Mariano Augusto. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Balzarini, Mónica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. La generación continua de datos en todas las áreas disciplinares demanda el desarrollo de nuevas metodologías estadísticas computacionales para su análisis. En agricultura, los modelos de aprendizaje automático (ML) tiene el potencial de impulsar aún más la investigación y el desarrollo de la producción inteligente y sostenible. El objetivo de esta tesis es el desarrollo de protocolos de análisis de datos que combine el uso de técnicas de ciencia de datos, del campo del análisis multivariado y ML, para el tratamiento de datos georreferenciados en agricultura. Se busca implementar y validar protocolos para la predicción espacial a dos escalas: intralote y regional. A escala intralote se comparó desempeño predictivo de bosques de regresión cuantílica (QRF), generalized boosted regression model (GBM), extreme gradient boosting (XGB), red neuronal de bases radial (RBFN), regresión por mínimos cuadrados parciales (PLSR), interpolación ponderada por la inversa de la distancia (IDW) y Kriging ordinario (KG) para mapear la variabilidad espacial del rendimiento en granos en el interior del lote. QRF redujo el error de predicción entre el 8 y 13% respecto al clásico KG, brindando además un buen mapa de incertidumbre de predicción. A nivel regional, se compararon estadísticamente combinaciones de métodos de selección de variables (Stepwise forward, Filtrado, Algoritmo genético, Boruta y LASSO con métodos de ajuste de modelos (regresión logística, RL y bosques aleatorios, RF) como herramientas que permiten usar variables climáticas en la predicción del riesgo de enfermedad en distintos patosistemas vegetales. El método Stepwise forward, junto con RL, generó modelos con menos variables y más precisos. Finalmente, se evaluó el impacto del tamaño de la muestra en la precisión de las predicciones espaciales a escala intralote (usando QRF y KG) y regional (usando RF y RL). Las métricas de rendimiento del modelo como la precisión aumentan más rápidamente al principio con el incremento de tamaño muestral independientemente del modelo utilizado. Los métodos de ML, como QRF y RF, mostraron una capacidad mayor para manejar diferentes tamaños de muestra. En conclusión, la integración de diferentes técnicas de análisis estadístico y de ML permitirán mejorar la precisión de la predicción tanto se trabaje a escala de lote como a escala regional. The continuous generation of data across all disciplinary areas demands the development of new computational statistical methodologies for its analysis. In agriculture, machine learning (ML) models have the potential to further drive research and the development of intelligent and sustainable production. The aim of this thesis is to develop data analysis protocols that combine the use of data science techniques from the field of multivariate analysis and ML for the treatment of georeferenced data in agriculture. The goal is to implement and validate protocols for spatial prediction at two scales: intra-field and regional. At the intra-field scale, the predictive performance of quantile regression forests (QRF), generalized boosted regression model (GBM), extreme gradient boosting (XGB), radial basis function network (RBFN), partial least squares regression (PLSR), inverse distance weighting interpolation (IDW), and ordinary kriging (KG) was compared to map the spatial variability of grain yield within the field. QRF reduced prediction error by 8 to 13% compared to the classical KG, also providing a good uncertainty map of the prediction. At the regional level, combinations of variable selection methods (Stepwise forward, Filtering, Genetic algorithm, Boruta, and LASSO) with model fitting methods (logistic regression, LR and random forests, RF) were statistically compared as tools that allow the use of climatic variables in predicting disease risk in different plant systems. The Stepwise forward method, together with LR, generated models with fewer and more precise variables. Finally, the impact of sample size on the precision of spatial predictions at the intra-field scale (using QRF and KG) and regional scale (using RF and LR) was evaluated. Model performance metrics such as precision increase more rapidly at first with the increase in sample size regardless of the model used. ML methods, such as QRF and RF, showed a greater capacity to handle different sample sizes. In conclusion, the integration of different statistical analysis and ML techniques will improve the precision of prediction whether working at the field or regional scale. Fil: Franco Marcelo Suarez. Universidad Católica de Córdoba. Facultad de Ciencias Agropecuarias; Argentina. Fil: Córdoba, Mariano Augusto. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Córdoba, Mariano Augusto. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Córdoba, Mariano Augusto. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias. Cátedra de Estadística y Biometría; Argentina. Fil: Balzarini, Mónica Graciela. Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Centro Científico Tecnológico (CCT Córdoba). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. Fil: Balzarini, Mónica Graciela. Instituto Nacional de Tecnología Agropecuaria (INTA). Unidad de Fitopatología y Modelización Agrícola (UFyMA); Argentina. 2024-08-16T14:12:25Z 2024-08-16T14:12:25Z 2024 doctoralThesis http://hdl.handle.net/11086/553312 spa Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ 115 p. : fotografías, mapas, gráficos, tablas color