Estudio de técnicas de machine learning aplicadas a la clasificación de cultivo en imágenes satelitales.
El monitoreo de cultivo cumple un rol importante en la agricultura. Durante los últimos años se exploró el uso de algoritmos de aprendizaje supervisado (machine learning) en conjunto con imágenes satelitales de los cultivos a monitorear como una herramienta importante en la automatización de este p...
Guardado en:
| Autor principal: | |
|---|---|
| Formato: | Tesis NonPeerReviewed |
| Lenguaje: | Español |
| Publicado: |
2019
|
| Materias: | |
| Acceso en línea: | http://ricabib.cab.cnea.gov.ar/872/1/Aguirre.pdf |
| Aporte de: |
| Sumario: | El monitoreo de cultivo cumple un rol importante en la agricultura. Durante los últimos años se exploró el uso de algoritmos de aprendizaje supervisado (machine learning) en conjunto con imágenes satelitales de los cultivos a monitorear como una
herramienta importante en la automatización de este proceso, pudiendo monitorear grandes extensiones de cultivo de manera rápida y eficiente.
En este trabajo se estudiaron los principios físicos del sensado remoto (con un enfoque en sensado satelital), los tipos de imágenes que se pueden recolectar de un terreno y las características especificas de cada uno. Se investigo como acceder a dichas imágenes, que son de dominio público. También se estudiaron distintos algoritmos de machine learning y sus bases matemáticas, junto con posibles métricas de rendimiento y sus características. Luego se aplicaron estos algoritmos a la clasificación de cultivos utilizando imágenes ópticas y de radar. Para esto se analizo cual sería la mejor manera de implementar estos algoritmos, utilizando finalmente el lenguaje Python con las implementaciones de los algoritmos encontradas en la librería Scikit-learn.
El objetivo del trabajo fue realizar una comparación del rendimiento de los algoritmos mas utilizados en la clasificación de cultivo bajo distintas condiciones. Los métodos de clasificación principalmente estudiados fueron las técnicas de redes neuronales, maquinas de soporte vectorial, arboles de decisión y bosques aleatorios. Se trabajó buscando la mejor combinación de parámetros de cada clasificador mediante barridos aplicando cross-validation de 5 pliegues. Entre las condiciones estudiadas las más importantes fueron la clasificación considerando y no considerando al tiempo como una variable mas, todo esto utilizando datos de distinta naturaleza (ópticos, radar o ambos).
En la clasificación con datos en los que no se tiene en cuenta la evolución temporal del cultivo el mejor clasificador obtenido utilizando datos ópticos fue una maquina de soporte vectorial con un accuracy del 91% y un kappa de 0.87. El mejor clasificador entrenado con datos de radar también fue una máquina de soporte vectorial con accuracy de 73% y kappa de 0.60.
Respecto a la clasificación con datos en los que se tiene en cuenta la evolución temporal, el mejor clasificador entrenado con imágenes ópticas fue una maquina de soporte vectorial con accuracy de 93% y kappa de 0.91. El mejor clasificador obtenido
utilizando datos de radar fue un bosque aleatorio con kappa 0.86 y un accuracy de 95 %.
Se realizó un análisis del efecto que tiene el tipo de datos utilizado en la clasificación multitemporal de cultivos con periodos de siembra y cosecha similares, llegando a la conclusión de que los datos de radar son más efectivos que los ópticos en estos casos. Sin embargo utilizar la combinación de datos de radar y ópticos fue lo que mejor rendimiento obtuvo.
Por otro lado, se estudió el efecto de entrenar los algoritmos con una base de datos que posee un numero de muestras distinto para cada clase. Esto llevó a la conclusión de que los algoritmos priorizan la correcta clasificación de las clases que presentan mas muestras de entrenamiento. Este estudio indica que es muy importante que los datos de entrenamiento sean una muestra representativa del contexto en el que se van a utilizar los algoritmos. |
|---|