Arquitectura híbrida EfficientNet y Vision Transformer para detección multiplataforma de patologías agrícolas

Erick Rodríguez Ramírez; Maya Carrillo Ruiz; Hortensia Carrillo Ruiz

doi:10.36825/RITI.14.33.009

Autores/as

Erick Rodríguez Ramírez Benemérita Universidad Autónoma de Puebla https://orcid.org/0009-0009-2344-4492
Maya Carrillo Ruiz Universidad Autónoma de Puebla https://orcid.org/0000-0001-6152-456X
Hortensia Carrillo Ruiz Universidad Autónoma de Puebla https://orcid.org/0000-0003-4247-6114

DOI:

https://doi.org/10.36825/RITI.14.33.009

Palabras clave:

Deep Learning, Vision Transformers, EfficientNet, Enfermedades Foliares, Agricultura de Precisión, Reality Gap

Resumen

El diagnóstico temprano de enfermedades foliares es crucial para la seguridad alimentaria; sin embargo, existe una brecha de aplicabilidad (reality gap) que limita la viabilidad operativa de los modelos de Deep Learning en entornos agrícolas reales debido a su alta complejidad computacional y sensibilidad al ruido visual. El objetivo de este estudio es diseñar, validar y desplegar una arquitectura híbrida y ligera (AgroScan) capaz de operar como una herramienta de soporte de decisiones en tiempo real frente a 49 enfermedades distribuidas en 10 cultivos de alto impacto. La metodología propone un proceso de inferencia de dos etapas: un modelo “portero” de filtrado binario para mitigar el ruido de fondo visual, seguido de un clasificador entrenado con 98,000 imágenes, que fusiona la eficiencia paramétrica de EfficientNetB0 con la capacidad de correlación espacial de un módulo Transformer (Multi-Head Self-Attention). Entrenado y evaluado sobre 98,000 imágenes. La arquitectura híbrida alcanzó una exactitud global del 94.69% (IC 95%: [94.28%, 95.11%]) y un F1-Score de 94.68% (IC 95%: [94.22%, 95.08%]). Los intervalos de confianza se calcularon con remuestreo no paramétrico sobre el conjunto de prueba. El aporte principal del estudio radica en la demostración empírica de que la atención global incrementa la exactitud en el diagnóstico de enfermedades manteniendo una latencia de inferencia (9.45 ms por imagen). Finalmente, la implementación de la arquitectura mediante una plataforma cliente-servidor accesible a través de aplicaciones web y móviles, ha demostrado su robustez operativa como herramienta viable de apoyo agrícola.

Citas

Secretaría de Agricultura, Ganadería, Desarrollo Rural, Pesca y Alimentación [SAGARPA]. (2017). Planeación Agrícola Nacional 2017-2030. Gobierno de México. https://www.gob.mx/agricultura/acciones-y-programas/planeacion-agricola-nacional-2017-2030-126813

Organización de las Naciones Unidas para la Alimentación y la Agricultura [FAO]. (2011). Seguridad alimentaria y nutricional: Conceptos básicos. https://www.fao.org/3/at772s/at772s.pdf

IBM. (2023). ¿Qué son las redes neuronales convolucionales? https://www.ibm.com/mx-es/topics/convolutional-neural-networks

TensorFlow. (2024). Transferencia de aprendizaje y ajuste fino. https://www.tensorflow.org/tutorials/images/transfer_learning?hl=es-419

Hugging Face. (2024). Vision Transformer (ViT). https://huggingface.co/docs/transformers/model_doc/vit

Keras. (2020). EfficientNet B0 to B7. https://keras.io/api/applications/efficientnet/

Google Research. (2020). Transformers for Image Recognition at Scale. https://blog.research.google/2020/12/transformers-for-image-recognition-at.html

Mohanty, S. P., Hughes, D. P., Salathé, M. (2016). Using deep learning for image-based plant disease detection. Frontiers in Plant Science, 7, 1-10. https://doi.org/10.3389/fpls.2016.01419

Saleem, M. H., Potgieter, J., Arif, K. M. (2019). Plant disease detection and classification by deep learning. Plants, 8 (11), 1-22. https://doi.org/10.3390/plants8110468

Li, X., Li., S. (2022). Transformer help CNN see better: A lightweight hybrid apple disease identification model based on Transformers. Agriculture, 12 (6), 1-16. https://doi.org/10.3390/agriculture12060884

De Silva, M., Brown, D. (2023). Multispectral plant disease detection with Vision Transformer–Convolutional Neural Network hybrid approaches. Sensors, 23 (20), 1-22. https://doi.org/10.3390/s23208531

Ashurov, A. Y., Al-Gaashani, M. S. A. M., Samee, N. A., Alkanhel, R., Atteia, G., Abdallah, H. A., Muthanna, M. S. A. (2025). Enhancing plant disease detection through deep learning: a Depthwise CNN with squeeze and excitation integration and residual skip connections. Frontiers in Plant Science, 15, 01-16. https://doi.org/10.3389/fpls.2024.1505857

Kalpana, P., Gera, P., Alabdulkreem, E., Quasim, M. T., Baili, J., Cho, Y., Nam, Y. (2025). An ensemble heterogeneous transformer model for an effective diagnosis of multiple plant diseases. Frontiers in Plant Science, 16, 01-22. https://doi.org/10.3389/fpls.2025.1693095

Kaggle. (2023). Leaf vs Non-Leaf Images Dataset. Kaggle Open Datasets. https://www.kaggle.com/datasets/robiulhasanjisan/leaf-vs-non-leaf-images/data

Amazon Web Services. (2023). ¿Qué es una API de RESTful? https://aws.amazon.com/es/what-is/restful-api/

Kaggle. (2019). PlantVillage Dataset. Kaggle Open Datasets. https://www.kaggle.com/datasets/emmarex/plantdisease

TensorFlow. (2024). Aumento de datos (Data augmentation). https://www.tensorflow.org/tutorials/images/data_augmentation?hl=es-419

TensorFlow. (2024). Precisión combinada (Mixed Precision). https://www.tensorflow.org/guide/mixed_precision?hl=es-419

Lozano Ramirez, M. C. (2025). El profesorado y el uso de la inteligencia artificial (IA) como proceso de aprendizaje. Revista de Investigación en Tecnologías de la Información (RITI), 13 (30), 1-8. https://doi.org/10.36825/RITI.13.30.001

Arquitectura híbrida EfficientNet y Vision Transformer para detección multiplataforma de patologías agrícolas

Autores/as

DOI:

Palabras clave:

Resumen

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos más leídos del mismo autor/a

Enviar un artículo

Idioma

Información