Arquitectura híbrida EfficientNet y Vision Transformer para detección multiplataforma de patologías agrícolas
DOI:
https://doi.org/10.36825/RITI.14.33.009Palabras clave:
Deep Learning, Vision Transformers, EfficientNet, Enfermedades Foliares, Agricultura de Precisión, Reality GapResumen
El diagnóstico temprano de enfermedades foliares es crucial para la seguridad alimentaria; sin embargo, existe una brecha de aplicabilidad (reality gap) que limita la viabilidad operativa de los modelos de Deep Learning en entornos agrícolas reales debido a su alta complejidad computacional y sensibilidad al ruido visual. El objetivo de este estudio es diseñar, validar y desplegar una arquitectura híbrida y ligera (AgroScan) capaz de operar como una herramienta de soporte de decisiones en tiempo real frente a 49 enfermedades distribuidas en 10 cultivos de alto impacto. La metodología propone un proceso de inferencia de dos etapas: un modelo “portero” de filtrado binario para mitigar el ruido de fondo visual, seguido de un clasificador entrenado con 98,000 imágenes, que fusiona la eficiencia paramétrica de EfficientNetB0 con la capacidad de correlación espacial de un módulo Transformer (Multi-Head Self-Attention). Entrenado y evaluado sobre 98,000 imágenes. La arquitectura híbrida alcanzó una exactitud global del 94.69% (IC 95%: [94.28%, 95.11%]) y un F1-Score de 94.68% (IC 95%: [94.22%, 95.08%]). Los intervalos de confianza se calcularon con remuestreo no paramétrico sobre el conjunto de prueba. El aporte principal del estudio radica en la demostración empírica de que la atención global incrementa la exactitud en el diagnóstico de enfermedades manteniendo una latencia de inferencia (9.45 ms por imagen). Finalmente, la implementación de la arquitectura mediante una plataforma cliente-servidor accesible a través de aplicaciones web y móviles, ha demostrado su robustez operativa como herramienta viable de apoyo agrícola.
Citas
Secretaría de Agricultura, Ganadería, Desarrollo Rural, Pesca y Alimentación [SAGARPA]. (2017). Planeación Agrícola Nacional 2017-2030. Gobierno de México. https://www.gob.mx/agricultura/acciones-y-programas/planeacion-agricola-nacional-2017-2030-126813
Organización de las Naciones Unidas para la Alimentación y la Agricultura [FAO]. (2011). Seguridad alimentaria y nutricional: Conceptos básicos. https://www.fao.org/3/at772s/at772s.pdf
IBM. (2023). ¿Qué son las redes neuronales convolucionales? https://www.ibm.com/mx-es/topics/convolutional-neural-networks
TensorFlow. (2024). Transferencia de aprendizaje y ajuste fino. https://www.tensorflow.org/tutorials/images/transfer_learning?hl=es-419
Hugging Face. (2024). Vision Transformer (ViT). https://huggingface.co/docs/transformers/model_doc/vit
Keras. (2020). EfficientNet B0 to B7. https://keras.io/api/applications/efficientnet/
Google Research. (2020). Transformers for Image Recognition at Scale. https://blog.research.google/2020/12/transformers-for-image-recognition-at.html
Mohanty, S. P., Hughes, D. P., Salathé, M. (2016). Using deep learning for image-based plant disease detection. Frontiers in Plant Science, 7, 1-10. https://doi.org/10.3389/fpls.2016.01419
Saleem, M. H., Potgieter, J., Arif, K. M. (2019). Plant disease detection and classification by deep learning. Plants, 8 (11), 1-22. https://doi.org/10.3390/plants8110468
Li, X., Li., S. (2022). Transformer help CNN see better: A lightweight hybrid apple disease identification model based on Transformers. Agriculture, 12 (6), 1-16. https://doi.org/10.3390/agriculture12060884
De Silva, M., Brown, D. (2023). Multispectral plant disease detection with Vision Transformer–Convolutional Neural Network hybrid approaches. Sensors, 23 (20), 1-22. https://doi.org/10.3390/s23208531
Ashurov, A. Y., Al-Gaashani, M. S. A. M., Samee, N. A., Alkanhel, R., Atteia, G., Abdallah, H. A., Muthanna, M. S. A. (2025). Enhancing plant disease detection through deep learning: a Depthwise CNN with squeeze and excitation integration and residual skip connections. Frontiers in Plant Science, 15, 01-16. https://doi.org/10.3389/fpls.2024.1505857
Kalpana, P., Gera, P., Alabdulkreem, E., Quasim, M. T., Baili, J., Cho, Y., Nam, Y. (2025). An ensemble heterogeneous transformer model for an effective diagnosis of multiple plant diseases. Frontiers in Plant Science, 16, 01-22. https://doi.org/10.3389/fpls.2025.1693095
Kaggle. (2023). Leaf vs Non-Leaf Images Dataset. Kaggle Open Datasets. https://www.kaggle.com/datasets/robiulhasanjisan/leaf-vs-non-leaf-images/data
Amazon Web Services. (2023). ¿Qué es una API de RESTful? https://aws.amazon.com/es/what-is/restful-api/
Kaggle. (2019). PlantVillage Dataset. Kaggle Open Datasets. https://www.kaggle.com/datasets/emmarex/plantdisease
TensorFlow. (2024). Aumento de datos (Data augmentation). https://www.tensorflow.org/tutorials/images/data_augmentation?hl=es-419
TensorFlow. (2024). Precisión combinada (Mixed Precision). https://www.tensorflow.org/guide/mixed_precision?hl=es-419
Lozano Ramirez, M. C. (2025). El profesorado y el uso de la inteligencia artificial (IA) como proceso de aprendizaje. Revista de Investigación en Tecnologías de la Información (RITI), 13 (30), 1-8. https://doi.org/10.36825/RITI.13.30.001
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Revista de Investigación en Tecnologías de la Información

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Esta revista proporciona un acceso abierto a su contenido, basado en el principio de que ofrecer al público un acceso libre a las investigaciones ayuda a un mayor intercambio global del conocimiento.
El texto publicado en la Revista de Investigación en Tecnologías de la Información (RITI) se distribuye bajo la licencia Creative Commons (CC BY-NC![]()
), que permite a terceros utilizar lo publicado citando a los autores del trabajo y a RITI, pero sin hacer uso del material con propósitos comerciales.
