Identificación del acento en hablantes de español mediante el análisis de atributos MFCC y aprendizaje supervisado

Autores/as

DOI:

https://doi.org/10.36825/RITI.12.26.002

Palabras clave:

Reconocimiento del Acento, MFCC, Algoritmos de Aprendizaje Automático, Aprendizaje Supervisado

Resumen

El reconocimiento del hablante tiene múltiples aplicaciones en la vida real. El propósito de este estudio es determinar la viabilidad de clasificar muestras de habla humana, específicamente hablantes de español, a partir de su acento distintivo. En este trabajo se utilizaron los Coeficientes Cepstrales en las Frecuencias de Mel combinados con algoritmos de aprendizaje automático, tales como: Random Forest, KNN, SVM, SGD y Redes Neuronales, para identificar la nacionalidad de personas hispanohablantes por medio de grabaciones de voz obtenidas del corpus Crowdsourcing Latin American Spanish for Low-Resource Text-to-Speech. Se realizó un preprocesamiento de los datos, extrayendo 50 MFCC de cada grabación, con estos se construyó el conjunto de datos para la experimentación. Se realizaron experimentos con diferentes subconjuntos. Los mejores resultados se obtuvieron con individuos pertenecientes a cuatro países de Latinoamérica, incluyendo individuos del sexo masculino y femenino. Para la etapa de clasificación se utilizaron redes neuronales. La precisión obtenida fue de 99.84%.

Citas

Wei, H., Cheong-Fat, C., Chiu-Sing, C., Kong-Pang, P. (2006). An efficient MFCC extraction method in speech recognition. IEEE International Symposium on Circuits and Systems (ISCAS), Kos, Greece . https://doi.org/10.1109/ISCAS.2006.1692543

Honnavalli, D., Shylaja, S. S. (2019). Supervised Machine Learning Model for Accent Recognition in English Speech Using Sequential MFCC Features Advances in Artificial Intelligence and Data Engineering. International Conference on Artificial Intelligence and Data Engineering, Udupi, India. https://doi.org/10.1007/978-981-15-3514-7

Mannepalli, K., Narahari Sastry, P., Suman M. (2016). MFCC-GMM based accent recognition system for Telugu speech signals. International Journal of Speech Technology, 9 (19), 87-93. https://doi.org/10.1007/s10772-015-9328-y

Ma, Z., Fokoué, E. (2014). A Comparison of Classifiers in Performing Speaker Accent Recognition Using MFCCs. Open Journal of Statistics, 4 (4), 258-266. http://dx.doi.org/10.4236/ojs.2014.44025

Chervonenkis, A.Y. (2013). Early History of Support Vector Machines. En B. Schölkopf, Z. Luo, V. Vovk, (Eds.) Empirical Inference (pp. 13-20). Springer. https://doi.org/10.1007/978-3-642-41136-6_3

Sigtia, S., Dixon, S. (2014). Improved Music Feature Learning with Deep Neural Networks. IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), Florence, Italy. http://dx.doi.org/10.1109/ICASSP.2014.6854949

Viswanath, P., Hitendra Sarma, T. (2011). An improvement to k-nearest neighbor classifier. IEEE Recent Advances in Intelligent Computational Systems (RAICS), Trivandrum, India. http://dx.doi.org/10.1109/RAICS.2011.6069307

Taha Jijo, B., Mohsin Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal Of Applied Science And Technology Trends. 2 (01), 20-28. http://dx.doi.org/10.38094/jastt20165

Urquiza Aguiar, L., Campos Yucailla, P., Hidalgo Lascano, P., Becerra Camacho, F. (2020). Detección de Nodos en Zonas Ocultas en redes LAA a través de Aprendizaje Automático Supervisado. Revista De Investigación en Tecnologías de la Información (RITI) , 8 (15), 114–127. https://doi.org/10.36825/RITI.08.15.011

del Castillo Collazo, N. (2020). Predicción en el diagnóstico de tumores de cáncer de mama empleando métodos de clasificación. Revista De Investigación En Tecnologías De La Información (RITI), 8 (15), 96–104. https://doi.org/10.36825/RITI.08.15.009

Guevara-Rukoz, A., Demirsahin, I., He, F., Chu, S. C., Sarin, S., Pipatsrisawat, K., Gutkin, A., Butryna, A., Kjartansson, O. (2020). Crowdsourcing Latin American Spanish for Low-Resource Text-to-Speech. Proceedings of the 12th Conference on Language Resources and Evaluation, Marseille, France. https://aclanthology.org/2020.lrec-1.801

McFee, B., McVicar, M., Faronbi ,D., et al. (2023). librosa/librosa: 0.10.1. https://doi.org/10.5281/zenodo.8252662

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12 (85), 2825–2830. https://www.jmlr.org/papers/v12/pedregosa11a.html

Descargas

Publicado

2024-08-19

Cómo citar

Robles Contreras, C. V., Carrillo Ruiz, M., Hernández Ameca, J. L., & Robles Mendoza, F. J. (2024). Identificación del acento en hablantes de español mediante el análisis de atributos MFCC y aprendizaje supervisado. Revista De Investigación En Tecnologías De La Información, 12(26), 19–27. https://doi.org/10.36825/RITI.12.26.002

Número

Sección

Artículos