Олег Іларіонов
Факультет інформаційних технологій, Київський національний університет імені Тараса Шевченка, Україна
Антон Астахов
Факультет інформаційних технологій, Київський національний університет імені Тараса Шевченка, Україна
Ганна Красовська
Факультет інформаційних технологій, Київський національний університет імені Тараса Шевченка, Україна
Ірина Доманецька
Факультет інформаційних технологій, Київський національний університет імені Тараса Шевченка, Україна
Анотація
DOI: https://doi.org/10.17721/AIT.2021.1.06
Для людей мовлення є основним способом комунікації, причому люди з мовлення можуть отримувати не тільки семантичну, а й емоційну інформацію. Розпізнавання емоцій за голосом є актуальним для таких галузей, як надання психологічної допомоги, розробка систем безпеки, виявлення брехні, аналіз зв’язків з клієнтами, розробка відеоігор. Оскільки розпізнавання емоцій людиною є суб’єктивним, а отже неточним, та потребує багато часу, існує необхідність у створенні програмного забезпечення, яке могло б вирішити цю задачу. В статті було розглянуто стан проблеми розпізнавання емоцій людини за голосом. Проаналізовано сучасні публікації, використані в них підходи, а саме моделі емоцій, набори даних, методи вилучення ознак, класифікатори. Визначено, що існуючі розробки мають середню точність близько 0,75. Проаналізовано загальну структуру системи розпізнавання емоцій людини за голосом, спроектовано та розроблено відповідний інтелектуальний модуль. За допомогою уніфікованої мови моделювання UML (від англ. “Unified Modeling Language”) створено діаграму компонентів та діаграму класів. В якості наборів даних обрано датасети RAVDESS і TESS для урізноманітнення навчальної вибірки. Використано дискретну модель емоцій (радість, смуток, гнів, відраза, страх, здивування, спокій, нейтральна емоція), метод MFCC (мел-частотні кепстральні коефіцієнти від англ. “Mel Frequency Cepstral Coefficients”) для вилучення ознак, згорткову нейронну мережу для класифікації. Нейронна мережа розроблена з використанням бібліотек для машинного навчання TensorFlow і Keras. Побудовано спектрограму та графіки аудіосигналу, а також графіки точності та похибки розпізнавання. За результатами програмної реалізації інтелектуального модуля розпізнавання емоцій за голосом збільшено точність валідації до 0,8.
Ключові слова – наукометрія, індекс Гірша, PageRank, метод ана– розпізнавання емоцій за голосом, нейронні мережі, глибинне навчання, згорткові нейронні мережі
Інформація про авторів
Олег Іларіонов. Кандидат технічних наук, доцент, завідувач кафедри інтелектуальних технологій Київського національного університету імені Тараса Шевченка, Київ, Україна. Напрямки досліджень – засоби і технології для розробки інформаційних систем управління технологічними процесами та об’єктами різної фізичної природи.
Антон Астахов. Випускник магістерської освітньої програми «Технології штучного інтелекту» Київського національного університету імені Тараса Шевченка, Київ, Україна.
Ганна Красовська. Кандидат технічних наук, доцент, працює на посаді доцента кафедри інтелектуальних технологій Київського національного університету імені Тараса Шевченка, Київ, Україна. До наукових інтересів належать інтелектуальні системи підтримки прийняття рішень, адаптивні інтелектуальні системи в освіті, мультиагентні системи та технології.
Ірина Доманецька. Кандидат технічних наук, доцент, працює на посаді доцента кафедри інтелектуальних технологій Київського національного університету імені Тараса Шевченка, Київ, Україна. Сфера наукових досліджень – системо-технічні дослідження в галузі ІТ, нейромережеві технології та їх застосування, адаптивні системи навчання
Література
- Schuller, B.W. (2018) «Speech emotion recognition: two decades in a nutshell, benchmarks, and ongoing trends», Commun. ACM 61 (5), pp. 90–99. [Online]. Available: doi:10.1145/3129340.
- Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, W., Taylor, J.G. (2001) «Emotion recognition in human-computer interaction», IEEE Signal Process. Mag. 18 (1), pp. 32–80. [Online]. Available: doi:10.1109/79.911197.
- Huahu, X., Jue, G., Jian, Y. «Application of speech emotion recognition in intelligent household robot», in International Conference on Artificial Intelligence and Computational Intelligence, 2010, Vol.1, pp. 537–541.
- Yoon WJ., Cho YH., Park KS. A Study of Speech Emotion Recognition and Its Application to Mobile Services, ser. Lecture Notes in Computer Science, Springer, Berlin, Heidelberg, 2007, vol 4611.
- Gupta, P., Rajput, N. «Two-stream emotion recognition for call center monitoring», in Proc. Interspeech 2007, pp.2241–2244.
- Szwoch, M., Szwoch, W. «Emotion recognition for affect aware video games», in Image Processing & Communications Challenges 6, Springer International Publishing, Cham, vol. 313, pp. 227–236.
- Lancker, D.V., Cornelius, C., Kreiman, J. «Recognition of emotionalprosodic meanings in speech by autistic, schizophrenic, and normal children». Develop. Neuropsychol. vol. 5 (2–3), pp. 207–226, 1989.
- Low, L.A., Maddage, N.C., Lech, M., Sheeber, L.B., Allen, N.B. (2011) «Detection of clinical depression in adolescents’ speech during family interactions», IEEE Trans. Biomed. Eng. vol.58, issue 3, pp. 574–586.
- Ververidis, D., Kotropoulos, C. «Emotional Speech Recognition: Resources, Features, and Methods», Speech Communication, vol.48, issue 9, pp. 1162-1181, 2006, [Online]. Available: http://dx.doi.org/10.1016/j.specom.2006.04.003
- Ayadi, M.E., Kamel M.S., Karray F. «Survey on speech emotion recognition: Features, classification schemes, and databases», Pattern Recognition, vol. 44, issue 3, pp. 572-587, 2011.
- Koolagudi, S. G., & Rao, K. S. «Emotion recognition from speech: a review», International Journal of Speech Technology, vol.15 issue 2, pp. 99–117, 2012.
- Anagnostopoulos, C.N.; Iliou, T.; Giannoukos, I. «Features and classifiers for emotion recognition from speech: A survey from 2000 to 2011», Artif. Intell. Rev., vol. 43, pp. 155–177, 2012.
- Ramakrishnan, S. Recognition of emotion from speech: A review. In: Ramakrishnan, S. (Ed.), Speech Enhancement, Modeling and Recognition Algorithms and Applications, Intec, 2012.
- Sailunaz, K., Dhaliwal, M., Rokne, J., Alhajj, R. «Emotion detection from text and speech: a survey» Soc. Netw. Anal. Min. 8(1), pp.1–26, 2018.
- Basu, S., Chakraborty, J., Bag, A., Aftabuddin, M. «A review on emotion recognition using speech», in International Conference on Inventive Communication and Computational Technologies (ICICCT), 2017, pp. 109–114.
- Livingstone SR, Russo FA (2018) «The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English». PLoS ONE 13(5): e0196391. [Online]. Available: https://doi.org/10.1371/journal.pone.0196391.
- M. K. P. Kate Dupuis, “Toronto emotional speech set (TESS)” 2010. [Online]. Available: https://tspace.library.utoronto.ca/handle/1807/24487

Опубліковано
2021-11-04
Як цитувати
О. Іларіонов, А. Астахов , Г.Красовська, І. Доманецька “Інтелектуальний модуль розпізнавання емоцій за голосом”, Сучасні інформаційні технології, vol.1, pp. 46–52, 2021
Номер
Сучасні інформаційні технології № 1 (1), 2021
Розділ
Машинне навчання та розпізнавання образів