Анализ тональности пользовательского текста методами машинного обучения
https://doi.org/10.26794/3033-7097-2025-1-4-16-25
Аннотация
В статье рассматривается применение методов машинного обучения для анализа тональности текстов, опубликованных пользователями социальной сети ВКонтакте. Это дает возможность в режиме реального времени отслеживать и анализировать настроения миллионов пользователей, что способствует оперативному принятию решений и прогнозированию социальных процессов. В рамках исследования был реализован сбор текстовых данных с использованием VK API, включающих посты и комментарии пользователей. Проведена предобработка текстов: очистка, лемматизация, удаление стоп-слов и векторизация методом TF-IDF. Для классификации эмоциональной окраски были протестированы модели: логистическая регрессия, случайный лес, наивный байесовский классификатор, а также нейросетевые архитектуры LSTM и Transformers (RuBERT). Наивный байесовский классификатор показал наилучшие результаты по метрике полноты и сбалансированности по другим метрикам. Согласно результатам анализа, большинство текстов пользователей имеют нейтральную или положительную тональность, и лишь незначительная часть — негативную. Представлены визуализации и статистика распределения тональности. Работа демонстрирует эффективность применения классических методов машинного обучения для обработки и анализа текстов в русскоязычных социальных сетях.
Об авторах
Е. А. ГорбуноваРоссия
Екатерина Александровна Горбунова — cтарший разработчик программного обеспечения
Санкт-Петербург
Р. А. Кочкаров
Россия
Расул Ахматович Кочкаров — кандидат экономических наук, доцент кафедры искусственного интел- лекта факультета информационных технологий и анализа больших данных
Москва
Э. А. Окунева
Россия
Эвелина Александровна Окунева — ассистент кафедры математики и анализа данных факультета ин- формационных технологий и анализа больших данных
Москва
Список литературы
1. Rodríguez-Ibánez M., Casanez-Ventura F., Castejón-Mateos F., Cuenca-Jiménez P.-M. A review on sentiment analysis from social media platforms. Expert Systems with Applications. 2023;223:119862. DOI: 10.1016/j.eswa.2023.119862
2. Wankhade M., Rao A.C.S., & Kulkarni C. A survey on sentiment analysis methods, applications, and challenges. Artificial Intelligence Review. 2022;55(7):5731–5780. DOI: 10.1007/s10462-022-10144-1
3. Cortis K., Davis B. Over a Decade of Social Opinion Mining: A Systematic Review. Artificial Intelligence Review. 2021;54(1):4873–4965. DOI: 10.1007/s10462-021-10030-2
4. Mutanov G., Karyukin A., Mamykova G. Multi-Class Sentiment Analysis of Social Media Data with Machine Learning Algorithms. Computers, Materials & Continua. 2021;69(1):913-930. DOI: 10.32604/cmc.2021.017827
5. Salman I.K., Feizi Derakhshi M.R., Pashazadeh S., Asadpour M. A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks. ArXiv preprint. 2022;arXiv:2207.02160. DOI: 10.48550/arXiv.2207.02160
6. Zhou, H. Research of text classification based on TF-IDF and CNN-LSTM. Journal of Physics: Conference Series. 2022;2171:012021. DOI: 10.1088/1742-6596/2171/1/012021
7. Oliveira D.F., Nogueira A., Brito M. Performance comparison of machine learning algorithms in classifying information technologies incident tickets. AI. 2022;3(3):601–622. DOI: 10.3390/ai3030035
8. Smetanin S. The applications of sentiment analysis for Russian language texts: current challenges and future perspectives. IEEE Access. 2020;8:110693–110719. DOI: 10.1109/ACCESS.2020.3002215
9. Braga M., Milanese G.C., Pasi G. Investigating large language models’ linguistic abilities for text preprocessing. arXiv preprint. 2025;arXiv:2510.11482. DOI: 10.48550/arXiv.2510.11482
10. Feng J.H., Mohaghegh M. Hybrid model of data augmentation methods for text classification task. Proceedings of the 13th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC 3K 2021). 2021:194–197. DOI: 10.5220/0010688500003064
11. Гадасин Д.В., Пак Е.В., Коровушкина В.М., Мелькова Е.К. Предобработка текстовой информации на основе термов естественного языка. REDS: Телекоммуникационные устройства и системы. 2022;1:4-12. URL: https://www.elibrary.ru/pdgavp
12. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint. 2019;arXiv:1907.11692. DOI: 10.48550/arXiv.1907.11692
13. Щекотин Е.В., Гойко В.Л., Басина П.А., Бакулин В.В. Использование машинного обучения для изучения качества жизни населения: методологические аспекты. Цифровая социология. 2022;5(1):87–97. DOI: 10.26425/2658-347X-2022-5-1-87-97
14. Гальченко Ю.В., Нестеров С.А. Классификация текстов по тональности ML-методами. Системный анализ в проектировании и управлении. Сборник научных трудов XXVI Международной научно-практической конференции. В 3 ч. Ч. 3. Санкт-Петербург, 13–14 октября 2023 г. СПб.: ПОЛИТЕХ-ПРЕСС. 2023;26(3):369–378. DOI: 10.18720/SPBPU/2/id23-501
15. Мезенев К.А., Бадрызлова Ю.Г. Анализ эмоциональной тональности русскоязычных текстов с цифровыми методами. НИУ ВШЭ, магистерская диссертация. Москва, 2025. URL: https://www.hse.ru/edu/vkr/1055012487
16. Катермина Т.С., Тагиров К.М., Тагиров Т.М. Элементы ИИ в анализе текстов: LSTM-приложение к Вконтакте. Computational Nanotechnology. 2022;9(2):35–44. DOI: 10.33693/2313-223X-2022-9-2-35-44.
17. Челышев Э.А., Оцоков Ш.А., Раскатова М.В., Щёголев П. Сравнение методов классификации русскоязычных новостных текстов с использованием алгоритмов машинного обучения. Вестник кибернетики. 2022;1(45):63–71. DOI: 10.34822/1999-7604-2022-1-63-71.
18. Ивахин Д.Е., Андиева Е.Ю. Автоматический анализ текста для выявления профессиональных навыков: гибридный подход на основе TF-IDF и нейросетевых эмбеддингов. Вестник науки. 2025;4(85-2):685–692. URL: https://www.вестник-науки.рф/article/22263
Рецензия
Для цитирования:
Горбунова Е.А., Кочкаров Р.А., Окунева Э.А. Анализ тональности пользовательского текста методами машинного обучения. Цифровые решения и технологии искусственного интеллекта. 2025;1(4):16-25. https://doi.org/10.26794/3033-7097-2025-1-4-16-25
For citation:
Gorbunova E.A., Kochkarov R.A., Okuneva E.A. Sentiment Analysis of User Texts with Machine Learning Methods. Digital Solutions and Artificial Intelligence Technologies. 2025;1(4):16-25. (In Russ.) https://doi.org/10.26794/3033-7097-2025-1-4-16-25
JATS XML
