Abstract: This article examines methods for analyzing user-generated reviews using machine learning and sentiment analysis across various service domains, including healthcare, tourism, and food delivery services. The study synthesizes findings from recent research based on large-scale user-generated textual data from online platforms and social media. Approaches to data collection, preprocessing, sentiment classification, and topic modeling are discussed.
Keywords: sentiment analysis, machine learning, user reviews, topic modeling, big data.
Введение
В последние десятилетия цифровые технологии существенно трансформировали способы взаимодействия потребителей с организациями, предоставляющими услуги. Социальные сети, платформы онлайн-бронирования и сервисы доставки стали не только каналами оказания услуг, но и пространством для формирования и распространения пользовательских оценок и мнений. Массовое накопление пользовательских отзывов создало предпосылки для применения методов интеллектуального анализа данных, направленных на извлечение ценной информации из неструктурированных текстов.
Пользовательские отзывы представляют собой уникальный источник сведений о реальном опыте клиентов, поскольку они формируются спонтанно, отражают эмоциональное восприятие сервиса и зачастую содержат более критичную и детализированную информацию по сравнению с традиционными опросами удовлетворённости. В этой связи анализ тональности и тематическое моделирование приобретают особую актуальность как инструменты поддержки управленческих решений.
Современные методы обработки естественного языка и машинного обучения позволяют автоматизировать анализ больших массивов текстовых данных, выявлять скрытые закономерности и систематизировать пользовательский опыт. Особенно важно отметить междисциплинарный характер данных методов, которые находят применение в здравоохранении, туризме, электронной коммерции и сфере услуг. Настоящая статья направлена на обобщение и сравнительный анализ таких подходов на основе результатов современных эмпирических исследований.
Описание задачи
Основной задачей исследования является обобщение и систематизация современных подходов к анализу пользовательских отзывов на основе машинного обучения и анализа тональности. Особое внимание уделяется выявлению общих закономерностей в пользовательском опыте, независимо от предметной области.
В рамках анализа выделяются следующие подзадачи:
- изучение методов сбора и очистки текстовых данных из онлайн-источников;
- анализ подходов к классификации отзывов по тональности;
- применение тематического моделирования для выявления ключевых аспектов пользовательского опыта;
- сравнение результатов, полученных в различных предметных областях;
- выявление ограничений и проблем существующих методов.
Методы решения
Решение задачи анализа пользовательских отзывов базируется на сочетании методов обработки естественного языка, машинного обучения и статистического анализа. В рассмотренных исследованиях применяются как классические алгоритмы машинного обучения, так и ансамблевые модели, позволяющие повысить точность классификации текстов.
На этапе предварительной обработки данных удаляются технические артефакты: HTML-теги, специальные символы, повторяющиеся пробелы. Решается проблема эмодзи и стикеров, которые несут значительную эмоциональную нагрузку. Система использует предобученные словари сентимента эмодзи, чтобы заменить графический символ на текстовый маркер с соответствующей тональностью. Обрабатываются повторы, удаляются дубликаты и записи с отсутствующими критическими данными. Проводится исправление частых опечаток, токенизация (разбиение текста на слова или предложения) и удаление стоп-слов, стемминг/лемматизация.
После очистки текст необходимо представить в числовой форме, понятной для алгоритмов. Однако не все слова одинаково полезны для предсказания тональности. Этап отбора признаков отфильтровывает информативный шум.
Метод N-grams. Текст разбивается на последовательности из N слов (N-граммы). Чаще всего используются униграммы и биграммы. Это позволяет уловить не только значение отдельных слов, но и контекстные сочетания.
Взвешивание TF-IDF. Каждому слову (или N-грамме) присваивается вес по схеме TF-IDF (Term Frequency-Inverse Document Frequency). Вес увеличивается, если слово часто встречается в данном отзыве (TF), но редко в остальных отзывах коллекции (IDF). Это помогает выделить уникальные для отзыва значимые слова, а не общеупотребительные.
Далее идет отбор наиболее информативных признаков (Feature Selection).
Статистические методы фильтрации (Filter Methods): признаки ранжируются независимо от модели классификации по их связи с целевым классом.
- Mutual Information. Измеряет, насколько знание о наличии слова уменьшает неопределённость относительно тональности отзыва. Высокий MI указывает на сильную связь слова с определённым сентиментом.
- ANOVA F-test. Оценивает, различается ли средняя частота слова в отзывах разных классов (позитивных, негативных, нейтральных) статистически значимо. Слова с высоким F-статистиком лучше всего разделяют классы.
- Chi-Square Test (χ²). Проверяет статистическую независимость между наличием слова и классом сентимента. Высокое значение χ² указывает на зависимость.
Также существует метод сокращения размерности (Dimensionality Reduction). Principal Component Analysis (PCA). Преобразует исходные, часто коррелированные, признаки (слова) в новый набор некоррелированных компонент (главных компонент), которые объясняют максимальную долю дисперсии в данных. Позволяет работать с меньшим числом «синтетических» признаков.
Практический результат: Использование MI или ANOVA в связке с классификатором SVM в исследованиях по арабским отзывам о доставке еды позволило достичь точности до 90%, значительно повышая производительность по сравнению с использованием всех признаков.
На подготовленных данных строятся модели для решения двух задач: определения тональности и выявления ключевых тем.
Классификация тональности (Sentiment Classification):
- Support Vector Machine (SVM). Часто показывает наилучшие результаты, особенно с линейным ядром, хорошо работая в высокоразмерных пространствах (где много слов).
- Наивный Байес (Naive Bayes). Простой, быстрый и эффективный, особенно для небольших наборов данных.
- Логистическая регрессия (Logistic Regression). Интерпретируемая модель, дающая не только класс, но и вероятность принадлежности к нему
- Случайный лес (Random Forest). Ансамбль решающих деревьев, устойчивый к переобучению.
- Ансамблирование (Ensembling). Для повышения надёжности и точности применяется метод голосования (Voting). Например, финальное решение принимается большинством голосов от трёх лучших моделей (LR, Multinomial NB и Random Forest), что обеспечивает более высокие показатели, чем любая модель в отдельности.
Тематическое моделирование. Latent Dirichlet Allocation (LDA). Этот алгоритм без учителя используется для обнаружения скрытых «тем» в коллекции отзывов. Каждая тема представляется распределением вероятностей над словами, а каждый отзыв — распределением над темами. В анализе отзывов на отели LDA помог выявить, что основные темы обсуждения вращаются вокруг «персонала», «чистоты номера», «местоположения» и «завтрака». Визуализация также позволяет интерактивно исследовать эти темы и их взаимосвязи, предоставляя менеджерам глубокое понимание того, какие аспекты сервиса формируют впечатление клиента.
Сравнительный анализ эффективности машинного обучения
Внедрение NLP и машинного обучения для анализа пользовательских контента принесло значимые результаты. Здесь представлено сравнение результатов исследований в трёх различных сферах: секторе услуг доставки еды, гостиничном бизнесе и здравоохранении. Несмотря на общую технологическую основу, итоги исследований демонстрируют как общие закономерности, так и отраслевую специфику.
Таблица 1
Сравнение способов анализа отзывов
| Критерий | Доставка еды (арабский язык) | Гостиничный бизнес (английский язык) | Здравоохранение (китайский язык) |
| Лучшая модель и точность | SVM + Mutual Information (MI). Достигнута точность 90% для бинарной классификации (позитив, негатив). Для многоклассовой (позитив, нейтрал, негатив) — 82%. | Тематическое моделирование (LDA) и статистический анализ полярности. Классификация использовалась как инструмент для фильтрации. Акцент на анализ полярности (0.25-0.5) и субъективности (0.5-1.0) с помощью TextBlob. | Ансамбль голосования (LR + Multinomial NB + Random Forest). Достигнута высокая точность для многометочной классификации тем: Accuracy = 0.93, F1-score = 0.84. Для сентимент-анализа — Accuracy = 0.80, F1 = 0.83. |
| Влияние предобработки | Применение словарей диалектов, эмодзи и очистки Arabizi повысило точность DT и KNN на 3-4%, а F1-score SVM — на 15%. | Удаление дубликатов, фильтрация по времени, нормализация. Вклад в точность не выявлен. | Использование стоп-слов и ручное кодирование для создания тренировочного набора с высокой межкодировочной надёжностью (κ = 0.81-0.93) стало критичным. |
| Ключевой технологический вызов | Обработка арабских диалектов, отсутствие размеченных корпусов. Решение: создание собственных словарей и правил трансляции. | Сбор и объединение >1.3 млн отзывов с двух платформ с разными рейтинговыми системами. | Один пост мог затрагивать несколько тем (52.74% постов). Решение: применение ансамбля моделей с жёстким голосованием. |
| Достигнутый уровень автоматизации | Высокий. Предложен сквозной пайплайн от сбора до классификации и визуализации (облака слов), требующий минимального вмешательства после настройки. | Высокий в части сбора и первичного анализа (полярность, темы). Фреймворк преподносится как обобщённый инструмент для анализа отелей. | Гибридный подход: сочетание ручного кодирования выборки (20% данных) для создания стандарта с последующим машинным кодированием остальных данных. |
Проблемы
Несмотря на высокую эффективность современных методов анализа текстов, существует ряд проблем и ограничений. Одной из ключевых сложностей является многоязычность пользовательских данных и наличие диалектов, сленга и эмодзи, затрудняющих автоматическую интерпретацию текста.
Другой проблемой является дисбаланс классов, при котором отрицательные отзывы часто преобладают над положительными, что может искажать результаты классификации. Кроме того, субъективность пользовательских высказываний и контекстная зависимость эмоций усложняют интерпретацию результатов анализа тональности.
Также следует отметить вычислительную сложность обработки больших массивов данных и необходимость качественной разметки обучающих выборок, что требует значительных временных и человеческих ресурсов.
Заключение
В результате проведённого анализа можно сделать вывод о высокой универсальности методов машинного обучения и анализа тональности при изучении пользовательских отзывов в различных предметных областях. Рассмотренные подходы позволяют эффективно выявлять ключевые проблемы и ожидания пользователей, а также формировать рекомендации для повышения качества услуг.
Интеграция тематического моделирования и анализа тональности предоставляет организациям инструмент для принятия обоснованных управленческих решений на основе больших данных. Несмотря на существующие ограничения, дальнейшее развитие методов NLP и расширение многоязычных ресурсов открывают перспективы для более глубокого и точного анализа пользовательского опыта.
References
1. Chen X, Shen Z, Guan T, Tao Y, Kang Y, Zhang Y, 2024. Analyzing Patient Experience on Weibo: Machine Learning Approach to Topic Modeling and Sentiment Analysis. JMIR Medical Informatics 12: e59249. doi: 10.2196/592492. Le HTM, Phan-Thi TA, Nguyen BT, Nguyen TQ, 2025. Mining online hotel reviews using big data and machine learning: An empirical study from an emerging country. Annals of Tourism Research Empirical Insights 6(1): 100170. doi: 10.1016/j.annals.2024.100170
3. Mustafa D, Khabour SM, Shatnawi AS, 2024. Customers' sentiment on food delivery services: An Arabic text mining approach. International Journal of Information Management Data Insights 4(1): 100299. doi: 10.1016/j.jjimei.2024.100299
4. Novak PK, Smailović J, Sluban B, Mozetič I, 2015. Sentiment of Emojis. PLOS ONE 10(12): e0144296. doi: 10.1371/journal.pone.0144296
5. Blei DM, Ng AY, Jordan MI, 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research 3: 993-1022.
6. Yang Y, Pedersen JO, 1997. A comparative study on feature selection in text categorization. International Conference on Machine Learning (ICML) 97: 412-420.
7. Tubishat M, Mohammad-Idris N, Aljarah I, 2019. Improved whale optimization algorithm for feature selection in Arabic sentiment analysis. Applied Intelligence 49: 1688-1707. doi: 10.1007/s10489-018-1334-8
8. Guellil I, Azouaou F, Mendoza M, 2019. Arabic sentiment analysis: studies, resources, and tools. Social Network Analysis and Mining 9(1): 56. doi: 10.1007/s13278-019-0602-x
9. Al-Ayyoub M, Khamaiseh AA, Jararweh Y, Al-Kabi MN, 2019. A comprehensive survey of Arabic sentiment analysis. Information Processing & Management 56(2): 320-342. doi: 10.1016/j.ipm.2018.07.006
10. Oueslati O, Cambria E, HajHmida MB, Ounelli H, 2020. A review of sentiment analysis research in Arabic language. Future Generation Computer Systems 112: 408-430. doi: 10.1016/j.future.2020.05.034
11. Greaves F, Ramirez-Cano D, Millett C, Darzi A, Donaldson L, 2013. Use of sentiment analysis for capturing patient experience from free-text comments posted online. Journal of Medical Internet Research 15(11): e239. doi: 10.2196/jmir.2721
12. Hawkins JB, Brownstein JS, Tuli G, et al., 2016. Measuring patient-perceived quality of care in US hospitals using Twitter. BMJ Quality & Safety 25(6): 404-413. doi: 10.1136/bmjqs-2015-004309
13. Liu Y, Teichert T, Rossi M, Li H, Hu F, 2017. Big data for big insights: Investigating language-specific drivers of hotel satisfaction with 412,784 user-generated reviews. Tourism Management 59: 554-563. doi: 10.1016/j.tourman.2016.08.012
14. Zhao Y, Xu X, Wang M, 2019. Predicting overall customer satisfaction: Big data evidence from hotel online textual reviews. International Journal of Hospitality Management 76: 111-121. doi: 10.1016/j.ijhm.2018.03.017
15. Vargas-Calderón V, Moros Ochoa A, Castro Nieto GY, Camargo JE, 2021. Machine learning for assessing quality of service in the hospitality sector based on customer reviews. Information Technology & Tourism 23(3): 351-379. doi: 10.1007/s40558-021-00207-4
