Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.
NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.
Хмара слів утворюється наступним чином:
- Тексти витягуються у масив
- Виділяються окремі слова і їх частоти
- Викидуються знаки пунктуації, числа, з'єднувальні слова
- Результат візуалізується у вигляді хмари, де розмір і колір слів залежить від їх частоти вживання
Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.
Проблеми застосування алгоритму:
- Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
- Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
- Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад «это» або «который» майже у всі авторів було на перших позиціях).
Однак,
тим не менше, результат може дещо сказати
про минулий рік і тексти автора. Алгоритм
працює
для будь-якого автора, але для ілюстративних
цілей були вибрані топ-автори, яких я
знаю особисто або регулярно читаю, і Шрайк.
Алекс Хавр
Результати без фільтрації стоп-слів (щоб оцінити масштаб трагедії)
Результат
з фільтрацією
(більш інформативний)
Найбільш
вживані слова: Время очень лет
Антон Сененко
Найбільш
вживані слова: нан науки украины
Юрій Гудименко
Ну це настільки прекрасно, що картинку можна розглядати увесь 2018 рік.
Семен Єсилевський
Найбільш
вживані слова: просто очень
вообще
Роман
Шрайк
ну тут без коментарів :)
Владимир Завгородний
Найбільш вживані слова: время году
Виктор Трегубов
Найбільш вживані слова: просто очень вообще (те саме, що і Єсилевського, хмммм )
Сашко Лірник