Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.

NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.

Хмара слів утворюється наступним чином:

Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.

Проблеми застосування алгоритму:

  1. Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
  2. Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
  3. Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад «это» або «который» майже у всі авторів було на перших позиціях).

Однак, тим не менше, результат може дещо сказати про минулий рік і тексти автора. Алгоритм працює для будь-якого автора, але для ілюстративних цілей були вибрані топ-автори, яких я знаю особисто або регулярно читаю, і Шрайк.

Алекс Хавр

Результати без фільтрації стоп-слів (щоб оцінити масштаб трагедії)

5a4a242b940f2.png

Результат з фільтрацією (більш інформативний)

5a4a264c4344b.png

Найбільш вживані слова: Время очень лет

Антон Сененко

5a4a265835044.png

Найбільш вживані слова: нан науки украины

Юрій Гудименко

Ну це настільки прекрасно, що картинку можна розглядати увесь 2018 рік.

5a4a26c297707.png

Семен Єсилевський

5a4a26d35e5bb.png

Найбільш вживані слова: просто очень вообще

Роман Шрайк

ну тут без коментарів :)

5a4a26e49cdb1.png

Владимир Завгородний

5a4a26ee46aae.png

Найбільш вживані слова: время году

Виктор Трегубов

5a4a26f7d0c1c.png

Найбільш вживані слова: просто очень вообще (те саме, що і Єсилевського, хмммм )

Сашко Лірник

5a4a40dcdc3dc.png