• 8 місяців тому
  • Наука
  • 4 571
  • 56
  • 7
  • 5

Один з сучасних підходів до аналізу текстів полягає у візуалізації вживаних слів у вигляді хмари. Це один з методів NLP.

NLP – Natural language processing (найновіша область Data Science яка наразі бурхливо розвивається) а зовсім не нейролінгвістичне програмування як Ви могли подумати.

Хмара слів утворюється наступним чином:

  • Тексти витягуються у масив
  • Виділяються окремі слова і їх частоти
  • Викидуються знаки пунктуації, числа, з’єднувальні слова
  • Результат візуалізується у вигляді хмари, де розмір і колір слів залежить від їх частоти вживання

Для отримання хмари використовувалась мова R та пакети tm, SnowballC, wordcloud.

Проблеми застосування алгоритму:

  1. Стандартний алгоритм розрахований на англійську мову, тому він не чутливий до особливостей російської і української мов (наука, науки, наукою – різні слова для нього)
  2. Якщо статті автора писались українською і російською це спотворює роботу алгоритму, тому що знижуються частоти слів, які по різному пишуться.
  3. Результат залежить від списку стоп-слів, тобто слів, які ми вважаємо неінформативними (наприклад “это” або “который” майже у всі авторів було на перших позиціях).

Однак, тим не менше, результат може дещо сказати про минулий рік і тексти автора. Алгоритм працює для будь-якого автора, але для ілюстративних цілей були вибрані топ-автори, яких я знаю особисто або регулярно читаю, і Шрайк.

Алекс Хавр

Результати без фільтрації стоп-слів (щоб оцінити масштаб трагедії)

Результат з фільтрацією (більш інформативний)

Найбільш вживані слова: Время очень лет

Антон Сененко

Найбільш вживані слова: нан науки украины

Юрій Гудименко

Ну це настільки прекрасно, що картинку можна розглядати увесь 2018 рік.

Семен Єсилевський

Найбільш вживані слова: просто очень вообще

Роман Шрайк

ну тут без коментарів :)

Владимир Завгородний

Найбільш вживані слова: время году

Виктор Трегубов

Найбільш вживані слова: просто очень вообще (те саме, що і Єсилевського, хмммм )

Сашко Лірник

Коментарі доступні тільки зареєстрованим користувачам

вхід / реєстрація