Продолжаем осваивать NLP — направление в программировании по работе с естественными языками. Проще говоря, учим компьютер разбирать текст на слова и работать с ними так, как нам нужно. В первой части мы загрузили все тома «Войны и мира» в Python, нашли самые частые слова в каждом томе и нарисовали облако слов по популярности — чем чаще встречается слово, тем крупнее оно написано. Во время обработки текста мы считали все слова по их количеству — сколько раз слово встречается в тексте. С этой точки зрения слова «который», «которая» и «которые» — это разные слова, хотя это одно слово, просто в разных лицах и числах.
Чтобы каждое облако тегов максимально точно отражало суть происходящего в каждой книге, мы сделаем так:
- приведём каждое слово в тексте к нормальной форме;
- построим новое облако слов для каждого тома;
- найдём общие самые частые слова, которые есть в каждом томе;
- уберём эти слова, если они есть в каждом облаке, чтобы они не мешали найти суть происходящего в книгах;
- нарисуем новые облака слов, которые будут отражать уникальный сюжет каждой книги.