Векторная модель текста и TF-IDF

Почему для задачи тематической классификации предлоги, союзы и местоимения практически бесполезны?

Потому что они имеют слишком большой вес.
Потому что предлоги могут привести к неправильной классификации
Потому что они встречаются практически во всех текстах вне зависимости от тематики

Пусть в некотором языке есть $N=3$ слова - А, Б и В. Их ранги - 1, 2 и 3 (нумерация рангов начинается с 1). Найдите вероятности встретить каждое из этих слов в тексте при условии, что относительные частоты слов распределены по Ципфу с $s = 2$ .

Представьте ответ в форме трёх чисел $P(А) P(Б) P(В)$ , разделённых пробелом, с точкой . в качестве десятичного разделителя, например, 0.1 0.2 0.3. Ответ округлите до не менее чем двух знаков после запятой.

Метод мешка слов

В разреженных векторных моделях словам даётся вес.

В самом простом случае вес = кол-во употреблений слова в документе.

Вес слова зависит от длины текста
Предлоги и союзы — самые "значимые" слова

Вес = кол-во употреблений слова в документе, делённое на длину документа

nw_i = \frac {w_i} { \sqrt { \sum_j w_j^2 } }

Предлоги и союзы — самые "значимые" слова

Если отсортировать слова по убыванию частоты их употребления, получим следующий график:

Плотность распределения Ципфа:

f(rank; s, N) = \frac {1} {Z(s, N) rank^s}

$rank$ — порядковый номер слова после сортировки по убыванию частоты,

$s$ — коэффициент скорости убывания вероятности,

$N$ — количество слов,

$Z(s, N) = \sum^N_{i=1}i^{-s}$ — нормализационная константа

Частотных слов мало и они неинормативны
Редких слов много, они информативны, но на них сложно опираться

Баланс частотности и информативности

Чаще встречается в документе - более характерен для этого документа
Реже встречается в корпусе - более информативен

$TF$ — term frequency — значимость слова в рамках документа:

TF(w, d) = \frac {WordCount(w, d)} {Length(d)}

где $WordCount(w, d)$ — кол-во употреблений слова $w$ в документе $d$ , $Length(d)$ — длина документа d в словах.

$IDF$ — inverse document frequency — специфичность слова:

IDF(w, c) = \frac {Size(c)} {DocCount(w, c)}

где $DocCount(w, c)$ — кол-во документов в коллекции $c$ , в которых встречается слово $w$ , а $Size(c)$ — размер коллекции в документах.

Алгоритм взвешивания признаков по TF-IDF

Применить нормализацию текста (стемминг или лемматизацию), выделить базовые элементы
Построить частотный словарь $DocCount(w, c)$ для всех $w$
Проредить слова по частоте
Для каждого документа $d$ :
1. Для каждого слова $w$ из документа $w$ найти $WordCount(w, d)$
  - Записать результирующий вектор в позицию $w$ значение $TF-IDF(w, d, c) = TF(w, d)IDF(w,c)$
2. Записать вектор документа в таблицу признаков документов коллекции

PreviousПрикладные задачи обработки текста NextСоздаём нейросеть для работы с текстом

Last updated 5 years ago

Was this helpful?