Векторная модель текста и TF-IDF

Почему для задачи тематической классификации предлоги, союзы и местоимения практически бесполезны?

Потому что они имеют слишком большой вес.
Потому что предлоги могут привести к неправильной классификации
Потому что они встречаются практически во всех текстах вне зависимости от тематики

В разреженных векторных моделях словам даётся вес.

В самом простом случае вес = кол-во употреблений слова в документе.

Вес = кол-во употреблений слова в документе, делённое на длину документа

nw_i = \frac {w_i} { \sqrt { \sum_j w_j^2 } }

Если отсортировать слова по убыванию частоты их употребления, получим следующий график:

Плотность распределения Ципфа:

f(rank; s, N) = \frac {1} {Z(s, N) rank^s}

$rank$ — порядковый номер слова после сортировки по убыванию частоты,

$s$ — коэффициент скорости убывания вероятности,

$N$ — количество слов,

$Z(s, N) = \sum^N_{i=1}i^{-s}$ — нормализационная константа

$TF$ — term frequency — значимость слова в рамках документа:

TF(w, d) = \frac {WordCount(w, d)} {Length(d)}

где $WordCount(w, d)$ — кол-во употреблений слова $w$ в документе $d$ , $Length(d)$ — длина документа d в словах.

$IDF$ — inverse document frequency — специфичность слова:

IDF(w, c) = \frac {Size(c)} {DocCount(w, c)}

где $DocCount(w, c)$ — кол-во документов в коллекции $c$ , в которых встречается слово $w$ , а $Size(c)$ — размер коллекции в документах.

Применить нормализацию текста (стемминг или лемматизацию), выделить базовые элементы
Построить частотный словарь $DocCount(w, c)$ для всех $w$
Проредить слова по частоте
Для каждого документа $d$ :
1. Для каждого слова $w$ из документа $w$ найти $WordCount(w, d)$
  - Записать результирующий вектор в позицию $w$ значение $TF-IDF(w, d, c) = TF(w, d)IDF(w,c)$
2. Записать вектор документа в таблицу признаков документов коллекции

Last updated 5 years ago