Векторная модель текста и TF-IDF
Почему для задачи тематической классификации предлоги, союзы и местоимения практически бесполезны?
Метод мешка слов
В разреженных векторных моделях словам даётся вес.
В самом простом случае вес = кол-во употреблений слова в документе.
Вес слова зависит от длины текста
Предлоги и союзы — самые "значимые" слова

Вес = кол-во употреблений слова в документе, делённое на длину документа
Предлоги и союзы — самые "значимые" слова

Если отсортировать слова по убыванию частоты их употребления, получим следующий график:

Частотных слов мало и они неинормативны
Редких слов много, они информативны, но на них сложно опираться
Баланс частотности и информативности
Чаще встречается в документе - более характерен для этого документа
Реже встречается в корпусе - более информативен

— term frequency — значимость слова в рамках документа:
где — кол-во употреблений слова в документе , — длина документа d в словах.

— inverse document frequency — специфичность слова:
где — кол-во документов в коллекции , в которых встречается слово , а — размер коллекции в документах.

Алгоритм взвешивания признаков по TF-IDF
Применить нормализацию текста (стемминг или лемматизацию), выделить базовые элементы
Построить частотный словарь для всех
Проредить слова по частоте
Для каждого документа :
Для каждого слова из документа найти
Записать результирующий вектор в позицию значение
Записать вектор документа в таблицу признаков документов коллекции
Last updated
Was this helpful?