Векторная модель текста и TF-IDF
Last updated
Was this helpful?
Last updated
Was this helpful?
Почему для задачи тематической классификации предлоги, союзы и местоимения практически бесполезны?
В разреженных векторных моделях словам даётся вес.
В самом простом случае вес = кол-во употреблений слова в документе.
Вес слова зависит от длины текста
Предлоги и союзы — самые "значимые" слова
Вес = кол-во употреблений слова в документе, делённое на длину документа
Предлоги и союзы — самые "значимые" слова
Если отсортировать слова по убыванию частоты их употребления, получим следующий график:
Частотных слов мало и они неинормативны
Редких слов много, они информативны, но на них сложно опираться
Чаще встречается в документе - более характерен для этого документа
Реже встречается в корпусе - более информативен
— term frequency — значимость слова в рамках документа:
где — кол-во употреблений слова в документе , — длина документа d в словах.
— inverse document frequency — специфичность слова:
где — кол-во документов в коллекции , в которых встречается слово , а — размер коллекции в документах.
Применить нормализацию текста (стемминг или лемматизацию), выделить базовые элементы
Построить частотный словарь для всех
Проредить слова по частоте
Для каждого документа :
Для каждого слова из документа найти
Записать результирующий вектор в позицию значение
Записать вектор документа в таблицу признаков документов коллекции