Прикладные задачи обработки текста

Качество классификации может быть измерено с помощью нескольких метрик. Одни из самых популярных - точность, полнота и F1-мера (ф-мера). В основе этих метрик лежат частоты ошибок первого и второго рода (ложноотрицательных и ложноположительных срабатываний)

Истинная метка - 0

Истинная метка - 1

Предсказание - 0

Истинно отрицательное предсказание

True Negative, TN

Ложно-отрицательное предсказание

False Negative, FN

Предсказание - 1

Ложно-положительное предсказание

False Positive, FP

Истинно положительное предсказание

True Positive, TP

Сокращения TN, FN, FP, TP можно использовать для обозначения количества истинно-отрицательных, ложно-отрицательных, ложно-положительных и истинно-положительных предсказаний оцениваемого классификатора на валидационной выборке.

Используя эти обозначения, можно определить точность, полноту и F1-меру следующим образом:

Precision = \frac {TP} {TP + FP + \epsilon},

Recall = \frac {TP} {TP + FN + \epsilon}​,

F_1 = \frac{2PrecisionRecall} {Precision + Recall + \epsilon}​,

где $ϵ$ - малое по модулю положительное число (чтобы не было деления на 0).

Кроме того, иногда используют долю верных угадываний:

Accuracy = \frac {TP + TN} {TN + FN + FP + TP}

Проанализируйте эти формулы и отметьте в списке ниже истинные утверждения (одно или несколько), касающиеся этих метрик.

При оценке истинности утверждений предполагайте, что количество положительных и отрицательных примеров в валидационной выборке одинаковое, если в варианте ответа не указано другое.

Процесс решения задачи поиска часто состоит из двух крупных шагов, каждый из которых разбивается на более мелкие:

Настройка поиска
1. преобразование объектов (например, текстов) в вещественные вектора
2. построение поискового индекса
3. настройка функции ранжирования
Выполнение поиска
1. преобразование запроса в вещественный вектор
2. грубая выборка кандидатов
3. сортировка кандидатов с помощью функции ранжирования

Поисковый индекс - набор специальных структур данных, ускоряющих процесс поиска. Так как процесс индексации тоже требует времени, поисковые индексы не всегда имеет смысл строить - например, когда данных мало или данные часто меняются и индекс устаревает быстрее, чем может быть перестроен.

Настройка функции ранжирования выполняется с помощью набора примеров вида "запрос - документ - оценка релевантности по мнению человека". Релевантность - численная величина, характеризующая соответствие найденного документа запросу (чем больше, тем лучше документ подходит под запрос).

Пусть у нас есть коллекция документов, которые на шаге 1.1 были преобразованы в следующие вектора

ID документа

Признаки

1

(0, 1)(0,1)

2

(1, 0)(1,0)

3

(1, 0.5)(1,0.5)

Также у нас есть функция ранжирования

Relevance(q, d) = - (q_1 - d_1)^2 - 2 (q_2 - d_2)^2 ,

где $(q_1, q_2)$ - признаки запроса, а $(d_1, d_2)$ - признаки документа.

Нам пришел запрос с признаками $(1, 1)$ .

Отсортируйте документы в порядке убывания релевантности относительно данного запроса.

Выберите истинные утверждения (одно или несколько) касательно задачи поиска текстов.

Линейные модели чаще обеспечивают большую точность по сравнению с тематическим моделированием.
Линейные модели чаще обеспечивают большую полноту по сравнению с дистрибутивно-семантическими моделями.
Поиск текстов - это задача определения тематики документа.
В поиске похожих документов в качестве запроса выступает картинка.

Выберите верные утверждения (одно или несколько) касательно извлечения структурированной информации.

Извлечение именованных сущностей сводится к задаче классификации токенов
Для извлечения информации можно использовать нейросети
Для извлечения информации можно использовать тематическое моделирование

Типы прикладных задач

Классификация

Поиск

Извлечение структурированной информации

Диалоговые системы

Машинный перевод

Эксплоративный анализ

Тематическая классификация

Механизмы для длинных текстов:

Механизмы для коротких текстов:

Поиск

Механизмы для коротких поисковых запросов:

Механизмы для HTML-страниц с изображениями:

Механизыми для поиска похожих документов:

Механизмы для поиска ответов:

Извлечение структурированной информации

Механизмы:

Диалоговые системы

Механизмы:

Машинный перевод

Механизмы:

Эксплоративный анализ

Механизмы: