Прикладные задачи обработки текста

Описание и механизмы решения основных типов прикладных задач

Качество классификации может быть измерено с помощью нескольких метрик. Одни из самых популярных - точность, полнота и F1-мера (ф-мера). В основе этих метрик лежат частоты ошибок первого и второго рода (ложноотрицательных и ложноположительных срабатываний)

Истинная метка - 0

Истинная метка - 1

Предсказание - 0

Истинно отрицательное предсказание

True Negative, TN

Ложно-отрицательное предсказание

False Negative, FN

Предсказание - 1

Ложно-положительное предсказание

False Positive, FP

Истинно положительное предсказание

True Positive, TP

Сокращения TN, FN, FP, TP можно использовать для обозначения количества истинно-отрицательных, ложно-отрицательных, ложно-положительных и истинно-положительных предсказаний оцениваемого классификатора на валидационной выборке.

Используя эти обозначения, можно определить точность, полноту и F1-меру следующим образом:

Precision=TPTP+FP+ϵ,Precision = \frac {TP} {TP + FP + \epsilon},
Recall=TPTP+FN+ϵ,Recall = \frac {TP} {TP + FN + \epsilon}​,
F1=2PrecisionRecallPrecision+Recall+ϵ,F_1 = \frac{2PrecisionRecall} {Precision + Recall + \epsilon}​,

где ϵϵ - малое по модулю положительное число (чтобы не было деления на 0).

Кроме того, иногда используют долю верных угадываний:

Accuracy=TP+TNTN+FN+FP+TPAccuracy = \frac {TP + TN} {TN + FN + FP + TP}

Проанализируйте эти формулы и отметьте в списке ниже истинные утверждения (одно или несколько), касающиеся этих метрик.

При оценке истинности утверждений предполагайте, что количество положительных и отрицательных примеров в валидационной выборке одинаковое, если в варианте ответа не указано другое.

Типы прикладных задач

Классификация

  • Тематическая классификация длинных текстов

  • Классификация коротких текстов (по тональности, интенции)

Поиск

  • Поиск по запросу

  • Поиск текста по изображению и изображений по текстам

  • Поиск похожих текстов

  • Вопросно-ответный поиск

Извлечение структурированной информации

Диалоговые системы

Машинный перевод

Эксплоративный анализ

Тематическая классификация

Механизмы для длинных текстов:

  • Линейные модели классификации, векторное представление, TF-IDF

  • Нейросетевые модели

Механизмы для коротких текстов:

  • Нейросети

  • Ядерные методы

  • Системы правил (лексико-синтаксические шаблоны)

Поиск

Механизмы для коротких поисковых запросов:

  • TF-IDF + формулы вычисления релевантноти BM-25 и др.

  • Дистрибутивно-семантические модели

  • Лингвистический анализ и алгоритмы сопоставления структуры текстов

  • Обучаемое ранжирование на основе бустинга и нейросетей

Механизмы для HTML-страниц с изображениями:

  • Поиск через окружающий текст

  • Нейросети

Механизыми для поиска похожих документов:

  • TF-IDF + векторная модель текста, N-граммы

  • Плотные векторные представления, тематическое моделирование

  • Сиамские нейросети

Механизмы для поиска ответов:

  • Нейросети

  • Лингвистический анализ и алгоритмы сопоставления графов, ядерные методы

Извлечение структурированной информации

Механизмы:

  • Системы правил, сопоставление со словарями

  • Лингвистеческий анлиз и ядерные методы

  • Нейросети (редко)

Диалоговые системы

Механизмы:

  • Алгоритмы классификации коротких текстов (например, для определения интенции)

  • Алгоритмы поска похожих текстов для выбора ответа

  • Нейросети — end-to-end диалогоые системы

Машинный перевод

Механизмы:

  • Нейросети

  • Алгоритмы статистического машинного перевода

Эксплоративный анализ

Механизмы:

  • Тематический анализ (LDA, ARTM)

Last updated

Was this helpful?