Прикладные задачи обработки текста
Описание и механизмы решения основных типов прикладных задач
Качество классификации может быть измерено с помощью нескольких метрик. Одни из самых популярных - точность, полнота и F1-мера (ф-мера). В основе этих метрик лежат частоты ошибок первого и второго рода (ложноотрицательных и ложноположительных срабатываний)
Истинная метка - 0
Истинная метка - 1
Предсказание - 0
Истинно отрицательное предсказание
True Negative, TN
Ложно-отрицательное предсказание
False Negative, FN
Предсказание - 1
Ложно-положительное предсказание
False Positive, FP
Истинно положительное предсказание
True Positive, TP
Сокращения TN, FN, FP, TP можно использовать для обозначения количества истинно-отрицательных, ложно-отрицательных, ложно-положительных и истинно-положительных предсказаний оцениваемого классификатора на валидационной выборке.
Используя эти обозначения, можно определить точность, полноту и F1-меру следующим образом:
где - малое по модулю положительное число (чтобы не было деления на 0).
Кроме того, иногда используют долю верных угадываний:
Проанализируйте эти формулы и отметьте в списке ниже истинные утверждения (одно или несколько), касающиеся этих метрик.
При оценке истинности утверждений предполагайте, что количество положительных и отрицательных примеров в валидационной выборке одинаковое, если в варианте ответа не указано другое.
Типы прикладных задач
Классификация
Тематическая классификация длинных текстов
Классификация коротких текстов (по тональности, интенции)
Поиск
Поиск по запросу
Поиск текста по изображению и изображений по текстам
Поиск похожих текстов
Вопросно-ответный поиск
Извлечение структурированной информации
Диалоговые системы
Машинный перевод
Эксплоративный анализ
Тематическая классификация
Механизмы для длинных текстов:
Линейные модели классификации, векторное представление, TF-IDF
Нейросетевые модели
Механизмы для коротких текстов:
Нейросети
Ядерные методы
Системы правил (лексико-синтаксические шаблоны)
Поиск
Механизмы для коротких поисковых запросов:
TF-IDF + формулы вычисления релевантноти BM-25 и др.
Дистрибутивно-семантические модели
Лингвистический анализ и алгоритмы сопоставления структуры текстов
Обучаемое ранжирование на основе бустинга и нейросетей
Механизмы для HTML-страниц с изображениями:
Поиск через окружающий текст
Нейросети
Механизыми для поиска похожих документов:
TF-IDF + векторная модель текста, N-граммы
Плотные векторные представления, тематическое моделирование
Сиамские нейросети
Механизмы для поиска ответов:
Нейросети
Лингвистический анализ и алгоритмы сопоставления графов, ядерные методы
Извлечение структурированной информации
Механизмы:
Системы правил, сопоставление со словарями
Лингвистеческий анлиз и ядерные методы
Нейросети (редко)
Диалоговые системы
Механизмы:
Алгоритмы классификации коротких текстов (например, для определения интенции)
Алгоритмы поска похожих текстов для выбора ответа
Нейросети — end-to-end диалогоые системы
Машинный перевод
Механизмы:
Нейросети
Алгоритмы статистического машинного перевода
Эксплоративный анализ
Механизмы:
Тематический анализ (LDA, ARTM)
Last updated
Was this helpful?