📜
Нейронные сети и обработка текста
  • Содержание курса
  • Введение
    • Естественный язык и текст
    • Особенности обработки естественных языков
    • Лингвистический анализ
    • Извлечение признаков
    • Прикладные задачи обработки текста
  • Векторная модель текста и классификация длинных текстов
    • Векторная модель текста и TF-IDF
    • Создаём нейросеть для работы с текстом
    • Теоретические задачи: Векторная модель текста
    • Семинар: классификация новостных текстов
  • Базовые нейросетевые методы работы с текстами
    • Общий алгоритм работы с текстами с помощью нейросетей
    • Дистрибутивная семантика и векторные представления слов
    • Семинар: рецепты еды и Word2Vec на PyTorch
    • Теоретические вопросы: Дистрибутивная семантика
    • Основные виды нейросетевых моделей для обработки текстов
    • Свёрточные нейросети для обработки текстов
    • Семинар: POS-тэггинг свёрточными нейросетями
    • Теоретические вопросы: Свёрточные нейросети в обработке текстов
  • Языковые модели и генерация текста
    • Untitled
  • Преобразование последовательностей
    • Untitled
  • Transfer learning, адаптация моделей
    • Untitled
  • Финальное соревнование на kaggle и заключение
    • Untitled
Powered by GitBook
On this page
  • Типы прикладных задач
  • Тематическая классификация
  • Поиск
  • Извлечение структурированной информации
  • Диалоговые системы
  • Машинный перевод
  • Эксплоративный анализ

Was this helpful?

  1. Введение

Прикладные задачи обработки текста

Описание и механизмы решения основных типов прикладных задач

Качество классификации может быть измерено с помощью нескольких метрик. Одни из самых популярных - точность, полнота и F1-мера (ф-мера). В основе этих метрик лежат частоты ошибок первого и второго рода (ложноотрицательных и ложноположительных срабатываний)

Истинная метка - 0

Истинная метка - 1

Предсказание - 0

Истинно отрицательное предсказание

True Negative, TN

Ложно-отрицательное предсказание

False Negative, FN

Предсказание - 1

Ложно-положительное предсказание

False Positive, FP

Истинно положительное предсказание

True Positive, TP

Сокращения TN, FN, FP, TP можно использовать для обозначения количества истинно-отрицательных, ложно-отрицательных, ложно-положительных и истинно-положительных предсказаний оцениваемого классификатора на валидационной выборке.

Используя эти обозначения, можно определить точность, полноту и F1-меру следующим образом:

Precision=TPTP+FP+ϵ,Precision = \frac {TP} {TP + FP + \epsilon},Precision=TP+FP+ϵTP​,
Recall=TPTP+FN+ϵ​,Recall = \frac {TP} {TP + FN + \epsilon}​,Recall=TP+FN+ϵTP​​,
F1=2PrecisionRecallPrecision+Recall+ϵ​,F_1 = \frac{2PrecisionRecall} {Precision + Recall + \epsilon}​,F1​=Precision+Recall+ϵ2PrecisionRecall​​,

где ϵϵϵ - малое по модулю положительное число (чтобы не было деления на 0).

Кроме того, иногда используют долю верных угадываний:

Accuracy=TP+TNTN+FN+FP+TPAccuracy = \frac {TP + TN} {TN + FN + FP + TP}Accuracy=TN+FN+FP+TPTP+TN​

Проанализируйте эти формулы и отметьте в списке ниже истинные утверждения (одно или несколько), касающиеся этих метрик.

При оценке истинности утверждений предполагайте, что количество положительных и отрицательных примеров в валидационной выборке одинаковое, если в варианте ответа не указано другое.

Процесс решения задачи поиска часто состоит из двух крупных шагов, каждый из которых разбивается на более мелкие:

  1. Настройка поиска

    1. преобразование объектов (например, текстов) в вещественные вектора

    2. построение поискового индекса

    3. настройка функции ранжирования

  2. Выполнение поиска

    1. преобразование запроса в вещественный вектор

    2. грубая выборка кандидатов

    3. сортировка кандидатов с помощью функции ранжирования

Поисковый индекс - набор специальных структур данных, ускоряющих процесс поиска. Так как процесс индексации тоже требует времени, поисковые индексы не всегда имеет смысл строить - например, когда данных мало или данные часто меняются и индекс устаревает быстрее, чем может быть перестроен.

Настройка функции ранжирования выполняется с помощью набора примеров вида "запрос - документ - оценка релевантности по мнению человека". Релевантность - численная величина, характеризующая соответствие найденного документа запросу (чем больше, тем лучше документ подходит под запрос).

Пусть у нас есть коллекция документов, которые на шаге 1.1 были преобразованы в следующие вектора

ID документа

Признаки

1

(0, 1)(0,1)

2

(1, 0)(1,0)

3

(1, 0.5)(1,0.5)

Также у нас есть функция ранжирования

Relevance(q,d)=−(q1−d1)2−2(q2−d2)2, Relevance(q, d) = - (q_1 - d_1)^2 - 2 (q_2 - d_2)^2 , Relevance(q,d)=−(q1​−d1​)2−2(q2​−d2​)2,

где (q1,q2)(q_1, q_2)(q1​,q2​) - признаки запроса, а (d1,d2)(d_1, d_2)(d1​,d2​) - признаки документа.

Нам пришел запрос с признаками (1,1)(1, 1)(1,1).

Отсортируйте документы в порядке убывания релевантности относительно данного запроса.

Выберите истинные утверждения (одно или несколько) касательно задачи поиска текстов.

Выберите верные утверждения (одно или несколько) касательно извлечения структурированной информации.

Типы прикладных задач

Классификация

  • Тематическая классификация длинных текстов

  • Классификация коротких текстов (по тональности, интенции)

Поиск

  • Поиск по запросу

  • Поиск текста по изображению и изображений по текстам

  • Поиск похожих текстов

  • Вопросно-ответный поиск

Извлечение структурированной информации

Диалоговые системы

Машинный перевод

Эксплоративный анализ

Тематическая классификация

Механизмы для длинных текстов:

  • Линейные модели классификации, векторное представление, TF-IDF

  • Нейросетевые модели

Механизмы для коротких текстов:

  • Нейросети

  • Ядерные методы

  • Системы правил (лексико-синтаксические шаблоны)

Поиск

Механизмы для коротких поисковых запросов:

  • TF-IDF + формулы вычисления релевантноти BM-25 и др.

  • Дистрибутивно-семантические модели

  • Лингвистический анализ и алгоритмы сопоставления структуры текстов

  • Обучаемое ранжирование на основе бустинга и нейросетей

Механизмы для HTML-страниц с изображениями:

  • Поиск через окружающий текст

  • Нейросети

Механизыми для поиска похожих документов:

  • TF-IDF + векторная модель текста, N-граммы

  • Плотные векторные представления, тематическое моделирование

  • Сиамские нейросети

Механизмы для поиска ответов:

  • Нейросети

  • Лингвистический анализ и алгоритмы сопоставления графов, ядерные методы

Извлечение структурированной информации

Механизмы:

  • Системы правил, сопоставление со словарями

  • Лингвистеческий анлиз и ядерные методы

  • Нейросети (редко)

Диалоговые системы

Механизмы:

  • Алгоритмы классификации коротких текстов (например, для определения интенции)

  • Алгоритмы поска похожих текстов для выбора ответа

  • Нейросети — end-to-end диалогоые системы

Машинный перевод

Механизмы:

  • Нейросети

  • Алгоритмы статистического машинного перевода

Эксплоративный анализ

Механизмы:

  • Тематический анализ (LDA, ARTM)

PreviousИзвлечение признаковNextВекторная модель текста и TF-IDF

Last updated 5 years ago

Was this helpful?