Лингвистический анализ

Выберите регулярное выражение, которое приведёт к указанной токенизации.

Входное предложение:

"Пожалуйста, отправляйте свои заявки на адрес электронной почты inbox@example.com или по телефону 123456.".

Ожидаемая токенизация:

['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456', '.']

Используйте синтаксис регулярных выражений Python версии >3.5 (https://docs.python.org/3/library/re.html).

Токенизация будет выполняться с помощью следующего фрагмента кода:

import re
txt = "Пожалуйста, отправляйте свои заявки на адрес электронной почты inbox@example.com или по телефону 123456."
tokenize_regex = re.compile(<your answer>, re.I)
tokens = tokenize_regex.findall(txt)
print(tokens)

r'(\w+|(?:\w+@\w+.\w+)|\S)'
r'\w+'
r'((?:\w+@\w+.\w+)|\w+|\S)'
r'((?:\w+@\w+.\w+)|\S|\w+)'

Выберите все задачи лингвистического анализа, которые можно решать в два этапа:

выделение всех кандидатов (это могут быть слова, токены, сущности состоящие из нескольких слов)
обучение классификатора, принимающего пару кандидатов, и предсказывающего класс отношения между ними.

Попробуйте предположить и выбрать все варианты, где такая схема могла бы применяться, даже если в лекциях непосредственно такой вариант не упоминался.

POS-теггинг (снятие частеречной неоднозначности, т.е. выбор наиболее правдоподобного сочетания частей речи для токенов в предложении)
Синтаксический анализ (построение дерева, описывающего структуру фраз, грамматическое подчинение и согласование слов)
Морфологический анализ (предсказание морфологических характеристик отдельных токенов)
Разрешение анафорических связей (англ. anaphora resolution: построение графа, в котором рёбра связывают референта и ссылающиеся на него местоимения или словосочетания; референт - некоторый объект, который может именоваться в тексте разными способами)
Извлечение именованных сущностей (англ. Named Entity Recognition: классификация токенов, классы соответствуют видам сущностей)
Семантический анализ (построение графа, описывающего высокоуровневую ситуацию - кто какое действие с чем выполняет, когда, почему и т.п.; в вершинах такого графа обычно находятся отдельные слова или фразы)
Извлечение отношений между сущностями внутри предложения (построение графа, описывающего отношения между упоминаемыми в предложении объектами)

Высокоуровневые задачи обработки текста

Лингвистический анализ — разбор структуры текста
Извлечение признаков — простроение векторного, графового представления, сопоставление со словарями
Прикладные задачи — классификация, поиск по запросу, поиск похожих, извлечение именованных сущностей и фактов

Лингвистический анализ текста

Цель — извлечение структуры текста. Фундамент для решения других задач.

Задачи решаются в порядке:

Подготовка
- графематический анализ
Анализ отдельных предложений
- морфологический анализ
- POS-теггинг
- извлечение именованных сущностей
- синтаксический анализ
- семантический анализ
- извлечение отношений между сущностями внутри предложения
Анализ целых текстов
- разрешение анафорических связей
- дискурсивный анализ
Генерация текста

Для графематического анализа (разбиения сырого текста на токены) используются:

регулярные выражения
вероятностные модели (Hidden Markov Model, Condiitional Random Fields) для разрешения неоднозначностей

"Я прочитал роман М.А. Булгакова. Великий писатель" — на какой из трёх точек заканчивается первое предложение?

Для морфологического анализа используются:

словари
системы правил, регулярные выражения

Для частеречного анализа (определения точной начальной словоформы) используются:

системы правил
вероятностные модели последовательностей (Hidden Markov Model, Condiitional Random Fields)

Для извлечения именованных сущностей используются:

словари
системы правил, регулярные выражения
вероятностные модели последовательностей (Hidden Markov Model, Condiitional Random Fields)
нейросетевые модели

Для синтаксического анализа используются:

Shift-reduce-анализаторы с вручную составленными или обучаемыми решающими правилами, в т.ч. нейросетевыми (Malt parser, SyntaxNet)

Для семантического анализа используются:

словари (вспомагательный инструмент)
системы правил
все остальные методы

Для извлечения отношений между сущностями используются:

попарные классификаторы, основанные на системах правил

Анализ целых текстов

Анафорическая связь — связь между словами-ссылками и словами-адресатами (референтами)

Марк надел пальто и вышел из дома. Он не очень любил холод осени, но её красота согревала
Он -> Марк, её -> осени

Дискурсивный анализ — синтаксический анализ для документа в целом

Генерация текста

Методы:

структурированное описание содержания
генерация через поиск
с помощью нейросетей

PreviousОсобенности обработки естественных языков NextИзвлечение признаков

Last updated 5 years ago

Was this helpful?

Выберите регулярное выражение, которое приведёт к указанной токенизации.

С помощью каких методов обычно решают задачу извлечения именованных сущностей?

Высокоуровневые задачи обработки текста

Лингвистический анализ текста

Задачи решаются в порядке:

Анализ целых текстов

Генерация текста

Методы: