Лингвистический анализ
Last updated
Was this helpful?
Last updated
Was this helpful?
Входное предложение:
"Пожалуйста, отправляйте свои заявки на адрес электронной почты inbox@example.com или по телефону 123456.".
Ожидаемая токенизация:
['Пожалуйста', ',', 'отправляйте', 'свои', 'заявки', 'на', 'адрес', 'электронной', 'почты', 'inbox@example.com', 'или', 'по', 'телефону', '123456', '.']
Используйте синтаксис регулярных выражений Python версии >3.5 ().
Токенизация будет выполняться с помощью следующего фрагмента кода:
Лингвистический анализ — разбор структуры текста
Извлечение признаков — простроение векторного, графового представления, сопоставление со словарями
Прикладные задачи — классификация, поиск по запросу, поиск похожих, извлечение именованных сущностей и фактов
Цель — извлечение структуры текста. Фундамент для решения других задач.
Подготовка
графематический анализ
Анализ отдельных предложений
морфологический анализ
POS-теггинг
извлечение именованных сущностей
синтаксический анализ
семантический анализ
извлечение отношений между сущностями внутри предложения
Анализ целых текстов
разрешение анафорических связей
дискурсивный анализ
Генерация текста
Для графематического анализа (разбиения сырого текста на токены) используются:
регулярные выражения
вероятностные модели (Hidden Markov Model, Condiitional Random Fields) для разрешения неоднозначностей
"Я прочитал роман М.А. Булгакова. Великий писатель" — на какой из трёх точек заканчивается первое предложение?
Для морфологического анализа используются:
словари
системы правил, регулярные выражения
Для частеречного анализа (определения точной начальной словоформы) используются:
системы правил
вероятностные модели последовательностей (Hidden Markov Model, Condiitional Random Fields)
Для извлечения именованных сущностей используются:
словари
системы правил, регулярные выражения
вероятностные модели последовательностей (Hidden Markov Model, Condiitional Random Fields)
нейросетевые модели
Для синтаксического анализа используются:
Shift-reduce-анализаторы с вручную составленными или обучаемыми решающими правилами, в т.ч. нейросетевыми (Malt parser, SyntaxNet)
Для семантического анализа используются:
словари (вспомагательный инструмент)
системы правил
все остальные методы
Для извлечения отношений между сущностями используются:
попарные классификаторы, основанные на системах правил
структурированное описание содержания
генерация через поиск
с помощью нейросетей