Естественный язык и текст
Что такое язык, текст; правила построения текста
Задачи анализа языка
Обучение: воспроизведение правил языка.
Применение: для определённого текста понять, по каким именно правилам он построен
Глокая куздра штеко бодланула бокра и кудрячит бокрёнка (Л.В. Щерба, 1930-е)
три действующих лица — куздра, бокр и бокрёнок
бодланула — глагол
бокрёнок — маленький бокр
Уровни правил языка
графематические (как разделять слова и предложения между собой)
морфологические (как строить и изменять слова)
синтаксические (как согласовывать словоформы друг с другом)
семантические (объединение предыдущих правил для сообщения информации)
Как правило, обработка происходит от низкоуровневых правил к высокоуровневым. Результатом каждого этапа обработки текста является новая структура данных.
"Сырой" текст — строка
Графематический анализ — список предложений. Предложение — список лексем (токенов)
Морфологический анализ — набор меток для каждого токена и ссылка на начальную форму
Синтаксический анализ — дерево синтаксического подчинения слов со ссылками на "родителя"
Семантический анализ — граф, описывающий ситуацию на верхнем уровне (что происходит, участники, их роли). Предикат — главное слово, определяющее структуру ситуации. Рёбра связывают участников ситуации, а метки рёбер характеризуют их роли и отношения
Результаты всех этапов агрегируются для решения конечной задачи
Last updated
Was this helpful?