📜
Нейронные сети и обработка текста
  • Содержание курса
  • Введение
    • Естественный язык и текст
    • Особенности обработки естественных языков
    • Лингвистический анализ
    • Извлечение признаков
    • Прикладные задачи обработки текста
  • Векторная модель текста и классификация длинных текстов
    • Векторная модель текста и TF-IDF
    • Создаём нейросеть для работы с текстом
    • Теоретические задачи: Векторная модель текста
    • Семинар: классификация новостных текстов
  • Базовые нейросетевые методы работы с текстами
    • Общий алгоритм работы с текстами с помощью нейросетей
    • Дистрибутивная семантика и векторные представления слов
    • Семинар: рецепты еды и Word2Vec на PyTorch
    • Теоретические вопросы: Дистрибутивная семантика
    • Основные виды нейросетевых моделей для обработки текстов
    • Свёрточные нейросети для обработки текстов
    • Семинар: POS-тэггинг свёрточными нейросетями
    • Теоретические вопросы: Свёрточные нейросети в обработке текстов
  • Языковые модели и генерация текста
    • Untitled
  • Преобразование последовательностей
    • Untitled
  • Transfer learning, адаптация моделей
    • Untitled
  • Финальное соревнование на kaggle и заключение
    • Untitled
Powered by GitBook
On this page
  • Задачи анализа языка
  • Уровни правил языка

Was this helpful?

  1. Введение

Естественный язык и текст

Что такое язык, текст; правила построения текста

Множество допустимых цепочек символов из некоторого алфавита - это ...

Сопоставьте значения из двух списков

Тип правил

Описание правила

Семантические

анализ частей речи слов, определение начальной формы слова, рода, числа, времени и т.п.

Морфологические

согласование зависимых слов по числу, роду, падежу и т.п., чтобы они образовывали корректное предложение, а также правильный порядок слов

Графематические

передача смысла

Синтаксические

разбиение текста на слова и предложения

Расположите базовые этапы обработки текстов в правильном порядке

  • Семантический анализ

  • Морфологический анализ

  • Синтаксический анализ

  • Графематический анализ

Язык — это множество допустимых цепочек символов из некоторого алфавита.

Алфавит — это множество символов, из которых состоят тексты языка.

Задачи анализа языка

  1. Обучение: воспроизведение правил языка.

  2. Применение: для определённого текста понять, по каким именно правилам он построен

Глокая куздра штеко бодланула бокра и кудрячит бокрёнка (Л.В. Щерба, 1930-е)

  • три действующих лица — куздра, бокр и бокрёнок

  • бодланула — глагол

  • бокрёнок — маленький бокр

Уровни правил языка

  • графематические (как разделять слова и предложения между собой)

  • морфологические (как строить и изменять слова)

  • синтаксические (как согласовывать словоформы друг с другом)

  • семантические (объединение предыдущих правил для сообщения информации)

Как правило, обработка происходит от низкоуровневых правил к высокоуровневым. Результатом каждого этапа обработки текста является новая структура данных.

"Мама мыла раму. Потом мы пошли гулять."
[["Мама", "мыла", "раму", "."], ["Потом", "мы", "пошли", "гулять", "."]]
[[Token("Мама", init="мама", pos="сущ"), Token("мыла", init="мыть", pos="глаг"), ...], ...]
[[Token("Мама", init="мама", pos="сущ", synt_parent=1), Token("мыла", init="мыть", pos="глаг", synt_parent=None, ...], ...]
  1. "Сырой" текст — строка

  2. Графематический анализ — список предложений. Предложение — список лексем (токенов)

  3. Морфологический анализ — набор меток для каждого токена и ссылка на начальную форму

  4. Синтаксический анализ — дерево синтаксического подчинения слов со ссылками на "родителя"

  5. Семантический анализ — граф, описывающий ситуацию на верхнем уровне (что происходит, участники, их роли). Предикат — главное слово, определяющее структуру ситуации. Рёбра связывают участников ситуации, а метки рёбер характеризуют их роли и отношения

  6. Результаты всех этапов агрегируются для решения конечной задачи

PreviousСодержание курсаNextОсобенности обработки естественных языков

Last updated 5 years ago

Was this helpful?