Особенности обработки естественных языков

Особенности естественных языков как предмет изучения лингвистической топологии

Выберите все формальные языки из списка

Некоторые особенности естественных языков

  • не составлялись специально, а возникли в результате потребности в коммуникации

  • правила не регламентированы строго и могут меняться в зависимости от региона, времени и прочего

  • от правил можно отклоняться

  • правила могут быть неоднозначными

Часто естественным языкам противопославляются формальные — например, языки программирования.

Лингвистическая типология изучает отличия:

  • в образовании и изменении слов в зависимости от ситуации

  • в связывании слов друг с другом

  • в способах передачи смысла

Русский

Английский

Словоизменение

сильное

слабое

Смысловая омонимия

высокая

высокая

Частеречная омонимия

умеренная

сильная

Порядок слов

свободный

фиксированный

Склонение по падежам:

  • Английский: a cat, to the cat, many cats...

  • Русский: кошка, кошке, кошки...

Слообразование с помощью приставок:

  • брать - to take

  • прибрать - to tidy up

  • перебрать - to sort out

Автоматическая обработка текста

Стемминг — это процесс нахождения основы слова для заданного исходного слова.

Основа слова не обязательно совпадает с морфологическим корнем слова.

Лемматизация — процесс приведения словоформы к лемме — её нормальной (словарной) форме.

Контекст

Смысл слова зависит от контекста практически во всех языках.

Word sense disambiguation — процесс определения единственно правильного значения слова в заданном тексте.

Part of speech (POS) tagging — процесс снятия частеречной неоднозначности.

Вариативность порядка слов

В русском порядок может быть практически каким угодно, тогда как в английском есть лишь один прильный порядок.

Last updated

Was this helpful?