Особенности естественных языков как предмет изучения лингвистической топологии
Выберите все формальные языки из списка
У Вас есть коллекция текстов и Вам нужно написать решающее правило, чтобы выбрать из них те, в которых идёт речь про кошек.
Выберите вариант решения задачи, наиболее экономный с точки зрения количества ручной работы и при этом надёжный.
Подразумевайте, что у Вас имеется реализация лемматизации и стемминга для русского языка.
В настоящем задании приведена крайне упрощённая задача классификации текста. Постарайтесь поразмышлять, как разные этапы лингвистического анализа могут упростить нам, как разработчикам, жизнь, вне зависимости от того, используем мы нейросети или нет.
Выберите начальную форму (лемму) для каждой словоформы, учитывая информацию о морфологических признаках
Словоформа
Лемма
"Три", часть речи "числительное"
Тереть
"Сорок", часть речи "существительное"
Три
"Три", часть речи "глагол"
Сорока
"Сорок", часть речи "числительное"
Сорок
Допустим, Вы разрабатываете поисковую машину и в процессе разработки и отладки оцениваете качество работы алгоритма на некоторых примерах "запрос - текст - оценка сходства":
Запрос
Текст
Оценка сходства
Как прибрать квартиру быстро?
В этой статье мы рассмотрим, как быстро прибрать квартиру.
Высокое сходство
Как прибрать квартиру быстро?
Мошенники быстро решили прибрать к рукам бесхозную квартиру.
Низкое сходство
Какой набор методов обработки текста мог бы обеспечить правильную оценку сходства для приведённых примеров в Вашей поисковой машине?
Отметьте предложения, в которых имеет место частеречная омонимия
Сопоставьте особенности языков и их описания
Особенность
Описание
Флективность
“интенсивность” словоизменения в зависимости от ситуации посредством суффиксов и окончаний
Смысловая омонимия
слова с разной частью речи могут иметь одинаковую словоформу
Частеречная омонимия
одна и та же словоформа может обозначать разные объекты или явления (денотаты) в зависимости от контекста
Предположим, Вы делаете систему анализа отзывов о мобильных телефонах в Интернете. Такая система собирает отзывы по нужной модели телефона, а потом из каждого отзыва извлекает пары "характеристика телефона - оценка" (это называется аспектным сентимент анализом).
Как обычно, в процессе разработки и отладки Вы пользуетесь выборкой примеров.
Текст
Характеристика
Оценка
Экран, в отличие от ёмкости батареи, отличный.
экран
отличный
Экран, в отличие от ёмкости батареи, отличный.
ёмкость батареи
низкая
Экран отличный, но плохая батарея
экран
отличный
Экран отличный, но плохая батарея
батарея
плохая
Выберите группу методов обработки текстов, алгоритмы из которой помогут правильно связать характеристику и её оценку, несмотря на свободный порядок слов
Некоторые особенности естественных языков
не составлялись специально, а возникли в результате потребности в коммуникации
правила не регламентированы строго и могут меняться в зависимости от региона, времени и прочего
от правил можно отклоняться
правила могут быть неоднозначными
Часто естественным языкам противопославляются формальные — например, языки программирования.
Лингвистическая типология изучает отличия:
в образовании и изменении слов в зависимости от ситуации
в связывании слов друг с другом
в способах передачи смысла
Русский
Английский
Словоизменение
сильное
слабое
Смысловая омонимия
высокая
высокая
Частеречная омонимия
умеренная
сильная
Порядок слов
свободный
фиксированный
Склонение по падежам:
Английский: a cat, to the cat, many cats...
Русский: кошка, кошке, кошки...
Слообразование с помощью приставок:
брать - to take
прибрать - to tidy up
перебрать - to sort out
Автоматическая обработка текста
Контекст
Смысл слова зависит от контекста практически во всех языках.
Word sense disambiguation — процесс определения единственно правильного значения слова в заданном тексте.
Part of speech (POS) tagging — процесс снятия частеречной неоднозначности.
Вариативность порядка слов
В русском порядок может быть практически каким угодно, тогда как в английском есть лишь один прильный порядок.