Летняя школа по формальным методам в фольклористике - 2004
Шайкевич Анатолий Янович
Доктор филологических наук, заведующий отделом машинного фонда в Институте русского языка РАН (г. Москва).
ДИСТРИБУТИВНО-СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ
(2 лекции)
Кратко излагаются основные задачи и приемы дистрибутивностатистического анализа (ДСА). ДСА - метод анализа, направленный на открытие каких-либо черт структуры текста и структуры языка. В самом общем виде метод основан на сравнении реальных частот каких-то единиц с математическим ожиданием, подсчитанным на основе исходной нулевой гипотезы. В случае статистически значимых расхождений между этими двумя показателями делаются выводы, касающиеся искомой структуры. В крайнем своем варианте ДСА вполне формален, т.е. не предполагает знания языка, стоящего за текстом.
Рассматриваются 3 важные задачи:
1. выделение лексических маркеров отдельных подкорпусов общего собрания текстов.
2. позиционный анализ текстов
3. изучение совместной встречаемости слов как путь выявления их текстуальных связей.
Материал размещен на сайте при поддержке гранта №1015-1063 Фонда Форда.