| В этом разделе опишем
алгоритм классификации
функционального стиля текста (см. практическую
реализацию на
http://teneta.rinet.ru/hudlomer/). Алгоритм
использует четыре
эмпирические обучающие кривые,
описанные выше. Распределения длин в отдельных
текстах "близки" к этим обучающим кривым, как правило,
располагаясь "между" ними. Мы предполагаем, что эти
распределения можно получить путём интерполяции четырёх
базовых кривых.
Через
соотвествующие функциональным стилям
четыре значения средней длины
слова и четыре значения
вероятности проводится
полином третей
степени. В качестве
независимой переменной
выступает непрерывный
параметр, который удобно
задавать так, чтобы в
интерполяционных узлах
полиномов он совпадал со
средней длиной слова в
обучающих текстах. Вычисляя
значение полиномов для любой
новой заданной "средней
длины слова", мы рассчитываем
интерполированное
распределение вероятностей. (После
интерполяции это
распределение следует
нормировать). Варьируя затем
независимую переменную, единую
для всех длин слов, можно найти
значение, минимизирующее
отклонения наблюденных
спектров от синтетических, и
классифицировать новые тексты,
относя их к стилю,
соответствующему ближайшему
интерполяционному узлу. При
этом результирующая
переменная
обычно довольно близка к
средней длине слова в
исследуемых текстах. В нашей
реализации алгоритма
используется метод Ньютона
минимизации функционала
ошибки (Press, 1992).
Рис.2
На Рис.2 показано
распределение длин слов в
первой части сборника
рассказов Ю.А.Мамлеева
"Шатуны" (2140 слов). Расчетное
распределение вероятностей
сравнивается с эмпирически
измеренной гистограммой
частот слов, при этом ищется
параметр распределения,
который обеспечивает
максимальную близость
"теоретической" и
наблюденной кривых.
Рис.3
Минимальное значение функционала ошибки, иллюстрируемое Рис.3, может
служить мерой успеха классификации текста.
Упрощённый алгоритм
Далее будет проиллюстрировано, что
при размере текста более 500 слов обычно
можно ограничиться расчётом
средней длины слова.
При этом в качестве разделителей разговорной речи,
художественной литературы, газетных статей и научно-деловых
текстов выступают длины слов в 4.9, 5.9, 6.9 букв соответственно.
Основное преимущество этого метода - его простота, и возможность
очень быстрой реализации.
Различия
между двумя способами заметны
на малых объемах текстов (менее
500 слов). Среднее значение длины
слова при этом не позволяет
оценить надежность
результатов, поскольку любой
текст, например, смесь научной
статьи и разговорной речи
обладает некоторой формальной
средней длиной слова.
Влияние размера текста на
процент успеха классификации
Вначале приведём результаты
для упрощённого алгоритма
классификации, использующего
только среднюю длину слова. В
левой колонке нижеследующей
таблицы укажем истинный стиль
текста, определенный
исследователем. В верхнем ряду
укажем стиль, полученный путём
автоматической классификации.
В каждой клетке - процент
текстов, классифицированных
так, как указывает заголовок
столбца. В последнем случае классификацию будем называть "успешной".
|
Табл.1
Процент успеха классификации.
Длина текста: 100 слов. 10-20 тысяч тестов. Упрощённый алгоритм.
| Стиль |
РАЗГОВОРНЫЙ |
ХУДОЖЕСТВЕННЫЙ |
ГАЗЕТНЫЙ |
НАУЧНО-ДЕЛОВОЙ |
| РАЗГОВОРНЫЙ |
78.6 |
21 |
0.2 |
0 |
| ХУДОЖЕСТВЕННЫЙ |
13.5 |
68.8 |
16.8 |
0.7 |
| ГАЗЕТНЫЙ |
1.1 |
29.6 |
58.7 |
10.3 |
| НАУЧНО-ДЕЛОВОЙ |
0.5 |
4.9 |
33.2 |
61.2 |
|
Рассмотрим в качестве примера третью сверху строку.
Истинный стиль текстов -- "газетный".
1.1% газетных текстов алгоритм
определяет как разговорную
речь, 29.6% - как художественную
литературу, 60.9% текстов
правильно классифицируются
как газетные тексты и 10.3%
текстов
классифицируются как научно-деловые.
Чем меньше размер текста, тем
сложнее правильно определить
его стиль. Рис.4
определяет разрешающую
способность упрощенного
метода распознавания:
Рис.4
Здесь по горизонтали отложена длиа текста, а по вертикали -
стандартные отклонения распределений вероятности средних длин слов.
Распределения вероятности
средних длин слов в наших
корпусах приблизительно
гауссовы и обладают почти
равной шириной для всех стилей,
будучи немного уже для
разговорного стиля. Для
разделения на уровне
значимости 15% "соседних"
стилей, например, стиля
художественной литературы и
газетно-новостного стиля,
параметры стиля которых
отличаются на единицу,
требуется, чтобы стандартное
отклонение гауссового
распределения не превосходило
0.5. Это достижимо для текстов в
50 слов и более -- для
разговорного стиля, 200 слов и
более -- для художественной
прозы и газетных текстов, 500
слов и более -- для научных
текстов. Для разделения с
порогом значимости 5% требуется,
чтобы 0.5 составляло два (точнее
1.96) стандартных отклонения,
таким образом, стандартное
отклонение не должно превышать
0.25. Исходя из графика,
потребуется размер текста 500
слов и выше -- для разговорного
стиля и более 10 тысяч слов для
остальных стилей.
Заметим, что стандартные
отклонения характеризуют не
только точность метода, но и
совершенство подбора корпуса и
естественный разброс текстов,
иными словами естественную
неопределенность параметра
стиля. Например, существуют
научно-популярные тексты,
занимающие переходное
положение между научными и
газетными, публицистические
тексты, переходные от газетных
к художественным,
художетвенная проза с обилием
диалогов и т.п.
Рассмотрим теперь
вероятность ошибки на две
единицы, то есть, например,
классификации научного текста
как художественной литературы.
На уровне значимости 15%
стандартное отклонение
параметра распознавания
должно превысить единицу. Как
явствует из графика, для
достижения такой точности
распознавания достаточный
объём текстов любого стиля
составляет 50 слов. На уровне
значимости 5% стандартное
отклонение параметра
распознавания должно
превышать 0.5. Для достижения
такой точности потребуются
тексты размером не менее 50 слов
-- для разговорного стиля, 200
слов и более -- для
художественной прозы и
газетных текстов, 500 слов и
более -- для научных текстов.
Использование дисперсии
распределения длин слов
Промежуточное положение
между "полным" и "упрощённым"
методами классификации
занимает метод, использующий
среднее значение и дисперсию
длин слов. Рассмотрим характер
распределений среднего
значения и дисперсии параметра
распознавания, отложенных
соответственно по вертикали и
горизонтали. При этом четыре
стиля последовательно сменяют
друг друга.
На нижеследующем графике
цветными точками показаны
тексты из 100 слов. Ипользуется
около 20 тысяч таких текстов
каждого стиля. Линейная
зависимость дисперсии от
среднего значения показывает,
что форма гистограмм параметра
распознавания, в основном,
определяется средним
значением этого параметра .
Рис.5
Области, которые занимают
стили в пространстве {среднее,дисперсия},
- эллиптические. По
совокупности двух параметров: среднее и
дисперсия, распознавание можно
проводить немного точнее, чем
по одному только среднему
значению.
При увеличении размера
текста графики будут сжиматься,
как показано на Рис.4
Начиная с текстов в 200-500 слов
облака практически перестанут
перекрываться "через одно".
Ниже приведен график {среднее,дисперсия}
для текстов из 500 слов.
Рис.6
Дисперсия в среднем линейно
растет с ростом среднего
значения параметра, обладая
при этом некоторым
естественным разбросом,
приблизительно одинаковым для
каждого из стилей в "центральной"
части каждого цветного облака.
Обнаружилось, что при малых
размерах текстов алгоритм,
использующий весь частотный
спектр, не даёт улучшения
распознавания по сравнению с
упрощённым алгоритмом.
|
Табл.2
Процент успеха классификации.
Длина текста: 100 слов. 10-20 тысяч тестов.
Полный алгоритм.
| Стиль |
РАЗГОВОРНЫЙ |
ХУДОЖЕСТВЕННЫЙ |
ГАЗЕТНЫЙ |
НАУЧНО-ДЕЛОВОЙ |
| РАЗГОВОРНЫЙ |
88.7 |
11.1 |
0.1 |
0 |
| ХУДОЖЕСТВЕННЫЙ |
24.4 |
61.5 |
11.9 |
2 |
| ГАЗЕТНЫЙ |
3.6 |
24.4 |
51.3 |
20.4 |
| НАУЧНО-ДЕЛОВОЙ |
0.6 |
6.2 |
15 |
78 |
|
Определение стиля web-страниц
Как показали наши
исследования, определение
стиля текстов по страницам
web-сайта, даже при достаточном
количестве слов, возможно не
всегда. Титульные страницы
сайтов зачастую содержат не
столько естественный, связный
текст, сколько "меню",
состоящие из названий
разделов. К таким страницам
классификаторы, полученные
путём обучения на "естественных"
текстах, оказываются
неприменимы, при этом главной
задачей становится
идентификация этих страниц. Так, титульная
страница сайта Anekdot.ru классифицируется
как "газета". Это связано,
по-видимому, с тем, что
титульная страница не содержит
анекдотов, а только
перечисляет разделы сайта.
Внутренние страницы сайта
твечают уже стилю
художественной литературы.
Недостатком использования
средней длины слова является
отсутствие меры сходства
наблюденной кривой с
множеством "естественных"
функций распределения, которые
получаются интерполяцией
канонических кривых (рис.1-2).
При этом метод, использующий
полный спектр выдает в
качестве ответа не только
найденное значение параметра
распределения, но и
результирующую ошибку
функционала ошибки, которую
можно калибровать при любой
заданной длине исследуемого
текста. Метод, использующий
среднее значение и дисперсию
длин слов также способен
отличить "естественные"
тексты от "неестественных".
Определение функционального стиля Web-сайтов
В следующем эксперименте мы
автоматически
классифицировали страницы
ряда популярных сайтов.
Страница сгружалась в
текстовом формате с помощью
навигатора Netscape, а затем
обрабатывалась
классификатором.
|