ИЗДАНИЕ КЛАССИЧЕСКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ В
ИНТЕРНЕТЕ (Вводные замечания к теме)
Введение
Настоящие заметки посвящены теме, которая меня давно
интересует: что такое текст (по преимуществу речь пойдет о тексте поэтическом)
и каким образом можем мы помещать в Интернете тексты так, чтобы не просто
получить еще одну копию известного текста (с этим может справиться и ксерокс,
продукт деятельности которого может быть отправлен экспресс-почтой), но
уяснить те аспекты его устройства, которые обычно остаются как бы
подразумеваемыми (кем, когда и в каком объеме?) и поэтому ускользают от
внимания или же отдаются на откуп специалистам, обладающим доступом ко всей
необходимой информации. Речь пойдет о текстах по преимуществу т.н.
"классических", т.е. бытующих сравнительно большой промежуток времени и
неоднократно рассматривавшихся. Сочинение носит характер
прагматико-эссеистический и на научность не претендует.
1. Текст как объект
Текст в первом его рассмотрении является объектом,
отделенным от других объектов: когда мы видим стихотворение, мы видим его в
первую очередь как нечто отдельное от других вещей, состоящих из слов. Каждый
текст обладает своей уникальной структурой, заслуживающей отдельного изучения.
На языке рабочего подхода к представлению литературного текста в Паутине это
выразится в том, что каждый текст, объем которого технически позволяет
передавать его по Сети, должен существовать и в качестве отдельного файла.
Тексты объема большего, чем подходящий для передачи по Сети, должны
превращаться в гипертекст, т.е. состоять из фрагментов необходимого размера и
механизмов навигации, обеспечивающих гипертекстовое единство фрагментов.
Внутреннее строение этого объекта можно охарактеризовать как имеющее
разноуровневую сегментацию, которая зрительно представляется следующим
образом: слово / строка / стихотворная строка (задается принудительной
разбивкой; для прозаического текста это не релевантно) / абзац / более крупные
единства. Это означает, что мы должны иметь какие-то инструменты для отражения
этой сегментации, т.е. текст должен иметь возможность проявляться (быть
показанным) в соответствии с этой сегментацией. Соответственно, каждый из
таких сегментов должен иметь некий адрес в пределах границ текста, то есть,
поскольку мы говорим о тексте в Сети, некий (относительный?) адрес в пределах
данного файла. Предлагаемый вариант: установка при помощи соответствующего
инструментария индивидуальных закладок на каждом слове, строке и более крупных
сегментах. Кроме того, текст должен иметь описание не только компьютерное
(URL), но и "человеческое", т.е. должен эксплицитно содержать указание на свое
происхождение (на книгу, свое место в составе книги и того, кто перевел его из
книги в Сеть). Фрагменты гипертекста, изначально бывшие едиными книгами
(большими текстами), должны также лежать в виде архивов (самораскрывающихся)
на FTP-сервере, чтобы пользователи могли организовывать свои путешествия
внутри этого текста (см. ниже).
2. Текст как отношение
Во-первых, идеальные в текстологическом аспекте
тексты крайне редки. Существует рукопись, в принципе представимая как
графический файл (файлы), существуют разные редакции, черновики и отброшенные
фрагменты. Существуют ошибки (ошибки при вводе текста в больших количествах
практически неизбежны), опечатки, разночтения и пр. Поэтому кроме механизмов
разнообразного представления одного текста нужны механизмы представления
текста как вариативной структуры и возможности одновременного просмотра разных
вариантов этой структуры. С другой стороны, тексты существуют и как
взаимодействие различных интерпретаций, в простейшем виде как текст и набор
комментариев к нему. Публиковать тексты без комментариев представляется
недостаточным, а гипертекст в данном случае становится насущной
необходимостью. Фреймовые структуры представляются весьма уместными для показа
комментариев и другой справочной информации (индексов, конкордансов и пр. -
см. ниже). Впрочем, системный администратор или же веб-мастер, монопольно
владеющий истиной по поводу предпочтительного комментария и написания текста -
картина достаточно гротескная. Поэтому публикация текста перерастает в процесс
диалога и постепенного уяснения предпочтений, что делает публикацию текста не
единовременным актом, а интерактивным процессом, включающим многие действующие
лица. Сеть в этом случае действительно станет не игрушкой или высоким ремеслом
для избранных, но механизмом, задействованным по принципам, присущим и
внесетевой культуре, но, хочется верить, упрощающим механизмы обмена
релевантной информацией.
3. Математическая обработка. Индексы по тексту как средство
навигации
Когда мы сталкиваемся с новым текстом, мы volens nolens ставим
его в отношение к другим текстам других авторов. Этим заниматься тем удобнее,
чем больше авторов вводится в наше рассмотрение и чем они лучше описаны. Самый
полный и самый реальный вариант описания текста - построение конкорданса к
тексту с отсылками в места употреблений (упомянутые выше закладки) на всех
введенных авторов. При этом традиционные средства поиска могут оказаться
неадекватными в связи с индивидуальным (иной раз резко индивидуальным)
словоупотреблением, и лучше иметь полное описание лексики текста или
возможность по запросу (причем запрос может включать как лексемы, так и
отдельные форманты) получать отсылки на конкретные тексты, а также возможность
получить количественное отношение к другим аналогичным элементам текста. То
есть элементы лингвистического анализа текста можно совместить с механизмами
навигации и предоставить всем желающим. Первым шагом в этом направлении
является программа Word Tabulator, разработанная Сергеем Логичевым (г.
Снежинск) (кр. описание). Одна техническая оговорка: для того чтобы выходные
индексы были упорядочены с точки зрения последовательности ссылок, тексты в
анализируемых гипертекстах лучше иметь с цифровыми именами, при этом порядок
должен быть правильным с точки зрения и компьютера, и человека. Текст, идущий
в книге первым, с точки зрения человека должен иметь имя "1" (далее "2" и
т.д.). С точки зрения операционной системы за "1" идет не "2", а "10", поэтому
если текстов много , то первый текст должен иметь имя "001", второй - "002",
десятый - "010", а сотый - "100", и в этом случае при математической обработке
тексты будут обрабатываться в заданной последовательности. Другой важный
аспект рассматриваемого аспекта функционирования текста в Сети - потенциальная
возможность сравнения конкретного словоупотребления в данном тексте с
общеязыковым словоупотреблением того временного среза, к которому относится
рассматриваемый текст. Почему потенциальные: существуют словарные базы данных
(см. Бюллетень машинного фонда
ИРЯ (cfrl0@cfrl.synapse.ru, cfrl1@cfrl.synapse.ru, cfrl2@cfrl.synapse.ru),
которые могут быть сделаны доступными через Интернет и снабжены поисковым
механизмом (если это будет сделано - большой прогресс, но это дело связано с
немалыми затратами).
4. Старая орфография и иноязычные цитаты
При публикации текстов в
Интернете и разработке технологии для публикации большого количества текстов
встает интригующий вопрос: что делать с текстами, которые не переиздавались
после 1918 года, то есть после реформы орфографии, которая произошла в этом
году. Как известно, до реформы русская графика включала знаки "i", ижицу, фиту
и ять, причем последний был в старой орфографии весьма частотным и значимым,
но в настоящее время не входит в кодовую страницу для кириллицы и занимает
самые разные места в таблицах шрифтов. Что-то нужно придумывать: или писать
утилиту, которая автоматически преобразовывает старую орфографию в новую, или
заводить ять в кодовую таблицу, или приписывать этому знаку обозначение, как
это сделано для европейской графики с диакритикой и греческих символов ( в том
числе для ижицы и фиты) в ISO 8859-1, или еще что-то.
5. Ориентация на пользователя
Предлагаемый вариант осуществления
публикации литературных текстов должен удовлетворять требованиям двух
категорий пользователей: специалистов и неспециалистов. Специалисты получают
текст, которым можно пользоваться в своих работах, и новые инструменты анализа
текста, а неспециалисты получают текст, который удобно читать: щелк мыши дает
возможность увидеть комментарий (если это интересно), а нет желания - и
пропустить этот комментарий и по второму щёлку вернуться в исходный текст, не
тратя времени на нахождение комментария в примечаниях и нахождение того места,
которое было последним прочитанным.
6. Стоимость бумажного и сетевого издательства
При нынешней
восхитительной анархии в издательском деле очень трудно рассчитывать на
появление в необходимом количестве изданий русской литературы, удовлетворяющих
как специалистов, так и неспециалистов. Сетевое издательство, представляющееся
менее дорогостоящим, достаточно доступным и легко осуществимым, смогло бы
открыть новый этап освоения русской литературы. Возможности математической
обработки текстов он-лайн также представляются осуществимыми и весьма
привлекательными. При сетевом издании литературных текстов можно договориться
о единых стандартах и распределить области вводимой литературы с конечной
целью создания единого ГИПЕРТЕКСТА, включающего все, что должно быть включено.
7. Благодарности
Автор благодарен Игорю Пильщикову, Евгению Горному и
Роману Лейбову, поделившимся с автором многими идеями по теме заметок, а также
сотрудникам Машинного Фонда ИРЯ за предоставленные материалы.