CrossLingua’2012 < 25 — 30. 09.12 < Ukraine, Crimea, Parthenit

КОГНИТИВНЫЕ СХЕМЫ ЦИФРОВЫХ МАНУСКРИПТОВ

Александр Колесников, Константин Чуботару, Елена Боян, Светлана Кожокару, Людмила Малахова

Институт Математики и Информатики Академии Наук Республики Молдова

Молдова

E-mail: kae@math.md

 


Для доступа к культурному наследию страны, к старым книгам, к материалам из архивов, к работам румынских и молдавских авторов, к специфическим фольклорным ресурсам необходимо разработать технологию создания виртуальной библиотеки, которая содeржала бы тексты, графические изображения документов, каталоги, необходимые для их поиска, а также инструментарий для хранения и визуализации документов.

Важным аспектом технологии является оценка идентичности текста - связной и цельной последовательности вербальных знаков, а также разработка способов отражения в форме текста последовательности поправок и дополнений.
Определение "когнитивный" применительно к областям знания обычно означает "относящийся к познавательным способностям". Когнитивный аспект изучения текста обращен, с одной стороны, к процессу создания его автором, с другой - к познавательной деятельности исследователя, изучающего творческий процесс. Объектом анализа может быть, таким образом, не только конкретное явление (целесообразная деятельность автора текста и ее результаты), но и способ его осмысления (цели и методы исследователя-аналитика).
Создание вариантов цифровых манускриптов для виртуальной библиотеки с использованием электронных ресурсов подразумевает также актуализацию опубликованных ранее текстов от множества накопившихся искажений и сокращений по цензурным соображениям.

Для этого предлагается технология сопоставления старых и интерпретированных текстов с целью пополнения электронных ресурсов румынского языка и последующего их применения для уточнения смысла слов.

Примером такого подхода является описанный в статье [1] алгоритм сопоставления старых из 3 переводов библии 17 столетия с современным переводом. Сопоставление сначала производится на уровне стихов, затем методом лексического соответствия с использованием метрики Левенштейна, а для оставшихся слов уточняется рядом эвристик. Для компенсации синонимии и лексической вариабельности используется лексикон.

В докладе рассматриваются манускрипты на румынском языке, написанные кириллицей, лексикон старых румынских слов [3], электронные ресурсы румынского языка [2], оцифрованные тексты произведений румынских писателей как в старой орфографии, так и в новой. В результате создается лексическая база данных с учетом семантической схожести, которая определяется через таксономию. Определяются варианты словоизменения для старого румынского языка, что позволит проследить эволюцию развития языка.

ЛИТЕРАТУРА

1. Moruz, M. Iftene, A. Moruz, A., Cristea, D. Semi-automatic alignment of old Romanian words using lexicons. In: Proceedings of the 8-th International Conference „Linguistic resources and tools for processing ofthe Romanian language", Iași, Editura Universității„A.I. Cuza", 2012, p. 119-125.

2. Resurse lingvistice reutilizabile pentru limba română. http://www.math.md/elrr/

3. Cristea, D., Răschip, M., Moruz, A. (2009). Steps in Building the Electronic Version of a Thesaurus Dictionarz of the Romanian Language. Buletinul Institutului Politehnic din Iasi. Sectia: Matematica. Mecanica Teoretica. Fizica, 1244-7863.