Проект «Сражающиеся Царства» Массачусетский университет (Амхерст) В предыдущих публикациях [1–3] мы осветили развитие системы сетевых конкордансов классических китайских текстов, одной из составляющих проекта
The Warring States Project при
Массачусетском университете (Амхерст). Набор текстов в системе CTEXTS в настоящее время включает в себя полное «Тринадцатиканоние» (
Шисаньцзин). Объем корпуса составляет теперь более полумиллиона знаков.
Поиск по биграммам и триграммам. Новый интерфейс главной страницы предоставляет возможности поиска информации разного типа. В числе новых типов поиска – поиск по биграммам и триграммам, двухзначным и трехзначным сочетаниям (биграмма не обязательно должна быть осмысленным сочетанием иероглифов, в отличие от бинома). Этот вид поиска полезен для выявления распределения потенциально устойчивых словосочетаний (коллокаций) или идиом. Возможет также поиск фраз, в которых тот или иной иероглиф находится в начале или конце фразы. Поиск такого типа может быть использован для выявления типов рифмовки иероглифа.
Поиск по фразам. В этом виде поиска результат представляет список фраз, куда входит введенное сочетание иероглифов, в текстах системы. Этот вид поиска представляет интерес для лексикографических исследований.
Анализ стилистической близости текстов. Пользователь может ввести в поле поиска произвольный текст, и получить данные о вхождении каждого иероглифа в тексты корпуса. Кроме того, вычисляется показатель стилистической близости введенного фрагмента к имеющимся текстам.
Анализ фразового состава произвольного фрагмента текста. В этом виде запроса, система разбивает фрагмент на «фразы» и анализирует наличие этих фраз в тестах корпуса. При этом пользователь может получить фонологическую реконструкцию фрагмента в соответствии с методами Бакстера-Сагарта и Старостина.
Фонологические исследования. В системе конкорданса CTEXTS появились три типа поиска по фонологическим реконструкциям.
Первый из них позволяет найти все типы реконструкций по начальным, конечным, и срединным элементам фонологических реконструкций Бакстер-Сагарта и Старостина.
Второй позволяет установить все слоги определенного типа для одной из возможных реконстркций, распределенные согласно текстам. (Например, в каких текстах и какие иероглифы имеют в Старостинской пре-классической реконструкции строение из трех букв с начальной b?)
Третий тип позволяет установить все иероглифы, имеющие хотя бы в одной из возможных пяти типов рекострукции, формат, заданный пользователем (например, тот же трехбуквенный, начинающийся с b). Этот вид поиска позволяет проследить фонологическую историю слога для всех видов реконстркций.
Литература 1.
Зинин С.В.
Новый интерактивный сетевой конкорданс Чуньцю и Цзочжуани// XL научная конференция «Общество и государство в Китае», М., 2010. С. 317–322.
2.
Зинин С.В.
Развитие системы интерактивных сетевых конкордансов по китайской классике CTEXTS // XLI научная конференция «Общество и государство в Китае». М., 2011. C. 439–440.
3. Зинин С.В. Интеграция данных чжоуских и ханьских рукописей в систему интерактивных сетевых конкордансов CTEXTS // XLII научная конференция «Общество и государство в Китае», М., 2012. Т. 1. C. 312–313.
Ст. опубл.: Общество и государство в Китае: Т. XLIII, ч. 2 / Редколл.: А.И. Кобзев и др. – М.: Федеральное государственное бюджетное учреждение науки Институт востоковедения Российской академии наук (ИВ РАН), 2013. – 487 стр. (Ученые записки ИВ РАН. Отдела Китая. Вып. 9 / Редколл.: А.И.Кобзев и др.). С. 115-116.