WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

«НовЫе МетодЫ в ГеНеаЛоГиЧеСкоЙ кЛаССификации яЗЫков и ЛиНГвиСтиЧеСкоЙ рекоНСтрУкции Аннотация. в заметке описывается проект Лаборатории востоковедения и ...»

а. С. каСЬяН, Г. С. СтароСтиН

касьян алексей Сергеевич

канд. филол. наук, старший научный сотрудник

E-mail: a.kassian@gmail.com

Старостин Георгий Сергеевич

канд. филол. наук, заведующий лабораторией

E-mail: gstarst1@gmail.com

Лаборатория востоковедения и

сравнительно-исторического

языкознания, ШАГИ РАНХиГС

Россия, Москва, 119571, пр-т Вернадского, 82

Тел.: +7 (499) 956-96-47

НовЫе МетодЫ в ГеНеаЛоГиЧеСкоЙ

кЛаССификации яЗЫков

и ЛиНГвиСтиЧеСкоЙ рекоНСтрУкции

Аннотация. в заметке описывается проект Лаборатории востоковедения и сравнительно-исторического языкознания ШАГИ рАНХиГС, связанный с формализацией генетической классификации языков.

Ключевые слова: сравнительно-историческое языкознание, Глобальная лексико-статистическая база данных, языковые семьи.

О дним из наиболее актуальных вопросов современного исторического языкознания как дисциплины, составляющей комплекс наук о предыстории человечества, является обоснование гипотез так называемого дальнего родства языковых семей, которые претендуют на реконструкцию языковой, а в связке с молекулярной биологией и генетикой — и этнополитической истории человечества на отрезках, превышающих пять-шесть тысяч лет. Пять-шесть тысяч лет до настоящего времени — это традиционно принимаемая глубина общепризнанных и хорошо изученных языковых семей, например индоевропейской, уральской, синотибетской (видимо, тут мы имеем дело с временным порогом, после которого очевидность языкового родства начинает резко утрачиваться).



© А. С. Касьян, Г. С. Старостин Традиционные методы сравнительно-исторического языкознания, разработанные для семей менее глубокого уровня, оказываются недостаточными для надежного обоснования таких гипотез и требуют серьезной доработки как на базе опыта, накопленного в ходе исторического изучения различных языковых семей планеты, так и с учетом новейших достижений в области филогенетического моделирования.

В последние десятилетия формальные методы филогенетической классификации, перенесенные в лингвистику из молекулярной биологии, переживают научный бум. См., например, такие обзоры применения современных филогенетических алгоритмов в сравнительно-исторической лингвистике (в основном речь идет именно о лексикостатистике и глоттохронологии): [McMahon, cMahon 2005; Nichols, Warnow 2008; HegcMahon garty et al. 2010]. В частности, в связи с удешевлением и распространением мощных компьютерных станций все большую популярность приобретают признаковые методы филогении (вроде байесовской техники Монте-Карло с цепями Маркова и алгоритма максимальной парсимонии), а дистантные методы (вроде метода ближайших соседей или попарного внутригруппового невзвешенного среднего) отчасти отходят на второй план. Подробнее об этих методах см.: [Makarenkov et al. 2006]. Входным материалом при таком анализе служат многозначные или бинарные матрицы, т. е. двумерные таблицы, где каждый таксон (язык) охарактеризован по всему набору признаков. Бинарные матрицы содержат только бинарные признаки (с состояниями 0 или 1), а многозначные матрицы имеют хотя бы один многозначный признак. Признаки на практике используются самые разные: от лексических до культурно-антропологических, хотя предпочтение, конечно, отдается базисной лексике (так называемому списку Сводеша).

Задача формализации генетической классификации языков может быть разделена на несколько принципиальных этапов.

Подготовка максимально качественного языкового материала, который будет подаваться на вход. Важность очистки входных данных ни в коем случае нельзя недооценивать, как бы ни хотелось сэкономить человекочасы на данной процедуре. Дело в том, что компьютерная программа породит генетическую классификацию из любого подаваемого материала, но робастность получаемых дендрограмм и их историческая надежность зависят от адекватности лингвистических данных (как это правило традиционно формулируется для биологической филогении, «Garbage in, garbage out»).

Апробация биологических методов на конвенциональных группах и семьях языков, т. е. на языках, о факте родства которых и о внутренней классификации которых среди специалистов наблюдается научный консенсус. Это, к примеру, такие группы, как славянская, германская, лезгинская, с некоторыми оговорками — уральская семья. Индоевропейская семья в этот список уже не входит: ее состав учеными не оспаривается, но общепринятой классификации групп внутри индоевропейской семьи пока нет. Серия таких тестов должна указать на слабые и сильные стороны того или иного метода и выявить основные подводные камни при переносе биологических приемов на лингвистический материал.

Построение гипотез дальнего языкового родства, т. е. родства между языковыми семьями, относящегося к доисторической эпохе.

Несмотря на десятки регулярно появляющихся статей по формальной классификации тех или иных языковых групп, в мировой практике наблюдаются существенные лакуны.

Во-первых, многие, если не большинство авторов не вполне осознают важность тщательной подготовки входных данных (в основном лексических списков Сводеша). Например, классификации индоевропейской семьи, предложенные в [Gray, Atkinson 2003; Bouckaert et al.

2012], некритически базируются на 200-словных списках из [Dyen et al. 1997]. Однако база данных [Ibid.] содержит множество лексикограIbid.].] фических ошибок (см.: [Kushniarevich et al. (forthcoming)]). Как реKushniarevich. forthcoming)]).

]).

зультат, в указанных классификациях мы видим явно неприемлемые узлы вроде белорусско-польского единства.

Связано это с разницей узусов биологии и лингвистики. В биологии опубликованные данные, скажем, по морфологии того или иного вида или по секвенированию генома, считаются надежными, их можно непосредственно использовать в филогении. Совершенно иначе обстоит дело в лингвистике, где, например, категорически не рекомендуется использовать лексические списки, механически извлеченные из обратных словарей. Напротив, качественная подготовка стословного списка одного языка под стандарт конкретного исследования может занять несколько недель работы квалифицированного лингвиста.

Во-вторых, довольно плохо обстоит дело с тестированием различных методов на консенсусном материале. Например, в работе [Nakhleh et al. 2005] основные филогенетические методы применены к индоевропейской семье. Они дают различающиеся деревья, но мы не можем сказать, какой из методов лучше других справился с реконструкцией филогении, так как общепринятой классификации индоевропейской семьи не существует. Пока полноценным тестированием можно считать такие публикации, как [Barbanon et al. 2013] (на вход подавались искусственно смоделированные лингвистические данные) и [Kassian 2015] (110-словники лезгинских языков).

Исходя из необходимости закрыть вышеописанные лакуны, основную цель исследований нашей Лаборатории мы можем сформулировать так: разработать и апробировать усовершенствованную методику построения оптимального сценария генетического родства языковых семей на средних и глубоких хронологических уровнях, сочетающую элементы традиционного сравнительно-исторического метода с новейшими достижениями исторической типологии, лексикостатистики и формальных алгоритмов.

Исследования Лаборатории базируются на лексических данных нашего активно развивающегося онлайн-проекта «Глобальная лексикостатистическая база данных / The Global Lexicostatistical Database» (сокращенно ГЛБД/GLD; см.: [Starostin et al. 2011]). Идеологическую основу проекта составляют следующие положения.

Сравнение лексики — это надежный инструмент для генеалогической классификации языков. Иногда утверждается, что приоритет в подобных задачах должны иметь грамматические (фонетические, морфологические, синтаксические) признаки. Однако мы предполагаем, что грамматические данные следует использовать с осторожностью, так как, во-первых, эти признаки не универсальны; во-вторых, они легко могут образовывать вторичные ареальные изоглоссы (особенно если речь идет о языках, родство которых еще ощущается носителями), причем выявить источник инновации часто оказывается затруднительно; в-третьих, грамматические признаки образуют систему, т. е. изменение одного признака с высокой вероятностью влечет за собой изменение других признаков. Для лексических же признаков эти недостатки характерны в значительно меньшей степени.

Точность реконструкции филогенетического дерева зависит в первую очередь не от математического метода, а от степени очистки входных данных, иными словами, не от труда компьютера, а от труда лингвиста, кропотливо анкетирующего индивидуальные диалекты по принятому списку признаков.





По своей форме ГЛБД не представляет собой одну, единую базу данных — это иерархическая система, включающая списки слов разных уровней, от высшего до низших. Такая структура не только облегчает работу с огромнейшим объемом информации, но и находится в строгом соответствии с концепцией генеалогического древа, согласно которой из языковпредков произрастают многочисленные языки-потомки, на основе которых методами исторической лингвистики можно реконструировать их общий язык-предок.

Первый уровень составляют сравнительно небольшие базы данных, каждая из которых содержит списки слов языков, разделившихся, по предположительным оценкам, не более трех тысяч лет назад, близкое родство которых не вызывает сомнений, а также список слов праязыка, являющегося их общим предком. Типичные примеры таких баз — германская, тюркская, полинезийская, севернокойсанская и т. п. За генетическими общностями такого уровня закреплено традиционное название языковой г р у п п ы.

Второй уровень — базы, содержащие списки только реконструированных слов праязыков, которые достоверно или хотя бы предположительно родственны между собой. Реальность существования таких праязыков обычно не подвергается сомнению в лингвистическом сообществе, а время их выделения из общего языка-предка — не более шести тысяч лет назад.

Базы второго уровня включают также список слов праязыка, являющегося общим предком представленных в данной базе праязыков. К числу типичных примеров относятся индоевропейские, уральские, австронезийские, северно-кавказские и др. общности. Такие генетические общности мы, опять-таки традиционно, называем языковыми с е м ь я м и.

Третий уровень составляют базы, в которых сопоставляется лексика нескольких праязыков разных с е м е й — в случае, если существует предположение, что между этими семьями имеется очень глубокое генетическое родство. Поскольку такие сверхглубокие генетические связи часто подвергаются серьезному сомнению (особенно специалистами, убежденными в том, что ни сравнительно-исторический метод, ни какие-либо альтернативные подходы не позволяют получить убедительных результатов, когда речь идет о хронологической глубине, превышающей шесть-восемь тысяч лет), создание и анализ гипотетических прасписков для столь глубоких таксонов является непременным условием подтверждения их исторической реальности. Типичные примеры — ностратические, сино-кавказские, афроазиатские, нигер-конголезские и т. п. языки; такого рода общности мы называем м а к р о с е м ь я м и.

На данный момент в онлайн-компоненте ГЛБД представлены почти исключительно базы первого уровня, но со временем, по мере увеличения числа обработанного материала и формально верифицированных гипотез языкового родства, планируется последовательная интеграция их сначала в базы второго, а затем и третьего уровня. Конечная цель — сведение всех языков планеты к абсолютному минимуму таксонов, которые могут быть обоснованы с помощью лексикостатистической методологии и, тем самым, тестирование хронологических пределов действия лексикостатистического метода как такового.

Основные фундаментальные и прикладные задачи, решаемые в рамках исследования в нашей Лаборатории, можно сформулировать так:

• интеграция данных историко-фонетической и историко-семантической типологии в процедуру доказательства глубинного языкового родства;

• совершенствование используемых в компаративистской практике алгоритмов статистического анализа сравнительных данных базисной лексики;

• внедрение полученных результатов в программную оболочку компьютерной лингвистической среды STARLING и их апробация на базах данных по крупным языковым семьям Евразии, Африки и Америки.

В результате исследования планируется значительно усовершенствовать формальную методологию языковой классификации, что позволит предлагать достоверные сценарии исторического развития современной языковой ситуации на протяжении последних 10–12 тысяч лет. Разрабатываемая методология, интегрирующая достижения классического сравнительно-исторического языкознания, данные лингвистической типологии и современные статистические алгоритмы, не имеет реальных прецедентов в мировом языкознании.

Литература / References

1. Barbanon, F., Evans, S. N., Nakhleh, L., Ringe, D., Warnow, T. (2013). An experimental study comparing linguistic phylogenetic reconstruction methods. Diachronica, 30(2), 143–170.

2. Bouckaert, R., Lemey, P., Dunn, M., Greenhill, S. J., Alekseyenko, A. V., Drummond, A. J., Gray, R. D., Suchard, M. A., Atkinson, Q. D. (2012). Mapping the origins and expansion of the Indo-European language family. Science, 337, 957—960. [With corrections and revised supplementary materials in: Science, 342. 2013, December 20, 1446].

3. Dyen, I., Kruskal, J., Black, P. (1997). Comparative Indo-European Database. Last modifed on Feb 5, 1997. http://www.wordgumbo.com/ie/cmp [accessed 15.04.2015].

4. Gray, R. D., Atkinson, Q. D. (2003). Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435–439.

5. Heggarty, P., Maguire, W., McMahon, Al. (2010). Splits or waves? Trees or webs? How divergence measures and network analysis can unravel language histories. Philosophical Transactions of the Royal Society B, 365, 3829–3843.

6. Kassian, A. (2015). Towards a formal genealogical classifcation of the Lezgian languages (North Caucasus): testing various phylogenetic methods on lexical data. PLoS ONE 10(2):

e0116950, 2015. DOI:10.1371/journal.pone.0116950.

7. Kushniarevich, A., Utevska, O., Dibirova, K., Uktverite, I., Agdzhoyan, A., Chuhryaeva, M., Mls, M., Kovaevi, L., Pshenichnov, A., Frolova, S., Shanko, A., Metspalu, E., Reidla, M., Tambets, K., Tamm, E., Koshel, S., Atramentova, L., Churnosov, M., Kucinckas, V., Evseeva, I., Davydenko, O., Tegako, L., Yunusbaev, B., Khusnutdinova, E., Marjanovi, D., Rudan, P., Rootsi, S., Zaporozhchenko, V., Yankovsky, N., Kassian, A., Dybo, A., The Genographic Consortium, Tyler-Smith, Ch., Balanovska, E., Metspalu, M., Kivisild, T., Villems, R., Balanovsky, O. Genetic heritage of the Balto-Slavic speaking populations: a synthesis of autosomal, mitochondrial and Y-chromosomal data (forthcoming).

8. Makarenkov, V., Kevorkov, D., Legendre, P. (2006). Phylogenetic network construction approaches. In D. K. Arora, R. M. Berka, G. B. Singh (eds.). Applied Mycology and Biotechnology, 6: Bioinformatics, 61–98. Amsterdam; Boston: Elsevier.

9. McMahon, A., McMahon, R. (2005). Language classifcation by numbers. Oxford: Oxford Univ. Press. xviii + 265 p.

10. Nakhleh, L., Warnow, T., Ringe, D., Evans, S. N. (2005). A comparison of phylogenetic reconstruction methods on an IE dataset. Transactions of the Philological Society, 103, 171–192.

11. Nichols, J., Warnow, T. (2008). Tutorial on computational linguistic phylogeny. Language and Linguistics Compass, 2(5), 760–820.

12. Starostin, G. et al. (2011). The Global Lexicostatistical Database. http://starling.rinet.ru/ new100 [accessed 15.04.2015].

NEW METHODS IN GENEALOGICAL CLASSIFICATION

OF LANGUAGES AND LINGUISTIC RECONSTRUCTION

Kassian, Alexei S.

PhD (Candidate of Science in Philology), Senior Researcher E-mail: a.kassian@gmail.com Starostin, George S.

PhD (Candidate of Science in Philology), Head of Laboratory E-mail: gstarst1@gmail.com Laboratory of Oriental studies and comparative linguistics, School of Advanced Studies in the Humanities, The Russian Presidential Academy of National Economy and Public Administration Russia, Moscow, 119571, Prospect Vernadskogo, 82 Tel.: +7 (499) 956-96-47 Abstract. One of the most important issues in modern historical linguistics is that of verifcation of hypotheses of deep level relationship between various linguistic families. Most noncontroversial theories of genetic relationship do not deal with time depths that surpass 5 or 6 thousand years ago, and the classic comparative method is often found insuffcient to reliably justify suggestions of macrofamily level relationship (such as “Nostratic”).

It is therefore necessary to supplement the comparative method with additional techniques, particularly based on progress in the area of phylogenetic modeling, as well as with empirical typological evidence on language change that has been accumulated over several decades of intense research.

In this short paper, we briefy describe the main goals and perspectives of the project upon which a team of our researchers is currently working at the Laboratory of Oriental Studies and comparative linguistics: (a) integration of signifcant data on the typology of phonetic and semantic change into the procedure of verifcation of language relationship; (b) improvement of the currently employed algorithms for statistical analysis of the basic lexicon; (c) inclusion of the results of our research in the computer software STARLING, originally designed by Sergei Starostin as a basic tool for historical linguistics purposes, and their approbation on linguistic databases for major linguistic families of Eurasia, Africa, and America that are currently being compiled for the related Web project “The Global Lexicostatistical Database”.

Keywords: comparative linguistics, The Global Lexicostatistical Database, linguistic families.

–  –  –





Похожие работы:

«ВЕСТН. МОСК. УН-ТА. СЕР. 7. ФИЛОСОФИЯ. 2012. № 6 НАУЧНАЯ ЖИЗНЬ НАУЧНОЕ ИСКУССТВО: ИСТОКИ, СУЩНОСТЬ, ТЕРМИНОЛОГИЯ (по материалам Первой международной научно-практической конференции «Научное искусство». М.: МГУ имени М.В. Ломоносова, 4—5 апреля 2012 г.) Статья посвящена анализу результатов работы Первой международной науч...»

«246 Концептуализация знаний о российской цивилизации на рубеже XX-XXI вв.3.3. МЕНТАЛЬНОСТЬ КАК МЕТОД ИСТОРИКО-ПСИХОЛОГИЧЕСКОЙ РЕКОНСТРУКЦИИ СВОЙСТВ РОССИЙСКОЙ ЦИВИЛИЗАЦИИ В историографии параллельно с возрождением традиции осмысления менталитета в историко-психологическом плане и с помощью конкретно...»

«МУНИЦИПАЛЬНОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ОБРАЗОВАНИЯ ДЕТСКАЯ ХУДОЖЕСТВЕННАЯ ШКОЛА ГОРОДА УСТЬ-ЛАБИНСКА МУНИЦИПАЛЬНОГО ОБРАЗОВАНИЯ УСТЬ-ЛАБИНСКИЙ РАЙОН Тел./факс: 8(86135) 5-09-81 352330...»

«УДК 631.152 КАЧЕСТВО КАК ДОМИНАНТНЫЙ ФАКТОР СПРОСА Сафиуллин Ленар Наилевич д.э.н., профессор, заведующий кафедрой экономической методологии и истории Казанского (Приволжского) федерального университета В работе проводится исследование взаимосвязи качества товаров и спроса. В...»

«ИСТОРИЯ ПРЕДМЕТНОЙ (ЦИКЛОВОЙ) КОМИССИИ ОБЩЕСТВЕННЫХ ДИСЦИПЛИН ПЦК общественных дисциплин, 2014 год История техникума – это история каждой кафедры, каждого работавшего и работающего в техникуме человека. В каждом имени – частичка общей истории. В 1969 год...»

«Предисловие. Посетитель. Здравствуйте, доктор. У меня проблемы. Доктор (пишет что-то в истории болезни). Присаживайтесь, голубчик. Рассказывайте. Посетитель. У меня. погасший взгляд. И дергается правое плечо....»

«С.П. Шананин, член ЕО РОИА Хутор Приазовка. Неизвестные страницы в истории образования В 9 километрах к юго-западу от города Ейска, по трассе Ейск – Должанская на развилке...»

«УДК 316.6(075.32) ОРИЕНТИРОВКА КАК УСЛОВИЕ РЕЗУЛЬТАТИВНОСТИ СОВМЕСТНОЙ ДЕЯТЕЛЬНОСТИ МАЛЫХ МОЛОДЕЖНЫХ ГРУПП* © 2011 Е. И. Гамова соискатель каф. психологии e-mail gamova-katrine@yandex.ru Курский государственный университет В статье рассматриваются историко-психологические, методологические и эмпирические проблемы социал...»

«Парамаханса Йогананда. КРИЙЯ — ВЫСШЕЕ УЧЕНИЕ (СУПЕР-ТЕХНИКА) Парамаханса Йогананда КРИЙЯ — ВЫСШЕЕ УЧЕНИЕ (СУПЕР-ТЕХНИКА) -1http://www.orlov-yoga.com/ Парамаханса Йогананда. КРИЙЯ —...»

«ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А. А. Ж ДАНО ВА К. М. КОЛОБОВА ДРЕВНИЙ ГОРОД АФИНЫ И ЕГО ПАМЯТНИКИ ИЗДАТЕЛЬСТВО ЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА Печатается по постановлени...»








 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.