Porozmawiajmy o języku (7): Superrodziny i prajęzyk

Z powodów wspomnianych w trzecim odcinku tej serii sądzę, że odkąd u naszych odległych przodków wyewoluowała zdolność do komunikacji językowej, zawsze istniało obok siebie wiele różnorodnych języków. Nie wyklucza to możliwości, że wszystkie współcześnie istniejące języki miały wspólnego przodka. Wyobraźmy sobie, że początkowo istniał cały las drzew rodowych języków (czyli wiele niespokrewnionych z sobą rodzin), ale z przyczyn losowych wiele z nich wymarło bezpotomnie. Sprzyjały temu naturalne dysproporcje wspomniane w poprzednim odcinku. Poniższy rysunek pokazuje to w uproszczony, schematyczny sposób. Kolorem żółtym oznaczyłem języki występujące współcześnie lub udokumentowane historycznie, kolorem zielonym – dające się zrekonstruować prajęzyki, które dały początek znanym nam rodzinom, a kolorem czerwonym – ostatniego wspólnego przodka wszystkich tych rodzin (których w rzeczywistości mamy setki, a nie kilka, jak na rysunku).

Czy istnieją jakiekolwiek szanse na udowodnienie, że do naszych czasów rzeczywiście przetrwały wyłącznie języki należące do jednej z pierwotnych rodzin? Niestety tradycyjna metoda porównawcza jest tu prawdopodobnie bezsilna. Trzeba pamiętać, że drzewo rodowe jest modelem przybliżonym. Nie uwzględnia na przykład faktu, że kontakty językowe powodują wymianę słownictwa, często na wielką skalę. Słownictwo odziedziczone zanika z czasem, zastępowane przez zapożyczenia i neologizmy. Skutkiem tego jest postępująca erozja informacji potrzebnej do rekonstrukcji porównawczej.

Głębia chronologiczna rodziny indoeuropejskiej to mniej więcej 6 tys. lat, a ponieważ obejmuje ona setki języków, w tym kilka gałęzi rodowych o udokumentowanej historii sięgającej 2 lub 3 tys. lat, rekonstrukcja wspólnego przodka jest ułatwiona. Potrafimy odtworzyć kilkaset rdzeni leksykalnych, dużą część słownictwa podstawowego, reguły słowotwórcze, odmianę różnych części mowy itp. W przypadku rodziny afroazjatyckiej, która wydaje się o wiele starsza, można się dogrzebać kilkudziesięciu wspólnych rdzeni słowotwórczych (w tym zaimków) i zbieżności systemów morfologicznych, ale nie ma mowy o takiej szczegółowości, jak w przypadku rodziny indoeuropejskiej. Łatwiej jest stosować metodę porównawczą do tych gałęzi rodziny afroazjatyczkiej, w których grupują się języki dobrze zbadane, udokumentowane na przestrzeni tysięcy lat. Dobrym przykładem jest gałąź semicka. Należy do niej choćby język akadyjski, znany z zapisów od XXIV w. p.n.e., a także języki od dawna dobrze znane i starannie badane (jak hebrajski, fenicki, aramejski, arabski czy amharski); język prasemicki był mniej więcej współczesny praindoeuropejskiemu. Choć nie znamy teoretycznego ograniczenia stosowalności metody porównawczej, ocena empiryczna wskazuje na ok. 10 tys. lat jako czas, po którego upływie trudno wyciągnąć wiarygodne wnioski z materiału zachowanego w językach potomnych. Dodajmy, że mowa tu o sprzyjających okolicznościach (wiele dobrze zbadanych języków pokrewnych, dobra dokumentacja historyczna). Dla małych i słabo poznanych rodzin językowych możliwość rekonstrukcji jest jeszcze bardziej ograniczona.

Języki indoeuropejskie i uralskie (ugrofińskie + samojedzkie) uchodzą za przykład pary rodzin, między którymi dalekie pokrewieństwo jest prawdopodobne (tzw. hipoteza indouralska). Wrażenia takie powstaje, kiedy spojrzymy na ich systemy zaimków (pojawianie się spółgłoski *m w formach pierwszej osoby i *t w drugiej osobie zaimków osobowych, uralski zaimek wskazujący *tä- wobec indoeuropejskiego *so-/*to-, uralskie zaimki pytajne *ke-/*ku- i indoeuropejskie *kʷi-/*kʷo-). Zdarzają się sporadyczne zbieżności w systemie odmiany, np. biernik l.poj. rzeczowników z końcówką *-m. Na tym jednak podobieństwo właściwie się kończy. Uderzający jest brak zgodności leksykalnych w słownictwie podstawowym. Grupy znaczeniowe wyrazów, w których oczekiwalibyśmy ujawniania się takich zgodności nawet po kilku tysiącach lat osobnego rozwoju (np. podstawowa terminologia rodzinna, nazwy części ciała lub powszechnie spotykanych elementów środowiska naturalnego, niskie liczebniki, czasowniki oznaczające elementarne czynności) nie wykazują śladów regularnych odpowiedniości wskazujących na wspólne pochodzenie. Na przykład indoeuropejskie *dwo-/*dwi- ‘2’ i *tri- ‘3’ nie dają się powiązać z uralskimi *kakta/*kektä ‘2’ i *kolmi/*kurmi ‘3’. Jedyną nazwą członka rodziny, w której widać podobieństwo, jest prauralskie *käliw ‘siostra lub brat męża’ zastanawiająco zbliżone do praindoeuropejskiego *ǵl̥h₂-u- ‘siostra męża’, ale spodziewalibyśmy się raczej zgodności nazw najbliższych krewnych (ojciec, matka, syn, córka, brat, siostra), a nie określeń dalszego powinowactwa. Izolowane podobieństwa, jak prauralskie *weti ‘woda’ i *nimi ‘imię’ wobec praindoeuropejskich *wod-r̥/*wed-n- i *h₁noh₃-mn̥, nie wystarczają do identyfikacji regularnych odpowiedniości i wykluczenia przypadkowej zbieżności brzmienia. Sytuację komplikuje fakt, że na wczesnych etapach swojej historii języki uralskie wchłonęły wiele zapożyczeń z języków indoeuropejskich, czego skutkiem może być iluzja pokrewieństwa silniejsza niż ewentualne dowody na pokrewieństwo rzeczywiste.

Jeśli tak wyglądają próby łączenia rodzin, które istniały w bliskich sobie geograficznie regionach Eurazji i wykazują choć cień zbieżności, to trudno się dziwić, że większość językoznawców historycznych zachowuje sceptycyzm wobec jeszcze dalej idących propozycji – np. hipotezy nostratycznej lub konkurencyjnych wobec niej hipotez – eurazjatyckiej lub transeurazjatyckiej. Każda z nich proponuje połączenie w jedną superrodzinę od kilku do kilkunastu rodzin Azji i Europy (z ewentualnym dodatkiem niektórych języków Ameryki Północnej i północnej Afryki). Dowolność, z jaką proponuje się skład każdej z tych mgławicowych superrodzin, i brak wiarygodnych podstaw do solidnej rekonstrukcji proponowanych prajęzyków nie pozwalają na ich zgodną akceptację przez językoznawców.

Podobnie ma się rzecz z hipotezą amerindiańską, postulującą pokrewieństwo większości rdzennych języków obu Ameryk. Zaproponował ją Joseph H. Greenberg na podstawie „metody masowego porównania” słownictwa wielu języków, niewymagającej ustalenia systematycznych odpowiedniości; wystarczy intuicyjne „wrażenie podobieństwa”. Subiektywizm tej metody i jej podatność na błędy wynikające choćby z niemożności wyeliminowania zapożyczeń i przypadkowych podobieństw nie pozwalają na weryfikację wyników jej stosowania. Oczywiście „ogólny rzut oka z lotu ptaka” na zbiory danych jest często potrzebny dla oceny, czy w ogóle warto próbować ustalać pokrewieństwo jakiejś grupy języków, ale nie posiada wartości dowodowej, jaką odznacza się rygorystycznie stosowana metoda porównawcza. Zatem także hipoteza amerindiańska jest dość zgodnie odrzucana przez specjalistów od języków Nowego Świata.

Mówimy tu o próbach tworzenia „superrodzin”, których głębia czasowa mogłaby się mieścić w zakresie 10–20 tys. lat. Jednak gdybyśmy chcieli znaleźć dowody na pokrewieństwo wszystkich języków świata, trzeba by było włączyć do porównania np. Australię, zasiedloną już 65–45 tys. lat temu, i Afrykę, z którą przodkowie pozaafrykańskich populacji Homo sapiens pożegnali się ok. 70 tys. lat temu. Jeśli wszystkie współczesne języki mają wspólnego przodka, zdrowy rozsądek podpowiada, że główna migracja naszego gatunku poza Afrykę wyznacza jego minimalny wiek. Nie znamy żadnej wiarygodnej metody, która potrafiłaby sięgnąć w tak daleką przeszłość. Nie wiemy również, czy języki Afryki subsaharyjskiej dają się sprowadzić do wspólnego przodka ani czy wyjście z Afryki oznaczało dostatecznie wąskie gardło dla populacji i ich języków, żeby można było mówić o jednej superrodzinie wyodrębnionej w ten sposób.

Czasem trzeba się pogodzić z niewiedzą wynikającą z nieuniknionych ograniczeń poznawczych, choć oczywiście należy też mieć nadzieję, że z czasem dopracujemy się ulepszonych obiektywnych metod ustalania bardzo odległego pokrewieństwa. Trzeba w tym celu wyłowić słabnący niemal do zera „sygnał genetyczny” z szumu nagromadzonego przez tysiące lat zmian językowych i wykazać, że sam sygnał nie jest złudzeniem – produktem losowych fluktuacji. Eksperymentalne symulacje komputerowe i analiza wielkich zbiorów danych na razie nie przyniosły przełomu w porównaniu z metodami stosowanymi „ręcznie”. Naiwne przenoszenie algorytmów filogenetycznych opracowanych na potrzeby biologii nie ma wielkiego sensu bez uwzględznienia specyficznych cech ewolucji językowej. Komputerowe językoznawstwo historyczno-porównawcze dopiero raczkuje i wypracowuje własne metody. Czy skuteczne, tego – jak to w nauce – dowiemy się, kiedy badania wyjdą poza okres pionierskich eksperymentów.

To już ostatni odcinek tej serii, ale oczywiście nie koniec językoznawczych wpisów na blogu Naukowy 2022.

Porozmawiajmy o języku (6): Rodziny, różnorodność i nierówności

Rodzina językowa to grupa języków, których wzajemne pokrewieństwo potrafimy wykazać z dużą dozą pewności, stosując metody opisane w poprzednim odcinku tej serii. Zwykle rezerwujemy określenie „rodzina” dla maksymalnej grupy tego typu. Jeśli nie zaliczamy danego języka np. do rodziny kartwelskiej, to znaczy, że mimo usilnych starań nie potrafimy przekonująco wykazać, że między nim a językami tej rodziny istnieją głębokie związki świadczące o ich wspólnym pochodzeniu i nie dające się wyjaśnić np. zapożyczeniami albo zbiegiem okoliczności.

Drzewo rodowe kartwelskiej rodziny językowej.

Rodzina kartwelska jest nieduża: składa się współcześnie tylko z czterech języków używanych na południowym Kaukazie. Strukturę ich pokrewieństwa ilustruje „drzewo rodowe” narysowane powyżej. Prócz wierzchołków drzewa odpowiadających czterem żyjącym językom widzimy węzeł A odpowiadający ich hipotetycznemu ostatniemu wspólnemu przodkowi (językowi prakartwelskiemu) i dwa inne węzły, B i C, odpowiadające ostatnim wspólnym przodkom niektórych z nich. Węzeł B to przodek trzech języków łączonych w tzw. grupę kartozańską. Węzeł C  to z kolei przodek blisko z sobą spokrewnionych języków zańskich (megrelskiego i lazyjskiego).

Szacuje się, że linia rozwojowa języka swańskiego oddzieliła się od przodka języków kartozańskich ok. 4 tys. lat temu, język gruziński odłączył się od grupy zańskiej ok. VIII w. p.n.e., a rozpad języka (pra)zańskiego na megrelski i lazyjski zakończył się mniej więcej 500 lat temu. Te daty są obarczone dużą niepewnością, ale dla językoznawców ważna jest sama struktura drzewa rodowego, umożliwiająca klasyfikację języków na podstawie wspólnego pochodzenia, i kolejność wyodrębniania się jego gałęzi. Zakładając, że historyczne podziały w ramach rodziny językowej są z reguły binarne (jeden język dzieli się na dwa języki potomne), dla 4 języków istnieje 15 możliwych schematów pokrewieństwa (bez tego założenia byłoby ich 26). Ten, który badacze języków kartwelskich uznali za poprawny i odzwierciedlający ich rzeczywistą ewolucję, najlepiej tłumaczy obserwowane cechy języków potomnych, a zwłaszcza unikatowe wspólne innowacje przedstawicieli mniejszych grup.

Na całej Ziemi istnieje obecnie ok. 7 tys. języków. Liczba rodzin, na które je dzielimy, może się wydawać szokująca: jest ich prawie 400. Oznacza to, że jedna rodzina obejmuje średnio ok. 18 języków. Jednak rozkład liczebności rodzin jest skrajnie nierówny. Jedynie ok. 40 rodzin (10% ogólnej liczby) ma rozmiary powyżej średniej. Spośród pozostałych 90% połowa, czyli mniej więcej 180 rodzin, liczy sobie tylko jednego członka, którego przy obecnym stanie wiedzy nie jesteśmy w stanie połączyć z innymi w większą grupę. W Europie jedynym współczesnym przykładem tak skrajnie zredukowanej rodziny (czyli języka izolowanego) jest baskijski, ale jeszcze w okresie rzymskim takich reliktów (maleńkich rodzin liczących 1–3 członków) było więcej. W samej starożytnej Italii było ich kilka, w tym język etruski. Ich użytkownicy zostali jednak zdominowani przez rosnącą potęgę Rzymu i ulegli wpływowi łaciny. Tymczasem w górach Kaukazu przetrwały do naszych czasów aż trzy endemiczne rodziny (w sumie ok. 40 języków). Oprócz zaprezentowanej wyżej kartwelskiej są to rodziny nach-dagestańska (należy do niej np. język czeczeński) i abchasko-adygejska (np. język abchaski). Taka różnorodność jest charakterystyczna dla regionów trudno dostępnych, omijanych przez wielkie migracje, dzięki którym niektóre rodziny językowe szerzą się kosztem innych.

Na drugim krańcu dysproporcji mamy rodziny gigantyczne. Dwie z nich mają po ponad 1000 członków. Największa na świecie jest rodzina atlantycko-kongijska w Afryce (jednym z jej odgałęzień są szeroko rozprzestrzenione języki bantu). Druga z kolei jest rodzina austronezyjska, zajmująca wyspy Azji Południowo-Wschodniej, w tym Tajwan, Archipelag Malajski, wybrzeża Nowej Gwinei, wyspy Oceanii od Nowej Zelandii po Hawaje, a także Madagaskar na Oceanie Indyjskim. Ten nieprawdopodobny zasięg i wewnętrzna różnorodność to konsekwencja umiejętności żeglarskich Austronezyjczyków i ich niechęci do zasiedlania kontynentów. Dzięki temu stworzyli niezliczone populacje wyspiarskie, rozwijające własne języki.

Siedem rodzin obejmuje więcej niż 100, ale mniej niż 1000 języków. Na trzecim miejscu na świecie lokuje się rodzina indoeuropejska. Należy do niej większość języków Europy (w tym polski), ale warto pamiętać, że największą gałęzią w jej drzewie rodowym są języki indoirańskie, używane głównie w Indiach i w Azji Południowo-Zachodniej. Jest ich ok. 320 czyli ponad dwie trzecie obecnego składu rodziny. Dalej mamy rodzinę chińsko-tybetańską, afroazjatycką (w tym języki semickie, staroegipski, berberyjski i hausa, ale także wiele mniej znanych języków północnej Afryki), centralno-trans-nowogwinejską, pama-nyungańską (w Australii), oto-mangueską (w Meksyku) i austroazjatycką (należą do niej języki takie jak wietnamski i khmerski). Nazwy niektórych z tych rodzin nawet nie obiły się o uszy laikom, a przecież należą one wszystkie do największych na Ziemi. Rodzin o liczebności między 20 a 100 języków jest około trzydziestu.

Wskutek ekspansji języków indoeuropejskich pod koniec neolitu i na początku epoki brązu, a następnie kolejnych przypadków rozprzestrzeniania się języków tworzących mniejsze odgałęzienia rodziny indoeuropejskiej (zwłaszcza łaciny przed podziałem na języki romańskie, języków germańskich, a następnie słowiańskich), różnorodność językowa Europy uległa poważnemu zubożeniu. Są jednak miejsca na Ziemi, gdzie warunki geograficzno-przyrodnicze sprzyjały zachowaniu zróżnicowania. Tam krajobraz językowy wygląda zupełnie inaczej. Nowa Gwinea, wyspa 2,5 raza większa od Polski, jest ojczyzną ok. 800 języków należących do kilkudziesięciu rodzin (w tym wielu pojedynczych języków izolowanych). Jest to więcej niż 10% różnorodności językowej świata, a przy tym – z wyjątkiem rodziny austronezyjskiej, która skolonizowała północne i wschodnie wybrzeża wyspy – cała reszta to rdzenne rodziny endemiczne, niespotykane nigdzie indziej.

Oczywiście rozdrobnienie światowej puli języków na wiele małych rodzin i języków „bez przydziału” to częściowo wynik naszej ograniczonej wiedzy. Wiele języków nie doczekało się jeszcze bliższego zbadania; nie znamy także ich historii, bo nigdy nie miały formy pisanej. Ale co do zasady rozkład wielkości rodzin nie zmieniłby się znacząco, nawet gdybyśmy, dysponując dokładniejszą wiedzą, posklejali część z nich w nieco większe grupy sprowadzalne do wspólnego przodka. Wynika to ze skrajnie nierównomiernej skali sukcesu ewolucyjnego różnych linii rodowych, zależnej od splotu wielkiej liczby okoliczności losowych. Podobnie w ramach jednej rodziny istnieją zazwyczaj wielkie, średnie i maleńkie odgałęzienia drzewa rodowego. Również liczba użytkowników poszczególnych języków waha się w ogromnym zakresie. Połowa języków na Ziemi ma mniej niż 6 tys. użytkowników, ale jest i kilka takich, które są używane przez setki milionów ludzi jako pierwszy język przyswojony w dzieciństwie.

Podobne nierówności są powszechne w ewolucji biologicznej. W ramach tej samej gromady ssaków wyróżniamy grupy w randze rzędów, połączone bliższym pokrewieństwem. Trzy największe z nich – gryzonie, nietoperze i ryjówkokształtne – obejmują łącznie 70% gatunków ssaków. Samych gryzoni znamy prawie 2300 gatunków. Tymczasem rząd rurkozębnych (Tubulidentata) obejmuje tylko jeden żyjący gatunek (mrównika), rząd latawców (Dermoptera) – dwa gatunki, a rząd trąbowców (Proboscidea) – trzy gatunki współczesnych słoni. Oczywiście są i rzędy całkowicie wymarłe. Także wiele rodzin językowych znamy jedynie w postaci „kopalnej”, jako zbiory zachowanych tekstów. Sumeryjski, bardzo ważny historycznie jako jeden z dwóch języków najdawniej udokumentowanych w postaci pisanej, jest jednocześnie izolowany i wymarły. Nie ma żadnych zidentyfikowanych kuzynów i nie pozostawił po sobie języków potomnych.

Mrównik (Orycteropus afer), jedyny żyjący przedstawiciel rzędu rurkozębnych. Języki izolowane są równie ciekawe i godne ochrony jak mrówniki. (Foto: ogród zoologiczny w Chester, Wielka Brytania. Źródło).

Ale o ssakach wiemy przynajmniej tyle, że mimo nieuniknionych dysproporcji w ich taksonomii, wynikających z asymetrycznej struktury drzewa rodowego, wszystkie one wywodzą się od jednego wspólnego przodka. Czy możemy to samo powiedzieć o obecnie istniejących językach? Temu pytaniu będzie poświęcony kolejny odcinek serii.

Pomoc naukowa

Wielka baza danych o językach (zwłaszcza mało znanych) i rodzinach językowych całego świata

https://glottolog.org/