Pozostałe wpisy z tej serii Najłatwiejsze dźwięki świata (2): dziury w systemie Najłatwiejsze dźwięki świata (3): RRRrrr, czyli ukryta różnorodność warkotów Najłatwiejsze dźwięki świata (4): Ř, czyli jak utrudnić sobie życie, próbując je ułatwić
Jakiś czas temu poświęciłem serię wpisów dźwiękom mowy, które z punktu widzenia użytkowników głównych języków europejskich wydają się rzadkie, trudne lub osobliwe (od walijskiego ll [ɬ] po mlaski południowoafrykańskie). Kiedy przyjrzeć im się z bliska, okazują się nie takie znowu straszne. Można opanować ich wymowę, zwłaszcza jeśli rozumiemy, jak działają nasze narządy mowy, i potrafimy świadomie ich używać. Oprócz odrobiny wiedzy fachowej może to wymagać ćwiczeń, czyli odpowiedniej gimnastyki artykulacyjnej, a także przełamania odruchowych nawyków narzucanych przez języki, którymi już się posługujemy.
A czy są dźwięki mowy, które są łatwe dla każdego? Kiedy się przyjrzymy odpowiednio dużej próbce języków świata, zauważymy, że wśród głosek, które w każdym z nich mają status fonemów (czyli elementów, które mogą różnicować znaczenie wyrazów), pewne dźwięki powtarzają się częściej niż inne. Co prawda trzeba uważać ze stwierdzeniami typu „fonem /t/ występuje w języku polskim, angielskim i mandaryńskim”, bo to, co umownie zapisujemy jako /t/, może funkcjonować rozmaicie w zależności od tego, jak wygląda cały system fonologiczny danego języka. W odróżnieniu od głosek (które są konkretnymi dźwiękami mowy o określonej artykulacji i określonych cechach akustycznych), fonem to pojęcie abstrakcyjne, odnoszące się do całego zbioru głosek, które w systemie danego języka uważane są za warianty „tej samej” jednostki mowy. Używana powszechnie konwencja zaleca zapisywanie fonemów przy użyciu ukośników: /t/, a ich fonetycznej realizacji przy użyciu nawiasów kwadratowych: [t].
Polskie /t/ kontrastuje przede wszystkim z /d/, a różnica między nimi polega głównie na tym, że /t/ jest realizowane bezdźwięcznie, a /d/ dźwięcznie (towarzyszy mu wibracja fałdów głosowych). Angielski również ma parę /t/ : /d/, ale różnią się one w mniejszym stopniu dźwięcznością, a w większym – siłą artykulacji. Mięśnie narządów mowy są bardziej napięte przy wymawianiu /t/. W pozycji na początku akcentowanej sylaby skutkiem tej energicznej artykulacji jest wyraźnie słyszalny przydech: [tʰ], nieobecny w języku polskim albo np. francuskim czy hiszpańskim. Dzieje się tak dlatego, że większe napięcie mięśni aparatu mowy powoduje wzrost ciśnienia powietrza zgromadzonego w jamie ustnej i uwalnianego w fazie rozwarcia spółgłoski.
Z kolei w języku mandaryńskim różnica między [t] a [tʰ] ma znaczenie fonemiczne. Fonem /t/ (zapisywany d w oficjalnym chińskim systemie transkrypcji zromanizowanej, zwanym pinyin) jest wymawiany bez przydechu. Często ma wymowę przynajmniej częściowo udźwięcznioną, jednak cecha dźwięczności lub bezdźwięczności nie ma w jego przypadku znaczenia. Ważny jest tylko brak przydechu, odróżniający go od przydechowego /tʰ/ (oznaczanego t w zapisie pinyin).
Międzynarodowy alfabet fonetyczny (IPA) używa skończonej liczby znaków, podczas gdy dźwięki, jakie może wyartykułować człowiek, tworzą kontinuum bez wyraźnych granic między „sąsiednimi” dźwiękami. W dodatku, ponieważ dysponujemy wieloma ruchomymi narządami mowy, które mogą działać niezależnie od siebie, jest to kontinuum wielowymiarowe. Dlatego transkrypcja, jakiej używamy, jest z konieczności zawsze przybliżona i uproszczona. Nadmiar znaków diakrytycznych modyfikujących interpretację podstawowych symboli IPA raczej by przeszkadzał, niż pomagał w praktycznych zastosowaniach, wobec czego używamy ich oszczędnie. Zwykle symbol [t] oznacza dość ogólnikowo spółgłoskę przedniojęzykową zwartą, nienosową i bezdźwięczną, a uzupełniamy go o szczegóły tylko wtedy, gdy jest to konieczne. A zatem transkrybując fonemicznie (brytyjskie) angielskie top jako /ˈtɒp/, a polskie top jako /ˈtɔp/, abstrahujemy od faktu, że w pierwszym przypadku /t/ jest realizowane jako [tʰ] i wymaga większego nakładu energii artykulacyjnej. Fakt ten jest bowiem przewidywalny jako reguła realizacji obowiązująca w danym kontekście w systemie wymowy angielskiej.
Różnica między typowymi realizacjami polskiego /t/ i angielskiego /t/ dotyczy również miejsca artykulacji i położenia języka. Polskie /t/ jest na ogół zębowo-dziąsłowe (co w razie potrzeby można zapisać precyzyjniej jako [t̪]) i jest wymawiane laminalnie (przednia część górnej powierzchni języka dotyka jednocześnie dziąsła i nasady górnych zębów). Angielskie /t/ jest na ogół dziąsłowe i apikalne (czubek języka dotyka dziąsła).1 Każde z nich ma wiele wariantów (tzw. allofonów) zależnych od kontekstu lub indywidualnych wahań wymowy, toteż różnicę między nimi należy zatem rozumieć raczej w kategoriach statystycznych. Warto zauważyć, że angielskie /t/ miewa allofony zupełnie nieznane w języku polskim: na przykład w niektórych pozycjach może być zastępowane przez zwarcie krtaniowe [ʔ], zupełnie tracąc charakter przedniojęzykowy.
Nie popełnimy jednak wielkiej nieścisłości, jeśli „w pierwszym przybliżeniu” uznamy laminalne zębowo-dziąsłowe [t̪] (nienapięte i bez przydechu) za najbardziej typową, „domyślną” realizację polskiego /t/, a apikalne dziąsłowe [tʰ] (napięte i przydechowe) za najbardziej reprezentatywną realizację angielskiego /t/ przynajmniej na początku wyrazu – pamiętając jednak o tym, że nie są to realizacje jedyne. W każdym razie różnica artykulacyjna między angielskim a polskim /t/ przekłada się na wyraźnie słyszalną różnicę akustyczną, więc ktoś, kto chce opanować wymowę języka obcego na poziomie zbliżonym do kompetencji rodzimych użytkowników, powinien zwracać uwagę na takie niuanse.
Jeśli stwierdzimy, że znaczna część języków świata używa fonemu /t/, to mamy na myśli, że występuje w nich przynajmniej jeden fonem, którego główna realizacja to spółgłoska przedniojęzykowa zwarta, nienosowa i bezdźwięczna. Czy jest ona napięta, czy towarzyszy jej przydech, czy jest całkowicie bezdźwięczna, czy artykułujemy ją bliżej zębów, czy bliżej tylnej krawędzi łuku dziąsłowego, czy język jest ułożony płasko, czy z uniesionym czubkiem – to już są drugorzędne szczegóły swoiste dla danego języka.2
Wydaje się „intuicyjnie oczywiste”, że fonem typu /t/ występuje w większości języków świata, i rzeczywiście tak jest. Największa istniejąca obecnie publicznie dostępna baza systemów fonologicznych, PHOIBLE (Phonetics Information Base and Lexicon) zawiera dane dla ponad 3 tys. języków.3 Co prawda reprezentatywność statystyczna takich baz i jakość zawartych w nich informacji zawsze budzi pewne zastrzeżenia (w większości przypadków ich twórcy zmuszeni są polegać na pojedynczych źródłach, bo większość języków jest słabo poznana i udokumentowana), ale w końcu nie chodzi nam tutaj o ścisłe dane ilościowe, tylko o ogólne zorientownie się w sytuacji. Baza PHOIBLE rozróżnia [t̪] od [t], ignorując fakt, że w większości języków ten kontrast nie ma znaczenia. Głoska [t] występuje jako fonem w 68% języków uwzględnionych w bazie (między innymi w angielskim), a [t̪] w 23% (między innymi w polskim). Nie można jednak po prostu zsumować punktów procentowych, bo istnieją języki, w których /t/ i /t̪/ są odrębnymi fonemami. Zatem rzeczywisty odsetek języków wykorzystujących co najmniej jeden fonem typu /t/ mieści się gdzieś między 70 a 90% (zapewne bliżej drugiej niż pierwszej wartości).
Według PHOIBLE spółgłoską najczęściej wykorzystywaną jako fonem jest /m/ (96% języków), a najczęstszą samogłoską jest /i/ (92%). W ogóle szczególnie często spotykamy fonemy spółgłoskowe takie jak /p/, /t/, /k/, /m/, /n/, /j/, /w/, a wśród samogłosek szczególnie popularne są /i/, /u/, /a/. To dźwięki łatwe w realizacji, bo nie wymagają żadnych wygibasów artykulacyjnych takich jak te, które opisywałem, omawiając spółgłoski ejektywne i iniektywne albo mlaski. Podstawowe artykulacje zwarte [p], [t], [k] polegają na tym, że strumień powietrza wypływający z płuc i pokonujący trakt głosowy zostaje na chwilę całkowicie zablokowany przez zwarcie obu warg lub przedniej albo tylnej części języka ze sklepieniem jamy ustnej. Są to wszystko elementarnie proste ruchy artykulacyjne: ludzka zdolność do ich sprawnego wykonywania utrwaliła się, zanim przodkowie Homo sapiens, neandertalczyków i denisowian rozstali się i poszli każdy w swoją stronę.
Jednak jeśli mimo zwarcia narządów mowy pozwalamy powietrzu wypływać przez jamę nosową, podtrzymanie wibracji fałdów głosowych nie napotyka trudności, stąd częste występowanie fonemów nosowych /m/, /n/. Natomiast tylnojęzykowa spółgłoska nosowa [ŋ] wywołuje drobną komplikację: żeby ją wymówić, musimy zewrzeć tył języka z podniebieniem miękkim. Jednak podniebienie miękkie samo jest umięśnione, ruchome i służy jako klapka otwierająca lub zamykająca odnogę nosową traktu artykulacyjnego – w tym drugim przypadku jest uniesione i przyciśnięte do tylnej ściany gardła. Trzeba je opuścić, żeby umożliwić powietrzu ucieczkę przez nos. Skoordynowanie tych dwóch czynności nie jest trudne, ale wiąże się z dodatkowym drobnym wysiłkiem. To wystarcza, żeby samodzielny fonem /ŋ/ występował rzadziej niż /m/ lub /n/ (w ich przypadku podniebienie miękkie służy tylko jako zawór, nie jako uczestnik zwarcia).
Co do samogłosek (dźwięków otwartych, przy których wymawianiu powietrze bez oporu przepływa przez ustną część traktu głosowego, a fałdy głosowe swobodnie wibrują), to o ich barwie decyduje rezonans akustyczny zależny od położenia masy języka. Jeśli język leży niemal płasko, oddalony od sklepienia jamy ustnej, to efektem akustycznym jest samogłoska typu [a]. Jeśli środek języka (czyli przednia część jego głównej masy) unosi się i zbliża do podniebienia twardego na tyle, na ile nie zakłóca to przepływu powietrza, to otrzymujemy samogłoskę typu [i]. Jeśli natomiast tył języka zbliża się do podniebienia miękkiego, otrzymujemy [u]. Samogłosce tej towarzyszy zwykle zaokrąglenie warg, co powoduje zmaksymalizowanie kontrastu akustycznego (i percepcyjnego) między przednim [i] a tylnym [u].
Realizacje samogłosek, jakie jest w stanie wyartykułować Homo sapiens, mieszczą się w obszarze, którego skrajnyme punkty wyznaczają są [i], [u], [a] – samogłoski maksymalnie od siebie oddalone akustycznie. Inne samogłoski (takie jak [e], [o] czy [ə]) zajmują pozycje pośrednie. Nic dziwnego, że fonemy typu /i/, /u/, /a/ spotykamy częściej niż samogłoski mieszczące się gdzieś między nimi lub wymagające artykulacyjnych „efektów specjalnych”: im większy kontrast, tym mniejsze prawdopodobieństwo, że słuchacz źle zrozumie intencje mówiącego. Spółgłoski zbliżeniowe [j], [w] (zwane też półsamogłoskami) to spółgłoskowe odpowiedniki [i], [u]. Przy ich wymowie najwyższy punkt języka zbliża się do sklepienia jamy ustnej tak, że przepływ powietrza staje się wyraźnie ograniczony, ale jeszcze nie turbulentny (nie słychać aperiodycznego szumu charakteryzującego głoski szczelinowe).
Nieco dalej (ale wciąż wysoko) w rankingu prostoty fonetycznej i łatwości realizacji spotykamy fonemy typu /s/ (najpospoliciej występującą „syczącą” spółgłoskę szczelinową) oraz tzw. spółgłoski płynne: /l/ lub /r/. O spółgłoskach bocznych (do których należy [l]) była już mowa tutaj i tutaj; o spółgłoskach rotycznych („typu R”) jeszcze porozmawiamy. I to właściwie wszystko, jeśli chodzi o głoski, które nie powinny sprawiać większych kłopotów nikomu na tej planecie. Nie jest ich wiele, ale każda występuje w tysiącach języków.
Skąd się biorą głoski trudne w wymowie, o złożonej artykulacji i zasięgu ograniczonym do – powiedzmy – 5% języków albo w ogóle spotykane w jednym czy dwóch językach spośród około siedmiu tysięcy? Czemu ludzie zadają sobie trud, żeby ich używać? O tym także będziemy jeszcze dyskutować przy okazji omawiania konkretnych przykładów. Jednak kolejny wpis będzie poświęcony innemu zagadnieniu: istnieniu języków, w których nie występują dźwięki najłatwiejsze.
Przypisy
1) W razie konieczności IPA pozwala zapisać apikalność w następujący sposób: [t̺]. Dziąsłowe miejsce artykulacji uznawane jest za domyślne w przypadku spółgłosek przedniojęzykowych, dlatego nie oznacza się go za pomocą znaków diakrytycznych. Laminalność można zapisać tak: [t̻]. Jak jednak wspomniałem, tak szczegółowych oznaczeń używamy tylko wtedy, gdy jest to absolutnie konieczne, czyli skrajnie rzadko.
2) I w polskim, i w brytyjskim angielskim zębowe [t̪] i dziąsłowe [t] traktowane są jako warianty jednego fonemu. Jednak np. w wielu rdzennych językach Australii zębowe /t̪/ i dziąsłowe /t/, a także zadziąsłowe (retrofleksyjne) /ʈ/ są różnymi fonemami i trzeba je precyzyjnie rozróżniać, bo decydują o znaczeniu wyrazów. Natomiast w tychże językach nie ma znaczenia ani kontrast dźwięczności, ani przydech. Wymowa /t/ może się wahać między bezdźwięczną a dźwięczną, ale jest to stale ten sam fonem.
3) Albo raczej systemów językowych, bo niektóre języki są reprezentowane w bazie przez więcej niż jeden system. Nie jest to jednak istotne dla naszych rozważań.
Opisy ilustracji
Ryc. 1: Artykulacja dziąsłowego [t] (jak w języku angielskim): czubek języka i jego przednia krawędź zwierają się z dziąsłem, zamykając przepływ powietrza. Nie może ono także wydostać się przez nos, bo podniebienie miękkie jest uniesione i cofnięte, stykając się z tylną ścianą gardła. Więzadła głosowe w krtani są rozsunięte i powietrze może swobodnie przepływać między fałdami głosowymi, nie powodując ich drgania. Autor: Tavin. Źródło: Wikipedia (licencja CC BY_SA 4.0).
Ryc. 2: Trójkąt samogłoskowy. Często przestrzeń samogłosek przedstawiana jest w formie alternatywnej jako trapez o wąskiej podstawie (jej wierzchołki wyznaczają samogłoski najbardziej otwarte, [a] i [ɑ]. Trójkąt w bardziej realistyczny sposób oddaje cechy akustyczne samogłosek (formanty F1 i F2 ich widma częstotliwościowego), trapez łatwiej powiązać z cechami artykulacyjnymi (położenie języka). Autor: Kwamikagami. Źródło: Wikipedia (licencja CC BY-SA 3.0).
Patrz też
Interaktywna tablica znaków IPA z nagraniami wymowy poszczególnych głosek: https://www.ipachart.com/
Częstość występowania poszczególnych głosek w systemach fonologicznych uwzględnionych w bazie PHOIBLE: https://phoible.org/parameters (Moran, Steven & McCloy, Daniel & Wright, Richard (eds.) 2014. PHOIBLE Online. Leipzig: Max Planck Institute for Evolutionary Anthropology. http://phoible.org).