Tłumaczenie maszynowe i postedycja

Zdarzyła mi się śmieszna przygoda związana z tłumaczeniem maszynowym. Tłumaczyłem z polskiego na angielski dokumenty dotyczące rekrutacji cudzoziemców na studia. W związku z tym wszedłem na stronę Wydziału Inżynierii Środowiska i Energetyki mojej uczelni, żeby sprawdzić oficjalne nazwy niektórych kierunków i instytutów. Wydział ma niby stronę po polsku, angielsku i niemiecku, więc wydawałoby się, że jest co i gdzie sprawdzać. Ale już po chwili zwątpiłem. Na anglojęzycznej stronie wydział to raz faculty, raz department, stopień studiów to czasem degree, czasem cycle, kierunek to czasem field, czasem… direction.

„Graduates of this field of study are specialists in: heating and heating”… „Meeting on student science clubs”…Kierunek „inżynieria i gospodarka wodna” to „Engineering and water management”…Jeden wielki nonsens. Coś mnie tak tknęło i podejrzałem kod strony i dopiero zrozumiałem. Wydział w ogóle nie ma wersji strony w języku angielskim ani niemieckim, tylko zainstalowali sobie wtyczkę do WordPressa tłumaczącą stronę maszynowo po jej załadowaniu.

Zastanawia też – patrząc na jakość tłumaczenia – czy skorzystano z którejś z subskrypcji, czy wtyczka działa w darmowej wersji, korzystając z najbardziej prymitywnego z możliwych mechanizmów. To info o cenniku ze strony wtyczki:

https://gtranslate.io/?xyz=998#pricing

W niemieckiej wersji studenci to czasem Studierende, ale czasem… Schüler. „Studia doktoranckie” to „Medizinstudium”. Ale ze wszystkich śmiesznych tłumaczeń maszynowych na tej stronie najbardziej rozbawiło mnie w niemieckim tłumaczeniu „schnellstmöglich” w menu nawigacyjnym. Myślę sobie, rany, co to takiego? Okazało się, że tak Akademicki System Archiwizacji Prac, w skrócie ASAP, czyli w sumie faktycznie „najszybciej, jak to tylko możliwe” 🙂

Wydział postarał się, by w jakimś stopniu strona była dostępna i zrozumiała dla osób posługujących się angielskim i niemieckim, ale dla nas – tłumaczy – to niezła nauczka, by nie wszystko, co znajdzie się w internecie, nawet na oficjalnych stronach instytucji czy firm, traktować od razu jako godne zaufania i trzymać się tego w tłumaczeniu. Wydawałoby się, że strona Wydziału jest wiarygodnym miejscem do sprawdzenia oficjalnej nazwy kierunku studiów w języku obcym, tymczasem ta strona to żadna strona, na której można polegać jako na źródle przyjętej formalnie nomenklatury, tylko tłumaczenie maszynowe przy użyciu wtyczki do WordPressa. Trzeba być czujnym 😉

Królowa Konsorcjum

Po śmierci królowej Elżbiety II i objęciu tronu przez Karola III z licznym mediów dowiedzieć się można, że u boku nowego monarchy stoi „Królowa Konsorcjum”, Kamila. Serio?

Rozumiem jeszcze, że o brytyjskiej rodzinie królewskiej piszą obecnie wszyscy, nie tylko ludzie, którzy się tym tematem zajmowali regularnie i wiedzą, że Elżbieta II podczas swojego wielkiego Jubileuszu wyraziła życzenie, by Kamila, druga żona ówczesnego Księcia Walii Karola, nosiła po jej śmierci tytuł królowej małżonki. Rozumiem też, że wśród dziennikarzy pewnego pokolenia termin „królowa małżonka”, oznaczający żonę panującego króla, może być mniej znany niż „królowa matka”.

Ale że ktoś pisze bezmyślnie „Królowa Konsorcjum” i nie zauważy, że to po prostu bez sensu i brzmi głupio? Jakiego Konsorcjum? Jak zwykle, Tłumacz Google okazuje się być mądrzejszy…

Uliczna Wieża Babel

Tak jak napisałem w poprzednim wpisie, rzeczywistość zaskakuje nas w sposób zupełnie nieprzewidywalny, niewyobrażalny wręcz. Kilkanaście lat temu, gdy chodziłem do pracy w zachodnim skrzydle pustoszejącego internatu wiejskiej szkoły, nie uwierzyłbym, że internat ten będzie dziś tętnić życiem, bo wypełnią go ukraińskie dzieci i ich rodziny, a co dwudziesty mieszkaniec wsi będzie uchodźcą wojennym. Utyskując na otaczający mnie monolit kulturowy, nie uwierzyłbym kilka lat temu jeszcze, że będę miał za sąsiadów rodzinę Hindusów albo że w najbliższym lokalu gastronomicznym będzie można usłyszeć arabski równie często jak polski. Chciałbym jednak napisać o czymś, co zaskoczyło mnie równie mocno, a w konsekwencji czego nauczyłem się nowych rzeczy i byłem w stanie wyciągnąć pewne wnioski.

Jeszcze kilka lat temu nie spodziewałem się, że będę z łatwością odróżniać język rosyjski od ukraińskiego. Obecnie w piśmie odróżniam je na pierwszy rzut oka, a słuchając osób posługujących się tymi językami po nie więcej niż paru zdaniach. Co za tym idzie, od wybuchu wojny i napływu do nas fali uchodźców z Ukrainy nie mogę się oprzeć wrażeniu, że na ulicy, w parku, w komunikacji miejskiej czy pociągu słyszę wokół siebie język rosyjski dużo częściej niż ukraiński.

Bywa że koncentruję się na takiej niczemu niesłużącej statystyce i bywa, że jest ona bezlitosna. Gdy kilka tygodni temu jechałem pociągiem do Częstochowy, po rosyjsku mówili wszyscy cudzoziemcy na dworcu, na peronie i w pociągu. Gdy dotarłem na miejsce, na najbliższy tramwaj nocny trzeba było czekać 40 minut, nie było wolnego Bolta, więc poszedłem spacerem przez miasto pieszo. Po drodze mijałem się z wieloma osobami mówiącymi po rosyjsku, po rosyjsku mówiła młodzież w ogródkach piwnych przed knajpami, dopiero w okolicach Hali Polonia po drugiej stronie torowiska tramwajowego usłyszałem dwóch młodych mężczyzn, pewnie studentów Politechniki Częstochowskiej, kłócących się po ukraińsku.

Wczoraj podczas spaceru nad Zalewem Nowohuckim podsłuchałem dwie grupki młodych kobiet z dziećmi, obie grupy komunikowały się między sobą po rosyjsku. Po południu przysiadłem się na chwilę na ławce obok placu zabaw przy pobliskiej szkole podstawowej, by upewnić się, że trójka bawiących się tam chłopców rozmawia po rosyjsku, nie po ukraińsku.

Rozmawiałem o tym z Dimą i teraz już rozumiem, że po prostu spora część uchodźców z Ukrainy mówi w domu przede wszystkim po rosyjsku. Także wśród tych, dla których język ukraiński jest tym pierwszym, znajomość języka rosyjskiego jest powszechna, choć nie jest na pewno aż tak, jak na Białorusi, gdzie język białoruski jest jakimś zapomnianym dialektem stosowanym przez staruszków z bardzo głębokiej prowincji. Z wiadomych przyczyn część Ukraińców dotąd posługujących się na co dzień językiem rosyjskim stara się teraz od niego odchodzić na rzecz ukraińskiego.

Dima powiedział mi także, co to takiego суржик (surżyk), a ja pokornie przyznaję, że moja znajomość języków wschodniosłowiańskich nie pozwala mi jeszcze na rozpoznanie, czy słyszę język rosyjski, czy surżyk. Bardzo dobrze wyjaśnia tę potoczną mieszankę języków rosyjskiego i ukraińskiego Daga Bożek na swoim blogu, we wpisie z okazji Miesiąca Języków. „Pani od rosyjskiego” pokazuje także w tym wpisie mapę (dostępną także gdzie indziej), która pozwala zrozumieć, dlaczego tak rzadko wśród otaczających nas wszędzie w polskich miejscowościach uchodźców z Ukrainy słyszymy język ukraiński. Sądząc po mapie, nawet jeśli pokazuje ona stan sprzed kilkunastu lat, a także zestawiając ją z obecnym stanem działań wojennych, większość uchodźców dotarła do nas z regionów Ukrainy, w których język ukraiński wcale nie jest tym najbardziej powszechnym.

Co za tym idzie, sypie się całkiem narracja jednego z reportaży, jaki oglądałem ostatnio w telewizji rosyjskiej. Jego twórcy pokazywali, jakim prześladowaniom poddawani są Rosjanie w Europie od wybuchu wojny, nie tylko w pracy, na studiach czy w szkole, gdzie ich narodowość jest znana kolegom, przełożonym czy nauczycielom, ale także na ulicy, za sam fakt mówienia po rosyjsku. Ukraińców przyjmuje się z otwartymi ramionami (to też mit, ale nie jest on przedmiotem tego wpisu), a Rosjanin nie może się nawet odezwać w swoim języku na ulicy, bo może się spotkać z szykanami czy nawet przemocą. Nie wydaje mi się, że przeciętny obywatel Unii Europejskiej czy Wielkiej Brytanii (reportaż przytaczał przykłady z obu) jest w stanie odróżnić rosyjski od ukraińskiego, o surżyku nie wspomnę.

Virtually

W ramach dywersyfikacji źródeł informacji staram się regularnie czerpać z bardzo różnych mediów. Nie tylko polskich, amerykańskich, brytyjskich, francuskich czy niemieckich, oglądam czasem telewizję ukraińską (w Polsce stało się to dość łatwe w ostatnim czasie, bo trafiła do wszystkich kablówek, a nawet do naziemnego multiplexu), rosyjską (to akurat wymaga teraz odrobiny akrobacji i wiedzy), nie stronię też od telewizji arabskiej i chińskiej, chociaż po angielsku.

I właśnie anglojęzyczna telewizja chińska zaskoczyła mnie niedawno obwieszczając, że głowy dwóch państw spotkały się wirtualnie, „the presidents met virtually”. Wzdrygnąłem się słysząc to zdanie, choć okazało się, że nie miałem racji. Tak jak można mieć „a virtual meeting”, tak można się „meet virtually”, spotkać wirtualnie. Fraza ta występuje pospolicie w języku angielskim, niedawno użył jej prezydent Stanów Zjednoczonych w jednym ze swoich tweetów, jest całkowicie poprawna, nawet jeśli wydawała mi się mniej naturalna niż „met online”, „had a video conference”, „had a Skype call”, „spoke via Zoom”, „talked on Skype”, „had a Zoom meeting” itp.

Moment później na pasku chińskiej telewizji pojawiło się jednak coś, co ewidentnie nie powinno się było pojawić. Może nie dlatego, że było niepoprawne, ale było zdecydowanie niejednoznaczne. „The presidents meet virtually every Friday” to komunikat, który nabiera jednoznaczności dopiero wtedy, gdy ktoś przeczyta go na głos z taką czy inną intonacją. W wersji pisanej nie mamy pojęcia, czy prezydenci spotykają się online co piątek, czy spotykają się – osobiście lub za pośrednictwem internetu, nie wiadomo – w prawie każdy piątek.

„Virtually” to po angielsku nie tylko „wirtualnie”. To także „niemal”, „niemalże”, „prawie”, „nie całkiem”, nie do końca”, w pewnych kontekstach „dosłownie”. Ba, słownik Cambridge podaje to drugie znaczenie w pierwszej kolejności, dopiero w drugim znaczeniu wspomina o załatwianiu spraw za pośrednictwem internetu.

Nauczyłem się czegoś z telewizji chińskiej, jednocześnie wygląda na to, że i oni mają się jeszcze czego uczyć. A dywersyfikację źródeł informacji szczerze polecam, zwłaszcza w dzisiejszych czasach. Trzeba próbować wyjść ze swojej bańki, inaczej nie ma szans, by cokolwiek zrozumieć.

Wieża Babel

Ktokolwiek wymieszał ludzkie języki, rzeczywiście skutecznie utrudnił nam komunikację i współpracę w osiąganiu celów. Nawet jeśli dzięki temu mam pracę (inaczej mój zawód pewnie by nie istniał), przeglądając dzienniki informacyjne w kilku różnojęzycznych stacjach telewizyjnych poczułem głęboki żal, że nie mówimy – jako ludzkość – jednym językiem.

W ataku na stację kolejową w Kramatorsku, w którym zginęło około 50 osób próbujących uciec przed wojną, a jeszcze więcej zostało rannych, Rosjanie użyli pocisku, na którym umieścili napis „за детей”. Pokazujące to stacje anglojęzyczne przetłumaczyły ten napis jako „for children” lub „for the children”. Wszystko w zasadzie się zgadza, jeśli tylko dziennikarz danej stacji uzupełnił to tłumaczenie stosowną interpretacją, gorzej jeśli wskutek błędnego zrozumienia napisu wprowadził swoich odbiorców w błąd.

Wyrwana z kontekstu anglojęzyczna fraza „for children” (lub „for the children”) nie jest bowiem jednoznaczna i na język rosyjski może być przetłumaczona jako „за детей”, ale również jako „для детей”. Niektórzy, najwyraźniej nieznający rosyjskiego ani cyrylicy w ogóle dziennikarze, wiedząc jedynie, że napis oznacza „for the children”, pozwolili sobie wczoraj na komentarze o wyjątkowym cyniźmie i bestialstwie rosyjskiej armii, która – ostrzeliwując ukraińskich cywilów – zamieszcza na wysyłanych na nich pociskach i bombach bezduszne dedykacje „dla dzieci”. Ten błędny przekaz powtórzyły wczoraj także niektóre największe polskie stacje informacyjne, tłumacząc z angielskiego i nie zwracając uwagi na rosyjski oryginał lub nie rozumiejąc go.

Nic oczywiście nie usprawiedliwia ataku Rosjan na stację kolejową, na której zgromadzonych było kilka tysięcy osób próbujących się wydostać z terenu działań wojennych. Ale napis na pocisku miał zupełnie inne przesłanie niż to, które do wielu z nas dotarło za pośrednictwem mediów. To nie był pocisk „dla dzieci”, ale pocisk „za dzieci”. Bardzo możliwe, że na zniszczonej części pocisku była dalsza część napisu, być może w pełnej wersji brzmiał „за детей Донбасса”. Czyli że ten zbrodniczy atak miał być zemstą „za dzieci Donbasu”.

https://youtube.com/watch?v=tRHfQGpp5qQ

Nurtuje mnie to, że z tak prostej – wydawałoby się – frazy, w językach słowiańskich w dodatku dość jednoznacznej i chyba niepodatnej na sprzeczne interpretacje, może wyniknąć takie nieporozumienie. Ba, że zniekształcenie znaczenia tej frazy przez osobę tłumaczącą ją na język angielski może się odbić tak szerokim echem, że błędne tłumaczenie powraca następnie do mediów posługujących się innymi językami słowiańskimi, w tym językiem polskim.

Jak tu być optymistą w kwestii dogadania się ludzi między sobą w bardziej złożonych kwestiach, jak tu spodziewać się rychłego sukcesu negocjacji pokojowych, rozejmu i końca wojny, jeśli nawet język, którym się posługujemy, jest wrogiem, którego musimy pokonać po drodze?

Pewnym pocieszeniem jest stale rozwijająca się sztuczna inteligencja. Wiele razy chwaliłem tutaj Google Translate, zwłaszcza porównując tę usługę z Microsoft Bing. Warto odnotować, że w tłumaczeniu frazy „for the children” Google świetnie radzi sobie z kontekstem i rozumie różnicę.

Muszę przyznać, że tym razem i Bing sobie poradził. Jest więc może jakaś nadzieja…

Kto gra w karty

Pokerową twarz pokazał nam wszystkim Wojciech Więcek, student informatyki stosowanej Wydziału Mechanicznego Politechniki Krakowskiej, który przygotował bazę z anglojęzyczną terminologią pokerową i udostępnił ją na różne platformy. Cytując słowa autora, słownictwo to przydatne jest dla „osób, które chcą się wdrożyć w ten wspaniały świat ludzi o niesłusznie wątpliwej moralności i uczciwości, aby zrozumieć ich bełkot”.

Kurs Poker Dictionary for Beginners – Słownik pokerowy jest obecnie dostępny jako:

Don’t let him flat-line

Nauczyłem się nowego słowa, a przy okazji najadłem się wstydu. Wzornictwo przemysłowe, wiedząc, że mam (jakże przemiłe i inspirujące) problemy z tymi skurczybykami z trzeciego semestru informatyki stosowanej, postanowiło mnie niedawno wspomóc i podpowiedziało mi, czym ich zaskoczę.

Niszowe użycie biss w kontekstach komputerowych, wspomniane przez Urban Dictionary, to nic. Z jednej strony to accidentally email an unintended large group of people instead of replying to a single recipient, z drugiej – akronim oznaczający because I said so.

Kolokwialne bibble-babble, czyli po polsku gadka-szmatka, to też nic aż tak imponującego.

Ale gdy mi wzornictwo rzuciło zdaniem Don’t let him flat-line, wyrwanym z kontekstu, nie mogłem jakoś skojarzyć, co mógłby oznaczać taki krótki, złożony z samych prostych wyrazów komunikat. Dopiero gdy mi powiedzieli, że to żargon medyczny podpatrzony w serialu House, M. D. (każdy odcinek tego serialu oglądałem przynajmniej ze trzy razy), coś mi zaczęło świtać w głowie.

Tymczasem na pierwszym i na drugim roku informatyki stosowanej, gdy w ramach ciekawostki rzuciłem w nich tym zdaniem, popatrzyli na mnie zdziwieni i spytali, co w tym takiego szczególnego. Jakub z II roku z niedowierzaniem uznał, że chyba sobie z nich żartuję, pytając o coś tak oczywistego, a następnie, płynną angielszczyzną, używając słów takich jak cardiac monitor, pulse, heart rhythm, life functions i parameters, wyjaśnił etymologię tego całego flat-line, które dla mnie, wyrwane z kontekstu, stanowiło zagadkę.

Studenci niestacjonarni z Wydziału Inżynierii Elektrycznej i Komputerowej (też informatycy) napisali w ankietach o mnie straszliwą opinię, iż – zamiast rozmawiać z nimi na zajęciach o informatyce – rozmawiam z nimi o życiu. No tak, teraz już wszystko wiadomo. Rozmawiam o czymś tak przyziemnym, jak o życiu, bo czym więcej miałbym coś do powiedzenia wobec takich geniuszy? Ja po prostu za głupi jestem.

Przyszłość kolei

Kolej darzę wielką sympatią i mam wiele wspomnień związanych z koleją, które sprawiają, że jest mi naprawdę ciepło i miło nawet w chłodne jesienne dni. A jednak dołożyłem ostatnio stacji Częstochowa Stradom (chociaż doceniam to, jak bardzo się zmieniła od czasów mojej młodości i fakt, że właściwie przejęła rolę dworca głównego w Częstochowie od położonej w centrum miasta między Aleją Wolności a ul. Piłsudskiego stacji Częstochowa Osobowa).

Natomiast sporo zostało polskiej kolei do nadrobienia, jeśli chodzi o znajomość języka angielskiego i w ogóle języków obcych.

Gdy zobaczyłem te podpisy pod guzikami i po kilkunastu minutach rozkminy zrozumiałem, o co przypuszczalnie chodzi, zacząłem się rozglądać wokół z nadzieją, że to taki odosobniony przypadek językowego nieudacznictwa:

IMG_20180929_133814

Niestety, nie trzeba było się wiele rozglądać, by zrozumieć, że to nie była odosobniona wpadka, nawet jeśli tym razem komuś „poślizgnął” się tylko czasem palec.

IMG_20180929_134315

Potem z mieszanymi uczuciami oglądam instrukcję obsługi hamulca ręcznego.

IMG_20180929_134325

Następnie patrzę na kolejną naklejkę z kolejnym komunikatem i z ulgą uspokajam się na moment. Na moment, bo w końcu dochodzę do tego fragmentu po niemiecku, w którym ktoś uznał, że „Teile” to dokładnie to samo, co „Telle”.

IMG_20180929_134334

A potem tak sobie myślę, no cholera, po co w ogóle pisać w obcych językach, jeśli się w obce języki nie potrafi? Przecież to Polskie Koleje Państwowe. Piszcie po polsku, jak ktoś polskiego nie zna, to niech się nauczy.  Prędzej się nauczy polskiego, niż jakiegoś wymyślonego języka przypominającego angielski, rosyjski, francuski czy niemiecki. A w każdym razie pożytek będzie większy.

Oświęcim tylko po niemiecku

Wielokrotnie (na przykład tutaj albo tutaj) dawałem wyraz swojemu zdziwieniu, że projekt sztucznej inteligencji translatorskiej w postaci tłumacza Bing, mimo iż wspierany przez tak wielką firmę i mający bodziec do rozwoju w postaci poważnej konkurencji, jest tak nieudolny.
Ale gdy zobaczyłem, że Bing chce mi tłumaczyć z niemieckiego poniższego tweeta, popadłem w głęboką zadumę.


No bo jaki jest sens polegać na mechanizmie tłumaczeniowym, który nie potrafi nawet rozpoznać, z jakiego języka tłumaczy? To była pierwsza myśl, jaka mi przyszła do głowy.
Potem zaintrygowało mnie, że to być może sukces polskiej dyplomacji w walce z używaniem sformułowania „polskie obozy koncentracyjne” i że – niejako na wszelki wypadek – Microsoft postanowił uznawać, że jak napisano Auschwitz, to absolutnie nie inaczej, tylko po niemiecku?
Bez względu na przyczynę tej wpadki, nasuwający się wniosek jest jednoznaczny i dyskwalifikuje on Bing jako narzędzie do tłumaczenia automatycznego. A skutki tłumaczenia angielskiego tweeta z niemieckiego na polski zdają się tylko potwierdzać ten smutny wniosek.

Bug tłumaczeniowy

Jak zauważono na jednym z moich ulubionych blogów językowych, translator Bing zaliczył kolejną zabawną wpadkę (celowo dodałem przymiotnik „zabawną”, bo kolejną wpadkę Bing zalicza właściwie za każdym razem, gdy próbuje coś przetłumaczyć).

Wygląda na to, że zdaniem Binga Macron zastąpi Trumpa na fotelu prezydenta USA.
Language Log sprawdził, że z tym samym tłumaczeniem translator Google radzi sobie dobrze.
To nie jest mój pierwszy wpis o wyższości translatora Google nad mechanizmem Microsoftu.