Podczas tłumaczenia tekstu każdy znak ma znaczenie – decyduje o rozumieniu i sensie danego słowa. Dlatego dziś do przekładania treści wykorzystuje się nowoczesne narzędzia, które bazują na odległości edycyjnej, która pomaga zautomatyzować procesy tłumaczeniowe. Czym ona dokładnie jest i dlaczego ma duże znaczenie dla tłumaczy? Wyjaśniamy.
Odległość edycyjna w tłumaczeniach – co to takiego?
Odległość edycyjna to matematyczna miara określająca, ile operacji należy wykonać, aby przekształcić jeden ciąg znaków w drugi. W ten sposób można przeanalizować, jak bardzo dwa słowa różnią się od siebie. Każda operacja, taka jak dodanie znaku, usunięcie go lub zastąpienie jednego innym, jest liczona jako jeden krok.
Najprostszym rodzajem odległości edycyjnej jest odległość Hamminga. Jej twórcą był Richard Hamming – amerykański matematyk. Za jej pomocą można charakteryzować i różnicować wyłącznie ciągi znaków o tej samej długość – np. kot i kat, lama i rama oraz mama i tama. We wszystkich tych przypadkach by z jednego słowa powstało inne, należy zmienić tylko jedną literę. Ich wartość edycyjna według systemu Hamminga wynosi zatem 1.
W nowoczesnej translatoryce wykorzystuje się bardziej rozbudowane miary odmienności ciągów znaków. Jest nią np. odległość Levenshteina.
Czym jest odległość Levenshteina?
Odległość Levestheina to koncepcja opracowana w 1965 roku przez Władimira Iosifowicza Levenshteina. Był on rosyjskim matematykiem i naukowcem, który zasłużył się dla lingwistyki komputerowej.
Miara stworzona przez Levestheina to powszechnie stosowany wariant odległości edycyjnej. Określa ona minimalną liczbę operacji edycyjnych potrzebnych do przekształcenia jednego ciągu znaków w drugi. Algorytm Levenshteina uwzględnia trzy podstawowe operacje:
- wstawienie – dodanie znaku do ciągu (np. zmiana „kot” na „koty” wymaga wstawienia jednego znaku – odległość edycyjna wynosi 1),
- usunięcie – usunięcie znaku z ciągu (np. zmiana „domy” na „dom” wymaga usunięcia jednego znaku – odległość edycyjna także wynosi 1),
- zamianę – zastąpienie jednego znaku innym (np. zmiana „bok” na „lok” wymaga zamiany jednego znaku – odległość edycyjna również wynosi 1).
Natomiast w przypadku słów „Romek” i „Atomek”, odległość edycyjna wynosi 2 – by z pierwszego wyrazu powstał ten drugi, należało wykonać dwie operacje – zamienić literę „R” na „T” oraz dodać znak „A”.
Algorytm Levenshteina przypisuje każdemu z tych działań taką samą wagę – jakakolwiek zmiana, usunięcie czy dodanie znaku liczy się jako jeden krok. Wykorzystuje się to zarówno w analizie DNA czy podczas przetwarzania informacji, jak i w translatoryce czy korekcie tekstów.
Swoistą odmianą miary zaproponowanej przez Levenshteina jest odległość Damerau-Levenshteina. Zakłada ona wstawianie, usuwanie i zmianę jednego znaku na inny oraz dodatkowo przestawienie (zamianę miejscami) dwóch sąsiadujących ze sobą znaków.
Zastosowanie odległości edycyjnej w tłumaczeniach
Odległość edycyjna, choć wywodzi się z matematyki i informatyki, znalazła praktyczne zastosowanie w dziedzinie lingwistyki i tłumaczeń tekstów. Bazują na niej narzędzia składające się obecnie na warsztat tłumacza.
Odległość edycyjna Levenstheina w narzędziach CAT
Działanie nowoczesnych narzędzi CAT nie ogranicza się wyłącznie do wyszukiwania dopasowań ciągów znaków na podstawie odległości edycyjnej. Wykorzystują one zaawansowane algorytmy uwzględniające np. kontekst tekstu i specyfikę tematyki czy dziedziny, której on dotyczy.
Jednak fundamentem narzędzi CAT nadal jest koncepcja odległości edycyjnej. Dla tłumacza oznacza to otrzymywanie trafnych sugestii i dopasowań, co pomaga mu efektywniej i szybciej wykonywać tłumaczenia tekstów.
Odległość edycyjna w tłumaczeniach – jakie ma znaczenie dla TM?
Narzędzia wykorzystujące odległość edycyjną pozwalają na weryfikację zawartości istniejących baz TM – pamięci tłumaczeniowych. Dzięki temu zapewniają one trafniejsze dopasowania słów i terminów pod kątem specyfiki tekstu. W ten sposób ryzyko, że przetłumaczona treść będzie niespójna terminologicznie, jest mniejsze. Tłumaczenie z wykorzystaniem TM będącej podstawą działania systemów CAT (w tym LivoCAT) pozwala tłumaczowi skrócić czas pracy potrzebny do przełożenia tekstu.
Odległość edycyjna a jakość tłumaczenie MT
MT to tłumaczenie maszynowe. Zakłada ono wykorzystanie do przekładania tekstów oprogramowania i silników komputerowych. Mimo że tłumaczenia MT są szybkie (komputer błyskawicznie przekłada nawet bardzo długą treść), to ich jakość może pozostawiać wiele do życzenia. W tym kontekście korzystanie z informacji, których dostarczają metryki edycyjne, ma duże znaczenie. To cenna wiedza dla tłumacza pracującego nad tekstem przetłumaczonym przez silnik komputerowy.
Jakie znaczenie ma odległość edycyjna dla tłumaczy?
Omówione wyżej i stworzone dekady temu metryki do dziś ułatwiają tłumaczom pracę nad przekładem rozmaitych treści. Sednem ich zastosowania jest porównanie dwóch tekstów.
Jeden z nich jest tekstem referencyjnym (wzorcowym – zrobionym „tradycyjnie”, przez tłumacza), a drugi tłumaczeniem maszynowym (wykonanym przez algorytm czy silniki neuronowe). Scharakteryzowanie obu treści pod kątem odległości edycyjnej pozwala oszacować, ile wysiłku i czasu będzie wymagać doszlifowanie zleconego przekładu – by był on dokładny.
Metryki edycyjne dają obraz nakładu pracy tłumacza poprzez obliczenie liczby edycji (operacji) potrzebnych do przekształcenia jednego ciągu znaków w inny [1]. Są to:
- zamiany znaków,
- usunięcia znaków,
- dopisanie znaków,
- przestawienie znaków.
Takie porównanie dwóch tekstów wspiera proces tłumaczeniowy na etapie post edycji wykonanych przekładów. Wykorzystanie odległości edycyjnej do oceny jakości tłumaczeń maszynowych MT wpływa na produktywność tłumaczy[2], czy tłumacz-korektorów. Jej określenie pozwala wybrać odpowiedni silnik do tłumaczenia tekstów konkretnego rodzaju oraz lepiej zarządzać pracą nad projektami (wiedząc, ile czasu będzie trzeba poświęcić na ich realizację).
Odległość edycyjna w tłumaczeniach – podsumowanie
Mimo tego, że tłumaczenia maszynowe (MT) są coraz dokładniejsze i „naturalniejsze”, ciągle konieczna pozostaje ich korekta, poprawki i ocena ich jakości. Musi zajmować się tym człowiek, który ma dziś do tego odpowiednie narzędzia.
Do oceny jakości tłumaczeń MT służą odległości edycyjne opracowane przez lingwistów. Metryki Levenshteina, Hamminga czy Damerau-Levenshteina pozwalają ocenić, ile operacji należy wykonać, aby jedno słowo (np. gorzej przetłumaczone) stało się innym (np. lepiej, poprawnie przetłumaczonym).
Odległość edycyjną podaje się w liczbach. Dlatego jest to jasna, w pełni obiektywna i szybko dostępna informacja dla tłumacza i tłumacza-korektora. Im odległość edycyjna jest wyższa, tym przekład jest niższej jakości, a translatora czeka więcej pracy. W ten sposób biuro tłumaczeń czy sam tłumacz może lepiej planować realizację zleceń, a także wybierać odpowiednie rozwiązania tłumaczeniowe. Są nimi m.in. silniki do przekładu maszynowego. Translatorzy mogą korzystać z tych z nich, których zastosowanie daje najlepsze efekty podczas tłumaczenia konkretnych tekstów.
Dlaczego odległość edycyjna ma znaczenie dla tłumaczy?
Odległość edycyjna ma duże znaczenie dla tłumacza, który chce usprawnić swoją pracę. Miarę odmienności ciągów znaków wykorzystuje się w nowoczesnych narzędziach pomagających tłumaczyć teksty. Odległość edycyjna pozwala na automatyzację, a co za tym idzie na przyspieszenie procesów tłumaczeniowych. Bazują na niej również narzędzia, które pozwalają tłumaczom i kierownikom zespołów tłumaczy dowiedzieć się, jak wiele pracy i wysiłku będzie kosztować przekład tekstu i realizacja dużego projektu.
Rozwój technologii opartych na odległości edycyjnej nie powoduje jednak, że specjaliści są zastępowani przez maszyny. Algorytmy wykonują żmudne obliczenia i wyszukiwania, natomiast człowiek wnosi do tekstów swoją kreatywność, wrażliwość kulturową i głębokie zrozumienie kontekstu. Dlatego tłumacz przyszłości to specjalista, który nie tylko zna języki, lecz także potrafi efektywnie wykorzystywać zaawansowane rozwiązania językowe wykorzystujące do działania m.in. odległość edycyjną Levenstheina.
Jak odległość edycyjna wspiera nowoczesne tłumaczenia?
Odległość edycyjna, choć wywodzi się z koncepcji matematycznych, stała się bazą nowoczesnych systemów tłumaczeniowych. Jest to miara podobieństwa między ciągami znaków stanowiąca podstawę funkcji narzędzia CAT. Oprogramowania bazujące na odległości edycyjnej są wsparciem dla korektorów i pomaga ocenić jakość tekstu przetłumaczonego i wygenerowanego przez MT. Miara odmienności ciągów znaków pozwala tłumaczom skupić się na tym, co dla nich najważniejsze (tak samo jak inne oprogramowania wspierające pracę biura tłumaczeń – systemy CRM i TMS), czyli na dostarczeniu wysokiej jakości przekładów.