Używanie silników komputerowych i sztucznej inteligencji do przekładu tekstów nie zawsze daje dobre efekty. Czy istnieje sposób, aby obiektywnie ocenić jakość przekładu generowanego przez systemy MT (tłumaczenia maszynowego)? Można do tego wykorzystać dwie metryki – TER i BLEU. Dowiedz się, co i w jakiej formie powiedzą ci one o jakości tłumaczenia maszynowego.
Czym jest TER?
TER (ang. Translation Edit Rate) to jedna z metryk stosowanych do oceny jakości tłumaczeń maszynowych. Sprawdza ona, ile poprawek (edycji) należy dokonać w przetłumaczonym tekście, aby przekład stał się wersją referencyjną – wzorcową.
TER wyrażany jest m.in. w procentach. Określa stopień zmiany segmentu wejściowego (tłumaczenia maszynowego) w stosunku do wynikowego (referencyjnego). Zmiany te to operacje edycyjne obejmujące m.in.:
- wstawienie brakujących słów,
- usunięcie zbędnych wyrazów,
- zamianę niepoprawnych słów na właściwe,
- przesuwanie ciągów słów.
Jeśli algorytm TER wskazuje wartość 25%, oznacza to, że aby doprowadzić tłumaczenie maszynowe do idealnego stanu, trzeba edytować ¼ tekstu przetłumaczonego przez silnik komputerowy.
O czym mówi wskaźnik TER?
Wskaźnik TER dostarcza informacji przydatnych w procesie tłumaczenia i weryfikacji tekstów przetłumaczonych przez MT. Dzięki tej metryce:
- dowiesz się, ile pracy wymaga tekst przetłumaczony maszynowo – im wyższy wskaźnik TER, tym więcej czasu trzeba poświęcić na poprawienie tłumaczenia,
- ocenisz efektywność działania danego silnika MT (oprogramowania, narzędzia, które wykorzystujesz podczas pracy) – przeanalizujesz, w jakim stopniu dany silnik faktycznie ułatwia ci przekład tekstów,
- porównasz różne silniki MT – wskaźnik TER umożliwia obiektywne porównanie różnych narzędzi do tłumaczenia maszynowego i wybór tego, które sprawdza się najlepiej w konkretnych typach tekstów.
Ograniczenia metryki TER
Warto jednak pamiętać, że wskaźnik TER ma swoje ograniczenia, które mogą zafałszować wynik analizy tłumaczenia maszynowego. Nie uwzględnia on na przykład semantyki tekstu – skupia się wyłącznie na mechanicznych zmianach, jakie trzeba wprowadzić w tłumaczeniu. Z tego powodu używanie go ma sens tylko w połączeniu z innymi metrykami – np. z BLEU. Dzięki temu możliwe jest lepsze i trafniejsze ocenienie tłumaczenia maszynowego w odniesieniu do tekstu referencyjnego.
Na czym polega BLEU?
BLEU (ang. Bilingual Evaluation Understudy) to kolejna metryka służąca do oceny jakości tłumaczeń maszynowych. Analizuje ona podobieństwo między tłumaczeniem maszynowym a jednym lub kilkoma tłumaczeniami referencyjnymi (wzorcowymi).
Zadaniem tej metryki jest analiza n-gramów. Są nimi sekwencje sąsiadujących ze sobą słów. BLEU porównuje ich występowanie w tekście przetłumaczonym maszynowo i wzorcowym. Wartość tego wskaźnika jest wyrażana na skali od 0 do 1, gdzie 1 oznacza idealne tłumaczenie identyczne z tekstem referencyjnym.
O czym informuje wskaźnik BLEU?
Wskaźnik BLEU dostarcza cennych informacji o jakości tłumaczenia, a te są potrzebne zwłaszcza tłumaczom zajmującym się postedycją przekładu maszynowego. Metryka ta:
- określa podobieństwo leksykalne – wskazuje, w jakim stopniu tłumaczenie maszynowe używa tych samych słów i fraz co tekst referencyjny. Wysoka wartość BLEU sugeruje, że maszyna trafnie dobrała terminologię,
- ocenia płynność tekstu – dzięki analizie dłuższych n-gramów BLEU pośrednio ocenia, czy tłumaczenie maszynowe zachowuje naturalny, charakterystyczny dla języka docelowego tok wypowiedzi,
- pozwala na porównanie różnych systemów tłumaczeniowych – podobnie jak TER, wskaźnik BLEU umożliwia obiektywne porównanie różnych narzędzi do tłumaczenia maszynowego. Na przykład jeśli silnik komputerowy „A” przekładając tekst medyczny, uzyskuje BLEU na poziomie 0,42, a silnik „B” – 0,37, to oznacza, że przekład „A” jest bardziej zbliżony do wzorca i prawdopodobnie jest lepszej jakości.
Czy metryka BLEU ma ograniczenia?
Metryka BLEU, tak jak TER, ma swoje ograniczenia i nie jest doskonała. Podczas analizy tekstu nie uwzględnia np. synonimów. Jeśli w tłumaczeniu maszynowym pojawi się synonim słowa użytego w tekście referencyjnym, BLEU może go zakwalifikować jako błąd. Z tego powodu wraz z analizą n-gramów równocześnie stosuje się inne metryki – np. TER, a także METEOR. Ten ostatni algorytm w przeciwieństwie do BLEU jest „wrażliwy” na synonimy – rozpoznaje je.
Dlaczego TER i BLEU są ważne w ocenie przekładu?
TER i BLEU to dwie metryki, które pozwalają dobrze ocenić jakość tłumaczenia maszynowego, jeśli są stosowane razem. TER umożliwia ocenę tego, ile pracy będzie musiał włożyć tłumacz w poprawę przekładu tekstu wykonanego przez silnik komputerowy. Z kolei BLEU ocenia podobieństwo tłumaczenia do wzorca. Zestawienie tych dwóch wskaźników pozwala na obiektywniejszą i wielowymiarową ocenę jakości przekładu.
Dla tłumaczy i biur tłumaczeń metryki te mają duże znaczenie – oznaczają dla nich:
- możliwość wybór odpowiednich narzędzi do tłumaczenia – TER i BLEU umożliwiają wybór najlepszego silnika MT do konkretnego typu tekstu,
- monitorowanie jakości przekładów maszynowych – systematyczne śledzenie wartości TER i BLEU pozwala kontrolować jakość tłumaczeń.
Warto jednak pamiętać, że żadna metryka nie jest doskonała. TER i BLEU mają swoje ograniczenia, dlatego by jakość tłumaczenia była jak najbardziej satysfakcjonująca, zawsze potrzebna jest ludzka perspektywa – wrażliwość kulturowa i językowa oraz rozumienie kontekstu.
Czy uwzględnianie wskaźników BLEU i TER jest niezbędne?
Uwzględniania metryk TER i BLEU jest dziś obowiązkowym elementem procesu tłumaczeniowego, podczas którego wykorzystuje się nowoczesne narzędzia dla tłumaczy. Pozwalają one lepiej zrozumieć, jak działa tłumaczenie maszynowe, jakie są jego mocne i słabe strony oraz jak efektywnie wykorzystywać je w codziennej pracy.
Zdecydowałeś się już na narzędzia od LivoLINK – rozwiązania językowe takiej jak LivoCAT, TM i glosariusze, czy CRM, TMS i automatyzacje? W następnym wpisie pokażemy ci, jak nasz system zlicza wartości wskaźników oraz jak dzięki temu możesz usprawnić pracę.