TER i BLEU – co te metryki mówią nam o jakości tłumaczeń?

Czym jest TER?
O czym mówi wskaźnik TER?
Na czym polega BLEU?
O czym informuje wskaźnik BLEU?
Czy metryka BLEU ma ograniczenia?
Dlaczego TER i BLEU są ważne w ocenie przekładu?

Używanie silników komputerowych i sztucznej inteligencji do przekładu tekstów nie zawsze daje dobre efekty. Czy istnieje sposób, aby obiektywnie ocenić jakość przekładu generowanego przez systemy MT (tłumaczenia maszynowego)? Można do tego wykorzystać dwie metryki – TER i BLEU. Dowiedz się, co i w jakiej formie powiedzą ci one o jakości tłumaczenia maszynowego.

Czym jest TER?

TER (ang. Translation Edit Rate) to jedna z metryk stosowanych do oceny jakości tłumaczeń maszynowych. Sprawdza ona, ile poprawek (edycji) należy dokonać w przetłumaczonym tekście, aby przekład stał się wersją referencyjną – wzorcową.

Kompletne oprogramowanie tłumaczeniowe LivoLINK

TER wyrażany jest m.in. w procentach. Określa stopień zmiany segmentu wejściowego (tłumaczenia maszynowego) w stosunku do wynikowego (referencyjnego). Zmiany te to operacje edycyjne obejmujące m.in.:

wstawienie brakujących słów,
usunięcie zbędnych wyrazów,
zamianę niepoprawnych słów na właściwe,
przesuwanie ciągów słów.

Jeśli algorytm TER wskazuje wartość 25%, oznacza to, że aby doprowadzić tłumaczenie maszynowe do idealnego stanu, trzeba edytować ¼ tekstu przetłumaczonego przez silnik komputerowy.

O czym mówi wskaźnik TER?

Wskaźnik TER dostarcza informacji przydatnych w procesie tłumaczenia i weryfikacji tekstów przetłumaczonych przez MT. Dzięki tej metryce:

dowiesz się, ile pracy wymaga tekst przetłumaczony maszynowo – im wyższy wskaźnik TER, tym więcej czasu trzeba poświęcić na poprawienie tłumaczenia,
ocenisz efektywność działania danego silnika MT (oprogramowania, narzędzia, które wykorzystujesz podczas pracy) – przeanalizujesz, w jakim stopniu dany silnik faktycznie ułatwia ci przekład tekstów,
porównasz różne silniki MT – wskaźnik TER umożliwia obiektywne porównanie różnych narzędzi do tłumaczenia maszynowego i wybór tego, które sprawdza się najlepiej w konkretnych typach tekstów.

Ograniczenia metryki TER

Warto jednak pamiętać, że wskaźnik TER ma swoje ograniczenia, które mogą zafałszować wynik analizy tłumaczenia maszynowego. Nie uwzględnia on na przykład semantyki tekstu – skupia się wyłącznie na mechanicznych zmianach, jakie trzeba wprowadzić w tłumaczeniu. Z tego powodu używanie go ma sens tylko w połączeniu z innymi metrykami – np. z BLEU. Dzięki temu możliwe jest lepsze i trafniejsze ocenienie tłumaczenia maszynowego w odniesieniu do tekstu referencyjnego.

Na czym polega BLEU?

BLEU (ang. Bilingual Evaluation Understudy) to kolejna metryka służąca do oceny jakości tłumaczeń maszynowych. Analizuje ona podobieństwo między tłumaczeniem maszynowym a jednym lub kilkoma tłumaczeniami referencyjnymi (wzorcowymi).

Zadaniem tej metryki jest analiza n-gramów. Są nimi sekwencje sąsiadujących ze sobą słów. BLEU porównuje ich występowanie w tekście przetłumaczonym maszynowo i wzorcowym. Wartość tego wskaźnika jest wyrażana na skali od 0 do 1, gdzie 1 oznacza idealne tłumaczenie identyczne z tekstem referencyjnym.

O czym informuje wskaźnik BLEU?

Wskaźnik BLEU dostarcza cennych informacji o jakości tłumaczenia, a te są potrzebne zwłaszcza tłumaczom zajmującym się postedycją przekładu maszynowego. Metryka ta:

określa podobieństwo leksykalne – wskazuje, w jakim stopniu tłumaczenie maszynowe używa tych samych słów i fraz co tekst referencyjny. Wysoka wartość BLEU sugeruje, że maszyna trafnie dobrała terminologię,
ocenia płynność tekstu – dzięki analizie dłuższych n-gramów BLEU pośrednio ocenia, czy tłumaczenie maszynowe zachowuje naturalny, charakterystyczny dla języka docelowego tok wypowiedzi,
pozwala na porównanie różnych systemów tłumaczeniowych – podobnie jak TER, wskaźnik BLEU umożliwia obiektywne porównanie różnych narzędzi do tłumaczenia maszynowego. Na przykład jeśli silnik komputerowy „A” przekładając tekst medyczny, uzyskuje BLEU na poziomie 0,42, a silnik „B” – 0,37, to oznacza, że przekład „A” jest bardziej zbliżony do wzorca i prawdopodobnie jest lepszej jakości.

Czy metryka BLEU ma ograniczenia?

Metryka BLEU, tak jak TER, ma swoje ograniczenia i nie jest doskonała. Podczas analizy tekstu nie uwzględnia np. synonimów. Jeśli w tłumaczeniu maszynowym pojawi się synonim słowa użytego w tekście referencyjnym, BLEU może go zakwalifikować jako błąd. Z tego powodu wraz z analizą n-gramów równocześnie stosuje się inne metryki – np. TER, a także METEOR. Ten ostatni algorytm w przeciwieństwie do BLEU jest „wrażliwy” na synonimy – rozpoznaje je.

Dlaczego TER i BLEU są ważne w ocenie przekładu?

TER i BLEU to dwie metryki, które pozwalają dobrze ocenić jakość tłumaczenia maszynowego, jeśli są stosowane razem. TER umożliwia ocenę tego, ile pracy będzie musiał włożyć tłumacz w poprawę przekładu tekstu wykonanego przez silnik komputerowy. Z kolei BLEU ocenia podobieństwo tłumaczenia do wzorca. Zestawienie tych dwóch wskaźników pozwala na obiektywniejszą i wielowymiarową ocenę jakości przekładu.

Dla tłumaczy i biur tłumaczeń metryki te mają duże znaczenie – oznaczają dla nich:

możliwość wybór odpowiednich narzędzi do tłumaczenia – TER i BLEU umożliwiają wybór najlepszego silnika MT do konkretnego typu tekstu,
monitorowanie jakości przekładów maszynowych – systematyczne śledzenie wartości TER i BLEU pozwala kontrolować jakość tłumaczeń.

Warto jednak pamiętać, że żadna metryka nie jest doskonała. TER i BLEU mają swoje ograniczenia, dlatego by jakość tłumaczenia była jak najbardziej satysfakcjonująca, zawsze potrzebna jest ludzka perspektywa – wrażliwość kulturowa i językowa oraz rozumienie kontekstu.

Czy uwzględnianie wskaźników BLEU i TER jest niezbędne?

Uwzględniania metryk TER i BLEU jest dziś obowiązkowym elementem procesu tłumaczeniowego, podczas którego wykorzystuje się nowoczesne narzędzia dla tłumaczy. Pozwalają one lepiej zrozumieć, jak działa tłumaczenie maszynowe, jakie są jego mocne i słabe strony oraz jak efektywnie wykorzystywać je w codziennej pracy.

Zdecydowałeś się już na narzędzia od LivoLINK – rozwiązania językowe takiej jak LivoCAT, TM i glosariusze, czy CRM, TMS i automatyzacje? W następnym wpisie pokażemy ci, jak nasz system zlicza wartości wskaźników oraz jak dzięki temu możesz usprawnić pracę.

TER i BLEU – co te metryki mówią nam o jakości tłumaczeń?

Czym jest TER?

O czym mówi wskaźnik TER?

Ograniczenia metryki TER

Na czym polega BLEU?

O czym informuje wskaźnik BLEU?

Czy metryka BLEU ma ograniczenia?

Dlaczego TER i BLEU są ważne w ocenie przekładu?

Czy uwzględnianie wskaźników BLEU i TER jest niezbędne?

POWIĄZANE WPISY:

Wykorzystanie algorytmów MTQE w tłumaczeniach

Odległość edycyjna w tłumaczeniach – czym właściwie jest?

Technologie stosowane w systemach tłumaczenia maszynowego – jak działa nowoczesne MT?