Custom AI

Filtry čištění

Obsah je strojově přeložen z angličtiny s použitím Phrase Language AI.

Phrase Custom AI umožňuje adaptaci překladových pamětí na datové sady pomocí filtrů čištění poháněných umělou inteligencí a založených na pravidlech. K dispozici jsou výchozí nastavení, která mohou být vhodná pro nové uživatele.

Všechny filtry hodnotí na vyčištěných verzích segmentů. Například, více mezer je zmenšeno na jednu a tagy Phrase jsou odstraněny.

Datový rozsah

Datum konce i začátku je zahrnuto s datem poslední změny segmentu.

Neshoda zdroje a cíle

Tento filtr umožňuje uživatelům určit, jak dobře si segmenty odpovídají z hlediska významu a sémantické podobnosti. Odstraní tak nejhorší hodnocení . Zarovnání dvojice vět se měří pomocí metriky LASER.

Nástroj umělé inteligence se používá ke kontrole, zda zdrojový a cílový text znamenají totéž, nebo nakolik totéž. Doporučené nastavení zahodí 10 % nejhorších segmentů při zachování 90 % nejlepších segmentů.

Rozšířené nastavení umožňuje měnit alignment nebo může jít o filtr založený na hrubém skóre podobnosti s číslem mezi 0 a 1 (1 znamená úplný alignment). Doporučujeme opatrnost, pokud použijete hrubé skóre podobnosti, protože každý jazykový pár má jiné rozložení skóre a to, co je považováno za dobré skóre pro jeden jazykový pár, může být neuspokojivé skóre pro jiný.

Minimální počet znaků

Počet znaků zahrnuje všechny znaky. Sem patří všechna písmena, prázdné mezery, interpunkce a symboly.

Počet písmen počítá pouze písmena, jako např. anglická abeceda, ale i složitější znaky s diakritikou nebo čínské znaky. Jeden čínský znak se počítá jako jedno písmeno, i když představuje více než jeden znak.

Délka páru vět

Celkový počet znaků zahrnuje všechny znaky - písmena, ale také prázdné mezery, interpunkci - ze zdrojové i cílové věty. Nezapomeňte vzít v úvahu typ jazyka (např. čínština a angličtina). Pokud zdrojový jazyk neodpovídá CJK a cílový jazyk je CJK (nebo naopak), bude tento filtr ignorován.

Poměr délek

Tento filtr identifikuje segmenty, u kterých je délka při porovnání zdrojového a cílového segmentu výrazně vyšší. Některé překlady se při překladu ze zdrojového do cílového jazyka prodlužují nebo zkracují. Příliš dlouhé nebo krátké překlady mohou ukazovat na tréninková data nízké kvality.

Pokud zdrojový jazyk není abeceda podobná CJK a cílový jazyk je CJK (nebo naopak), bude tento filtr ignorován.

Non-translatables

Vyloučit všechny nepřekládané dvojice vět, kde cílový text zůstává stejný jako zdrojový text.

Duplikáty

Vytváří se skupiny segmentů se stejnou zdrojovou větou. Z každé skupiny je zachován pouze nejlepší segment, takže pokud je zdrojová věta segmentu unikátní, automaticky se zachová. V opačném případě bude segment s nejvyšším skóre podobnosti zachován.

Téměř duplicity

Při testování téměř duplicit se normalizuje (mírně čistší verze) zdrojové věty; všechny znaky bez písmen (některé příklady: „,?)!-) se nahradí mezerou a všechna písmena se vykreslují malými písmeny.

Pomocí normalizované zdrojové věty se vytvoří skupiny segmentů se stejnou normalizovanou zdrojovou větou. Z každé skupiny je ponechán pouze nejlepší segment, takže normalizovaná zdrojová věta segmentu je unikátní a je automaticky zachována. V opačném případě bude segment s nejvyšším skóre podobnosti zachován.

Identifikace jazyka

Nástroj umělé inteligence se používá k identifikaci zdrojového a cílového jazyka na základě vět. Segment je odstraněn pouze v případě, že nástroj rozpozná (zdrojový/cílový) jazyk (například kratší věty často nestačí, aby nástroj rozpoznal jazyk) a jazyk je jiný, než se očekávalo.

Byl pro vás tento článek užitečný?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.