Правила сегментации (TMS)

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Сегментация

Сегментация — это разделение текстов оригинала на меньшие части. Это улучшает поиск ранее переведенного текста в памяти переводов. Сегменты отображаются в редакторе и могут быть фильтрованы. Если в проекте есть этапы рабочего процесса, изменения в сегментах отображаются на панели изменений перевода.

Правила сегментации по умолчанию соответствуют специфике каждого поддерживаемого языка и могут быть настроены.

Задания, импортированные с ошибками сегментации, такими как плохо форматированные файлы документов или неправильная настройка сегментации, могут повлиять на значения совпадений в памяти переводов (TM). Рекомендуется уделить время проверке и подготовке оригинала файла перед импортом; распространенной проблемой является неправильное использование разрывов строк вместо разрывов абзацев.

Пример:

Хорошая сегментация:

Поддерживаются базы памяти переводов с многоязычными языками перевода и могут использоваться двунаправленно.

Значение совпадения 100%.

Плохая сегментация:

Поддерживаются базы памяти переводов с многоязычными языками перевода.

Значение совпадения 100%.
и могут использоваться двунаправленно.

Значение совпадения 63%.

Настроить правила сегментации

Пользовательские правила сегментации могут применяться к заданиям и шаблонам проекта. Если для проекта требуется Пользовательское правило сегментации, для этого проекта необходимо создать шаблон. При установке в качестве основных Пользовательские правила сегментации применяются ко всем новым заданиям, импортированным для этого оригинала языка.

Существует два типа правил сегментации:

Сокращения в файле .XLSX
Регулярное выражение файлов .SRX

Чтобы использовать Пользовательские правила, скачайте правила по умолчанию, измените их, загрузите измененный файл, а затем примените их к указанным заданиям.

Осторожно

При добавлении Пользовательских правил сегментации для оригинала на языке CJK без пробелов (в то время как в переводе будут использоваться пробелы в качестве разделителя слов), убедитесь, что начальные или конечные пробелы добавлены в сегменты перевода, разделенные Пользовательским правилом; это разграничивает слова в переводе. Хотя это происходит автоматически в сегментах, сформированных правилами сегментации по умолчанию, пробелы не добавляются в разделенных вручную сегментах или сегментах, образованных дополнительными Пользовательскими правилами сегментации.

Скачать правила сегментации по умолчанию

Чтобы выполнить скачивание правил сегментации по умолчанию, выполните следующие действия:

На странице «Настройки» прокрутите вниз раздел «Настройки проекта» и нажмите «Сегментация».

Откроется страница «Сегментация».
Выберите язык, который нужно настроить, и нажмите «Экспорт XLSX/SRX».

Откроется окно «Экспорт XLSX/SRX».
Выберите формат:
- XLSX предоставляет список сокращений.
- SRX предоставляет правила для регулярное выражение.
Выбрать язык из выпадающего список.
Нажмите Скачать.

Файл выполняется скачивание в вашу систему.

Чтобы выполнить скачивание ранее загруженного правила сегментация, которое вы загрузили ранее, выполните следующие действия:

На странице «Настройки» прокрутите вниз раздел «Настройки проекта» и нажмите «Сегментация».

Откроется страница «Сегментация».
Нажмите на значок настройки справа и выберите Настроить столбцы:
Включить столбец Имя файла
Нажмите на имя файла, чтобы выполнить скачивание предварительно сохраненного правила.

Редактировать сокращения в файле .XLSX

Сокращения можно указать для отдельных языков, после чего новые сегменты не должны создаваться.

Чтобы редактировать сокращения, выполните следующие действия:

Откройте скачанный файл .XLSX в редактор.
Изменить содержимое со следующим форматированием:

Файл XLSX должен иметь два столбца без заголовков.
- Столбец 1: Указываемое сокращение
- Столбец 2: Определение поведения сегментация
  - ABBR_UPPER_NUM
    
    Новый сегмент не будет создан, если после сокращения следует каталог, а затем число, символ (математические знаки, знаки валют, символы и т. д.) или слово, начинающееся с заглавной буквы.
  - ABBR_NUM
    
    Новый сегмент не будет создан, если после сокращения следует каталог, а затем число.
Сохранить отредактированный файл .XLSX.

Редактировать регулярные выражения в файле .SRX

Редактировать файлы .SRX — это сложный процесс, подходящий только для пользователей, имеющих опыт использования регулярных выражений

Существует несколько правил, которые можно изменить в файле SRX:

Импортировать текст из файла XLSX без сегментация; одна ячейка равна один сегмент.
Импортировать текст с новой строкой, чтобы разделить один сегмент на два.
Использовать двоеточие (или любой другой символ) в качестве разделителя сегмент.
Запретить использование точки с запятой (или любой другой символ) в качестве разделителя сегмент.
Удалить аббревиатуру из список (текст будет сегментирован).

Эти правила основаны на символ; только один символ можно использовать в качестве разделителя сегмент. Группы символов (например: <p>) нельзя использовать в качестве разделителя сегмент.

Чтобы редактировать файл SRX, выполните следующие действия:

Откройте файл в текстовом редактор, например Notepad ++.
Редактировать с помощью регулярных выражений или полностью удалить внутреннюю сегментация.

Например:
- <rule break="no">
  
  Список правил, где сегмент не будет разделен. Т.е. список аббревиатур
- <rule> <beforebreak>
  
  Регулярное выражение для символ перед разрывом (например, в конце предложения \". ? ! :\"). Если вы, например, не хотите сегмент текст после двоеточия, просто Удалить : из каждого кода <rule><beforebreak>.
- <rule> <afterbreak>
  
  Регулярное выражение для символа после разрыва (например, в начале нового предложения; каталог и заглавная буква).
Сохранить измененный файл SRX.

Загрузить новые сегментация правила

Чтобы загрузить измененные или новые сегментация правила, выполните следующие действия:

На странице «Настройки» прокрутите вниз раздел «Настройки проекта» и нажмите «Сегментация».

Откроется страница «Сегментация».
Нажмите «Создать».

Откроется страница Загрузить Пользовательский XLSX или SRX сегментация файл.
Выберите Язык из раскрывающегося список.
Укажите Имя для правила.
Нажмите Выбрать файл.

Откроется окно выбора файла.
Выберите измененный файл правил для загрузки.
Установите флажок Основной, если Пользовательский сегментация правила будут основными сегментация правилами для выбранного язык.
Нажмите «Создать».

Откроется страница Сегментация, и правило будет добавлено в список.

Использовать Пользовательский сегментация правила при импорт задание

Чтобы использовать Пользовательский правила при импорт задание или настроить перевод сегмент длина, выполните следующие действия:

На этапе 8 создания задание нажмите Сегментация и сегмент длина в разделе Настройки импорт файла.

Откроется раскрывающийся список параметров Сегментация и сегмент длина.
Выберите измененные правила из раскрывающегося список Оригинал сегментация правила.
При необходимости настройте ограничение для перевод сегмент длина в соответствии с требованиями проект (например, перевод субтитров):
- Выберите Макс. перевод сегмент длина в % от оригинал и введите предпочтительный процент, чтобы ограничить сегмент длина на основе оригинал сегмент.
- Выберите Макс. длина перевода сегмента в символах и введите количество символов, чтобы ограничить длину сегмента по количеству символов.
Нажмите «Создать».

Задание создано и добавлено в список с использованием указанных правил сегментация.

Пример изменения сегментация (1 ячейка, 1 сегмент)

Удалите все inner правила сегментация из SRX-файла, оставив только базовую сегментация всего абзаца, элемента или применяемой ячейки. Это правило сегментация можно применить к любому типу файлов (MS Word, XML, HTML, Excel и т. д.).

Например:

	A	B
1	Peter! Wait!
2	Hello.
3

Этот пример XLSX, импортированный с сегментация по умолчанию, будет иметь 3 сегмента: Peter!, Wait! и Hello.

Если вся внутренняя сегментация удалена и оставлена только базовая сегментация на основе ячейки, то остается только два сегмента: Peter! Wait! и Hello.

Отредактируйте SRX-файл, чтобы удалить все правила сегментация по умолчанию, т. е. код между  и </languagerule>.