Управление проектом

Segmentation Rules (TMS)

Контент автоматически переведен с английского языка с помощью Phrase Language AI.

Сегментация

Сегментация — это разделение текстов оригинала на меньшие части. Это улучшает поиск ранее переведенного текста в памяти переводов. Сегменты отображаются в редакторе и могут быть фильтрованы. Если проект имеет этапы рабочего процесса, изменения в сегментах отображаются в панели изменений перевода.

Правила сегментации по умолчанию соответствуют специфике каждого поддерживаемого языка и могут быть настроены.

Задания, импортированные с ошибками сегментации, такими как плохо форматированные файлы документов или неправильная настройка сегментации, могут повлиять на значения совпадений в памяти переводов (TM). Рекомендуется потратить некоторое время на обзор и подготовку исходного файла перед импортом; распространенной проблемой является неправильное использование разрывов строк и разрывов абзацев.

Пример:

Хорошая сегментация:

  • Поддерживаются базы памяти переводов с многоязычными языками перевода и могут использоваться двунаправленно.

    Значение совпадения 100%.

Плохая сегментация:

  • Поддерживаются базы памяти переводов с многоязычными языками перевода.

    Значение совпадения 100%.

  • и могут использоваться двунаправленно.

    Значение совпадения 63%.

Настроить правила сегментации

Настроенные правила сегментации могут быть применены к заказам и шаблонам проектов. Если проект требует настроенного правила сегментации, необходимо создать шаблон для этого проекта. Когда настроенные правила установлены как основные, они применяются ко всем новым заказам, импортированным для этого языка источника.

Существует два типа правил сегментации:

  • Сокращения для файла .XLSX

  • Регулярное выражение файлов .SRX

Чтобы использовать настроенные правила, скачайте правила по умолчанию, измените их, загрузите измененный файл и затем примените их к указанным заказам.

Осторожно

При добавлении пользовательских правил сегментации для языка источника CJK без пробелов (в то время как целевой язык будет использовать пробелы в качестве разделителя слов), убедитесь, что ведущие или завершающие пробелы добавлены к целевым сегментам, разделенным пользовательским правилом; это разделяет слова в переводе. Хотя это происходит автоматически в сегментах, образованных правилами сегментации по умолчанию, пробелы не добавляются в разделенных вручную сегментах или сегментах, образованных дополнительными пользовательскими правилами сегментации.

Скачать правила сегментации по умолчанию

Чтобы скачать правила сегментации по умолчанию, выполните следующие шаги:

  1. На странице «Настройки» Setup_gear.png прокрутите вниз до раздела «Настройки проекта» и нажмите «Сегментация».

    Открывается страница Сегментация.

  2. Выберите язык для настройки и нажмите Экспорт XLSX/SRX.

    Открывается окно Экспорт XLSX/SRX.

  3. Выберите формат:

    • XLSX предоставляет список сокращений.

    • SRX предоставляет правила регулярных выражений.

  4. Выберите язык из выпадающего списка.

  5. Нажмите Скачать.

    Файл загружается на вашу систему.

Чтобы скачать ранее загруженное правило сегментации, выполните следующие шаги:

  1. На странице «Настройки» Setup_gear.png прокрутите вниз до раздела «Настройки проекта» и нажмите «Сегментация».

    Открывается страница Сегментация.

  2. Нажмите на значок Настройки справа и выберите Настроить столбцы: customize-segmentation-columns.png

  3. Включите столбец Имя файла

  4. Нажмите на имя файла, чтобы скачать заранее сохраненное правило.

Редактировать сокращения в файле .XLSX

Сокращения могут быть указаны для отдельных языков, после чего новые сегменты не должны создаваться.

Чтобы редактировать сокращения, выполните следующие шаги:

  1. Откройте загруженный файл .XLSX в редакторе.

  2. Измените содержимое с использованием следующего формата:

    Файл XLSX должен содержать два столбца без заголовков.

    • Столбец 1: Сокращение, которое нужно указать

    • Столбец 2: Спецификация поведения сегментации

      • ABBR_UPPER_NUM

        Новый сегмент не будет создан, если сокращение будет следовать за пробелом, а затем за числом, символом (математические, валютные знаки, дингбаты и т. д.) или словом с заглавной буквы.

      • ABBR_NUM

        Новый сегмент не будет создан, если сокращение будет следовать за пробелом, а затем за числом.

  3. Сохраните отредактированный файл .XLSX.

Редактируйте регулярные выражения в файле .SRX

Редактирование файлов .SRX — это сложный процесс, подходящий только для пользователей, опытных в использовании регулярных выражений

Существует несколько правил, которые можно изменить в файле SRX:

  • Импортируйте текст из файла XLSX без сегментации; одна ячейка равна одному сегменту.

  • Импортируйте текст с новой строки, чтобы разделить один сегмент на два.

  • Используйте двоеточие (или любой другой символ) в качестве разделителя сегментов.

  • Запретите использование точки с запятой (или любого другого символа) в качестве разделителя сегментов.

  • Удаление аббревиатуры из списка (текст будет сегментирован).

Эти правила основаны на символах; только один символ может использоваться в качестве разделителя сегментов. Группы символов (например: <p>) не могут использоваться в качестве разделителя сегментов.

Чтобы отредактировать файл SRX, выполните следующие шаги:

  1. Откройте файл в текстовом редакторе, таком как Notepad ++.

  2. Редактируйте с помощью регулярных выражений или полностью удалите внутреннюю сегментацию.

    Например:

    BreakRules_Example.png
    • <rule break="no">

      Список правил, где сегмент не будет разбит. Т.е. список аббревиатур

    • <rule> <beforebreak>

      Регулярное выражение для символа перед разрывом (например, в конце предложения ". ? ! :"). Если вы, например, не хотите сегментировать текст после двоеточия, просто удалите : из каждого <rule><beforebreak> кода.

    • <правило> <послеразрыва>

      Регулярное выражение для символа после разрыва (например, в начале нового предложения; пробел и заглавная буква).

  3. Сохраните измененный файл SRX.

Загрузить новые правила сегментации

Чтобы загрузить измененные или новые правила сегментации, выполните следующие шаги:

  1. На странице «Настройки» Setup_gear.png прокрутите вниз до раздела «Настройки проекта» и нажмите «Сегментация».

    Открывается страница Сегментация.

  2. Нажмите «Создать».

    Открывается страница Загрузить пользовательский файл сегментации XLSX или SRX.

  3. Выберите Язык из выпадающего списка.

  4. Укажите Название для правила.

  5. Нажмите Выбрать файл.

    Открывается окно выбора файла.

  6. Выберите измененный файл правил для загрузки.

  7. Отметьте Основной, если пользовательские правила сегментации будут основными правилами сегментации для выбранного языка.

  8. Нажмите «Создать».

    Открывается страница Сегментация, и правило добавлено в список.

Использовать пользовательские правила сегментации при импорте задания

Чтобы использовать пользовательские правила при импорте задания или настроить длину целевого сегмента, выполните следующие шаги:

  1. На шаге 8 создания задания нажмите Сегментация и длина сегмента в Настройки импорта файла.

    Открывается выпадающий список параметров Сегментация и длина сегмента.

  2. Выберите измененные правила из выпадающего списка Исходные правила сегментации.

  3. При необходимости настройте ограничение для длины целевого сегмента в зависимости от требований проекта (например, перевод субтитров):

    • Выберите Макс. длина целевого сегмента в % от оригинала и введите предпочитаемый процент, чтобы ограничить длину сегмента на основе оригинального сегмента.

    • Выберите Макс. длина целевого сегмента в символах и введите количество символов, чтобы ограничить длину сегмента по количеству символов.

  4. Нажмите «Создать».

    Задание создано и добавлено в список с использованием указанных правил сегментации.

Изменение примера сегментации (1 ячейка 1 сегмент)

Удалите все внутренние правила сегментации из файла SRX, оставив только базовую сегментацию всего абзаца, элемента или ячейки. Это правило сегментации может быть применено к каждому типу файла (MS Word, XML, HTML, Excel и т. д.).

Например:

A

B

1

Питер! Подождите!

2

Здравствуйте.

3

Этот пример XLSX, импортированный с использованием стандартной сегментации, будет иметь 3 сегмента: Питер!, Подождите! и Здравствуйте.

Если вся внутренняя сегментация удалена, оставив только базовую сегментацию на основе ячейки, то будет только два сегмента: Питер! Подождите! и Здравствуйте.

Отредактируйте файл SRX, чтобы удалить все стандартные правила сегментации, т. е. код между <!-- правила разбиения --> и </languagerule>.

Например:

1cell-1segment-srx.png

Каскадирование может привести к тому, что этот пример не будет работать. В таком случае откройте отредактированный файл SRX в Notepad++, найдите два атрибута элемента заголовок и измените оба на нет.

Была ли эта статья полезной?

Sorry about that! In what way was it not helpful?

The article didn’t address my problem.
I couldn’t understand the article.
The feature doesn’t do what I need.
Other reason.

Note that feedback is provided anonymously so we aren't able to reply to questions.
If you'd like to ask a question, submit a request to our Support team.
Thank you for your feedback.