Сегментация — это разделение текстов оригинала на меньшие части. Это улучшает поиск ранее переведенного текста в памяти переводов. Сегменты отображаются в редакторе и могут быть фильтрованы. Если проект имеет этапы рабочего процесса, изменения в сегментах отображаются в панели изменений перевода.
Правила сегментации по умолчанию соответствуют специфике каждого поддерживаемого языка и могут быть настроены.
Задания, импортированные с ошибками сегментации, такими как плохо форматированные файлы документов или неправильная настройка сегментации, могут повлиять на значения совпадений в памяти переводов (TM). Рекомендуется потратить некоторое время на просмотр и подготовку исходного файла перед импортом; распространенной проблемой является неправильное использование разрывов строк и абзацев.
Пример:
Хорошая сегментация:
-
Поддерживаются базы памяти переводов с многоязычными языками перевода и могут использоваться двунаправленно.
Значение совпадения 100%.
Плохая сегментация
-
Поддерживаются базы памяти переводов с многоязычными языками перевода.
Значение совпадения 100%.
-
и могут использоваться двунаправленно.
Значение совпадения 63%.
Настроенные правила сегментации могут быть применены к задачам и шаблонам проектов. Если проект требует настроенного правила сегментации, необходимо создать шаблон для этого проекта. При установке в качестве основного на все новые задания, импортируемые для этого языка источника, применяются пользовательские правила сегментации.
Существует два типа правил сегментации:
-
Сокращения для файла .XLSX
-
Регулярное выражение файлов .SRX
Чтобы использовать пользовательские правила, скачайте правила по умолчанию, измените их, загрузите измененный файл и затем примените их к указанным заданиям.
Осторожно
При добавлении пользовательских правил сегментации для языка источника CJK без пробелов (в то время как язык перевода будет использовать пробелы в качестве разделителей слов), убедитесь, что ведущие или завершающие пробелы добавлены к целевым сегментам, разделенным пользовательским правилом; это разделяет слова в переводе. Хотя это происходит автоматически в сегментах, образованных правилами сегментации по умолчанию, пробелы не добавляются в разделенных вручную сегментах или сегментах, образованных дополнительными пользовательскими правилами сегментации.
Чтобы скачать правила сегментации по умолчанию, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Выберите язык для настройки и нажмите «Экспорт XLSX/SRX».
Открывается окно .
-
Выберите формат:
-
XLSX предоставляет список сокращений.
-
SRX предоставляет правила регулярных выражений.
-
-
Выберите язык из выпадающего списка.
-
Нажмите «Скачать».
Файл загружается на вашу систему.
Чтобы скачать ранее загруженное правило сегментации, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Нажмите на иконку Настройки справа и выберите Настроить столбцы:
-
Включите столбец Имя файла
-
Нажмите на имя файла, чтобы скачать предустановленное правило.
Сокращения могут быть указаны для отдельных языков, после чего новые сегменты не должны создаваться.
Чтобы редактировать сокращения, выполните следующие шаги:
-
Откройте загруженный файл .XLSX в редакторе.
-
Измените содержимое с использованием следующего формата:
Файл XLSX должен содержать два столбца без заголовков.
-
Столбец 1: Сокращение, которое нужно указать
-
Столбец 2: Спецификация поведения сегментации
-
ABBR_UPPER_NUM
Новый сегмент не будет создан, если сокращение будет следоваться пробелом, а затем числом, символом (математические, валютные знаки, дингбаты и т.д.) или словом с заглавной буквы.
-
ABBR_NUM
Новый сегмент не будет создан, если сокращение будет следоваться пробелом, а затем числом.
-
-
-
Сохраните отредактированный файл .XLSX.
Редактирование файлов .SRX — это сложный процесс, подходящий только для пользователей, опытных в использовании регулярных выражений
В файле SRX можно изменить несколько правил:
-
Импортировать текст из файла XLSX без сегментации; одна ячейка равна одному сегменту.
-
Импортировать текст с новой строки, чтобы разделить один сегмент на два.
-
Используйте двоеточие (или любой другой символ) в качестве разделителя сегментов.
-
Запретите использование точки с запятой (или любого другого символа) в качестве разделителя сегментов.
-
Удаление аббревиатуры из списка (текст будет сегментирован).
Эти правила основаны на символах; может использоваться только один символ в качестве разделителя сегментов. Группы символов (например: <p>) не могут использоваться в качестве разделителя сегментов.
Чтобы отредактировать файл SRX, выполните следующие шаги:
-
Откройте файл в текстовом редакторе, таком как Notepad ++.
-
Редактируйте с помощью регулярных выражений или полностью удалите внутреннюю сегментацию.
Например:
-
<rule break="no">Список правил, где сегмент не будет разбит. Т.е. список аббревиатур
-
<правило> <доразрыва>Регулярное выражение для символа перед разрывом (например, в конце предложения ". ? ! :"). Если вы, например, не хотите сегментировать текст после двоеточия, просто удалите
:из каждого<правило><доразрыва>кода. -
<правило> <послеразрыва>Регулярное выражение для символа после разрыва (например, в начале нового предложения; пробел и заглавная буква).
-
-
Сохраните измененный файл SRX.
Чтобы загрузить измененные или новые правила сегментации, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Нажмите «Создать».
Открывается страница .
-
Выберите из выпадающего списка.
-
Укажите для правила.
-
Нажмите «Выбрать файл».
Открывается окно выбора файла.
-
Выберите измененный файл правил для загрузки.
-
Отметьте , если пользовательские правила сегментации будут основными правилами сегментации для выбранного языка.
-
Нажмите «Создать».
Открывается страница , и правило добавлено в список.
Чтобы использовать пользовательские правила при импорте задания или настроить длину целевого сегмента, выполните следующие шаги:
-
На шаге 8 создания задания нажмите «Сегментация и длина сегмента» в .
Открывается выпадающий список параметров .
-
Выберите измененные правила из выпадающего списка .
-
При необходимости настройте лимит для длины целевого сегмента в зависимости от требований проекта (например, перевод субтитров):
-
Выберите и введите предпочитаемый процент для ограничения длины сегмента в зависимости от исходного сегмента.
-
Выберите и введите количество символов для ограничения длины сегмента по количеству символов.
-
-
Нажмите «Создать».
Задание создано и добавлено в список с использованием указанных правил сегментации.
Удалите все внутренние правила сегментации из файла SRX, оставив только базовую сегментацию всего абзаца, элемента или ячейки. Это правило сегментации может быть применено к каждому типу файла (MS Word, XML, HTML, Excel и т. д.).
Например:
Этот пример XLSX, импортированный с использованием стандартной сегментации, будет иметь 3 сегмента: Питер!, Подождите! и Здравствуйте.
Если вся внутренняя сегментация удалена, оставив только базовую сегментацию на основе ячейки, то останется только два сегмента: Питер! Подождите! и Здравствуйте.
Отредактируйте файл SRX, чтобы удалить все стандартные правила сегментации, т. е. код между <!-- правила разбиения --> и </languagerule>.
Например:
Каскадирование может привести к тому, что этот пример не будет работать. В таком случае откройте отредактированный файл SRX в Notepad++, найдите два атрибута элемента заголовок и измените оба на нет.