Сегментация — это разделение текстов оригинала на меньшие части. Это улучшает поиск ранее переведенного текста в памяти переводов. Сегменты отображаются в редакторе и могут быть фильтрованы. Если проект имеет этапы рабочего процесса, изменения в сегментах отображаются в панели изменений перевода.
Правила сегментации по умолчанию соответствуют специфике каждого поддерживаемого языка и могут быть настроены.
Задания, импортированные с ошибками сегментации, такими как плохо форматированные файлы документов или неправильная настройка сегментации, могут повлиять на значения совпадений в памяти переводов (TM). Рекомендуется потратить некоторое время на обзор и подготовку исходного файла перед импортом; распространенной проблемой является неправильное использование разрывов строк и разрывов абзацев.
Пример:
Хорошая сегментация:
-
Поддерживаются базы памяти переводов с многоязычными языками перевода и могут использоваться двунаправленно.
Значение совпадения 100%.
Плохая сегментация:
-
Поддерживаются базы памяти переводов с многоязычными языками перевода.
Значение совпадения 100%.
-
и могут использоваться двунаправленно.
Значение совпадения 63%.
Настроенные правила сегментации могут быть применены к заказам и шаблонам проектов. Если проект требует настроенного правила сегментации, необходимо создать шаблон для этого проекта. Когда настроенные правила установлены как основные, они применяются ко всем новым заказам, импортированным для этого языка источника.
Существует два типа правил сегментации:
-
Сокращения для файла .XLSX
-
Регулярное выражение файлов .SRX
Чтобы использовать настроенные правила, скачайте правила по умолчанию, измените их, загрузите измененный файл и затем примените их к указанным заказам.
Осторожно
При добавлении пользовательских правил сегментации для языка источника CJK без пробелов (в то время как целевой язык будет использовать пробелы в качестве разделителя слов), убедитесь, что ведущие или завершающие пробелы добавлены к целевым сегментам, разделенным пользовательским правилом; это разделяет слова в переводе. Хотя это происходит автоматически в сегментах, образованных правилами сегментации по умолчанию, пробелы не добавляются в разделенных вручную сегментах или сегментах, образованных дополнительными пользовательскими правилами сегментации.
Чтобы скачать правила сегментации по умолчанию, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Выберите язык для настройки и нажмите Экспорт XLSX/SRX.
Открывается окно .
-
Выберите формат:
-
XLSX предоставляет список сокращений.
-
SRX предоставляет правила регулярных выражений.
-
-
Выберите язык из выпадающего списка.
-
Нажмите Скачать.
Файл загружается на вашу систему.
Чтобы скачать ранее загруженное правило сегментации, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Нажмите на значок Настройки справа и выберите Настроить столбцы:
-
Включите столбец Имя файла
-
Нажмите на имя файла, чтобы скачать заранее сохраненное правило.
Сокращения могут быть указаны для отдельных языков, после чего новые сегменты не должны создаваться.
Чтобы редактировать сокращения, выполните следующие шаги:
-
Откройте загруженный файл .XLSX в редакторе.
-
Измените содержимое с использованием следующего формата:
Файл XLSX должен содержать два столбца без заголовков.
-
Столбец 1: Сокращение, которое нужно указать
-
Столбец 2: Спецификация поведения сегментации
-
ABBR_UPPER_NUM
Новый сегмент не будет создан, если сокращение будет следовать за пробелом, а затем за числом, символом (математические, валютные знаки, дингбаты и т. д.) или словом с заглавной буквы.
-
ABBR_NUM
Новый сегмент не будет создан, если сокращение будет следовать за пробелом, а затем за числом.
-
-
-
Сохраните отредактированный файл .XLSX.
Редактирование файлов .SRX — это сложный процесс, подходящий только для пользователей, опытных в использовании регулярных выражений
Существует несколько правил, которые можно изменить в файле SRX:
-
Импортируйте текст из файла XLSX без сегментации; одна ячейка равна одному сегменту.
-
Импортируйте текст с новой строки, чтобы разделить один сегмент на два.
-
Используйте двоеточие (или любой другой символ) в качестве разделителя сегментов.
-
Запретите использование точки с запятой (или любого другого символа) в качестве разделителя сегментов.
-
Удаление аббревиатуры из списка (текст будет сегментирован).
Эти правила основаны на символах; только один символ может использоваться в качестве разделителя сегментов. Группы символов (например: <p>) не могут использоваться в качестве разделителя сегментов.
Чтобы отредактировать файл SRX, выполните следующие шаги:
-
Откройте файл в текстовом редакторе, таком как Notepad ++.
-
Редактируйте с помощью регулярных выражений или полностью удалите внутреннюю сегментацию.
Например:
-
<rule break="no">Список правил, где сегмент не будет разбит. Т.е. список аббревиатур
-
<rule> <beforebreak>Регулярное выражение для символа перед разрывом (например, в конце предложения ". ? ! :"). Если вы, например, не хотите сегментировать текст после двоеточия, просто удалите
:из каждого<rule><beforebreak>кода. -
<правило> <послеразрыва>Регулярное выражение для символа после разрыва (например, в начале нового предложения; пробел и заглавная буква).
-
-
Сохраните измененный файл SRX.
Чтобы загрузить измененные или новые правила сегментации, выполните следующие шаги:
-
На странице «Настройки»
прокрутите вниз до раздела и нажмите «Сегментация».
Открывается страница .
-
Нажмите «Создать».
Открывается страница .
-
Выберите из выпадающего списка.
-
Укажите для правила.
-
Нажмите Выбрать файл.
Открывается окно выбора файла.
-
Выберите измененный файл правил для загрузки.
-
Отметьте , если пользовательские правила сегментации будут основными правилами сегментации для выбранного языка.
-
Нажмите «Создать».
Открывается страница , и правило добавлено в список.
Чтобы использовать пользовательские правила при импорте задания или настроить длину целевого сегмента, выполните следующие шаги:
-
На шаге 8 создания задания нажмите Сегментация и длина сегмента в .
Открывается выпадающий список параметров .
-
Выберите измененные правила из выпадающего списка .
-
При необходимости настройте ограничение для длины целевого сегмента в зависимости от требований проекта (например, перевод субтитров):
-
Выберите и введите предпочитаемый процент, чтобы ограничить длину сегмента на основе оригинального сегмента.
-
Выберите и введите количество символов, чтобы ограничить длину сегмента по количеству символов.
-
-
Нажмите «Создать».
Задание создано и добавлено в список с использованием указанных правил сегментации.
Удалите все внутренние правила сегментации из файла SRX, оставив только базовую сегментацию всего абзаца, элемента или ячейки. Это правило сегментации может быть применено к каждому типу файла (MS Word, XML, HTML, Excel и т. д.).
Например:
Этот пример XLSX, импортированный с использованием стандартной сегментации, будет иметь 3 сегмента: Питер!, Подождите! и Здравствуйте.
Если вся внутренняя сегментация удалена, оставив только базовую сегментацию на основе ячейки, то будет только два сегмента: Питер! Подождите! и Здравствуйте.
Отредактируйте файл SRX, чтобы удалить все стандартные правила сегментации, т. е. код между <!-- правила разбиения --> и </languagerule>.
Например:
Каскадирование может привести к тому, что этот пример не будет работать. В таком случае откройте отредактированный файл SRX в Notepad++, найдите два атрибута элемента заголовок и измените оба на нет.