47
Системы автоматизированного перевода Déjà Vu X (DVX) День 1 Автор: Олег Добронравов.

Presenatation Summer School Union of Translators Russia

Tags:

Embed Size (px)

DESCRIPTION

Презентация программы памяти переводов Deja Vu X2 на Летней школе Союза переводчиков России.Presentation of Translation Memory

Citation preview

Page 1: Presenatation Summer School Union of Translators Russia

Системы автоматизированного перевода Déjà Vu X (DVX)

День 1

Автор: Олег Добронравов.

Page 2: Presenatation Summer School Union of Translators Russia

2

САТ системы системы автоматизированного перевода

Машинный перевод

САТ системы Computer-assisted translation

ТМ программы(программы памяти перевода )

Электронные словари

Локализация ПО

QA – контроль качества перевода

Page 3: Presenatation Summer School Union of Translators Russia

3

Зачем нужны САТ системы?

• Объективная необходимость

• Современные требования

• Эффективность и единообразие

• Совместимость и многоязычность

• Надежность, безопасность и контроль

• Интерфейс пользователя

• Процедура работы

• Память переводов, терминологическая база, лексикон

• Версии и информационные ресурсы

Page 4: Presenatation Summer School Union of Translators Russia

4

Объективная необходимость • Кто из переводчиков не восклицал однажды:

«Я подобное уже переводил! Déjà Vu!»

• Практические примеры документов с повторами: Новая версия продукта (новая модель автомобиля) Новая версия программного обеспечения Новый модельный ряд продуктов

• Ситуации разные, смысл один – работа срочная, большая, но déjà vu (уже виденное). Переводчику нужно переводить текст, сходный с ранее переведенным

Page 5: Presenatation Summer School Union of Translators Russia

5

В каком виде хранятся переводы?

При большом объеме переводов поиск конкретной фразы даже в электронных версиях хранимых документов

практически неосуществим

Page 6: Presenatation Summer School Union of Translators Russia

6

Объективная необходимость

• Работодатели требуют владения автоматизированными системами перевода

• Заказчики требуют предоставления перевода в виде базы данных

• Высокая конкуренция между переводчиками

• Требования к качеству и срокам

Page 7: Presenatation Summer School Union of Translators Russia

7

Современные требования

Необходимость повышения качества переводов:

• Обеспечение единообразия терминологии

• Обеспечение единообразного перевода одних и тех же предложений

Необходимость повышения эффективности (снижение трудозатрат, сокращение сроков):

• Автоматизация рутинных операций

• Исключение полного повторного перевода документации, в которую внесены изменения и дополнения

• Исключение повторного перевода одних и тех же слов и предложений

Page 8: Presenatation Summer School Union of Translators Russia

8

Целесообразность применения В данном фрагменте Руководства пользователя

количество повторов составляет 57%.

Page 9: Presenatation Summer School Union of Translators Russia

9

Структура системы

Память переводов

Терминологическая база

Лексикон

Проект

Page 10: Presenatation Summer School Union of Translators Russia

10

Основные понятия – сегментация

CONFIDENTIALITY AGREEMENTAugust ,2004[address]Re: Confidentiality AgreementLadies and Gentlemen:You have requested Confidential Information from Company1 Corporation ("Company1") concerning Company1 that is either confidential, proprietary, or publicly unavailable in connection with your consideration of a possible business combination ("Transaction") between you and Company1 involving TLLC. As a condition, and in consideration, of furnishing to you "Confidential Information" (as defined below), Andrew requires that you treat the Confidential Information so furnished confidentially as set forth in this letter agreement (the "Confidentiality Agreement").1. Confidential Information As used in this Confidentiality Agreement, the term "Confidential Information" means all information concerning Company1 and its subsidiaries or affiliates that is furnished or made available to you by Company1 or any agent or representative of Company1 or that is obtained or derived by you from any of the foregoing persons as part of your consideration of the Transaction.

Исходный текст:

Page 11: Presenatation Summer School Union of Translators Russia

11

Основные понятия – сегментация

Сегмент –

• абзац;

• предложение;

• ячейка;

• слайд.

Page 12: Presenatation Summer School Union of Translators Russia

12

Основные понятия – память переводовСводная таблица

Сегмент оригинала Сегмент перевода

Page 13: Presenatation Summer School Union of Translators Russia

13

Основные понятия – глоссарий.

Обеспечивается правильный и единообразный перевод терминов

Page 14: Presenatation Summer School Union of Translators Russia

14

Основные функции систем

• Анализ

• Предварительный глобальный перевод по ТМ

• Автоматический поиск переводов сходных предложений

• Пополнение памяти переводов

• Сведение – создание TM по готовым переводам

• Пополнение и ведение терминологической базы данных

• Текстовый редактор

Page 15: Presenatation Summer School Union of Translators Russia

15

Типичная процедура работы Создание и настройка проекта

Импорт файлов

Автоматическое предложение вариантов перевода

Ручной перевод

Экспорт

Переводчик создает и настраивает проект

Переводчик импортирует документы

Система пытается найти сходные предложения

Переводчик переводит остальное

Система экспортирует документы для заказчика

Автоматический поиск в памяти переводов с использованием нечеткой логики

Система автоматически предлагает перевод

Page 16: Presenatation Summer School Union of Translators Russia

ПОЧЕМУ Déjà Vu X?

Page 17: Presenatation Summer School Union of Translators Russia

17

Почему Déjà Vu X?

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала.Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Все системы умеют находить в памяти переводов предложения дубликаты, сходные переведенным:

Page 18: Presenatation Summer School Union of Translators Russia

18

Почему Déjà Vu X?

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Déjà Vu X, кроме того, автоматически подставляет

фрагменты предложений из памяти переводов:

Page 19: Presenatation Summer School Union of Translators Russia

19

Почему Déjà Vu X

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Déjà Vu X автоматически подставляет слова

из терминологической базы:

Page 20: Presenatation Summer School Union of Translators Russia

20

Почему Déjà Vu X

Запустите откройте память переводов Выберите в меню команду задайте параметры, удалить записи проверьте Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Пометьте поле Find sets of duplicate source sentencesПометьте поле.Укажите языки.Пометьте разделеУдаление переводов оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentencesУкажите нужные языки.Пометьте в разделе Miscellaneous: просмотра переводов выберитеВыберите в меню команду память переводов

Déjà Vu обнаружит дополнительно фрагментов – 40%, итого - 58%.58% против 18%!

Благодаря наличию функции автоматической "сборки" (AutoAssemble): перевод может автоматически собираться из фрагментов сегментов, найденных в памяти переводов, и терминов из терминологической базы.

Page 21: Presenatation Summer School Union of Translators Russia

21

Эффективность

Средний процент повторений в документах, обнаруживаемый системой – 20-30%.

Месяц – 22 рабочих дня по 8 часов = 176 часов

Норма переводчика: 1 страница в час

20% от 176 = 35 страниц = 35 часов

= 4 рабочих дня !

Page 22: Presenatation Summer School Union of Translators Russia

22

Скорость

Функциональность

Качество и надежность программы

Почему Déjà Vu X?

Page 23: Presenatation Summer School Union of Translators Russia

23

Эффективность

Статистика для одного из больших документов

Точное совпадение с предложениями в памяти переводов 33,1%

Неточное совпадение с предложениями в памяти 4,2%

Сборка из фрагментов предложений в памяти и терминов 0,3% Копирование перевода аналогичных предложений далее по тексту 37,3%

Перевод вручную 25,2%

---------------------------------------------------------------------------------------------------Примечание: Высокая степень для похожих документов, например

одной серии.

Page 24: Presenatation Summer School Union of Translators Russia

24

Скорость

• Возможность глобального автоматического предварительного предперевода текста

• Исключение необходимости полного повторного перевода документов, в которые внесены изменения и дополнения

• Нет необходимости в последующей верстке документов

• Обеспечение однократного перевода аналогичных сегментов. Автоматическое распространение перевода сегмента для остальных аналогичных сегментов оригинала (как с занесением в БД так и без)

• Исключение повторного перевода одинаковых фрагментов в переводимом пакете документов

• Автоматизация рутинных операций (Например автоперевод, автопоиск)

• Удобство интерфейса, все операции в одной рабочей области, в том числе с БД.

Page 25: Presenatation Summer School Union of Translators Russia

25

Функциональность

• Редакторы могут начать работу сразу же после перевода первой строки текста, делая мгновенные рекомендации по терминологии и переводу основных выражений

• Возможность организации групповой работы большого коллектива переводчиков над одним крупным или несколькими сходными документами

• Возможность удаленной работы переводчиков через Интернет• Использование нечеткой логики при поиске, позволяющей

эффективно находить сходные выражения и термины (например, без учета падежных окончаний)

• Возможность работать с набором различных файлов одновременно в рамках одного проекта

• Возможность работать с файлами разных форматов

Page 26: Presenatation Summer School Union of Translators Russia

26

• Четырехмерная структура классификации содержания памяти перевода и терминологической базы, все записи классифицируются по предметной области, заказчику, проекту и файлу

• Возможность подключения большого числа файлов памяти переводов и терминологических баз, которые можно выборочно подключать только для чтения, для записи или для чтения и записи

• Доступ к любой подключенной базе не блокируется. Не нужно прерывать перевод, чтобы просмотреть и изменить память переводов и терминологическую базу, в том числе есть и в MS Access

• В рамках одного проекта может одновременно переводиться большое число файлов на разных языках, причем их форматы могут не совпадать

Функциональность

Page 27: Presenatation Summer School Union of Translators Russia

27

• Возможность ручного поиска слов и словосочетаний в памяти переводов и терминологических базах

• Наличие Лексикона позволяет реализовать правило: "Клиент всегда прав" и переводить, например, по требованию заказчика mouse не как "мышь", а как "мышка", не изменяя ничего в основной терминологической базе

• Лексикон позволяет быстро составить словарь общей лексики, исключив все редко употребляемые термины, а также словарь клише, отобрав все часто встречающиеся словосочетания.

Функциональность

Page 28: Presenatation Summer School Union of Translators Russia

28

• Мощная система фильтрации сегментов по более чем десятку параметров, включая параметры, заданные пользователем, с использованием операторов SQL

• Удобная и гибко настраиваемая система правил сегментации. Правила сегментации можно задавать самостоятельно для совместимости с другими системами, чтобы обеспечить тождественность файлов памяти переводов

• Возможность гибкой настройки рабочего пространства

• Использование тех же функций Autotext, Autocorrect и Spelling, что и в MS Word

Функциональность

Page 29: Presenatation Summer School Union of Translators Russia

29

Качество и надежность

• Обеспечение единообразия перевода

• Возможность создания комментариев к переводу сегментов и снабжения сегментов пометками, для того чтобы вернуться к их анализу в дальнейшем

• Встроенный контроль качества перевода

• Автоматический контроль пунктуации

• Снижение времени редактирования больших проектов и перевод процесса редактирования на качественно иной уровень. Редактор при редактировании видит как текст перевода, так и текст оригинала по отдельным предложениям. Исключается возможность потери части информации в переводе

• Обеспечение минимальных трудозатрат на выполнение работ в заданные сроки

Page 30: Presenatation Summer School Union of Translators Russia

30

• Система работает практически без сбоев, в случае сбоя информация не теряется

• Осуществляется автосохранение всех компонентов

• Имеются встроенные утилиты для восстановления поврежденных баз данных и проекта

• Отслеживается, кто, когда и какие внес изменения в проект и базы данных

Качество и надежность

Page 31: Presenatation Summer School Union of Translators Russia

31

Защита от несанкционированного внесения изменений

• Доступ к различным элементам проекта по паролям

• Возможность запрета редактирования текста или записи в память переводов

• 10 уровней индивидуальных полномочий пользователей с различными правами для чтения и записи полномочий на доступ и внесение изменений в соответствии с квалификацией или должностными обязанностями (переводчик, редактор, менеджер)

• Пользователи с низким уровнем (переводчики) не могут исправлять внесенное пользователями более высокого уровня (редакторами). Элементарно реализуется правило "Желание начальника - закон для подчиненных"

Качество и надежность

Page 32: Presenatation Summer School Union of Translators Russia

32

- Простой импорт файлов разных форматов- представление в едином виде - автоматическим восстановление форматирования документа при его экспорте.

А также:

RTF RC Файлы справки GNU PO и POT CC++ IBM TM

Почему Déjà Vu X

Page 33: Presenatation Summer School Union of Translators Russia

Начало работы с Déjà vu X

Page 34: Presenatation Summer School Union of Translators Russia

34

Структура проекта Déjà Vu

Память переводов

Терминологическая база

Лексикон

Проект DVX

Page 35: Presenatation Summer School Union of Translators Russia

35

Терминологическая БД - словарь Термины Аббревиатуры Перевод Синонимы Антонимы Часть речи, род, падеж

Основные понятия: Терминологическая БД

Терминологическая база

Page 36: Presenatation Summer School Union of Translators Russia

36

TM – место где хранятся все переводы Слова Предложения Абзацы Тексты Слайды Таблицы

Основные понятия:Память Переводов TM(Translation Memory)

Память переводов

Page 37: Presenatation Summer School Union of Translators Russia

37

Основные функции DVXPretranslate – предперевод с использованием БД

Page 38: Presenatation Summer School Union of Translators Russia

38

Автоматические функции DVX

1. AutoAssemble – сборка перевода по БД

2. AutoSearch – автоматический поиск сегментов в БД

3. AutoCheck – автоматическая проверка по ТБД

4. AutoPropagate – автораспространение перевода

5. AutosSend – автоматическая отправка в сегментов в TM

Основные функции DVX

Page 39: Presenatation Summer School Union of Translators Russia

39

Статусы сегментов• Exact match – полное (100%) совпадение с БД• Fuzzy match – частичное (0-99%)совпадение с БД • Assembled – собрано из фрагментов БД• Guaranteed matches – контекстное совпадение(101%)

Page 40: Presenatation Summer School Union of Translators Russia

• Assemble – сборка перевода из фрагментов БД. • Propogate – распространение перевода внутри• Scan - поиск по ТМ• Database Lookup – поиск по ТБД• Send to TM• QA check – проверка терминологии и пунктуации• Populate – авто замена сегментов перевода• Wordcount / Analize – функции для расчета трудозатрат

40

Основные функции Déjà vu Функции доступные в «ручном» режиме:

Page 41: Presenatation Summer School Union of Translators Russia

41

Интерфейс программы Déjà vu Сегментированный

текст оригиналаСегмент текста

перевода

Фрагменты, найденные в памяти

переводов и терминологической

базе

Предложения, найденные

в памяти переводов

Список импорти-рованных файлов

Фильтр сегментов

Page 42: Presenatation Summer School Union of Translators Russia

42

Фильтр сегментов

Page 43: Presenatation Summer School Union of Translators Russia

43

Настройки проекта

• Языки проекта• Подключенные БД• Пользователи• Права доступа

Page 44: Presenatation Summer School Union of Translators Russia

44

• Опции «авто сборки»• Опции «авто поиска»• Опции поиска и

просмотра БД• Опции приоритетов БД

Настройки программы: General

Page 45: Presenatation Summer School Union of Translators Russia

45

Настройки программы: Environment

Page 46: Presenatation Summer School Union of Translators Russia

46

• Правила разбиения на сегменты

• Настройка сегментации для разных языков

• Исключения

Настройки программы: Cегментация

Page 47: Presenatation Summer School Union of Translators Russia

47

Пример:

Работа программы на примере