Presenatation Summer School Union of Translators Russia

  • View
    3.745

  • Download
    7

  • Category

    Business

Tags:

Preview:

DESCRIPTION

Презентация программы памяти переводов Deja Vu X2 на Летней школе Союза переводчиков России.Presentation of Translation Memory

Citation preview

Системы автоматизированного перевода Déjà Vu X (DVX)

День 1

Автор: Олег Добронравов.

2

САТ системы системы автоматизированного перевода

Машинный перевод

САТ системы Computer-assisted translation

ТМ программы(программы памяти перевода )

Электронные словари

Локализация ПО

QA – контроль качества перевода

3

Зачем нужны САТ системы?

• Объективная необходимость

• Современные требования

• Эффективность и единообразие

• Совместимость и многоязычность

• Надежность, безопасность и контроль

• Интерфейс пользователя

• Процедура работы

• Память переводов, терминологическая база, лексикон

• Версии и информационные ресурсы

4

Объективная необходимость • Кто из переводчиков не восклицал однажды:

«Я подобное уже переводил! Déjà Vu!»

• Практические примеры документов с повторами: Новая версия продукта (новая модель автомобиля) Новая версия программного обеспечения Новый модельный ряд продуктов

• Ситуации разные, смысл один – работа срочная, большая, но déjà vu (уже виденное). Переводчику нужно переводить текст, сходный с ранее переведенным

5

В каком виде хранятся переводы?

При большом объеме переводов поиск конкретной фразы даже в электронных версиях хранимых документов

практически неосуществим

6

Объективная необходимость

• Работодатели требуют владения автоматизированными системами перевода

• Заказчики требуют предоставления перевода в виде базы данных

• Высокая конкуренция между переводчиками

• Требования к качеству и срокам

7

Современные требования

Необходимость повышения качества переводов:

• Обеспечение единообразия терминологии

• Обеспечение единообразного перевода одних и тех же предложений

Необходимость повышения эффективности (снижение трудозатрат, сокращение сроков):

• Автоматизация рутинных операций

• Исключение полного повторного перевода документации, в которую внесены изменения и дополнения

• Исключение повторного перевода одних и тех же слов и предложений

8

Целесообразность применения В данном фрагменте Руководства пользователя

количество повторов составляет 57%.

9

Структура системы

Память переводов

Терминологическая база

Лексикон

Проект

10

Основные понятия – сегментация

CONFIDENTIALITY AGREEMENTAugust ,2004[address]Re: Confidentiality AgreementLadies and Gentlemen:You have requested Confidential Information from Company1 Corporation ("Company1") concerning Company1 that is either confidential, proprietary, or publicly unavailable in connection with your consideration of a possible business combination ("Transaction") between you and Company1 involving TLLC. As a condition, and in consideration, of furnishing to you "Confidential Information" (as defined below), Andrew requires that you treat the Confidential Information so furnished confidentially as set forth in this letter agreement (the "Confidentiality Agreement").1. Confidential Information As used in this Confidentiality Agreement, the term "Confidential Information" means all information concerning Company1 and its subsidiaries or affiliates that is furnished or made available to you by Company1 or any agent or representative of Company1 or that is obtained or derived by you from any of the foregoing persons as part of your consideration of the Transaction.

Исходный текст:

11

Основные понятия – сегментация

Сегмент –

• абзац;

• предложение;

• ячейка;

• слайд.

12

Основные понятия – память переводовСводная таблица

Сегмент оригинала Сегмент перевода

13

Основные понятия – глоссарий.

Обеспечивается правильный и единообразный перевод терминов

14

Основные функции систем

• Анализ

• Предварительный глобальный перевод по ТМ

• Автоматический поиск переводов сходных предложений

• Пополнение памяти переводов

• Сведение – создание TM по готовым переводам

• Пополнение и ведение терминологической базы данных

• Текстовый редактор

15

Типичная процедура работы Создание и настройка проекта

Импорт файлов

Автоматическое предложение вариантов перевода

Ручной перевод

Экспорт

Переводчик создает и настраивает проект

Переводчик импортирует документы

Система пытается найти сходные предложения

Переводчик переводит остальное

Система экспортирует документы для заказчика

Автоматический поиск в памяти переводов с использованием нечеткой логики

Система автоматически предлагает перевод

ПОЧЕМУ Déjà Vu X?

17

Почему Déjà Vu X?

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала.Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Все системы умеют находить в памяти переводов предложения дубликаты, сходные переведенным:

18

Почему Déjà Vu X?

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Déjà Vu X, кроме того, автоматически подставляет

фрагменты предложений из памяти переводов:

19

Почему Déjà Vu X

Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences.Пометьте поле Find sets of duplicate source sentences with identical translations.Пометьте поле Delete redundant sentences in each set of duplicates.Укажите нужные языки.Пометьте в разделе Miscellaneous: Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentences with different translations.Укажите нужные языки.Пометьте в разделе Miscellaneous: Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк.Выберите в меню View команду Toggle Sorting, чтобы упорядочить память переводов по алфавиту.

Déjà Vu X автоматически подставляет слова

из терминологической базы:

20

Почему Déjà Vu X

Запустите откройте память переводов Выберите в меню команду задайте параметры, удалить записи проверьте Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Пометьте поле Find sets of duplicate source sentencesПометьте поле.Укажите языки.Пометьте разделеУдаление переводов оригинала. Запустите Déjà Vu X и откройте нужную память переводов (Translation memory).Выберите в меню Database команду Find Duplicate Sentences. Пометьте поле Find sets of duplicate source sentencesУкажите нужные языки.Пометьте в разделе Miscellaneous: просмотра переводов выберитеВыберите в меню команду память переводов

Déjà Vu обнаружит дополнительно фрагментов – 40%, итого - 58%.58% против 18%!

Благодаря наличию функции автоматической "сборки" (AutoAssemble): перевод может автоматически собираться из фрагментов сегментов, найденных в памяти переводов, и терминов из терминологической базы.

21

Эффективность

Средний процент повторений в документах, обнаруживаемый системой – 20-30%.

Месяц – 22 рабочих дня по 8 часов = 176 часов

Норма переводчика: 1 страница в час

20% от 176 = 35 страниц = 35 часов

= 4 рабочих дня !

22

Скорость

Функциональность

Качество и надежность программы

Почему Déjà Vu X?

23

Эффективность

Статистика для одного из больших документов

Точное совпадение с предложениями в памяти переводов 33,1%

Неточное совпадение с предложениями в памяти 4,2%

Сборка из фрагментов предложений в памяти и терминов 0,3% Копирование перевода аналогичных предложений далее по тексту 37,3%

Перевод вручную 25,2%

---------------------------------------------------------------------------------------------------Примечание: Высокая степень для похожих документов, например

одной серии.

24

Скорость

• Возможность глобального автоматического предварительного предперевода текста

• Исключение необходимости полного повторного перевода документов, в которые внесены изменения и дополнения

• Нет необходимости в последующей верстке документов

• Обеспечение однократного перевода аналогичных сегментов. Автоматическое распространение перевода сегмента для остальных аналогичных сегментов оригинала (как с занесением в БД так и без)

• Исключение повторного перевода одинаковых фрагментов в переводимом пакете документов

• Автоматизация рутинных операций (Например автоперевод, автопоиск)

• Удобство интерфейса, все операции в одной рабочей области, в том числе с БД.

25

Функциональность

• Редакторы могут начать работу сразу же после перевода первой строки текста, делая мгновенные рекомендации по терминологии и переводу основных выражений

• Возможность организации групповой работы большого коллектива переводчиков над одним крупным или несколькими сходными документами

• Возможность удаленной работы переводчиков через Интернет• Использование нечеткой логики при поиске, позволяющей

эффективно находить сходные выражения и термины (например, без учета падежных окончаний)

• Возможность работать с набором различных файлов одновременно в рамках одного проекта

• Возможность работать с файлами разных форматов

26

• Четырехмерная структура классификации содержания памяти перевода и терминологической базы, все записи классифицируются по предметной области, заказчику, проекту и файлу

• Возможность подключения большого числа файлов памяти переводов и терминологических баз, которые можно выборочно подключать только для чтения, для записи или для чтения и записи

• Доступ к любой подключенной базе не блокируется. Не нужно прерывать перевод, чтобы просмотреть и изменить память переводов и терминологическую базу, в том числе есть и в MS Access

• В рамках одного проекта может одновременно переводиться большое число файлов на разных языках, причем их форматы могут не совпадать

Функциональность

27

• Возможность ручного поиска слов и словосочетаний в памяти переводов и терминологических базах

• Наличие Лексикона позволяет реализовать правило: "Клиент всегда прав" и переводить, например, по требованию заказчика mouse не как "мышь", а как "мышка", не изменяя ничего в основной терминологической базе

• Лексикон позволяет быстро составить словарь общей лексики, исключив все редко употребляемые термины, а также словарь клише, отобрав все часто встречающиеся словосочетания.

Функциональность

28

• Мощная система фильтрации сегментов по более чем десятку параметров, включая параметры, заданные пользователем, с использованием операторов SQL

• Удобная и гибко настраиваемая система правил сегментации. Правила сегментации можно задавать самостоятельно для совместимости с другими системами, чтобы обеспечить тождественность файлов памяти переводов

• Возможность гибкой настройки рабочего пространства

• Использование тех же функций Autotext, Autocorrect и Spelling, что и в MS Word

Функциональность

29

Качество и надежность

• Обеспечение единообразия перевода

• Возможность создания комментариев к переводу сегментов и снабжения сегментов пометками, для того чтобы вернуться к их анализу в дальнейшем

• Встроенный контроль качества перевода

• Автоматический контроль пунктуации

• Снижение времени редактирования больших проектов и перевод процесса редактирования на качественно иной уровень. Редактор при редактировании видит как текст перевода, так и текст оригинала по отдельным предложениям. Исключается возможность потери части информации в переводе

• Обеспечение минимальных трудозатрат на выполнение работ в заданные сроки

30

• Система работает практически без сбоев, в случае сбоя информация не теряется

• Осуществляется автосохранение всех компонентов

• Имеются встроенные утилиты для восстановления поврежденных баз данных и проекта

• Отслеживается, кто, когда и какие внес изменения в проект и базы данных

Качество и надежность

31

Защита от несанкционированного внесения изменений

• Доступ к различным элементам проекта по паролям

• Возможность запрета редактирования текста или записи в память переводов

• 10 уровней индивидуальных полномочий пользователей с различными правами для чтения и записи полномочий на доступ и внесение изменений в соответствии с квалификацией или должностными обязанностями (переводчик, редактор, менеджер)

• Пользователи с низким уровнем (переводчики) не могут исправлять внесенное пользователями более высокого уровня (редакторами). Элементарно реализуется правило "Желание начальника - закон для подчиненных"

Качество и надежность

32

- Простой импорт файлов разных форматов- представление в едином виде - автоматическим восстановление форматирования документа при его экспорте.

А также:

RTF RC Файлы справки GNU PO и POT CC++ IBM TM

Почему Déjà Vu X

Начало работы с Déjà vu X

34

Структура проекта Déjà Vu

Память переводов

Терминологическая база

Лексикон

Проект DVX

35

Терминологическая БД - словарь Термины Аббревиатуры Перевод Синонимы Антонимы Часть речи, род, падеж

Основные понятия: Терминологическая БД

Терминологическая база

36

TM – место где хранятся все переводы Слова Предложения Абзацы Тексты Слайды Таблицы

Основные понятия:Память Переводов TM(Translation Memory)

Память переводов

37

Основные функции DVXPretranslate – предперевод с использованием БД

38

Автоматические функции DVX

1. AutoAssemble – сборка перевода по БД

2. AutoSearch – автоматический поиск сегментов в БД

3. AutoCheck – автоматическая проверка по ТБД

4. AutoPropagate – автораспространение перевода

5. AutosSend – автоматическая отправка в сегментов в TM

Основные функции DVX

39

Статусы сегментов• Exact match – полное (100%) совпадение с БД• Fuzzy match – частичное (0-99%)совпадение с БД • Assembled – собрано из фрагментов БД• Guaranteed matches – контекстное совпадение(101%)

• Assemble – сборка перевода из фрагментов БД. • Propogate – распространение перевода внутри• Scan - поиск по ТМ• Database Lookup – поиск по ТБД• Send to TM• QA check – проверка терминологии и пунктуации• Populate – авто замена сегментов перевода• Wordcount / Analize – функции для расчета трудозатрат

40

Основные функции Déjà vu Функции доступные в «ручном» режиме:

41

Интерфейс программы Déjà vu Сегментированный

текст оригиналаСегмент текста

перевода

Фрагменты, найденные в памяти

переводов и терминологической

базе

Предложения, найденные

в памяти переводов

Список импорти-рованных файлов

Фильтр сегментов

42

Фильтр сегментов

43

Настройки проекта

• Языки проекта• Подключенные БД• Пользователи• Права доступа

44

• Опции «авто сборки»• Опции «авто поиска»• Опции поиска и

просмотра БД• Опции приоритетов БД

Настройки программы: General

45

Настройки программы: Environment

46

• Правила разбиения на сегменты

• Настройка сегментации для разных языков

• Исключения

Настройки программы: Cегментация

47

Пример:

Работа программы на примере