Средства автоматизированного перевода

Жизнь современного человека трудно представить без технических достижений. Люди уже не могут представить себя без телефона в кармане, навигатора в автомобиле или персонального компьютера в руке. Что касается переводчиков, то для них вопрос современных технологий стоит еще более актуально. Сложно представить человека, профессионально занимающегося переводами, который ни разу не пользовался электронными словарями, программами перевода или просто компьютером. Развитые современные технологии помогают переводчику экономить время, повысить качество и скорость работы.

За последние несколько лет переводческая отрасль претерпела существенные изменения, связанные с появлением новых технологий. Для отрасли, которая растет все более быстрыми темпами и испытывает острую нехватку квалифицированных переводчиков, компьютерные технологии, позволяющие увеличить эффективность работы переводчиков, стали настоящим спасением.

Работа переводчика в современном мире становится профессиональным занятием, ориентированным на рынок, что требует применения к ней единых стандартов обеспечения качества и выполнения переводов в сжатые сроки.

Первым инструментов, позволившим ускорить работу переводчика, была обыкновенная печатная машинка, но более значительным прорывом стала замена печатной машинки на персональный компьютер. Появились крайне важные для переводчика инструменты, в том числе электронные словари и глоссарии, программы для записи голоса и, в конце концов, накопители переводов (CAT-программы).

1. САТ — программы

1.1 Понятие САТ — программ

Во-первых определимся с тем, что называют CAT — программами.

САТ — программы (от англ. Computer Aided Translation) — программы, которые помогают переводить текст на компьютере (согласно материалам на сайте одного из разработчиков САТ — программ) [10]

По другому определению САТ — программы — несколько видов программ, обеспечивающих автоматизацию процесса перевода. [11]

Также можно сказать, что САТ — программы — это средства для автоматизированной работы переводчика. [13]

В свете данных определений разберемся с понятием автоматизированный перевод. Автоматизированный перевод — перевод текстов на компьютере с использованием компьютерных технологий.

Таким образом, говоря об автоматизированном переводе, мы также имеем в виду CAT.

1.2 Виды САТ-программ

Все существующие программы, обеспечивающие автоматизацию перевода, можно разделить на следующие группы:

31 стр., 15106 слов

Дипломная работа особенности синхронного перевода

... работы послужил синхронный перевод с русского языка на английский и с английского на русский. Предметом настоящей работы выступает коммуникативный план деятельности синхронного переводчика, представленный приемами и стратегиями СП, реализуемыми в процессе перевода. ... времени работы синхронных переводчиков был представлен К. Ельцовым на Летней школе перевода в 2014 году. Примечательна работа Л. ...

  • электронные словари
  • программы и системы памяти переводов (TM-программы)
  • программы машинного перевода

Электронный словарь — словарь в компьютере или другом электронном устройстве. Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский) [12].

Внутренне электронный словарь устроен как база данных со словарным статьями. По сути он является аналогом бумажного словаря. Современный рынок предлагает огромное количество электронных словарей. Наиболее известные это словари Lingvo от компании ABBYY, Мультилекс, Мультитран, Oxford Advanced Learner’s Dictionary и др.

Работа со словарем не вызывает никаких сложностей. Можно ввести искомое слово в главном окне словаря и получить варианты его перевода. Помимо этого у большинства словарей есть функция быстрого перевода, которая позволяет выделив слово в редактируемом документе или на интернет — странице при помощи специальной комбинации клавиш получить его перевод. Для интернет — браузеров есть, так называемое, всплывающее окно перевода, которое появляется на экране, при наведении курсора на слово.

2. Программы машинного перевода

В процессе своей деятельности случается так, что переводчику приходиться пользоваться программами, которые делают уже готовый перевод. Такие программы как PROMT, Сократ, Pragma 5.x и др. Все их также можно отнести к CAT — программам, с той только разницей, что после выполнения перевода программой, переводчику следует проводить подробный и тщательный разбор.

Работа программы-переводчика осуществляется по следующему алгоритму:

На первом этапе осуществляется ввод текста и поиск входных слов в конкретной грамматической форме (например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря).

Машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах.

Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка. Также на данном этапе происходит разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом), поэтому машина должна решить к какой части речи относится каждое конкретное слово. Помимо этого, второй этап характеризуется анализом и переводом слов. Обычно на данном этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие / отсутствие контекстных определителей значения.

10 стр., 4664 слов

Языки программирования

... типов. Основные структуры данных (списки, очереди, хеш-таблицы, двоичные деревья и пары) часто представлены особыми синтаксическими конструкциями в языках высокого уровня. Такие данные структурируются автоматически. Семантика языков программирования Существует ...

Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

И наконец, последний этап включает в себя синтез выходных словоформ и предложения в целом на языке перевода. В память машины помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. [6]

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера.

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения.

Для переводчика перевод, выполненный при помощи такой программы, может быть использован для поверхностного ознакомления с содержанием текста. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Если же переводчик пользуется данной программой для того, чтобы, например, сэкономить время, то после обработки машиной, необходим обязательный анализ и редактирование «человеческой» рукой.

3. Программы памяти переводов (ТМ-программы)

программа перевод автоматизированный

Для начала определимся с тем, каким образом работают программы памяти переводов. В основе их работы лежит алгоритм перевода — последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков А1 — А2 при заданном направлении перевода (с одного конкретного языка на другой).

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе работы программы:

16 стр., 7805 слов

Автоматизация работы в офисе

... Автоматизация ввода информации в компьютер Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование – это технологический процесс, в ... позволяющий производить настройку. Таким образом, в большинстве программ работа со сканером производится при посредстве ... в набор разноцветных точек, а вовсе не в текстовый документ. Проблема распознавания текста в ...

CAT-программа сегментирует переводимый текст, т.е. разбивает его на сегменты (предложения) и выдает переводчику в удобной форме, упрощающей и ускоряющей перевод. В программе каждый сегмент выводится в специальной рамке, а в другой рамке прямо под исходным текстом можно ввести перевод.

После этого каждый переведенный сегмент анализируется на совпадение с памятью переводов (TM — translation memory), и при определенном проценте совпадения выдаются варианты перевода. В свою очередь, переводчик подтверждает предложенный вариант, корректирует его по своему усмотрению, либо полностью переводит уникальный сегмент. [10]

Таким образом, каждый раз находя в новом тексте сегменты, которые были переведены ранее, программа автоматически предлагает вариант перевода. Вся основная часть CAT — программ работает при помощи памяти перевода(ТМ) или накопителя переводов.

ТМ — это база данных, где хранятся выполненные переводы. Технология ТМ работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ. В результате нет необходимости дважды переводить одно и то же предложение. [8]

Каждая запись базы данных ТМ представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках).

Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому. Память перевода ничего не переводит сама по себе, она всего лишь является вспомогательным средством при переводе.

Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отвергнут. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные возможности, поскольку в этом случае можно находить предложения, лишь отдаленно напоминающие искомые фразы, но, тем не менее, пригодные для последующего редактирования. Средства поиска ТМ могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск. В систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.

5 стр., 2389 слов

Пояснительная записка к проекту Программы развития геодезии и ...

... являются: соотношение секторов рынка (государственного и частного); основных сегментов по видам геодезической и картографической продукции и их участников; конкурентной среде; инфраструктуре рынка. В процессе развития рынка геодезической и картографической продукции (услуг) к ...

Исходя из описаний выше видно, что принятие решения о выборе варианта перевода полностью лежит на переводчике — это основное отличие CAT-средств от машинного перевода, где окончательное решение принимает машина.

В настоящее время существует огромное количество программ, работа которых основана на памяти перевода. Наиболее известными являются такие программы как Trados, Deja Vu, Wordfast, MemoQ, OmegaT, ABBYY Aligner.

4. Обзор современных программ памяти переводов

Для того чтобы проверить каким образом работают САТ — программы и являются ли они реально удобными и полезными для переводчика — рассмотрим механизм их работы на практике.

Основным объектом практического исследования станут самые известные и широко используемые в настоящее время программы, использующие память перевода (ТМ-программы) — WordFast и Trados.

Анализ работы ТМ-программ на примере Wordfast

Выбирая САТ — программу, переводчик должен руководствоваться тремя основными правилами: цена, удобство использования и количество времени, необходимое для того, чтобы научиться пользоваться программой.

Wordfast отвечает этим требованиям. К тому же Wordfast является бесплатной программой, что выгодно её отличает от дорогостоящих Trados и DejaVu. Принцип работы программы тот же самый, как и других ТМ-программ. Единственным отличием является то, что Wordfast разработан в качестве надстройки для Microsoft Word, то есть, данная программа встраивается прямо в окно Microsoft Word. Такая функция, на мой взгляд, является очень удобной. Нет необходимости выполнять работу в одном окне, затем копировать весь переведенный материал в Word. Использование такой вставки экономит время, а более того, позволяет строить переведенный текст, меняя шрифт, цвет, обозначая абзацы и.т.д., то есть, всю ту работу, которую в других программах нужно делать только после выполнения перевода.

В качестве объекта для перевода используем аннотации к лекарственным средствам. Вот содержание первой из них (аннотация к аспирину):

Программа Wordfast после открытия данного текста делит его на сегменты (чаще всего предложения или фразы), причем не весь текст сразу, а по мере выполнения перевода.

Таким образом, от сегмента к сегменту осуществляется перевод текста. После того как перевод всего текста закончен, документ выглядит следующим образом: слева идет первоначальный вариант на исходном языке, рядом в той же строке идет уже переведенный вариант:

  • {0>Medical Annotation<} 0 {>Инструкция по применению<0}

{0>Active ingredient (in each tablet) 375 mg<} 0 {>Активные вещества (в каждой таблетке) 375г<0}

{0>Purpose<} 0 {>Основное действие<0}

{0>Pain reliever/fever reducer<} 0 {>Облегчение боли и уменьшение жара<0}

Каждая фраза заключена, как видно из примера, в кавычки с цифрами. Цифры обозначают процент совпадения с памятью перевода. Память перевода формируется автоматически, как только вы начинаете работать с программой.

11 стр., 5172 слов

Автоматические переводчики текста

... автоматический перевод осуществляется с помощью человека. Пред-редактор предварительно обрабатывает подлежащий переводу текст, интер-редактор участвует в процессе перевода, ... машиной тексте. Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, ... Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и ...

Естественно, что пользуясь данной программой впервые, у меня не было своей накопленной базы переводов, именно поэтому во всех случаях процент совпадения равнялся нулю.

После завершения перевода первой аннотации у меня образовалась определенная база перевода, составленная из тех фрагментов, которые были переведены. Очевидно, что она ничтожно мала, но для того, чтобы перевести схожий текст, полученная база перевода уже сможет помочь.