Машинный перевод его эволюция и грамотное использование. Что такое машинный перевод и где он используется. Перевод слов или текста из других приложений

За последние десятилетия компьютер, подключённый к интернету, стал самым главным инструментом переводчика. Ведь благодаря ему обеспечивается доступ к огромным объёмам информации, а также к электронным словарям и переводчикам. Машинный перевод сегодня стал повседневностью.

Термином «машинный перевод» (МП, он же Machine Translation или MT) называют действие, когда один естественный язык переводится на другой с использованием для этого специального программного обеспечения. Программа при этом может быть установлена непосредственно на компьютере (или ) или быть доступной только при подключении к интернету.

Немного истории

Идея задействовать для перевода вычислительное устройство появилась ещё в 1947 году. Но реализация подобного в те годы была просто невозможна, поскольку вычислительная техника находилась в зачаточном состоянии. Однако уже в 1954 году была предпринята первая попытка машинного перевода. Самый первый словарь включал в себя только 250 слов, а грамматика исчерпывалась 6-ю правилами. Тем не менее, этого оказалось достаточно, чтобы убедиться в большом будущем машинного перевода. Работы в данном направлении начались во многих странах, стали появляться первые системы машинного перевода (СМП), создаваться специальные теории.

В начале развитию машинного перевода мешал низкий уровень вычислительной техники, её очень высокая стоимость. Однако постепенное проникновение в нашу жизнь сначала персональных компьютеров, а затем и интернета, привело к стремительному развитию этой отрасли. Сегодня машинный перевод активно используется в самых разных сферах человеческой деятельности.

Кому это нужно

Развитию машинного перевода способствовало расширение международных отношений. Люди стали чаще ездить в другие страны, выход бизнеса за рубеж перестал быть чем-то исключительным, даже по меркам небольших компаний. А раз так, то всё чаще возникают трудности в общении. Как следствие, машинный перевод сегодня всё чаще используется в бизнесе. Пусть даже результат переводов, предоставляемых компьютером, далёк от идеального, это всё же лучше, чем вообще ничего.

При помощи СМП появляется возможность очень быстро понять содержимое больших объёмов текстов, что просто невозможно при традиционном подходе. Это может быть очень полезно, например, при необходимости классификации большого количества информации на иностранном языке. Или для проведения лингвистического анализа.

Также МП стал обычным явлением при общении в интернете, когда очень важна высокая скорость перевода, понимания того, что сказал вам собеседник. Впрочем, о передаче литературных образов в таком случае можно смело забыть, если вы хотите, чтобы вас правильно понимали. Только «сухие» фразы, без каких-либо двусмысленностей.

Участие человека

Несмотря на создание различных подходов и решение вопросов с вычислительными мощностями, качество машинного перевода всё ещё далеко от идеального. Пусть даже успехи в этом деле и можно назвать впечатляющими, но только по сравнению с самыми первыми системами.

Современные СМП уже научились более-менее достойно переводить технические тексты, которые, как известно, не содержат в себе тех литературных вольностей, так часто встречающихся в текстах художественных. На качество перевода сильное влияние оказывает родственность языков. Например, при переводе с на результат будет куда более достойным, чем с на . Во втором случае полученный текст может оказаться просто нечитабельной бессмыслицей.

По этой причине машинный перевод пока не может обходиться без участия человека. Который либо изначально адаптирует текст, устраняя все возможные двусмысленности (предредактирование), либо редактирует уже готовый перевод, убирая из него почти неизбежные ошибки (постредактирование). Существует также и понятие интерредактирования, когда человек непосредственно вмешивается в работу системы, исправляя возникающие неточности «на лету».

Какие бывают СМП

На сегодняшний день работы в сфере МП разделились на два основных направления:

  • Статистический машинный перевод (Statistical Machine Translation, SMT) ;
  • Машинный перевод, основанный на правилах (Rule-based Machine Translation, RBMT) .

В первом случае перед нами самообучающиеся системы. Перевод становится возможным в результате постоянного анализа огромного количества текстов одинакового содержания, но на разных языках. Система находит и использует всегда существующие закономерности. Качество перевода в случае использования SMT считается достаточно высоким. Но только в том случае, если система уже успела проанализировать огромное количество информации. А для этого необходимо обладать не только самими тестами, но и внушительными вычислительными мощностями. Это означает, что работать в данном направлении могут только крупные компании. Примеры таких систем: Google Translator , Яндекс.Переводчик , а также Bing Translator от Microsoft.

В случае с RBMT-системами все правила создаются людьми, которые затем занимаются их непрестанным «обкатыванием». Соответственно качество результата зависит от того, насколько полно лингвисты сумеют описать естественный язык, с которым они работают. Именно необходимость постоянной поддержки созданной лингвистической базы данных в актуальном состоянии и является главным недостатком RBMT-систем. Зато для создания переводчика, способного обеспечить удовлетворительный результат, не требуются внушительные вычислительные мощности, что позволяет работать в данном направлении небольшим компаниям. В качестве примеров можно привести такие системы, как Multillect , Linguatec и PROMT .

Можно также выделить ещё и третий вариант: гибридный машинный перевод (Hybrid Machine Translation, HMT) . Этот метод объединяет в себе оба подхода, SMT и RBMT. В теории такой подход позволяет получить преимущества обеих технологий. Именно его использует компания Systran , основанная в 1968 году и считающаяся старейшим коммерческим предприятием, работающим в сфере МП.

Машинный перевод: краткая история

Еще выдающийся математик XIX века Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке "вычислительной машины". В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. Однако эта идея так и осталась нереализованной [Шаляпина 1996: 105].

Датой рождения машинного перевода как исследовательской области обычно считают март 1947 г. Именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 г. меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. У. Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text" ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, - это взломать код, чтобы извлечь информацию, заключенную в тексте") [Слокум 1989: 56-58].

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva : стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

В те времена немногочисленные компьютеры использовались в основном для решения военных задач, поэтому неудивительно, что в США основное внимание уделялось русско-английскому, а в СССР - англо-русскому направлению перевода. К началу 50-х годов над проблемой автоматического перевода бился целый ряд исследовательских групп.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г. была представлена первая полноценная система машинного перевода - IBM Mark II, разработанная компанией IBM совместно с Джорджтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Очень ограниченная в своих возможностях система великолепно переводила 49 специально подобранных предложений с русского языка на английский с использованием словаря на 250 слов и шести грамматических правил.

Одной из новых разработок 70-80-х годов стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой.

С начала 80-х годов, когда персональные компьютеры уверенно и мощно начали завоевывать мир, время их работы подешевело, и доступ к ним можно было получить в любую минуту. МП стал экономически выгодным. К тому же в эти и последующие годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы МП остались нерешенными и по сей день.

90-е годы можно считать подлинной эпохой возрождения в развитии МП, что связано не только с высоким уровнем возможностей персональных компьютеров, но и с распространением Интернет, что обусловило реальный спрос на МП. Он вновь стал привлекательной областью вложения капиталов, как для частных инвесторов, так и для государственных структур .

С начала 1990-х годов на рынок систем ПК выходят российские разработчики.

В июле 1990 г. на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания ПРОМТ выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе) [Кулагин 1979: 324].

Что же касается самих систем машинного перевода, то следует отметить, что они прошли три стадии своего развития:

  • 1. "Электронные переводчики" первого поколения - системы прямого перевода (СПП) - представляли собой программно-аппаратные комплексы и анализировали текст "слово за словом" (смысловые связи и нюансы при этом практически не учитывались). Возможности СПП определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Именно к категории СПП относилась IBM Mark II, сделавшая принципиально возможным Джорджтаунский эксперимент.
  • 2. На смену СПП со временем пришли Т -системы (от английского Transfer - "преобразование"), в которых перевод осуществлялся на уровне синтаксических структур (так учат языку в средней школе). Они выполняли набор операций, позволяющих путем анализа переводимой фразы определять ее синтаксическую структуру по правилам грамматики входного языка, а затем преобразовывать ее в синтаксическую структуру выходного предложения и синтезировать новую фразу, подставляя нужные слова из словаря выходного языка. Работы в этом направлении сейчас уже не ведутся: практикой доказано, что реальная система соответствий сложнее и адекватный перевод требует принципиально иного алгоритма действий.
  • 3. Немногим позднее становящиеся все более многочисленными системы машинного перевода в зависимости от принципа их работы стали подразделять на МТ -программы (от Machine Translation - "машинный перевод") и ТМ -комплексы (от Translation Memory - "память переводов"). В качестве реально успешного примера МТ-программы назовем знаменитую канадскую систему METEO, выполняющую перевод метеопрогнозов с французского языка на английский и обратно (она была создана почти тридцать лет назад и эксплуатируется по сей день). Разработчики METEO сделали ставку на то, что действительно автоматизированный машинный перевод возможен только в условиях искусственно ограниченного (как по словарному запасу, так и по грамматике) языка. И добились успеха. Наиболее популярным в мире профессиональным TM -инструментом является пакет Translation"s Workbench фирмы TRADOS. Подобные программы используют в основном профессиональные переводчики, осознавшие выигрыш от частичной автоматизации своей работы с помощью компьютера при переводе повторяющихся текстов, сходных по тематике и структуре.

Основная идея Translation Memory - не переводить один и тот же текст дважды. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной "входной" базе. Когда система находит фрагмент, соответствующий заранее определенным критериям, то его перевод берется из "выходной" базы. Получаемый в итоге текст подлежит интенсивному постредактированию человеком [Марчук 1997: 21-22].

Выводы по Главе 1

В 1 главе мы рассмотрела, что такое перевод. Выделили его виды, формы и жанры. Так же рассмотрели машинный перевод. Затронув тему машинного перевода, мы рассмотрели его краткую историю, а так же какое место он занимает в общей классификации перевода. Выяснили, как работает программа-переводчик.

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П.П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). В марте 1947 г. Уоррен Уивер (Warren Weaver ), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation ), в переписке с Эндрю Бутом (Andrew D. Booth ) и Норбертом Винером (Norbert Wiener ) впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду.

У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text. " ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код, чтобы извлечь информацию, заключенную в тексте"). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны .

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva : стадия передачи информации разделена два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самой живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens ) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов . В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система МП - IBM Mark II , разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня . Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word ) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel ) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT ) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy . (Джон искал свою игрушечную коробку. Наконец он её нашёл. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen ). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee) , основываясь, в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS ) и финансировалась Мормонской церковью, заинтересованной в переводе Библии ; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO ; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху "Ренессанса". При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из "врага" и "конкурента" профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

О возрождении МП в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC ) покупает англо-французскую версию Systran , а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальяно-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA , основанного на разработках групп SUSY и GETA . Одновременно происходит быстрое расширение деятельности по созданию систем МП в Японии (главным образом основанных на технологии interligva , разработанной Уивером в конце 40-х гг.); в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM ); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.

За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Одной из новых разработок стала технология TM (translation memory) , работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге "не нужно дважды переводить одно и то же предложение!". В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM , является система TRADOS (основана в 1984 г.) .

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran , IBM , L&H (Lernout & Hauspie), Transparent Language , Cross Language , Trident Software , Atril , Trados , Caterpillar Co., LingoWare, Ata Software ; Lingvistica b.v. и др. (подробнее о зарубежных разработчиках МП и их системах ).

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks ; PROMT"s Online Translator ; LogoMedia.net ; Yahoo! Babel Fish ; InfiniT.com .

С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation) . В 1991 г. было создано ЗАО "ПРОект МТ" , и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows . В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT , а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT , одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite .

В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98 . Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet , и переводчик для корпоративных почтовых систем - PROMT Mail Translator . Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS) . В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000 .

Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT"s Online Translator , InfiniT.com и др.

Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, подробнее .

Прошлое и будущее машинного перевода. Основные даты
Впервые опубликовано на сайте Wired

1966 ALPAC публикует отчёт по машинному переводу с выводами о том, что годы исследований в этом направлении не принесли ожидаемого результата. Это привело прекращению финансирования государством программ развития МП.

1982 Джанет и Джим Бейкер основали фирму Dragon Systems (г. Ньютон, Массачусетс).

1983 Представлена автоматическая система обработки речи (ALPS ) - первая программа МП для микрокомпьютеров.

1988 Учёные из Исследовательского центра Томаса Дж. Уотсона компании IBM возвращаются к разработке статистического метода МП, при котором сравниваются параллельные тексты и подсчитывается вероятность соответствия слов.

1990 Dragon Systems выпускает программу DragonDictate , первую систему преобразования устной речи в письменную, способную распознавать 30 тысяч слов.

DAPRA запускает программу "Системы разговорной речи" (SLS ) с целью разработки приложений, обеспечивающих голосовое взаимодействие между человеком и машиной.

1991 Появилась первая рабочая станция переводчика, объединяющая программы STAR"s Transit , IBM"s TranslationManager , Canadian Translation Services" PTT и Eurolang"s Optimizer .

1992 ART-ITL основала Консорциум исследований в области перевода с естественных языков (C-STAR ), который организует первую публичную демонстрацию телефонного перевода между английским, немецким и японским языками.

1993 В Германии идет работа над проектом Verbmobil . Исследователи сосредоточили свое внимание на переносных системах обеспечения перевода деловых переговоров с английского на немецкий и японский.

2264 "Человек глуп, как мешок опилок" , заявило Устройство 296. "Только абсолютно наивным учёным могло прийти в голову разработать технологию для понимания того, что произносят эти неопрятные куски протоплазмы. В шуме, который они производят из отверстий в голове, решительно намного меньше смысла, чем в космическом излучении" .

Составители: Кристин Демос ([email protected]) и Марк Фраунфельдер ([email protected]). 1629-2000: K. D.; 2001-2264: M. F.

Андреева Елена Владимировна

хостинг для сайтов Langust Agency 1999-2019, ссылка на сайт обязательна

Обзор продуктов

С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

Кому и зачем нужен машинный перевод

В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

PROMT Translation Office 2000

PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

В PROMT входят следующие коллекции словарей:

  • «Легкая промышленность» (180 долл.);
  • «Тяжелая промышленность» (180 долл.);
  • «Коммерция» (99 долл.);
  • «Наука» (120 долл.);
  • «Техника» (199 долл.).

Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

Система PROMT включает следующие модули:

  • PROMT- профессиональная среда для перевода;
  • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
  • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
  • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
  • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
  • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
  • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
  • «Интегратор» - средство доступа ко всем приложениям пакета.

Перевод документа в системе PROMT

Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

  • Lingvo 6.0 (программа фирмы ABBYY);
  • «Контекст 3.0» (программа фирмы «Информатик»);
  • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
  • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

Для перевода HTML-документов в комплект поставки входит браузер WebView.

Последовательность действий при выполнении перевода

  1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
  2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
  3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
  4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
  5. Уточните тематику документа, настроив ее компоненты:
    • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
    • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
    • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
    • отметьте абзацы, не требующие перевода.
  6. Переведите текст (сразу весь документ или по абзацам).
  7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
  8. Воспользуйтесь электронным словарем для уточнения значений слов.
  9. Сохраните результаты перевода.

Системные требования

  • IBM PC-совместимый компьютер с процессором P166 или выше;
  • 32 Мбайт оперативной памяти;
  • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
  • видеоадаптер SVGA или лучшего разрешения;
  • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
  • мышь или совместимое устройство;
  • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
  • Microsoft Internet Explorer 5.x (входит в поставку).
  • IBM PC-совместимый компьютер с процессором PII-300 или выше;
  • 64 Мбайт оперативной памяти

Перевод документа в системе «Сократ Персональный»

Вид главного окна программы показан на рис. 6 .

При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

С помощью словаря вы можете получить перевод искомого слова следующими способами:

  • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
  • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
  • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
  • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
  • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

Перевод слов или текста из других приложений

В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
  • Операционная система Windows 98/Me или Windows NT/2000;
  • 32 Мбайт оперативной памяти;
  • 16 Мбайт свободного места на жестком диске.

Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

«Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

Lingvo 7.0

Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

Основные особенности Lingvo:

  • перевод 1,2 млн. слов и словосочетаний;
  • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
  • современная лексика;
  • вызов словаря из любого Windows-приложения;
  • совершенная система поиска;
  • 5 тыс. английских слов озвучено диктором из Оксфорда;
  • возможность создания собственных пользовательских словарей;
  • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
  • подробные толкования и объяснения употребления слов;
  • современные лингвистические технологии;
  • новые дополненные версии общих и специализированных словарей.

Системные требования

Минимальная конфигурация компьютера:

  • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
  • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
  • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
  • от 85 до 265 Мбайт свободного пространства на жестком диске;
  • дисковод 3.5” и CD-ROM-устройство, мышь;
  • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
  • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

Контекст 4.0

«Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

«Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

МультиЛекс 3.5

«МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

«МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

Особенности словаря «МультиЛекс»:

  • удобство и простота в использовании;
  • озвучивание большого количества словарных статей;
  • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
  • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
  • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
  • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
  • словарь пользователя.

Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

  • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
  • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
  • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

Резюме

В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

КомпьютерПресс 9"2001

Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 году в Джорджтаунском университете (Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода. И хотя с тех пор прошло более полстолетия, проблема машинного перевода всё еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты машинного перевода в конце пятидесятых – начале шестидесятых годов. Поэтому, оценивая сегодняшнюю реальность приходится говорить как о достижениях, так и разочарованиях.

Мы уже говорили о том, что для того, чтобы научить машину переводу, на основе «порождающей семантики» и действующей языковой модели «смысл ↔ текст» была создана семантическая модель перевода. Задача состояла в том, чтобы снабдить электронный мозг достаточным количеством синонимов, конверсивов, синтаксических дериватов и семантических параметров, которыми он бы мог манипулировать в процессе перевода. А перевод в то время понимался лишь как процесс подстановки слов и словосочетаний одного языка вместо слов и словосочетаний другого языка.

Это было также время, когда лингвисты, работавшие в области машинного перевода, пытались описать естественный язык с помощью математических символов. В отличие от Ретцкера и Федорова, стремившихся установить имеющиеся закономерности на основе практических наблюдений, они ставили своей целью создание дедуктивной теории. Речь шла о разработке свода правил, применение которых к определенному набору языковых единиц могло бы привести к порождению осмысленного текста. Языковые единицы выступали в виде математических символов, которые в результате применения к ним названных правил, также выраженных математически, можно было расположить определенным образом. После декодирования комбинация символов превращалась в текст.

Ученые создали специальный язык, состоящий из математических символов, который мог быть использован машиной в качестве посредника при переходе от исходного текста к тексту перевода. Язык посредник это «метаязык» переводческой теории. В лингвистике под метаязыком обычно понимается «язык второго порядка», то есть язык на котором строятся рассуждения о естественном языке или каких либо других явлениях. Так, говоря о грамматике, мы пользуемся специальными словами, или терминами, и выражениями, а при обсуждении области медицины, применяем другой терминологический аппарат. Иными словами, метаязык, или «язык-посредник», перевода представляет собой комплекс структурно-лингвистических характеристик, позволяющих с достаточной полнотой описать процесс перевода.


По замыслу авторов теории машинного перевода в основе языка-посредника лежал концептуальный аппарат «порождающей семантики» и модели «смысл ↔ текст». Был подготовлен набор правил для преобразования поверхностных структур английского языка в ядерные предложения. Ученые далее ожидали, что с помощью языка-посредника машина легко преобразует глубинные структуры исходного языка в глубинные структуры переводящего языка, а затем и в его поверхностные структуры. Но полученные результаты не был полностью удовлетворительными. Качество машинного перевода оказалось очень низким и последующие попытки улучшит его к успеху на привели. В чем же была причина?

Как упоминалось ранее, ученые в то время, то есть в начале пятидесятых и середине шестидесятых годов прошлого века, ориентировались на лингвистическую теорию структурализма, основанную на описании и интерпретации языковых явлений строго в рамках внутриязыковых отношений и не допускающую выхода за пределы языковой структуры при анализе этих явлений. Они, конечно, знали то, что хорошо известно каждому переводчику-практику. А именно, важность учета конкретной обстановки, в которой протекает данный акт межъязыкового общения, а также ситуации, описываемой в переводимом сообщении. Эта информация с точки зрения качества переводного текста играет не меньшую роль, чем собственно языковые явления.

Для того, чтобы примирить это обстоятельство с требованием не выходить за рамки внутрилингвистических отношений, переводческую деятельность предлагалось разделить на два компонента - собственно перевод, осуществляемый по заданным правилам без обращения к внеязыковой действительности, отраженной в опыте или восприятии переводчика, и интерпретацию, включающую привлечение внелингвистических данных.

Но это явно идет в разрез с тем, что нам известно о реальных процессах обычного, то есть немашинного перевода. Для перевода, осуществляемого человеком характерно органическое и неразрывное единство собственно языковых и внеязыковых факторов. Дело в том, что в любом речевом произведении далеко не все выражено явно, или, как говорят лингвисты, эксплицитно. Многое обычно остается невыраженным, подразумеваемым. Всякое высказывание адресуется определенному лицу или определенной аудитории. Автор высказывания при этом исходит из того, что его слушатели или читатели обладают достаточными знаниями для того, чтобы однозначно интерпретировать то или иное сообщение без уточняющих подробностей.

Таким образом, машинный перевод, основанный только на анализе формально-структурных закономерностей исходного текста, не позволяет вскрыть взаимодействие лингвистических и внелингвистических факторов и, тем самым, оставляет без внимания важнейшую составляющую межъязыкового общения. В этом и заключалась основная причина его неудовлетворительного качества.

Многими исследователями признают, что и по состоянию на настоящее время в машинном переводе не произошло каких-либо прорывов в деле реализации иных моделей, несмотря на то, что возможности компьютеров по сравнению с началом работ по машинному переводу многократно возросли, и возникли новые языки программирования, гораздо более удобные для реализации программ по созданию машинного перевода. Все дело, по-видимому, в том, что интерпретация языковых знаков по отношению к внеязыковой действительности во многих отношениях носит интуитивный характер и осуществляется бессознательно, или, как говорят, «на подкорке», а то, что делается бессознательно не может быть формализовано и передано машине в виде программного обеспечения. Поэтому машинный перевод до сих пор требует после себя человеческого редактора и служит источником многочисленных переводческих шуток.

Так, однажды машине было предложено перевести на английский язык, а затем тут же обратно на русский пословицу «С глаз долой из сердца вон». Окончательный вариант был таким: «Невидимый идиот». Почему? Потому, что соответствующая английская пословица гласит: «Outofsight- outofmind». Машина нашла её без труда. Но при обратном переводе этой пословицы на русский язык она пошла по неправильному пути. Дело в том, что в русском языке имеются прямые соответствия обоим компонентам английской фразы: Out of sight - передается словом «невидимый», тогда как английскому outofmindсоответствует русские слова «сумасшедший, безумный, идиот». Машина этими соответствиями и воспользовалась. Она просто не догадалась, что обе названные составляющие английской фразы должны передаваться не по отдельности, а как единое целое. По причине отсутствия у нее «человеческого фактора».

В целом уровень качества машинного перевода сугубо информативных текстов, контрактов, инструкций, научных докладов и т.п. значительно выше, чем текстов публицистического характера. Приведемнесколькопримеров:

Payments under this contract for the equipment listed in supplement 1 to the contract shall be effected as follows.

Платежи согласно этому контракту на оборудование, перечисленное в добавлении 1 к контракту должны быть произведены следующим образом.

Yet plenty of traps await Mr. Bush if he tries to do it alone.

Все же множество трапециевидных мышц ждет г. Буша, если он пробует идти это один.

The markets, given more and sooner than they had any reason to expect, were surprised all right.

Рынки, данные больше и скорее, чем они имели причину ожидать, удивленный хорошо.

Всё сказанное ранее позволяет сделать вывод и том, что пионеры машинного перевода и их ближайшие последователи достигли значительных успехов этой области. Но многие важнейшие проблемы им всё же решить не удалось. В этой связи представляет интерес высказывание руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото. В одной из своих статей, опубликованных в 1982 году, он сделал такое заявление: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже».

В том же году профессор Нагао опубликовал статью, в которой предложил новую концепцию машинного перевода. Согласно этой концепции тесты должны переводиться по аналогии с другими текстами, ранее переведенными вручную, то есть не машиной, а переводчиком. Для этой цели должен быть сформирован большой массив тематически сходных текстов и их переводов (билингвов), которые затем будут введены в сверхмощную многопроцессорную ЭВМ. В процессе перевода новых текстов из массива билингвов должны выбираться аналоги фрагментов этих текстов, которые можно будет использовать для формирования конечного текста. М.Нагао назвал свой подход к машинному переводу «Examplebasedtranslation» (перевод, основанный на примерах), а традиционный подход - «Rulebasedtranslation» (перевод по правилам).

Концепция Макото Нагао перекликается с получившей в последнее время широкое распространение концепцией «TranslationMemory» (память переводов), именуемой иногда как «SentenceMemory» (накопитель предложений). Сущность этой концепции заключается в следующем. При подготовке иноязычных вариантов каких-либо документов (например, эксплуатационной документации на продукцию машиностроительного завода) сначала их перевод выполняется вручную переводчиками высшей квалификации. Затем оригиналы документов и их переводы на иностранный язык вводятся в ЭВМ, расчленяются на отдельные предложения или фрагменты предложений, и из этих элементов строится база данных, которая далее загружается в поисковую систему. При переводе новых текстов поисковая система отыскивает в них предложения и части предложений, аналогичные тем, которые у неё имеются и вставляет их в нужные места переводимого текста. Таким образом в автоматическом режиме получается качественный перевод тех фрагментов нового текста, которые имеются в базе данных.

Не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов снова вводятся в базу данных. По мере перевода все новых и новых документов, «память переводов» постепенно обогащается, и её эффективность возрастатет.

Бесспорным достоинством технологии «память переводов» является высокое качество переводов того класса текстов, для которого она создавалась. Но база переводных соответствий, построенная для однородных текстов одного предприятия, пригодна лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов.

На преодоление этого ограничения «памяти переводов» и, что особенно важно, выход из того тупика, куда, судя по всему, зашла семантическая теория, направлена новая концепция машинного перевода, названная «фразеологической теорией машинного перевода». Главной особенностью этой концепции является мысль о том, что при переводе в качестве основных и наиболее устойчивых единиц смысла следует рассматривать не семантические компоненты, являющиеся неотъемлемой частью языка, а понятия, связанные с языком через языковые значения, но при этом выступающие в качестве самостоятельной формы осмысления человеком окружающего материального мира. Таким образом делается первый шаг к тому, чтобы научить машину оперировать не только языковыми, но и внеязыковыми аспектами перевода.

Напомню, что сознание человека способно отражать окружающий мир в форме двух сигнальных систем, Первая сигнальная система воспринимает окружающий мир через органы чувств. В результате воздействия на один из органов чувств (зрение, слух, осязание, обоняние, вкус) возникает ощущение. На основе совокупности ощущений, связанных с определенным объектом, у человека возникает целостное восприятие этого объекта. Воспринятый объект может храниться в памяти в виде соответствующего представления о нем уже без непосредственного чувственного контакта.

Вторая сигнальная система, позволяет человеку, абстрагируясь от конкретных объектов, формировать обобщенные понятия об окружающем мире. В понятии различается его объем, то есть класс объектов, обобщенных в понятии, и содержание понятия - признаки объектов, через которые осуществлено обобщение. Понятиями люди оперируют в процессе общения. Для этого за каждым понятием закрепляются определенные ярлыки - их наименования в виде отдельных слов или (что значительно чаще) словосочетаний. Причем в разных языках для обозначения одних и тех же понятий могут использоваться разные признаки (snowdrop- подснежник, eye- dog- собака-поводырь, vacuumcleaner- пылесос).

С учетом изложенных принципов, система фразеологического машинного перевода в общих чертах выглядит следующим образом. Как уже было сказано, наиболее устойчивыми элементами текста являются наименования понятий. В процессе перевода производится замена наименования понятий исходного текста на наименования этих единиц смысла на переводящем языке и оформление полученного таким образом нового текста в соответствие с грамматическими нормами переводящего языка. Как и в системах «Translationmemory», используется принцип аналогии - слова, словосочетания и фразы, отображающие типовые ситуации, переводятся по аналогии с ранее выполненными переводами этих единиц. Различие между ними состоит в том, что в системах типа «память переводов» используются не такие устойчивые отрезки текста, как понятия и типовые ситуации, а все предложения, встречающиеся в исходном тексте.

Из сказанного следует, что машинные словари являются наиболее важным компонентом систем фразеологического машинного перевода. Количество различных слов в таких языках, как русский и английский, превосходит один миллион, а количество относительно устойчивых фразеологических словосочетаний исчисляется сотнями миллионов. Фразеологические словари такого объёма быстро создать не удастся. Так, объём словаря одной из современных систем «RetransVista» составляет 3 млн. 300 тыс. словарных статей.

Составление фразеологических словарей больших объёмов потребует значительных временных затрат, поэтому в системах машинного перевода постоянным спутником фразеологических словосочетаний будут и отдельные слова. Для их перевода, как говорилось, используются положения семантической модели, качество машинного перевода при этом вызывает много нареканий.

Это, безусловно, так, но пословный перевод текстов значительно лучше, чем

отсутствие всякого перевода.

Отсюда, как считают многие специалисты в этой области, единственная разумная перспектива для систем машинного перевода в XXI веке - это сочетание фразеологического и пословного семантического перевода. При этом удельный вес удельный вес фразеологического перевода, по-видимому, должен постоянно возрастать, а удельный вес семантического перевода - постоянно уменьшаться.

Как показывает опыт, системы машинного перевода должны быть ориентированы прежде всего на перевод деловых текстов в области науки, техники, политики и экономики. Перевод художественных текстов - более сложная задача. Но и здесь в будущем можно достичь определённого успеха, если найдутся энтузиасты типа Владимира Даля, которые с помощью современных технических средств возьмут на себя нелёгкий труд по составлению мощных фразеологических словарей для этого типа текстов.

Дополнительная литература.

1. Белоногов Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. Сб. «Проблемы кибернетики», № 28, 1974.

2. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. Сб. «Перевод в современном мире», М., ВЦП, 2001, стр. 60-69.