Zur Übersetzung von Informationen in Maschinensprache wird verwendet. Die wichtigsten Phasen in der Entwicklung der maschinellen Übersetzung. Vollautomatische maschinelle Übersetzung



Von A. A. Taraskin erstelltes Material


Computerübersetzung ist eine schwierige, aber interessante wissenschaftliche Aufgabe. Die Hauptschwierigkeit liegt darin, dass natürliche Sprachen schwer zu formalisieren sind. Daher die geringe Qualität des mit Hilfe von MP-Systemen gewonnenen Textes, dessen Inhalt und Form stets Gegenstand von Witzen sind. Allerdings reicht die Idee der maschinellen Übersetzung weit zurück. Die Idee der Möglichkeit der maschinellen Übersetzung wurde erstmals von Charles Babbage geäußert, der zwischen 1836 und 1848 entwickelte. Digitales Analyse-Engine-Projekt. Die Idee von Charles Babbage war, dass ein Speicher von 1000 50-Bit-Dezimalzahlen (50 Gänge in jedem Register) zum Speichern von Wörterbüchern verwendet werden könnte. C. Babbage führte diese Idee als Rechtfertigung dafür an, von der britischen Regierung die notwendigen Mittel für die physische Verkörperung der Analytical Engine anzufordern, die er nie bauen konnte.

Und 100 Jahre später, im Jahr 1947, schrieb W. Weaver (Direktor der Naturwissenschaftlichen Abteilung der Rockefeller Foundation) einen Brief an Norbert Wiener. In diesem Brief schlug er vor, die Entschlüsselungstechnik zur Übersetzung von Texten einzusetzen. Dieses Jahr gilt als das Geburtsjahr der maschinellen Übersetzung. Im selben Jahr wurde ein Algorithmus zur wortweisen Übersetzung entwickelt, und 1948 schlug R. Richens eine Regel zur Aufteilung eines Wortes in einen Stamm und eine Endung vor. In den nächsten zwei Jahrzehnten entwickelten sich maschinelle Übersetzungssysteme rasant. Im Januar 1954 wurde das erste maschinelle Übersetzungssystem IBM Mark II auf einer IBM 701-Maschine vorgeführt. Doch 1967 erkannte eine eigens eingesetzte Kommission der US-amerikanischen National Academy of Sciences die maschinelle Übersetzung als unrentabel an, was die Forschung auf diesem Gebiet erheblich verlangsamte. Die maschinelle Übersetzung erlebte in den 70er Jahren einen neuen Aufschwung und wurde in den 80er Jahren aufgrund der vergleichsweise geringen Maschinenzeit wirtschaftlich rentabel.

In der UdSSR wurde die Forschung auf dem Gebiet der maschinellen Übersetzung jedoch fortgesetzt. Nach der Demonstration des IBM Mark II-Systems begann eine Gruppe von VINITI-Wissenschaftlern mit der Entwicklung eines maschinellen Übersetzungssystems für die BESM-Maschine. Die erste Probe einer Übersetzung aus dem Englischen ins Russische ging Ende 1955 ein.

Eine weitere Arbeitsrichtung entstand in der Abteilung für Angewandte Mathematik des Mathematischen Instituts der Akademie der Wissenschaften der UdSSR (heute M. V. Keldysh-Institut für Angewandte Mathematik, Russische Akademie der Wissenschaften) auf Initiative von A. A. Lyapunov. Die ersten von diesem Team entwickelten maschinellen Übersetzungsprogramme wurden auf der Strela-Maschine implementiert. Dank der Arbeit an der Schaffung von MT-Systemen hat sich eine Richtung wie die angewandte Linguistik herausgebildet.

In den 70er Jahren arbeitete eine Gruppe von Entwicklern von VINITI RAS unter der Leitung von Prof. an der Entwicklung von MT-Systemen. G.G. Belonogov. Ihr erstes MP-System wurde 1993 entwickelt und 1996 nach einer Reihe von Verbesserungen bei ROSAPO unter dem Namen Retrans registriert. Dieses System wurde von den Ministerien für Verteidigung, Kommunikation, Wissenschaft und Technologie verwendet.

Parallele Studien wurden im Labor für Ingenieurlinguistik des Staatlichen Pädagogischen Instituts Leningrad durchgeführt. A. I. Herzen (heute Pädagogische Universität). Sie bildeten die Grundlage des mittlerweile beliebtesten MP-Systems „PROMT“. Die neuesten Versionen dieses Softwareprodukts nutzen wissenschaftsintensive Technologien und basieren auf fortschrittlicher Übergangsnetzwerktechnologie und neuronalem Netzwerkformalismus.

Klassifizierung maschineller Übersetzungssysteme nach Larry Child

Neue Mitglieder des Fremdsprachenforums von CompuServe fragen oft, ob jemand ein gutes maschinelles Übersetzungsprogramm zu einem vernünftigen Preis empfehlen kann.

Die Antwort auf diese Frage lautet ausnahmslos „Nein“. Je nach Befragtem kann die Antwort zwei Hauptargumente enthalten: entweder, dass Maschinen nicht übersetzen können, oder dass maschinelle Übersetzung zu teuer sei.

Beide Argumente sind bis zu einem gewissen Grad gültig. Allerdings ist die Antwort alles andere als einfach. Bei der Untersuchung des Problems der maschinellen Übersetzung (MT) ist es notwendig, die verschiedenen Unterabschnitte dieses Problems getrennt zu betrachten. Die folgende Einteilung basiert auf Vorträgen von Larry Childs, die 1990 auf der International Conference on Technical Communication gehalten wurden:

Vollautomatische Übersetzung;

Automatisierte maschinelle Übersetzung mit menschlicher Beteiligung;

Eine von einer Person am Computer durchgeführte Übersetzung.

Vollautomatische maschinelle Übersetzung

Diese Art der maschinellen Übersetzung meinen die meisten Menschen, wenn sie von maschineller Übersetzung sprechen. Die Bedeutung hier ist einfach: Text in einer Sprache wird in den Computer eingegeben, dieser Text wird verarbeitet und der Computer gibt denselben Text in einer anderen Sprache aus. Leider stößt die Implementierung dieser Art der automatischen Übersetzung auf einige Hindernisse, die noch überwunden werden müssen.

Das Hauptproblem ist die Komplexität der Sprache selbst. Nehmen wir zum Beispiel die Bedeutung des Wortes „kann“. Neben der Hauptbedeutung des modalen Hilfsverbs hat das Wort „can“ als Substantiv mehrere offizielle und umgangssprachliche Bedeutungen: „Bank“, „Latrine“, „Gefängnis“. Darüber hinaus gibt es eine archaische Bedeutung dieses Wortes – „wissen oder verstehen“. Angenommen, dass es in der Zielsprache für jeden dieser Werte ein eigenes Wort gibt, wie kann ein Computer sie dann unterscheiden?

Wie sich herausstellt, wurden einige Fortschritte bei der Entwicklung von Übersetzungsprogrammen erzielt, die die Bedeutung anhand des Kontexts unterscheiden. Neuere Studien zur Analyse von Texten stützen sich stärker auf die Wahrscheinlichkeitstheorie. Allerdings ist die vollautomatische maschinelle Übersetzung von Texten mit umfangreichen Themen noch immer eine unmögliche Aufgabe.

Automatisierte maschinelle Übersetzung mit menschlicher Beteiligung.

Diese Art der maschinellen Übersetzung ist mittlerweile durchaus machbar. Wenn man von maschineller Übersetzung unter Beteiligung einer Person spricht, meint man in der Regel die Bearbeitung von Texten sowohl vor als auch nach der Verarbeitung durch einen Computer. Menschliche Übersetzer verändern Texte so, dass sie von Maschinen verstanden werden können. Nachdem der Computer die Übersetzung durchgeführt hat, wird die grobe maschinelle Übersetzung erneut bearbeitet, sodass der Text in der Zielsprache korrekt ist. Zusätzlich zu dieser Arbeitsreihenfolge gibt es MT-Systeme, die während der Übersetzung die ständige Anwesenheit eines menschlichen Übersetzers erfordern, der dem Computer hilft, besonders komplexe oder mehrdeutige Strukturen zu übersetzen.

Die vom Menschen unterstützte maschinelle Übersetzung ist in größerem Umfang auf Texte mit einem begrenzten Wortschatz und eng begrenzten Themen anwendbar.

Die Wirtschaftlichkeit des Einsatzes menschengestützter maschineller Übersetzung ist immer noch umstritten. Die Programme selbst sind in der Regel recht teuer und einige erfordern für ihre Funktion eine spezielle Ausrüstung. Die Vor- und Nachbearbeitung muss gelernt werden und ist kein angenehmer Job. Das Erstellen und Pflegen von Wortdatenbanken ist ein mühsamer Prozess und erfordert oft besondere Fähigkeiten. Für ein Unternehmen, das große Mengen an Texten in einem klar definierten Themenbereich übersetzt, kann die maschinelle Übersetzung mit menschlicher Unterstützung jedoch eine recht kostengünstige Alternative zur herkömmlichen menschlichen Übersetzung sein.

Übersetzung durch einen Menschen mithilfe eines Computers

Bei diesem Ansatz steht der menschliche Übersetzer im Mittelpunkt des Übersetzungsprozesses, während das Computerprogramm als Werkzeug betrachtet wird, das den Übersetzungsprozess effizienter und die Übersetzung präziser macht. Hierbei handelt es sich um gewöhnliche elektronische Wörterbücher, die eine Übersetzung des gewünschten Wortes liefern und es der Person ermöglichen, die richtige Option und die Bedeutung des übersetzten Textes auszuwählen. Solche Wörterbücher erleichtern den Übersetzungsprozess erheblich, erfordern jedoch vom Benutzer bestimmte Sprachkenntnisse und einen Zeitaufwand für die Umsetzung. Und doch wird der Übersetzungsprozess selbst erheblich beschleunigt und erleichtert.

Unter den Systemen, die den Übersetzer bei seiner Arbeit unterstützen, nehmen die sogenannten Translation Memory (TM)-Systeme den wichtigsten Platz ein. TM-Systeme sind ein interaktives Werkzeug zum Sammeln von Paaren äquivalenter Textsegmente in der Original- und der übersetzten Sprache in einer Datenbank mit der Möglichkeit ihrer anschließenden Suche und Bearbeitung. Diese Softwareprodukte zielen nicht auf den Einsatz hochintelligenter Informationstechnologien ab, sondern basieren im Gegenteil auf der Nutzung des kreativen Potenzials des Übersetzers. Im Laufe der Arbeit erstellt der Übersetzer selbst die Datenbank (oder erhält sie von anderen Übersetzern oder vom Kunden), und je mehr Einheiten sie enthält, desto höher ist die Rendite ihrer Nutzung.

Hier ist eine Liste der bekanntesten TM-Systeme:

Transit Schweizer Unternehmen Star,

Trados (USA),

Übersetzungsmanager von IBM,

Eurolang Optimizer der französischen Firma LANT,

DejaVu von ATRIL (USA),

WordFisher (Ungarn).

TM-Systeme ermöglichen es, die wiederholte Übersetzung identischer Textfragmente auszuschließen. Die Übersetzung eines Segments wird vom Übersetzer nur einmal durchgeführt. Anschließend wird jedes nachfolgende Segment auf Übereinstimmung (vollständig oder unscharf) mit der Datenbank überprüft. Wenn ein identisches oder ähnliches Segment gefunden wird, wird es als Übersetzung angeboten Möglichkeit.

Derzeit laufen Entwicklungen zur Verbesserung der TM-Systeme. Beispielsweise basiert der Kern des Transit-Systems von Star auf neuronaler Netzwerktechnologie.

Trotz der breiten Palette von TM-Systemen weisen sie einige gemeinsame Merkmale auf:

Ausrichtungsfunktion. Einer der Vorteile von TM-Systemen ist die Möglichkeit, bereits übersetzte Materialien zu diesem Thema zu verwenden. Die TM-Datenbank kann durch segmentweisen Vergleich der Original- und Übersetzungsdateien erhalten werden.

Verfügbarkeit von Import-Export-Filtern. Diese Eigenschaft stellt die Kompatibilität von TM-Systemen mit einer Vielzahl von Textverarbeitungs- und Veröffentlichungssystemen sicher und gibt dem Übersetzer eine relative Unabhängigkeit vom Kunden.

Mechanismus zur Suche nach unscharfen oder vollständigen Übereinstimmungen. Dieser Mechanismus ist der Hauptvorteil von TM-Systemen. Stößt das System beim Übersetzen eines Textes auf einen Abschnitt, der mit dem zuvor übersetzten identisch oder diesem nahe kommt, wird der bereits übersetzte Abschnitt dem Übersetzer als Variante der Übersetzung des aktuellen Abschnitts angeboten, die korrigiert werden kann. Der Grad des Fuzzy-Matchings wird vom Benutzer festgelegt.

Unterstützung für thematische Wörterbücher. Diese Funktion hilft dem Übersetzer, sich an das Glossar zu halten. Wenn ein übersetztes Segment ein Wort oder eine Phrase aus einem thematischen Wörterbuch enthält, wird es in der Regel farblich hervorgehoben und seine Übersetzung angeboten, die automatisch in den übersetzten Text eingefügt werden kann.

Mittel zur Suche nach Textfragmenten. Dieses Tool ist sehr praktisch, wenn Sie eine Übersetzung bearbeiten. Wenn im Laufe der Arbeit eine erfolgreichere Version der Übersetzung eines Textfragments gefunden wurde, kann dieses Fragment in allen TM-Segmenten gefunden werden, woraufhin die erforderlichen Änderungen nacheinander an den TM-Segmenten vorgenommen werden.

Natürlich haben TM-Systeme wie jedes Softwareprodukt ihre Vor- und Nachteile und ihren Umfang. Der Hauptnachteil von TM-Systemen sind jedoch ihre hohen Kosten.

Besonders praktisch ist der Einsatz von TM-Systemen bei der Übersetzung von Dokumenten wie Benutzerhandbüchern, Bedienungsanleitungen, Konstruktions- und Geschäftsdokumentationen, Produktkatalogen und anderen Dokumenten gleicher Art mit einer großen Anzahl von Treffern.

Maschinelle Übersetzungssysteme (MT)

Gemäß der obigen Klassifizierung besteht der Zweck dieser Arbeit darin, die MT-Systeme der zweiten Gruppe zu untersuchen und zu analysieren, da die MT-Systeme der ersten Gruppe in der Natur noch nicht existieren, und die Systeme der dritten Gruppe im Wesentlichen sind keine MT-Systeme, sondern erinnern eher an elektronische Wörterbücher.

MP-Systeme führen eine automatisierte Übersetzung des Textes durch. In diesem Fall sind die Übersetzungseinheiten Wörter oder Phrasen, und die neuesten Entwicklungen ermöglichen die Berücksichtigung der Morphologie des übersetzten Wortes. Entwickelte MT-Systeme führen die Übersetzung gemäß den vom Entwickler vorgegebenen und/oder vom Benutzer angepassten Übersetzungsalgorithmen durch.

Um eine maschinelle Übersetzung durchzuführen, wird ein spezielles Programm in den Computer eingeführt, das den Übersetzungsalgorithmus implementiert, der als eine Folge eindeutig und streng definierter Aktionen am Text verstanden wird, um Übersetzungsübereinstimmungen in einem bestimmten Sprachenpaar L1 – L2 zu finden eine bestimmte Übersetzungsrichtung (von einer bestimmten Sprache in eine andere). Das maschinelle Übersetzungssystem umfasst zweisprachige Wörterbücher, die mit den notwendigen grammatikalischen Informationen (morphologisch, syntaktisch und semantisch) ausgestattet sind, um die Übertragung von äquivalenten, Varianten- und Transformationsübersetzungskorrespondenzen sicherzustellen, sowie algorithmische grammatikalische Analysewerkzeuge, die alle für die automatische Übersetzung verwendeten formalen Grammatiken implementieren Textverarbeitung. . Es gibt auch eigenständige maschinelle Übersetzungssysteme, die für die Übersetzung in drei oder mehr Sprachen konzipiert sind, diese sind jedoch derzeit experimentell.

Am gebräuchlichsten ist die folgende Abfolge formaler Operationen, die eine Analyse und Synthese in einem maschinellen Übersetzungssystem ermöglichen:

1. In der ersten Phase wird Text eingegeben und die eingegebenen Wortformen (Wörter in einer bestimmten grammatikalischen Form, zum Beispiel der Dativ Plural) werden im Eingabewörterbuch (Wörterbuch der Sprache, aus der die Übersetzung erstellt wurde) mit Begleittext durchsucht morphologische Analyse, bei der die Zugehörigkeit dieser Wortform zu einem bestimmten Lexem (einem Wort als Wörterbucheinheit) ermittelt wird. Im Rahmen der Analyse können aus der Wortform auch Informationen über andere Organisationsebenen des Sprachsystems gewonnen werden.

2. Der nächste Schritt umfasst die Übersetzung von Redewendungen, Phraseologieeinheiten oder Stempeln eines bestimmten Fachgebiets (z. B. erhalten in der Englisch-Russischen-Übersetzung Phrasen wie „Fall von“) ein einziges digitales Äquivalent und werden von weiteren ausgeschlossen grammatikalische Analyse); Bestimmung der wichtigsten grammatikalischen (morphologischen, syntaktischen, semantischen und lexikalischen) Merkmale der Elemente des Eingabetextes (z. B. Anzahl der Substantive, Verbform, syntaktische Funktionen von Wortformen in diesem Text usw.), die innerhalb der Eingabe durchgeführt werden Sprache; Auflösung der Homographie (Umwandlung der Homonymie von Wortformen – beispielsweise kann die englische Runde ein Substantiv, ein Adjektiv, ein Adverb, ein Verb oder eine Präposition sein); lexikalische Analyse und Übersetzung von Lexemen. Normalerweise werden in dieser Phase einwertige Wörter von polysemantischen Wörtern (mit mehr als einem Übersetzungsäquivalent in der Zielsprache) getrennt. Anschließend werden einwertige Wörter anhand von Äquivalentlisten übersetzt und sogenannte Kontextwörterbücher verwendet um polysemantische Wörter zu übersetzen, deren Wörterbucheinträge Algorithmen zum Abfragen des Kontexts bei Vorhandensein/Fehlen von Kontextwertdeterminanten sind.

3. Die abschließende grammatikalische Analyse, bei der die notwendigen grammatikalischen Informationen unter Berücksichtigung der Daten der Zielsprache ermittelt werden (z. B. bei russischen Substantiven wie Schlitten, Schere muss das Verb trotz der Tatsache im Plural stehen). das Original kann eine Singularnummer haben).

4. Synthese der ausgegebenen Wortformen und Sätze im Allgemeinen in der Zielsprache.

Abhängig von den Merkmalen der Morphologie, Syntax und Semantik eines bestimmten Sprachpaars sowie der Übersetzungsrichtung kann der allgemeine Übersetzungsalgorithmus andere Stufen sowie Modifikationen dieser Stufen oder ihrer Reihenfolge, aber auch Variationen dieser Art umfassen in modernen Systemen sind in der Regel unbedeutend. Die Analyse und Synthese kann sowohl satzweise als auch für den gesamten im Speicher des Computers eingegebenen Text erfolgen; im letzteren Fall sorgt der Übersetzungsalgorithmus für die Definition sogenannter anaphorischer Verknüpfungen (zum Beispiel die Verbindung eines Pronomens mit dem Substantiv, das es ersetzt – sagen wir das Pronomen im mit dem Pronomen Wort in dieser Erklärung selbst in Klammern).

Derzeit gibt es zwei Konzepte für die Entwicklung von MT-Systemen:

1. Das Modell eines „großen Wörterbuchs mit komplexer Struktur“, das in den meisten modernen Übersetzungsprogrammen eingebettet ist;

2. Das „Bedeutungs-Text“-Modell, zuerst formuliert von A.A. Lyapunov, wurde jedoch noch in keinem kommerziellen Produkt implementiert.

Bis heute sind die bekanntesten maschinellen Übersetzungssysteme

PROMT 2000/XT von PROMT;

Retrans Vista von Vista und Advantis;

Sokrates - eine Reihe von Programmen der Firma Arsenal.

Derzeit lässt die Qualität der maschinellen Übersetzung zu wünschen übrig, und die bloße Existenz solcher Systeme wird noch richtiger als Gegenstand wissenschaftlicher Forschung wahrgenommen. In den meisten Fällen ist der Einsatz von MT-Systemen bei der Bearbeitung eines Projekts nicht gerechtfertigt, weil:

MT-Systeme liefern keine akzeptable Ausgabetextqualität. Eine höhere Qualität kann durch eine Vorkonfiguration des Systems erreicht werden (Produkte der PROMT XT-Serie bieten dem Benutzer hierfür viele Möglichkeiten), was bei kleinen Mengen übersetzter Texte völlig inakzeptabel ist, und/oder durch nachträgliche Bearbeitung, die nur die Geschwindigkeit verlangsamt funktionieren, wenn der Übersetzer die Blindmethode print verwendet.

MT-Systeme garantieren nicht die Einhaltung der Einheitlichkeit der Terminologie, insbesondere wenn ein Team von Übersetzern an einem großen Projekt arbeitet. Oder besser gesagt, sie können dies unter der Bedingung eines sehr sorgfältigen Umgangs mit Benutzerwörterbüchern garantieren, und darauf lohnt es sich nicht immer, zu rechnen.

In manchen Fällen hilft der Einsatz von MP-Systemen jedoch dennoch, den Zeitaufwand zu senken. Dies geschieht, wenn der Text sehr umfangreich ist und eine eintönige Terminologie enthält, was eine relativ schnelle Anpassung des MT-Systems daran ermöglicht. Dann wird die Bearbeitung des Textes nicht allzu viel Zeit in Anspruch nehmen. Allerdings sollten Sie in diesem Fall besonders auf den Stil des Übersetzungstextes achten. Bei der maschinellen Übersetzung handelt es sich um eine formale Übersetzung, daher besteht eine hohe Wahrscheinlichkeit, dass die syntaktischen Strukturen der Originalsprache nachvollzogen werden, was für Übersetzungen im Allgemeinen typisch ist und daher bei der Bearbeitung durchaus übersprungen werden kann.

Im Allgemeinen können MT-Systeme durchaus dort eingesetzt werden, wo die am stärksten standardisierte Sprache mit einfacher Grammatik und relativ kleinem Wortschatz verwendet wird. Ein recht erfolgreiches Projekt des MP-Systems ist das deutsche Programm Meteo, das Wettervorhersagen aus dem Französischen ins Englische und umgekehrt übersetzt. Um die Arbeit von Übersetzern und technischen Redakteuren zu erleichtern, hat Boeing einst einen Sprachstandard für das Verfassen technischer Dokumentation entwickelt, der als Boeing English bekannt ist.

MP Retrans Vista-System

Maschinelle Übersetzungssysteme für Texte von einer natürlichen Sprache in eine andere simulieren die Arbeit eines menschlichen Übersetzers. Ihre Wirksamkeit hängt in erster Linie davon ab, inwieweit sie die objektiven Gesetze der Funktionsweise von Sprache und Denken berücksichtigen. Leider sind diese Gesetze noch unzureichend erforscht. Bei der Lösung des Problems der maschinellen Übersetzung ist es notwendig, die reiche Erfahrung der internationalen Kommunikation und die von der Menschheit gesammelten Erfahrungen mit Übersetzungsaktivitäten zu berücksichtigen. Und diese Erfahrung zeigt, dass im Übersetzungsprozess zunächst Phraseologieeinheiten, die ganzheitliche Konzepte ausdrücken, und nicht einzelne Wörter als Hauptbedeutungseinheiten betrachtet werden. Es sind die Konzepte, die jene elementaren mentalen Bilder sind, mit denen Sie komplexere mentale Bilder aufbauen können, die dem übersetzten Text entsprechen.

Lassen Sie uns vereinbaren, maschinelle Übersetzungssysteme, in denen nicht einzelne Wörter, sondern Phraseologieeinheiten als grundlegende Mindestbedeutungseinheiten betrachtet werden, als Systeme der Phraseologiemaschinellen Übersetzung zu bezeichnen. In diesen Systemen können auch einzelne Wörter verwendet werden, sie gelten jedoch als Hilfsbedeutungseinheiten, auf die mangels besserer zurückgegriffen werden muss.

Das Phraseologie-Maschinenübersetzungssystem sollte eine Wissensdatenbank mit Übersetzungsäquivalenten für die gebräuchlichsten Phrasen, Phraseologiekombinationen und einzelnen Wörter sowie Softwaretools für die morphologische und syntaktische Analyse und Synthese von Texten sowie für die menschliche Bearbeitung umfassen. Bei der Übersetzung von Texten verwendet das System die in seiner Wissensdatenbank gespeicherten Übersetzungsäquivalente in der folgenden Reihenfolge: Zuerst wird versucht, die gesamte Phrase als integrale Einheit zu übersetzen; außerdem im Falle eines Scheiterns die in seiner Zusammensetzung enthaltenen Sätze; und schließlich erfolgt eine Wort-für-Wort-Übersetzung derjenigen Textfragmente, die mit den ersten beiden Methoden nicht übersetzt werden konnten. Fragmente des Ausgabetextes, die mit allen drei Methoden erhalten werden, müssen grammatikalisch konsistent miteinander sein (unter Verwendung der Verfahren der morphologischen und syntaktischen Synthese).

Die Prinzipien zum Aufbau von Systemen zur Phraseologie-Maschinenübersetzung von Texten wurden erstmals 1975 im Vorwort zu D. Schukows Buch „Wir sind Übersetzer“ formuliert. In vollständigerer Form wurden sie 1983 in dem Buch von G. G. Belonogov und B. A. Kuznetsov „Language Means of Automated Information Systems“ vorgestellt. Schließlich wurden 1993 zwei Artikel veröffentlicht, die ein auf diesen Prinzipien und Methoden basierendes maschinelles Übersetzungssystem für die automatisierte Zusammenstellung zweisprachiger Wörterbücher aus parallelen (russischen und englischen) Texten beschrieben. Die wichtigsten dieser Grundsätze sind:

1. Die Grundeinheiten der Sprache und Sprache, die zunächst in das Maschinenwörterbuch aufgenommen werden sollten, sollten Phraseologieeinheiten (Wortkombinationen, Phrasen) sein. Es können auch einzelne Wörter in das Wörterbuch aufgenommen werden, diese sollten jedoch nur in Fällen verwendet werden, in denen eine Übersetzung nur anhand von Ausdruckseinheiten nicht möglich ist.

2. Maschinelle Übersetzungssysteme sollten neben Phraseologieeinheiten, die aus kontinuierlichen Wortfolgen bestehen, auch sogenannte „Sprachmodelle“ verwenden – Phraseologieeinheiten mit „Leerräumen“, die mit verschiedenen Wörtern und Phrasen gefüllt werden können und so sinnvolle Sprachsegmente erzeugen .

3. Reale Texte, unabhängig von ihrer Zugehörigkeit zu dem einen oder anderen Themenbereich, sind in der Regel polythematisch, wenn sie einen ausreichend großen Umfang haben. Daher sollte ein Maschinenwörterbuch, das für die Übersetzung von Texten auch nur aus einem Fachgebiet gedacht ist, polythematisch sein, und noch mehr für die Übersetzung von Texten aus verschiedenen Fachgebieten. Es sollte vor allem auf der Grundlage der automatisierten Verarbeitung zweisprachiger Texte, die Übersetzungen voneinander sind, und im Laufe des Funktionierens von Übersetzungssystemen erstellt werden.

4. Neben dem großen polythematischen Hauptwörterbuch ist es ratsam, in Phraseologie-Maschinenübersetzungssystemen eine Reihe kleiner zusätzlicher thematischer Wörterbücher zu verwenden. Zusätzliche Wörterbücher sollten nur Informationen enthalten, die nicht im Hauptwörterbuch enthalten sind (z. B. Informationen über die vorrangigen Übersetzungsäquivalente von Phrasen und Wörtern für verschiedene Fachgebiete).

Basierend auf den beschriebenen Prinzipien hat VINITI RAS (siehe oben) zwei Systeme der Phraseologie-Maschinenübersetzung aufgebaut:

1) Russisch-Englisch-Übersetzungssystem (RETRANS)

2) Englisch-Russisches Übersetzungssystem (ERTRANS).

Beide Systeme haben den gleichen Aufbau und etwa den gleichen Umfang an Maschinenwörterbüchern. Daher betrachten wir nur das erste System.

Das RETRANS-System weist folgende Eigenschaften auf:

1. Umfang, Zweck, Funktionalität. Das System ist für die automatisierte Übersetzung wissenschaftlicher und technischer Texte aus dem Russischen ins Englische konzipiert. Das russisch-englische polythematische Maschinenwörterbuch des Systems enthält Terminologie aus den Natur- und Technikwissenschaften, der Wirtschaft, Wirtschaft, Politik, Gesetzgebung und Militärangelegenheiten. Es enthält insbesondere Begriffe und Ausdruckseinheiten in den folgenden Fachgebieten: Maschinenbau, Elektrotechnik, Energie, Verkehr, Luftfahrt. Kosmonautik, Robotik, Automatisierung und Radioelektronik, Computertechnik, Kommunikation, Mathematik, Physik, Chemie, Biologie, Medizin, Ökologie, Landwirtschaft, Bauwesen und Architektur, Astronomie, Geographie, Geologie, Geophysik, Bergbau, Metallurgie usw.

Die Übersetzung von Texten kann im automatischen und interaktiven Modus erfolgen.

2. Der Umfang des polythematischen Maschinenwörterbuchs: mehr als 1.300.000 Wörterbucheinträge; 77 Prozent davon sind Phrasen mit einer Länge von zwei bis siebzehn Wörtern. Der Umfang der zusätzlichen Maschinenwörterbücher (zum Aufbau des Systems für verschiedene Fachgebiete) beträgt mehr als 200.000 Einträge.

MP PROMT XT-System

PROMT-Softwareprodukte basieren auf der Lösung folgender grundlegender Probleme:

Erstens ist jedem klar, dass die Übersetzung umso besser ist, je größer das Wörterbuch ist, was bedeutet, dass das erste Problem das Problem der Erstellung großer Wörterbücher für Systeme ist.

Zweitens ist klar, dass das System Sätze übersetzen sollte wie: HALLO, WIE GEHT ES DIR? Das bedeutet, dass ein weiteres Problem darin besteht, dem System beizubringen, stabile Revolutionen zu erkennen.

Drittens ist es klar, dass ein zu übersetzender Satz nach bestimmten Regeln geschrieben wird, er wird nach bestimmten Regeln übersetzt, was bedeutet, dass es noch ein weiteres Problem gibt: alle diese Regeln in Form eines Programms zu schreiben. Das ist eigentlich alles.

Das Interessanteste ist, dass diese Probleme tatsächlich die Hauptprobleme bei der Entwicklung maschineller Übersetzungssysteme sind, aber eine andere Sache ist, dass die Methoden zu ihrer Lösung bei weitem nicht jedem bekannt und keineswegs so einfach sind, wie sie scheinen könnten.

Methoden zum Organisieren großer Datenbanken sind recht gut entwickelt, aber für die Übersetzung ist es genauso wichtig und vielleicht sogar noch wichtiger, die einem Datenbankelement zugeordneten Informationen richtig zu strukturieren und genau dieses Element richtig auszuwählen. Wie viele Einträge im Wörterbuch sollten beispielsweise dem gewöhnlichen russischen Wort „Programm“ entsprechen? Und ist ein großes Wörterbuch im Allgemeinen ein Wörterbuch, das viele Wörterbucheinträge enthält, oder ein Wörterbuch, das es Ihnen ermöglicht, viele Wörter aus einem Text zu erkennen? Offensichtlich trifft das Zweite eher zu. Um sowohl die Eingabe- als auch die Ausgabesprache im System zu beschreiben, muss daher eine formale Methode zur Beschreibung der Morphologie vorhanden sein, auf der die Auswahl einer Wörterbucheinheit basiert.

In fast allen Systemen, die den Anspruch erheben, als Übersetzungssysteme zu gelten, wird das Problem der Darstellung morphologischer Modelle auf die eine oder andere Weise gelöst. Einige Systeme können jedoch eine Million Wortformen mit einem Wörterbuchumfang von fünfzigtausend Wörterbucheinträgen erkennen, während andere mit einem Wörterbuchumfang von einhunderttausend Wörterbucheinträgen diese Hunderttausend erkennen können.

In den Systemen der PROMT-Familie wurde für alle Sprachen, die die Systeme beherrschen, eine in ihrer Vollständigkeit nahezu einzigartige morphologische Beschreibung entwickelt. Es enthält 800 Flexionstypen für die russische Sprache, mehr als 300 Flexionstypen für Deutsch und Französisch, und selbst für Englisch, das nicht zu den Flexionssprachen gehört, wurden mehr als 250 Flexionstypen identifiziert. Die Endungen für jede Sprache werden als Baumstrukturen gespeichert, was nicht nur eine effiziente Speichermethode, sondern auch einen effizienten Algorithmus für die morphologische Analyse bietet.

Darüber hinaus ermöglichte das verwendete Morphologiemodell die Entwicklung eines Expertensystems für den Benutzer – den Wörterbuchersteller. Dieses System automatisiert tatsächlich den Vorgang zum Hervorheben des Stamms und zum Bestimmen der Art der Flexion bei der Eingabe neuer Wörterbucheinträge.

Eine solche Möglichkeit gibt es in keinem der bestehenden maschinellen Übersetzungssysteme, selbst in so weit verbreiteten Systemen wie Power Translator (Globalink, USA), Language Assistant (MicroTac, USA) und TRANSEND (Intergaph, USA), bei denen Benutzer manuell konjugieren müssen Wörter für Aufgaben des morphologischen Modells flektieren.

Die Entwicklung einer Morphologiebeschreibung ermöglicht jedoch nur die Lösung des Problems, was die Überschrift eines Wörterbucheintrags ist, durch die die Texteinheit und die Wörterbucheinheit identifiziert werden. Die Identifizierung eines Wortes aus einem Text mit einem Wörterbucheintrag erfolgt jedoch nicht aus Gründen der Identifizierung, wie dies bei Buchstabierern oder elektronischen Wörterbüchern erforderlich ist, sondern es ist notwendig, dass das Programm die eigentlichen Übersetzungsvorgänge durchführt. Welche Informationen werden in einem Wörterbucheintrag benötigt und wie sollten die Übersetzungsregeln beschrieben werden, damit das Programm übersetzen kann?

In vielen MT-Systemen wurden in der Vergangenheit (wie auch heute) die Vokabularbeschreibung und die Algorithmusbeschreibung als Seiten desselben Problems betrachtet, die Lösung wurde jedoch in der Regel in der Einschränkung der betrachteten Welt gesucht, entweder grammatikalisch oder semantisch. Beispielsweise wurde anhand des Attributs „Zugehörigkeit zu einer Wortart“ eine Grammatik dieser Art beschrieben:

Nominalphrase ist ein Substantiv

Nominalphrase ist ein Adjektiv + Nominalphrase

Die Verbgruppe ist das Verb + die Nominalphrase

Der Satz ist eine Nominalphrase + eine Verbalphrase

Es ist klar, dass ein Teil natürlichsprachlicher Sätze durch eine solche Grammatik beschrieben wird, aber dieser Teil ist sehr unbedeutend und auf seiner Grundlage ist es unmöglich, zumindest einen echten Text korrekt zu analysieren und zu übersetzen. Andererseits können Sie effiziente Methoden zum Erstellen eines Konverters gemäß einer bestimmten Grammatik verwenden oder im schlimmsten Fall ein Programm schreiben, das durch Aufzählung Abhängigkeitsbäume für eine begrenzte Menge von Sätzen erstellt. Solche Systeme erhielten in gleicher Weise die Definition „experimentell“.

So oder so, aber aus solchen Projekten entstanden Übersetzungssysteme, die nun dem Endbenutzer angeboten werden. Dies sind Power Translator (Unternehmen Globallink) und Language Assistant (Unternehmen MicroTac) sowie TRANSEND (Unternehmen Intergraph).

Systeme der STYLUS- und PROMT-Familien bilden hier keine Ausnahme, da viele PROMT-Spezialisten Erfahrung mit dieser Art von Projekten hatten. Bei der Entwicklung von PROMT-Systemen kam jedoch erstmals ein wirklich revolutionärer Ansatz zur Anwendung, der beeindruckende Ergebnisse ermöglichte. Übersetzungssysteme der PROMT-Familie sind Systeme, die nicht auf sprachlichen, sondern auf kybernetischen Methoden basieren.

Es stellte sich heraus, dass es sehr produktiv ist, das Übersetzungssystem nicht als Übersetzer zu betrachten, dessen Aufgabe darin besteht, Texte zu übersetzen, die aus Sicht der Eingabegrammatik akzeptabel sind, sondern als ein komplexes System, dessen Aufgabe darin besteht, Ergebnisse zu erzielen beliebige Eingabedaten, auch für Texte, die für die Grammatik, mit der das System arbeitet, nicht korrekt sind.

Anstelle des akzeptierten linguistischen Ansatzes, der die Zuordnung sequentieller Prozesse der Analyse und Synthese eines Satzes impliziert, basierte die Systemarchitektur auf der Darstellung des Übersetzungsprozesses als Prozess mit einer „objektorientierten“ Organisation basierend auf einer Hierarchie von verarbeitete Satzbestandteile. Dadurch wurden PROMT-Systeme nachhaltig und offen.

Darüber hinaus ermöglichte dieser Ansatz die Verwendung verschiedener Formalismen zur Beschreibung der Übersetzung verschiedener Ebenen. Die Systeme arbeiten auch mit Netzwerkgrammatiken, die in ihrer Art erweiterten Übergangsnetzwerken ähneln, und prozeduralen Algorithmen zum Füllen und Transformieren von Rahmenstrukturen zur Analyse komplexer Prädikate.

Die Beschreibung eines lexikalischen Elements in einem Wörterbucheintrag, der eigentlich unbegrenzt groß ist und viele verschiedene Merkmale enthalten kann, ist eng mit der Struktur der Systemalgorithmen verknüpft und nicht auf der Grundlage der ewigen Antithese-Syntax - Semantik - aufgebaut, sondern auf Basis der Ebenen der Textbestandteile.

Gleichzeitig können die Systeme mit unvollständig beschriebenen Wörterbucheinträgen arbeiten, was ein wichtiger Punkt beim Öffnen von Wörterbüchern für den Benutzer ist, von dem man keinen subtilen Umgang mit sprachlichem Material verlangen kann.

Das erste maschinelle Übersetzungssystem, das 1991 von PROMT herausgebracht wurde, übersetzte Fachtexte für Software aus dem Englischen ins Russische. Sie benutzte ein kleines Wörterbuch mit etwa 17.000 Wörtern und Ausdrücken, arbeitete in einer DOS-Umgebung und verfügte nicht über Tools zur Benutzeranpassung. Aber selbst dieses erste System war ordnungsgemäß eingerichtet, und die aktuelle Technologie zur Entwicklung maschineller Übersetzungsalgorithmen, die von PROMT verwendet wird, hat keine wesentlichen Änderungen erfahren. Im Gegenteil: Der damals gefundene Ansatz erwies sich für eine Vielzahl von Sprachen als sehr fruchtbar.

Lassen Sie uns zunächst einige Definitionen erläutern: Mit der Entwicklung der maschinellen Übersetzung als Bereich der angewandten Linguistik erschienen auch Systemklassifikationen, und es wurde üblich, Übersetzungssysteme in Systeme vom Typ TRANSFER und Systeme vom Typ INTERLINGUA zu unterteilen. Diese Einteilung basiert auf den Besonderheiten architektonischer Lösungen für linguistische Algorithmen.

Übersetzungsalgorithmen für Systeme vom Typ TRANSFER bestehen aus drei Prozessen: Analyse des Eingabesatzes hinsichtlich der Strukturen der Eingabesprache, Umwandlung dieser Struktur in eine ähnliche Struktur der Ausgabesprache (TRANSFER) und anschließende Synthese des Ausgabesatzes entsprechend der resultierenden Struktur.

Systeme vom Typ INTERLINGUA gehen a priori vom Vorhandensein einer bestimmten Metasprache von Strukturen (INTERLINGUA) aus, in der im allgemeinen Fall alle Strukturen sowohl der Eingabe- als auch der Ausgabesprache beschrieben werden können; Daher wird davon ausgegangen, dass der Übersetzungsalgorithmus in einem System wie INTERLINGUA einfacher ist: Analyse des Eingabesatzes anhand der Metasprache und anschließende Synthese aus der Metastruktur des entsprechenden Satzes der Ausgabesprache. Die „einzige“ Schwierigkeit besteht in diesem Fall darin, die Metasprache selbst zu entwickeln und die natürliche Sprache angemessen zu beschreiben.

Obwohl diese Klassifizierung existiert und es unter Entwicklern maschineller Übersetzung als guter Ton gilt, zu fragen, um welche Art von PROMT-System es sich handelt, wurde bisher noch kein einziges echtes System entwickelt, das auf dem INTERLINGUA-Prinzip basiert.

Das PROMT-System ist keine Ausnahme und wir beantworten diese Frage: Unser System führt eine Übertragung vom Typ TRANSFER durch. Dies ist jedoch eine sehr einfache Antwort, sie spiegelt praktisch nicht die Architektur des PROMT-Systems wider. Und die Besonderheit besteht darin, dass diese Methode (TRANSFER) im System nicht in Übereinstimmung mit dem sprachlichen Standardansatz angewendet wird.

Tatsache ist, dass das Übersetzungssystem in der Regel unter Bedingungen unvollständig beschriebener Daten funktioniert, da die Sprache ein lebendiges System ist, das sich sehr schnell entwickelt: Ständig tauchen neue Wörter auf, neue Funktionen alter Wörter und zusammen mit neuen Entitäten Neue. Werte. Unter diesen Bedingungen ist die bestimmende strukturelle Eigenschaft von Übersetzungsalgorithmen ihre Widerstandsfähigkeit gegenüber beliebigen Eingabedaten, und anstelle von sequentiellem TRANSFER „a basieren die Algorithmen, die die Übersetzung im PROMT-System durchführen, auf einem hierarchischen Ansatz, der den Übersetzungsprozess in miteinander verbundene TRANSFERs unterteilt für verschiedene Analyseeinheiten.

Das System unterscheidet die Ebene lexikalischer Einheiten, die Ebene von Gruppen, die Ebene einfacher Sätze und die Ebene komplexer Sätze. Alle diese Prozesse sind miteinander verbunden und interagieren hierarchisch gemäß der Hierarchie der Texteinheiten und tauschen synthetisierte und geerbte Merkmale aus. Eine solche Anordnung von Algorithmen ermöglicht die Verwendung unterschiedlicher formaler Methoden zur Beschreibung von Algorithmen unterschiedlicher Ebenen.

Betrachten Sie die Ebene der lexikalischen Einheiten: Eine lexikalische Einheit ist ein Wort oder eine Phrase, die die Einheit der untersten Ebene darstellt. Sowohl in der Eingabe- als auch in der Ausgabesprache wird das Wort als Kombination aus Stamm und Endung beschrieben. Dies ermöglicht einerseits die Erkennung von Eingabewörtern und die Analyse der Eingabemorphologie und andererseits eine bequeme Synthese von Ausgabewörtern entsprechend ihrer morphologischen Informationen (Stamm, Flexionstyp und Endadresse in einer Reihe von Endungen davon). Typ). Wenn wir also Regeln für die Umwandlung eingegebener morphologischer Informationen in ausgegebene morphologische Informationen einführen, erfolgt die ÜBERTRAGUNG auf der morphologischen Ebene.

Auf der Gruppenebene werden komplexere Strukturen berücksichtigt: Gruppen von Substantiven, Adjektiven, Adverbien und komplexen Verbformen. Diese auf formalen Netzwerkgrammatiken basierende Analyseebene ist in der Lage, Gruppen zu syntaktischen Einheiten zu verbinden, die jeweils durch synthetisierte Strukturinformationen und das Hauptelement der Gruppe gekennzeichnet sind. Gemäß der in Form direkter Komponenten erhaltenen Eingabestruktur wird zusammen mit den synthetisierten Merkmalen die Ausgabegruppe als Satz lexikalischer Einheiten mit den Werten morphologischer Merkmale gebildet, die basierend auf den Ergebnissen der Gruppenanalyse vererbt werden können. Somit wird TRANSFER auf Gruppenebene implementiert.

Die Analyse einfacher Sätze als aus syntaktischen Einheiten bestehende Strukturen erfolgt auf Basis von Rahmenprädikatstrukturen, die effiziente Transformationen ermöglichen. Das Verb gilt als Hauptelement einfacher Sätze und seine Wertigkeit bestimmt die Füllung des entsprechenden Rahmens. Für jede Art von Frames gibt es ein bestimmtes Gesetz der Transformation in den Output-Frame und die Gestaltung von Aktanten. Somit wird TRANSFER auf Satzebene durchgeführt. Die Analyse komplexer Sätze ist bei der Bildung der Zeitvereinbarung und der korrekten Übersetzung von Konjunktionen erforderlich.

Redner: Irina Rybnikova und Anastasia Ponomareva.

Wir werden über die Geschichte der maschinellen Übersetzung sprechen und wie wir sie in Yandex verwenden.

Bereits im 17. Jahrhundert spekulierten Wissenschaftler über die Existenz einer Sprache, die andere Sprachen verbindet, und das ist wahrscheinlich zu lange her. Gehen wir noch einmal näher heran. Wir alle wollen die Menschen um uns herum verstehen – egal wo wir hinkommen – wir wollen sehen, was auf den Schildern steht, wir wollen Ankündigungen lesen, Informationen über Konzerte. Die Idee eines babylonischen Fisches beschäftigt Wissenschaftler, findet sich in der Literatur, im Kino – überall. Wir möchten die Zeit verkürzen, die wir für den Zugriff auf Informationen benötigen. Wir möchten Artikel über chinesische Technologie lesen, alle Websites verstehen, die wir sehen, und sie hier und jetzt erhalten.

In diesem Zusammenhang kann man nicht umhin, auch von maschineller Übersetzung zu sprechen. Dies hilft, dieses Problem zu lösen.

Als Ausgangspunkt gilt das Jahr 1954, als in den USA auf einer IBM 701-Maschine 60 Sätze zu allgemeinen Themen der organischen Chemie aus dem Russischen ins Englische übersetzt wurden, und das alles auf der Grundlage von 250 Glossarbegriffen und sechs grammatikalischen Regeln. Man nannte es das Georgetown-Experiment, und es schockierte die Realität so sehr, dass die Zeitungen voller Schlagzeilen waren, dass noch drei bis fünf Jahre vergingen und das Problem vollständig gelöst wäre und alle glücklich sein würden. Aber wie Sie wissen, kam es etwas anders.

Die regelbasierte maschinelle Übersetzung entstand in den 1970er Jahren. Es basierte auch auf zweisprachigen Wörterbüchern, aber auch auf den Regeln, die zur Beschreibung jeder Sprache beitrugen. Beliebig, aber mit Einschränkungen.

Für die Niederschrift der Regeln waren seriöse Sprachexperten erforderlich. Das ist eine ziemlich schwierige Aufgabe, sie konnte den Kontext immer noch nicht berücksichtigen und keine Sprache vollständig abdecken, aber sie waren Experten und eine hohe Rechenleistung war damals nicht erforderlich.

Wenn wir über Qualität sprechen, ist ein klassisches Beispiel ein Zitat aus der Bibel, das dann so übersetzt wurde. Noch nicht genug. Deshalb wurde weiter an der Qualität gearbeitet. In den 90er Jahren entstand ein statistisches Übersetzungsmodell, SMT, das von der probabilistischen Verteilung von Wörtern und Sätzen sprach, und dieses System unterschied sich grundlegend darin, dass es überhaupt nichts über die Regeln und die Linguistik wusste. Als Eingabe erhielt sie eine große Anzahl identischer Texte, gepaart in einer Sprache und einer anderen, und traf dann selbst Entscheidungen. Es war einfach zu warten, man brauchte keinen Haufen Experten und musste nicht warten. Es war möglich, das Ergebnis herunterzuladen und zu erhalten.

Die Anforderungen an eingehende Daten waren mit 1 bis 10 Millionen Segmenten recht durchschnittlich. Segmente – Sätze, kleine Phrasen. Aber es gab einige Schwierigkeiten und der Kontext wurde nicht berücksichtigt, alles war nicht ganz einfach. Und in Russland gab es zum Beispiel solche Fälle.

Mir gefällt auch das Beispiel der Übersetzungen von GTA-Spielen, das Ergebnis war großartig. Es war nicht alles an Ort und Stelle. Ein ziemlich wichtiger Meilenstein war 2016, als die neuronale maschinelle Übersetzung eingeführt wurde. Es war ein epochales Ereignis, das das Leben völlig auf den Kopf stellte. Mein Kollege sagte, nachdem er sich die Übersetzungen und deren Verwendung angeschaut hatte: „Cool, er spricht in meinen Worten.“ Und es war wirklich toll.

Was sind die Funktionen? Hohe Anforderungen am Eingang, Schulungsmaterial. Intern ist es schwierig, es aufrechtzuerhalten, aber es wurde für eine deutliche Qualitätssteigerung ins Leben gerufen. Nur eine qualitativ hochwertige Übersetzung löst die gestellten Aufgaben und erleichtert allen Prozessbeteiligten das Leben. Für diejenigen Übersetzer, die eine schlechte Übersetzung nicht korrigieren möchten, möchten sie neue kreative Aufgaben erledigen und der Maschine routinemäßige Musterphrasen geben .

Innerhalb der maschinellen Übersetzung gibt es zwei Ansätze. Expertenbewertung / sprachliche Analyse von Texten, d. h. Überprüfung durch echte Linguisten, Experten auf Bedeutungskonformität, Sprachkompetenz. In einigen Fällen wurden auch Experten inhaftiert, sie durften den übersetzten Text Korrektur lesen und beurteilen, wie wirksam er unter diesem Gesichtspunkt war.

Was sind die Merkmale dieser Methode? Eine Probeübersetzung ist nicht erforderlich, wir schauen uns jetzt den fertig übersetzten Text an und bewerten ihn in jeder Hinsicht objektiv. Aber es ist teuer und zeitaufwändig.

Es gibt einen zweiten Ansatz – automatische Referenzmetriken. Es gibt viele, jede mit Vor- und Nachteilen. Ich werde nicht weiter darauf eingehen, Sie können später mehr über diese Schlüsselwörter erfahren.

Was ist die Funktion? Tatsächlich handelt es sich hierbei um einen Vergleich übersetzter Maschinentexte mit einer Art Beispielübersetzung. Hierbei handelt es sich um quantitative Kennzahlen, die die Diskrepanz zwischen der beispielhaften Übersetzung und dem Geschehen aufzeigen. Es ist schnell, günstig und kann ganz bequem durchgeführt werden. Aber es gibt Funktionen.

Tatsächlich werden heute am häufigsten Hybridmethoden verwendet. Dabei wird zunächst etwas automatisch ausgewertet, dann die Fehlermatrix analysiert und anschließend eine fachsprachliche Analyse an einem kleineren Textkörper durchgeführt.

In letzter Zeit ist die Praxis immer noch weit verbreitet, dass wir dort keine Linguisten, sondern lediglich Benutzer anrufen. Eine Schnittstelle wird erstellt – zeigen Sie, welche Übersetzung Ihnen am besten gefällt. Oder wenn Sie zu Online-Übersetzern gehen, geben Sie Text ein und können oft darüber abstimmen, was Ihnen am besten gefällt, ob dieser Ansatz geeignet ist oder nicht. Tatsächlich trainieren wir jetzt alle diese Engines, und alles, was wir ihnen zur Übersetzung geben, verwenden sie zum Training und arbeiten an ihrer Qualität.

Ich möchte Ihnen erzählen, wie wir maschinelle Übersetzung in unserer Arbeit einsetzen. Ich erteile Anastasia das Wort.

Wir bei Yandex in der Lokalisierungsabteilung erkannten recht schnell, dass die Möglichkeiten der maschinellen Übersetzungstechnologie großartig sind, und beschlossen, sie in unseren täglichen Aufgaben zu nutzen. Wo haben wir angefangen? Wir beschlossen, ein kleines Experiment durchzuführen. Wir beschlossen, dieselben Texte mit einem herkömmlichen neuronalen Netzwerkübersetzer zu übersetzen und zusätzlich einen geschulten maschinellen Übersetzer zusammenzustellen. Zu diesem Zweck haben wir in den Jahren, in denen wir bei Yandex Texte in diese Sprachen lokalisiert haben, Textkorpora im Russisch-Englisch-Paar vorbereitet. Dann kamen wir mit diesem Textkorpus zu unseren Kollegen von Yandex.Translate und baten darum, die Engine zu trainieren.

Als die Engine trainiert war, haben wir die nächsten Texte übersetzt und, wie Irina sagte, die Ergebnisse mithilfe von Experten ausgewertet. Wir haben Übersetzer gebeten, sich die Lesekompetenz, den Stil, die Rechtschreibung und die Bedeutungsübertragung anzusehen. Der größte Wendepunkt kam jedoch, als einer der Übersetzer sagte: „Ich erkenne meinen Stil, ich erkenne meine Übersetzungen.“

Um diese Gefühle zu verstärken, haben wir uns entschieden, die statistischen Indikatoren zu berechnen. Zuerst haben wir den BLEU-Koeffizienten für Übertragungen berechnet, die über eine herkömmliche neuronale Netzwerk-Engine durchgeführt wurden, und diesen Wert erhalten (0,34). Es scheint, dass es mit etwas verglichen werden sollte. Wir gingen erneut zu unseren Kollegen von Yandex.Translate und baten sie zu erklären, welcher BLEU-Koeffizient als Schwelle für Übersetzungen gilt, die von einer echten Person erstellt wurden. Dies ist ab 0,6.

Dann beschlossen wir, die Ergebnisse anhand der trainierten Übersetzungen zu überprüfen. Habe 0,5 bekommen. Die Ergebnisse sind wirklich ermutigend.

Ich gebe ein Beispiel. Dies ist ein echter russischer Satz aus der Yandex.Direct-Dokumentation. Dann wurde es durch eine normale neuronale Netzwerk-Engine übersetzt und dann durch eine trainierte neuronale Netzwerk-Engine in unsere Texte. Schon in der ersten Zeile fällt uns auf, dass die traditionelle Werbeform für Yandex.Direct nicht erkannt wird. Und bereits in der trainierten neuronalen Netzwerk-Engine erscheint unsere Übersetzung, und sogar die Abkürzung ist fast korrekt.

Wir waren von den Ergebnissen sehr begeistert und kamen zu dem Schluss, dass es sich wahrscheinlich lohnt, die Maschinen-Engine auch in anderen Paaren, bei anderen Texten und nicht nur bei dieser grundlegenden technischen Dokumentation einzusetzen. Anschließend wurde über mehrere Monate hinweg eine Reihe von Experimenten durchgeführt. Angesichts der Vielzahl an Funktionen und Problemen sind dies die häufigsten Probleme, die wir lösen mussten.

Ich erzähle Ihnen mehr über jeden einzelnen.

Wenn Sie wie wir eine maßgeschneiderte Engine erstellen möchten, benötigen Sie eine relativ große Menge hochwertiger paralleler Daten. Eine große Engine kann auf eine Menge von 10.000 oder mehr Sätzen trainiert werden, in unserem Fall haben wir 135.000 parallele Sätze vorbereitet.

Nicht bei allen Textarten liefert Ihre Engine gleich gute Ergebnisse. In der technischen Dokumentation mit langen Sätzen, Strukturen, Benutzerdokumentationen und sogar in einer Benutzeroberfläche mit kurzen, aber eindeutigen Schaltflächen werden Sie höchstwahrscheinlich gut zurechtkommen. Aber vielleicht stoßen Sie wie wir auf Probleme im Marketing.

Wir haben ein Experiment durchgeführt, bei dem wir Musikwiedergabelisten übersetzten, und ein solches Beispiel erhalten.

Hier ist, was ein Maschinenübersetzer über Star-Fabrik-Damen denkt. Was sind die Trommler der Arbeit?

Bei der Übersetzung durch eine Maschinen-Engine wird der Kontext nicht berücksichtigt. Dies ist kein so lustiges, aber durchaus reales Beispiel aus der technischen Dokumentation von Yandex.Direct. Es scheint, als wären diese verständlich, wenn man die technische Dokumentation liest, sie sind technisch. Aber nein, der Maschinenmotor hat nicht angeschlagen.

Sie müssen auch berücksichtigen, dass die Qualität und Bedeutung der Übersetzung stark von der Originalsprache abhängt. Wir übersetzen den Satz aus dem Russischen ins Französische und erhalten ein Ergebnis. Wir erhalten einen ähnlichen Ausdruck mit derselben Bedeutung, jedoch aus dem Englischen, und erhalten ein anderes Ergebnis.

Wenn Sie, wie in unserem Text, über eine große Anzahl von Tags, Markups und einige technische Funktionen verfügen, müssen Sie diese höchstwahrscheinlich verfolgen, bearbeiten und einige Skripte schreiben.

Hier sind Beispiele für eine echte Phrase aus dem Browser. In Klammern stehen technische Informationen, die nicht übersetzt werden sollten, insbesondere Pluralformen. Im Englischen sind sie auf Englisch, im Deutschen sollen sie ebenfalls auf Englisch bleiben, sind aber übersetzt. Sie müssen diese Momente im Auge behalten.

Die native Engine weiß nichts über Ihre Namenskonventionen. Wir haben zum Beispiel eine Vereinbarung getroffen, dass wir Yandex.Disk überall auf Latein und in allen Sprachen nennen. Aber auf Französisch wird daraus eine CD auf Französisch.

Abkürzungen werden manchmal richtig erkannt, manchmal nicht. In diesem Beispiel wird BY, das auf die Zugehörigkeit zu den belarussischen technischen Anforderungen für Werbung hinweist, im Englischen in eine Präposition umgewandelt.

Eines meiner Lieblingsbeispiele sind neue und geliehene Wörter. Hier ist ein cooles Beispiel, das Wort Haftungsausschluss, „ursprünglich russisch“. Die Terminologie muss für jeden Teil des Textes überprüft werden.

Und noch eins, kein so großes Problem mehr – veraltete Rechtschreibung.

Früher war das Internet ein Novum, in allen Texten wurde es mit Großbuchstaben geschrieben, und als wir unsere Engine trainierten, war das Internet überall mit Großbuchstaben geschrieben. Jetzt, in einer neuen Ära, schreibt das Internet bereits mit einem kleinen Buchstaben. Wenn Sie möchten, dass Ihre Engine weiterhin das Internet nutzt, müssen Sie sie neu trainieren.

Wir haben nicht verzweifelt, wir haben diese Probleme gelöst. Zuerst haben wir die Textkorpora geändert und versucht, zu anderen Themen zu übersetzen. Wir haben unsere Kommentare an unsere Kollegen von Yandex.Translate weitergeleitet, das neuronale Netzwerk neu trainiert und die Ergebnisse angeschaut, ausgewertet und um Verbesserungen gebeten. Zum Beispiel Tag-Erkennung, HTML-Markup-Verarbeitung.

Ich zeige reale Anwendungsfälle. Wir sind gut in der maschinellen Übersetzung technischer Dokumentationen. Das ist ein echter Fall.

Hier ist der Satz auf Englisch und Russisch. Der Übersetzer, der diese Dokumentation bearbeitet hat, war von der adäquaten Wahl der Terminologie sehr begeistert. Ein anderes Beispiel.

Der Übersetzer schätzte die Wahl von is anstelle eines Bindestrichs, der die Struktur der Phrase ins Englische veränderte, einer adäquaten Wahl des Begriffs, der korrekt ist, und des Wortes you, das nicht im Original vorkommt, aber diese Übersetzung ausmacht genau Englisch, natürlich.

Ein weiterer Fall sind Schnittstellenübersetzungen im laufenden Betrieb. Einer der Dienste hat beschlossen, sich nicht um die Lokalisierung zu kümmern und die Texte direkt beim Herunterladen zu übersetzen. Aber nach dem Motorwechsel, etwa einmal im Monat, änderte sich das Wort „Lieferung“ im Kreis. Wir schlugen vor, dass das Team keine normale neuronale Netzwerk-Engine anschließt, sondern unsere, die in der technischen Dokumentation geschult ist, sodass immer derselbe Begriff verwendet wird, der mit dem Team vereinbart wurde und bereits in der Dokumentation enthalten ist.

Wie wirkt sich das alles auf das Geld aus? Traditionell ist es so, dass im russisch-ukrainischen Paar nur eine minimale Bearbeitung der ukrainischen Übersetzung erforderlich ist. Deshalb haben wir uns vor ein paar Monaten entschieden, auf ein Post-Editing-System umzusteigen. So wächst unsere Wirtschaft. Der September ist noch nicht vorbei, aber wir schätzen, dass wir unsere Nachbearbeitungskosten auf Ukrainisch um etwa ein Drittel reduziert haben und wir werden fast alles außer Marketingtexten bearbeiten. Irinas Wort zum Zusammenfassen.

Irina:
- Es wird jedem klar, dass es notwendig ist, dies zu nutzen, es ist bereits unsere Realität und kann nicht aus unseren Prozessen und Interessen ausgeschlossen werden. Aber Sie müssen über ein paar Dinge nachdenken.

Entscheiden Sie über die Art der Dokumente und den Kontext, mit dem Sie arbeiten. Ist diese Technologie das Richtige für Sie?

Zweiter Moment. Wir haben über Yandex.Translate gesprochen, weil wir ein gutes Verhältnis haben, direkten Zugang zu Entwicklern haben usw., aber tatsächlich müssen Sie entscheiden, welche der Engines speziell für Sie, Ihre Sprache, Ihr Thema am besten geeignet ist Gegenstand. Dieses Thema wird im Mittelpunkt des nächsten Berichts stehen. Seien Sie darauf vorbereitet, dass es immer noch Schwierigkeiten gibt. Die Engine-Entwickler arbeiten alle zusammen, um die Schwierigkeiten zu lösen, aber vorerst treten sie immer noch auf.

Wir möchten verstehen, was uns in Zukunft erwartet. Tatsächlich ist dies jedoch nicht mehr die Zukunft, sondern unsere Gegenwart, das, was hier und jetzt geschieht. Vielmehr brauchen wir alle eine Individualisierung unserer Terminologie, unserer Texte, und das wird jetzt öffentlich. Jetzt arbeiten alle daran, sicherzustellen, dass Sie nicht in das Unternehmen eindringen und nicht mit den Entwicklern einer bestimmten Engine verhandeln, wie Sie diese für Sie optimieren können. Sie können es über die API in öffentlichen, offenen Engines abrufen.

Bei der Personalisierung geht es nicht nur um Texte, sondern auch um die Terminologie, also um die Anpassung der Terminologie an Ihre eigenen Bedürfnisse. Das ist ein ziemlich wichtiger Punkt. Das zweite Thema ist die interaktive Übersetzung. Wenn ein Übersetzer einen Text übersetzt, ermöglicht ihm die Technologie, die nächsten Wörter anhand der Ausgangssprache, des Ausgangstextes, vorherzusagen. Dies kann die Arbeit erheblich erleichtern.

Über das, was jetzt wirklich teuer ist. Jeder denkt darüber nach, wie man einige Engines mit kleineren Textmengen viel effizienter trainieren kann. Das passiert überall und wird überall ins Leben gerufen. Ich denke, das Thema ist sehr interessant und wird in Zukunft noch interessanter.

Die ersten Experimente zur maschinellen Übersetzung, die die grundsätzliche Möglichkeit ihrer Umsetzung bestätigten, wurden 1954 an der Georgetown University (Washington, USA) durchgeführt. Kurz darauf begannen in den Industrieländern der Welt Forschungs- und Entwicklungsarbeiten zur Schaffung maschineller Übersetzungssysteme. Und obwohl seitdem mehr als ein halbes Jahrhundert vergangen ist, ist das Problem der maschinellen Übersetzung immer noch nicht auf dem richtigen Niveau gelöst. Es stellte sich heraus, dass es viel schwieriger war, als es sich die Pioniere und Enthusiasten der maschinellen Übersetzung in den späten Fünfzigern und frühen Sechzigern vorgestellt hatten. Daher muss man bei der Beurteilung der heutigen Realität sowohl über Erfolge als auch über Enttäuschungen sprechen.

Wir haben bereits gesagt, dass, um der Maschine das Übersetzen beizubringen, ein semantisches Übersetzungsmodell auf der Grundlage der „generativen Semantik“ und des aktuellen Sprachmodells „Bedeutung ↔ Text“ erstellt wurde. Die Aufgabe bestand darin, das elektronische Gehirn mit einer ausreichenden Anzahl an Synonymen, Konversationen, syntaktischen Ableitungen und semantischen Parametern zu versorgen, die es während des Übersetzungsprozesses manipulieren konnte. Und unter Übersetzung wurde damals nur ein Prozess verstanden, bei dem Wörter und Phrasen einer Sprache durch Wörter und Phrasen einer anderen Sprache ersetzt wurden.

Dies war auch die Zeit, als Linguisten, die auf dem Gebiet der maschinellen Übersetzung arbeiteten, versuchten, natürliche Sprache mithilfe mathematischer Symbole zu beschreiben. Im Gegensatz zu Retzker und Fedorov, die die bestehenden Muster auf der Grundlage praktischer Beobachtungen etablieren wollten, setzten sie sich die Schaffung einer deduktiven Theorie zum Ziel. Es ging darum, eine Reihe von Regeln zu entwickeln, deren Anwendung auf eine bestimmte Menge von Spracheinheiten zur Erzeugung eines sinnvollen Textes führen könnte. Spracheinheiten erschienen in Form von mathematischen Symbolen, die durch die Anwendung der oben genannten Regeln auf sie, auch mathematisch ausgedrückt, auf eine bestimmte Weise angeordnet werden konnten. Nach der Dekodierung wurde aus der Zeichenkombination Text.

Wissenschaftler schufen eine spezielle Sprache, bestehend aus mathematischen Symbolen, die von einer Maschine als Vermittler beim Übergang vom Quelltext zum Zieltext verwendet werden konnte. Die Vermittlersprache ist die „Metallsprache“ der Übersetzungstheorie. In der Linguistik wird Metasprache üblicherweise als „Sprache zweiter Ordnung“ verstanden, d. h. als die Sprache, in der Überlegungen über natürliche Sprache oder andere Phänomene aufgebaut werden. Wenn wir also über Grammatik sprechen, verwenden wir spezielle Wörter oder Begriffe und Ausdrücke, und wenn wir über den Bereich der Medizin sprechen, verwenden wir einen anderen terminologischen Apparat. Mit anderen Worten, die Metasprache oder „Zwischensprache“ der Übersetzung ist ein Komplex struktureller und sprachlicher Merkmale, die es ermöglichen, den Übersetzungsprozess ausreichend vollständig zu beschreiben.


Nach der Intention der Autoren der Theorie der maschinellen Übersetzung basierte die Vermittlungssprache auf dem konzeptuellen Apparat der „generierenden Semantik“ und dem „Sinn ↔ Text“-Modell. Es wurde eine Reihe von Regeln erstellt, um die Oberflächenstrukturen der englischen Sprache in Kernsätze umzuwandeln. Wissenschaftler gingen außerdem davon aus, dass die Maschine mit Hilfe einer Zwischensprache die Tiefenstrukturen der Ausgangssprache problemlos in die Tiefenstrukturen der Zielsprache und dann in deren Oberflächenstrukturen umwandeln würde. Die erzielten Ergebnisse waren jedoch nicht ganz zufriedenstellend. Die Qualität der maschinellen Übersetzung erwies sich als sehr schlecht und spätere Versuche, sie zu verbessern, waren erfolglos. Was war der Grund?

Wie bereits erwähnt, ließen sich Wissenschaftler zu dieser Zeit, also in den frühen fünfziger und mittleren sechziger Jahren des letzten Jahrhunderts, von der Sprachtheorie des Strukturalismus leiten, die auf der Beschreibung und Interpretation sprachlicher Phänomene ausschließlich im Rahmen intralinguistischer Beziehungen basierte und es nicht zuzulassen, bei der Analyse dieser Phänomene über die Grenzen der Sprachstruktur hinauszugehen. Sie wussten sicherlich, was jeder praktische Übersetzer gut weiß. Es ist nämlich wichtig, die spezifische Situation zu berücksichtigen, in der dieser Akt der interlingualen Kommunikation stattfindet, sowie die Situation, die in der zu übersetzenden Nachricht beschrieben wird. Diese Informationen spielen im Hinblick auf die Qualität des übersetzten Textes keine geringere Rolle als die eigentlichen sprachlichen Phänomene.

Um diesen Umstand mit der Forderung in Einklang zu bringen, nicht über intralinguistische Beziehungen hinauszugehen, wurde vorgeschlagen, die Übersetzungstätigkeit in zwei Komponenten zu unterteilen – die Übersetzung selbst, die nach vorgegebenen Regeln durchgeführt wird, ohne auf die außersprachliche Realität zurückzugreifen, die sich in der Erfahrung oder Wahrnehmung des Übersetzers widerspiegelt und Interpretation, einschließlich der Einbeziehung extralinguistischer Daten.

Dies widerspricht jedoch eindeutig dem, was wir über die realen Prozesse der konventionellen, also nicht-maschinellen Übersetzung wissen. Für die von einer Person durchgeführte Übersetzung ist eine organische und untrennbare Einheit eigentlicher sprachlicher und außersprachlicher Faktoren charakteristisch. Tatsache ist, dass in jeder Spracharbeit nicht alles explizit oder, wie Linguisten sagen, explizit ausgedrückt wird. Vieles bleibt meist unausgesprochen, angedeutet. Jede Aussage richtet sich an eine bestimmte Person oder ein bestimmtes Publikum. Der Verfasser der Stellungnahme geht davon aus, dass seine Zuhörer bzw. Leser über ausreichende Kenntnisse verfügen, um diese oder jene Botschaft ohne Klärung von Einzelheiten eindeutig zu interpretieren.

Somit ermöglicht die maschinelle Übersetzung, die nur auf der Analyse der formalen Strukturmuster des Ausgangstextes basiert, keine Aufdeckung des Zusammenspiels sprachlicher und außersprachlicher Faktoren und lässt somit den wichtigsten Bestandteil der interlingualen Kommunikation außer Acht. Dies war der Hauptgrund für die unbefriedigende Qualität.

Viele Forscher geben zu, dass es auch heute noch keine Durchbrüche in der maschinellen Übersetzung bei der Implementierung anderer Modelle gegeben hat, obwohl die Fähigkeiten von Computern im Vergleich zu den Beginn der Arbeit an maschineller Übersetzung und neuer Programmierung um ein Vielfaches gestiegen sind Es sind Sprachen entstanden, die für die Implementierung von Programmen zur Erstellung maschineller Übersetzungen viel praktischer sind. Der springende Punkt ist offenbar, dass die Interpretation sprachlicher Zeichen in Bezug auf die außersprachliche Realität in vielerlei Hinsicht intuitiver Natur ist und unbewusst oder, wie man sagt, „auf dem Subkortex“ erfolgt, und was unbewusst geschieht, kann nicht sein formalisiert und in Form von Software auf die Maschine übertragen. Daher erfordert die maschinelle Übersetzung immer noch einen menschlichen Redakteur und dient als Quelle zahlreicher Übersetzungswitze.

Sobald die Maschine also aufgefordert wurde, ins Englische und dann sofort wieder ins Russische zu übersetzen, erklang das Sprichwort „Aus den Augen, aus dem Sinn.“ Die endgültige Version war: „Der unsichtbare Idiot“. Warum? Denn das entsprechende englische Sprichwort sagt: „Outofsight – outofmind“. Die Maschine fand es problemlos. Doch mit der umgekehrten Übersetzung dieses Sprichworts ins Russische ging sie den falschen Weg. Tatsache ist, dass es im Russischen direkte Entsprechungen zu beiden Bestandteilen des englischen Ausdrucks gibt: Out of vision – wird durch das Wort „invisible“ ausgedrückt, während das englische outofmind den russischen Wörtern „crazy, insane, idiot“ entspricht. Die Maschine nutzte diese Korrespondenzen aus. Sie ahnte einfach nicht, dass die beiden genannten Bestandteile der englischen Phrase nicht einzeln, sondern als Ganzes übertragen werden sollten. Aufgrund ihres Mangels an „menschlichem Faktor“.

Im Allgemeinen ist das Qualitätsniveau der maschinellen Übersetzung von rein informativen Texten, Verträgen, Anweisungen, wissenschaftlichen Berichten usw. viel höher als die Texte journalistischer Natur. Hier ein paar Beispiele:

Zahlungen aus diesem Vertrag für die in der Ergänzung 1 zum Vertrag aufgeführten Geräte erfolgen wie folgt.

Zahlungen im Rahmen dieses Vertrages für die in Anlage 1 zum Vertrag aufgeführten Geräte sind wie folgt zu leisten.

Doch auf Mr. warten jede Menge Fallen. Bush, wenn er versucht, es alleine zu schaffen.

Doch Mr. Bush wartet mit einer Menge Trapezmuskeln auf, wenn er versucht, ihn alleine zu meistern.

Die Märkte waren in der Tat überrascht, als ihnen mehr und früher gegeben wurde, als sie erwarten konnten.

Die Märkte, denen mehr und früher gegeben wurde, als sie Grund zur Annahme hatten, überraschten positiv.

All dies lässt den Schluss zu, dass die Pioniere der maschinellen Übersetzung und ihre unmittelbaren Nachfolger auf diesem Gebiet bedeutende Erfolge erzielt haben. Dennoch gelang es ihnen nicht, viele der wichtigsten Probleme zu lösen. In diesem Zusammenhang ist die Aussage des Leiters des japanischen Staatsprogramms für maschinelle Übersetzung, Professor Makoto Nagao von der Universität Kyoto, von Interesse. In einem seiner 1982 veröffentlichten Artikel äußerte er sich wie folgt: „Jede Entwicklung maschineller Übersetzungssysteme wird irgendwann in einer Sackgasse enden.“ Auch unsere Entwicklung wird in eine Sackgasse geraten, aber wir werden versuchen, sie so spät wie möglich umzusetzen.“

Im selben Jahr veröffentlichte Professor Nagao einen Artikel, in dem er ein neues Konzept für die maschinelle Übersetzung vorschlug. Nach diesem Konzept sollten Tests analog zu anderen Texten übersetzt werden, die zuvor manuell übersetzt wurden, also nicht von einer Maschine, sondern von einem Übersetzer. Zu diesem Zweck soll eine große Sammlung thematisch ähnlicher Texte und deren Übersetzungen (bilingual) gebildet werden, die dann in einen superleistungsfähigen Multiprozessorrechner eingegeben werden. Bei der Übersetzung neuer Texte sollten aus der Reihe der Zweisprachigen Analoga von Fragmenten dieser Texte ausgewählt werden, die zur Bildung des endgültigen Textes verwendet werden können. M. Nagao nannte seinen Ansatz zur maschinellen Übersetzung „Examplebasedtranslation“ (Übersetzung basierend auf Beispielen) und den traditionellen Ansatz – „Rulebasedtranslation“ (Übersetzung gemäß den Regeln).

Das Konzept von Makoto Nagao spiegelt das kürzlich populäre Konzept des „TranslationMemory“ (Translation Memory) wider, das manchmal auch als „SentenceMemory“ (Satzakkumulator) bezeichnet wird. Der Kern dieses Konzepts ist wie folgt. Bei der Erstellung fremdsprachiger Versionen beliebiger Dokumente (z. B. Betriebsdokumentation für die Produkte eines Maschinenbauwerks) werden diese zunächst manuell von hochqualifizierten Übersetzern übersetzt. Anschließend werden die Originaldokumente und deren Übersetzungen in eine Fremdsprache in einen Computer eingegeben, in einzelne Sätze oder Satzfragmente aufgeteilt und aus diesen Elementen eine Datenbank aufgebaut, die dann in eine Suchmaschine geladen wird. Bei der Übersetzung neuer Texte sucht die Suchmaschine darin nach Sätzen und Satzteilen, die denen ähneln, die sie hat, und fügt sie an den richtigen Stellen im übersetzten Text ein. Somit wird im automatischen Modus eine qualitativ hochwertige Übersetzung der in der Datenbank verfügbaren Fragmente des neuen Textes erhalten.

Nicht identifizierte Textfragmente werden manuell in eine Fremdsprache übersetzt. In diesem Fall können Sie das Verfahren für eine ungefähre Suche nach diesen Fragmenten in der Datenbank verwenden und die Suchergebnisse als Hinweis verwenden. Die Ergebnisse der manuellen Übersetzung neuer Textfragmente werden erneut in die Datenbank eingegeben. Da immer mehr Dokumente übersetzt werden, wird das „Übersetzungsgedächtnis“ nach und nach bereichert und seine Effizienz steigt.

Der unbestreitbare Vorteil der „Translation Memory“-Technologie ist die hohe Qualität der Übersetzungen der Textklasse, für die sie entwickelt wurde. Die für homogene Texte eines Unternehmens erstellte Datenbank mit Übersetzungskorrespondenzen ist jedoch nur für homogene Texte von Unternehmen mit ähnlichen Profilen geeignet, da aus den Texten einiger Dokumente extrahierte Sätze und große Satzfragmente in der Regel nicht oder nur sehr selten vorkommen selten in den Texten anderer Dokumente zu finden.

Um diese Einschränkung des „Übersetzungsgedächtnisses“ zu überwinden und vor allem aus der Sackgasse herauszukommen, in die die semantische Theorie offenbar geraten ist, wird ein neues Konzept der maschinellen Übersetzung entwickelt, das als „phraseologische Theorie der maschinellen Übersetzung“ bezeichnet wird. Das Hauptmerkmal dieses Konzepts ist die Idee, dass man bei der Übersetzung als wichtigste und stabilste Bedeutungseinheiten nicht semantische Komponenten berücksichtigen sollte, die integraler Bestandteil der Sprache sind, sondern Konzepte, die durch sprachliche Bedeutungen mit der Sprache verbunden sind, sondern an der Gleichzeitig fungiert es als eigenständige Form des Verständnisses des Menschen für die umgebende materielle Welt. Daher wird der erste Schritt unternommen, um der Maschine beizubringen, nicht nur sprachliche, sondern auch außersprachliche Aspekte der Übersetzung zu bedienen.

Ich möchte Sie daran erinnern, dass das menschliche Bewusstsein die Welt um sich herum in Form von zwei Signalsystemen widerspiegeln kann. Das erste Signalsystem nimmt die Welt um sich herum durch die Sinne wahr. Durch die Einwirkung eines Sinnesorgans (Sehen, Hören, Tasten, Riechen, Schmecken) entsteht eine Empfindung. Basierend auf der Gesamtheit der mit einem bestimmten Objekt verbundenen Empfindungen hat eine Person eine ganzheitliche Wahrnehmung dieses Objekts. Das wahrgenommene Objekt kann in Form einer entsprechenden Darstellung davon ohne direkten Sinneskontakt im Gedächtnis gespeichert werden.

Das zweite Signalsystem ermöglicht es einer Person, durch Abstraktion von bestimmten Objekten verallgemeinerte Vorstellungen über die Welt um sie herum zu entwickeln. Der Begriff unterscheidet sich in seinem Volumen, also der Klasse der im Begriff verallgemeinerten Gegenstände, und dem Inhalt des Begriffs – Zeichen von Gegenständen, durch die die Verallgemeinerung erfolgt. Menschen agieren im Kommunikationsprozess mit Konzepten. Zu diesem Zweck werden jedem Konzept bestimmte Bezeichnungen zugewiesen – ihre Namen in Form einzelner Wörter oder (was viel häufiger vorkommt) Phrasen. Darüber hinaus können in verschiedenen Sprachen unterschiedliche Zeichen verwendet werden, um dieselben Konzepte zu bezeichnen (Schneeglöckchen – Schneeglöckchen, Auge – Hund – Blindenhund, Staubsauger – Staubsauger).

Unter Berücksichtigung der genannten Grundsätze sieht das System der Phraseologie-Maschinenübersetzung im Allgemeinen wie folgt aus. Wie bereits erwähnt, sind die Namen von Konzepten die stabilsten Elemente des Textes. Im Übersetzungsprozess werden die Namen der Konzepte des Ausgangstextes durch die Namen dieser Bedeutungseinheiten in der Zielsprache ersetzt und die Gestaltung des so erhaltenen neuen Textes erfolgt entsprechend den grammatikalischen Normen des Ziels Sprache. Wie bei den „Translationmemory“-Systemen kommt das Analogieprinzip zur Anwendung – Wörter, Phrasen und Phrasen, die typische Situationen widerspiegeln, werden analog zu zuvor durchgeführten Übersetzungen dieser Einheiten übersetzt. Der Unterschied besteht darin, dass in Systemen vom Typ „Translation Memory“ nicht so stabile Textabschnitte wie Konzepte und typische Situationen verwendet werden, sondern alle im Quelltext vorkommenden Sätze.

Daraus folgt, dass maschinelle Wörterbücher der wichtigste Bestandteil Phraseologie-Maschinenübersetzungssysteme sind. Die Zahl der verschiedenen Wörter in Sprachen wie Russisch und Englisch übersteigt eine Million, und die Zahl der relativ stabilen Phraseologieeinheiten beläuft sich auf Hunderte Millionen. Phraseologische Wörterbücher eines solchen Umfangs können nicht schnell erstellt werden. Somit beträgt der Umfang des Wörterbuchs eines der modernen Systeme „RetransVista“ 3 Millionen 300.000 Einträge.

Das Zusammenstellen umfangreicher Phraseologiewörterbücher erfordert einen erheblichen Zeitaufwand, daher sind in maschinellen Übersetzungssystemen auch einzelne Wörter ein ständiger Begleiter von Phraseologiephrasen. Für ihre Übersetzung werden, wie erwähnt, die Bestimmungen des semantischen Modells verwendet, während die Qualität der maschinellen Übersetzung viele Beschwerden hervorruft.

Das stimmt sicherlich, aber die Wort-für-Wort-Übersetzung von Texten ist viel besser

das Fehlen jeglicher Übersetzung.

Viele Experten auf diesem Gebiet glauben daher, dass die einzig vernünftige Aussicht für maschinelle Übersetzungssysteme im 21. Jahrhundert eine Kombination aus Phraseologie und semantischer Wort-für-Wort-Übersetzung ist. Gleichzeitig sollte der Anteil der Phraseologieübersetzung offenbar ständig zunehmen und der Anteil der semantischen Übersetzung ständig abnehmen.

Wie die Erfahrung zeigt, sollten maschinelle Übersetzungssysteme vor allem auf die Übersetzung von Wirtschaftstexten aus den Bereichen Wissenschaft, Technik, Politik und Wirtschaft ausgerichtet sein. Die Übersetzung literarischer Texte ist eine schwierigere Aufgabe. Aber auch hier können in Zukunft einige Erfolge erzielt werden, wenn es Enthusiasten wie Vladimir Dahl gibt, die sich mit Hilfe moderner technischer Mittel die harte Arbeit leisten, leistungsfähige Phraseologiewörterbücher für diese Art von Texten zusammenzustellen.

Zusätzliche Literatur.

1. Belonogov G.G. Zur Anwendung des Analogieprinzips bei der automatischen Verarbeitung textueller Informationen. Sa. „Probleme der Kybernetik“, Nr. 28, 1974.

2. Ubin I.I. Moderne Tools zur Übersetzungsautomatisierung: Hoffnungen, Enttäuschungen und Realität. Sa. „Übersetzung in der modernen Welt“, M., VCP, 2001, S. 60-69.

In den letzten Jahrzehnten hat sich ein mit dem Internet verbundener Computer zum wichtigsten Werkzeug eines Übersetzers entwickelt. Dadurch wird der Zugang zu riesigen Informationsmengen sowie zu elektronischen Wörterbüchern und Übersetzern ermöglicht. Maschinelle Übersetzung ist heute zur täglichen Routine geworden.

Der Begriff „maschinelle Übersetzung“ (MT, auch maschinelle Übersetzung oder MT) bezieht sich auf den Vorgang, bei dem eine natürliche Sprache mithilfe spezieller Software in eine andere übersetzt wird. In diesem Fall kann das Programm direkt auf einem Computer installiert werden (oder) oder nur verfügbar sein, wenn eine Verbindung zum Internet besteht.

Ein bisschen Geschichte

Die Idee, ein Computergerät zum Übersetzen zu verwenden, entstand bereits 1947. Doch die Umsetzung war in jenen Jahren einfach unmöglich, da die Computertechnologie noch in den Kinderschuhen steckte. Allerdings wurde bereits 1954 der erste Versuch einer maschinellen Übersetzung unternommen. Das allererste Wörterbuch umfasste nur 250 Wörter und die Grammatik war auf 6 Regeln beschränkt. Dies erwies sich jedoch als ausreichend, um sicherzustellen, dass die maschinelle Übersetzung eine große Zukunft hat. In vielen Ländern begannen Arbeiten in diese Richtung, die ersten maschinellen Übersetzungssysteme (MTS) erschienen und es wurden spezielle Theorien entwickelt.

Zu Beginn wurde die Entwicklung der maschinellen Übersetzung durch den geringen Stand der Computertechnologie und ihre sehr hohen Kosten behindert. Das allmähliche Eindringen von Personalcomputern und dann des Internets in unser Leben führte jedoch zu einer rasanten Entwicklung dieser Branche. Heutzutage wird maschinelle Übersetzung in verschiedenen Bereichen der menschlichen Tätigkeit aktiv eingesetzt.

Wer braucht es

Die Entwicklung der maschinellen Übersetzung wurde durch den Ausbau der internationalen Beziehungen erleichtert. Die Menschen begannen immer häufiger in andere Länder zu reisen, Geschäfte ins Ausland waren selbst für kleine Unternehmen keine Ausnahme mehr. Und wenn ja, dann treten immer mehr Kommunikationsschwierigkeiten auf. Daher wird maschinelle Übersetzung heute zunehmend in der Wirtschaft eingesetzt. Auch wenn das Ergebnis der vom Computer bereitgestellten Übersetzungen alles andere als ideal ist, ist es dennoch besser als gar nichts.

Mit Hilfe von SMP wird es möglich, den Inhalt großer Textmengen sehr schnell zu verstehen, was mit der herkömmlichen Vorgehensweise schlichtweg unmöglich ist. Dies kann beispielsweise dann sehr nützlich sein, wenn es darum geht, eine große Menge an Informationen in einer Fremdsprache zu klassifizieren. Oder zur sprachlichen Analyse.

MT ist auch bei der Kommunikation im Internet alltäglich geworden, wenn eine hohe Übersetzungsgeschwindigkeit sehr wichtig ist, um zu verstehen, was der Gesprächspartner Ihnen gesagt hat. In diesem Fall können Sie die Übertragung literarischer Bilder jedoch getrost vergessen, wenn Sie richtig verstanden werden möchten. Nur „trockene“ Formulierungen, ohne Unklarheiten.

Menschliches Engagement

Trotz der Entwicklung verschiedener Ansätze und der Lösung von Problemen mit der Rechenleistung ist die Qualität der maschinellen Übersetzung immer noch alles andere als ideal. Auch wenn der Erfolg in dieser Hinsicht als beeindruckend bezeichnet werden kann, allerdings nur im Vergleich zu den allerersten Systemen.

Moderne SMPs haben bereits gelernt, technische Texte mehr oder weniger angemessen zu übersetzen, die, wie Sie wissen, nicht die literarischen Freiheiten enthalten, die in literarischen Texten so oft zu finden sind. Die Qualität einer Übersetzung wird stark von der Affinität der Sprachen beeinflusst. Wenn Sie beispielsweise von „nach“ übersetzen, ist das Ergebnis viel besser als das von „nach“. Im zweiten Fall kann es sein, dass der resultierende Text einfach unleserlicher Unsinn ist.

Aus diesem Grund kommt die maschinelle Übersetzung noch nicht ohne menschliche Beteiligung aus. Dabei wird entweder der Text zunächst angepasst und alle möglichen Unklarheiten beseitigt (Vorbearbeitung) oder die fertige Übersetzung wird bearbeitet und fast unvermeidliche Fehler daraus entfernt (Nachbearbeitung). Es gibt auch das Konzept des Intereditierens, bei dem eine Person direkt in den Betrieb des Systems eingreift und spontan auftretende Ungenauigkeiten korrigiert.

Was sind SMPs?

Bisher gliedert sich die Arbeit im Bereich MP in zwei Hauptbereiche:

  • Statistische maschinelle Übersetzung (Statistische maschinelle Übersetzung, SMT);
  • Regelbasierte maschinelle Übersetzung (Regelbasierte maschinelle Übersetzung, RBMT).

Im ersten Fall handelt es sich um selbstlernende Systeme. Die Übersetzung wird durch die ständige Analyse einer großen Anzahl von Texten mit demselben Inhalt, aber in verschiedenen Sprachen möglich. Das System findet und nutzt stets vorhandene Regelmäßigkeiten. Die Qualität der Übersetzung beim Einsatz von SMT wird als recht hoch eingeschätzt. Aber nur, wenn das System es bereits geschafft hat, eine riesige Menge an Informationen zu analysieren. Und dafür braucht es nicht nur die Tests selbst, sondern auch beeindruckende Rechenleistung. Das bedeutet, dass nur große Unternehmen in diese Richtung arbeiten können. Beispiele für solche Systeme: Google Übersetzer, Yandex-Übersetzung, und auch Bing Übersetzer von Microsoft.

Bei RBMT-Systemen werden alle Regeln von Menschen erstellt, die dann unaufhörlich „einlaufen“. Dementsprechend hängt die Qualität des Ergebnisses davon ab, wie vollständig Linguisten die natürliche Sprache beschreiben können, mit der sie arbeiten. Der Hauptnachteil von RBMT-Systemen ist die Notwendigkeit, die erstellte Sprachdatenbank ständig auf dem neuesten Stand zu halten. Um jedoch einen Übersetzer zu erstellen, der ein zufriedenstellendes Ergebnis liefern kann, ist keine beeindruckende Rechenleistung erforderlich, was es kleinen Unternehmen ermöglicht, in diese Richtung zu arbeiten. Beispiele hierfür sind Systeme wie Multilekt, Linguatec Und PROMT.

Sie können auch eine dritte Option hervorheben: hybride maschinelle Übersetzung (Hybride maschinelle Übersetzung, HMT). Diese Methode kombiniert beide Ansätze, SMT und RBMT. Theoretisch können Sie mit diesem Ansatz die Vorteile beider Technologien nutzen. Das nutzt das Unternehmen. Systran, 1968 gegründet und gilt als ältestes Handelsunternehmen im Bereich MT.

Zunächst sollten einige wichtige Daten in der Geschichte der maschinellen Übersetzung markiert werden:

1947 – Geburtsdatum der maschinellen Übersetzung als wissenschaftliche Richtung. Warren Weaver, Direktor der Naturwissenschaftlichen Abteilung der Rockefeller Foundation, schrieb einen Brief an Norbert Wiener, in dem er die Aufgabe, Texte von einer Sprache in eine andere zu übersetzen, als ein weiteres Anwendungsgebiet der Entschlüsselungstechnik betrachtete. Auf diesen Brief folgten viele Diskussionen. 1947 – A. Booth und D. Britten entwickeln einen detaillierten „Code“ für die maschinelle Wort-für-Wort-Übersetzung. 1948 – R. Richens schlägt Regeln für die Aufteilung von Wortformen in einen Stamm und eine Endung vor. 1952 – Erste Konferenz über maschinelle Übersetzung am Massachusetts Institute of Technology. 1954 – das erste maschinelle Übersetzungssystem wurde eingeführt – IBM Mark II – Russisch-Englisch, verfügte über ein Wörterbuch mit 250 Einheiten und 6 Grammatikregeln. Das folgende Jahrzehnt war eine Zeit der rasanten Entwicklung der maschinellen Übersetzung. 1967 – Die eigens in den USA geschaffene Kommission der National Academy of Sciences kam aufgrund der realen Situation bei Übersetzungen in den USA und den Kostenindikatoren verschiedener Übersetzungsmethoden zu dem Schluss, dass maschinelle Übersetzung unrentabel ist. Der Bericht hat die Entwicklung des MT insgesamt erheblich verlangsamt. 70er Jahre – ein neuer Aufschwung der Arbeit im MP-Bereich. Mit der Entwicklung der Computertechnologie sind neue Möglichkeiten für die maschinelle Implementierung sprachlicher Algorithmen entstanden. 80er Jahre – die Betriebszeit von Personalcomputern ist deutlich günstiger geworden, maschinelle Übersetzung ist endlich wirtschaftlich geworden. 90er Jahre – das Interesse an maschineller Übersetzung nimmt erneut zu, was mit der Entstehung und rasanten Entwicklung des Internets verbunden ist. Mithilfe der Online-Übersetzungsfunktionen können Sie die Sprachbarriere überwinden und sich auf ausländischen Websites zurechtfinden.

Schauen wir uns diese Fakten nun genauer an:

So wurde die Idee der Möglichkeit der maschinellen Übersetzung zum ersten Mal von Charles Babbage (1791-1871) geäußert, der 1836-1848 entwickelte. Projekt einer digitalen Analysemaschine – ein mechanischer Prototyp elektronischer Digitalcomputer, der 100 Jahre später erschien. Die Idee von Charles Babbage war, dass ein Speicher von 1000 50-Bit-Dezimalzahlen (50 Gänge in jedem Register) zum Speichern von Wörterbüchern verwendet werden könnte. C. Babbage führte diese Idee als Rechtfertigung dafür an, von der britischen Regierung die notwendigen Mittel für die physische Verkörperung der Analysemaschine anzufordern, die er nie bauen konnte (siehe Apokin et al. Charles Babbage. M., Nauka, 1981).

Die Idee, Computer für die Übersetzung einzusetzen, wurde 1946 geäußert, unmittelbar nach dem Erscheinen der ersten Computer. Als Geburtsdatum der MT als Studienfach gilt allgemein das Jahr 1947: Alles begann mit einem Brief von Warren Weaver, Direktor der naturwissenschaftlichen Abteilung der Rockefeller Foundation, an Norbert Wiener im März desselben Jahres, in dem die Die Aufgabe des Übersetzens wurde mit der Aufgabe des Entschlüsselns von Texten verglichen. Letzteres wurde zu diesem Zeitpunkt bereits auf elektromechanischen Geräten durchgeführt. Auf diesen Brief folgten viele Diskussionen, es erschien ein Zielmemorandum und schließlich wurden Mittel für die Forschung bereitgestellt. Die erste öffentliche Demonstration der maschinellen Übersetzung (das sogenannte Georgetown-Experiment) fand 1954 statt. Trotz der Primitivität dieses Systems (Wörterbuch mit 150 Wörtern, Grammatik mit 6 Regeln, Übersetzung mehrerer einfacher Phrasen) stieß dieses Experiment auf breite Resonanz : Die Forschung begann in England, Bulgarien, Ostdeutschland, Italien, China, Frankreich, Deutschland, Japan und anderen Ländern; im selben Jahr 1954 in der UdSSR.

Die erste Generation maschineller Übersetzungssysteme basierte auf sequentiellen Übersetzungsalgorithmen „Wort für Wort“, „Satz für Satz“. Die Leistungsfähigkeit solcher Systeme wurde durch die verfügbare Größe der Wörterbücher bestimmt, die direkt von der Größe des Computerspeichers abhing. Die Übersetzung des Textes erfolgte in einzelnen Sätzen, die semantischen Zusammenhänge zwischen ihnen wurden in keiner Weise berücksichtigt. Solche Systeme werden Direktübersetzungssysteme genannt. Im Laufe der Zeit wurden sie durch Systeme nachfolgender Generationen ersetzt, in denen die Übersetzung von Sprache zu Sprache auf der Ebene syntaktischer Strukturen erfolgte. Die Übersetzungsalgorithmen verwendeten eine Reihe von Operationen, die durch die Analyse des übersetzten Satzes seine syntaktische Struktur entsprechend den Grammatikregeln der Sprache des Eingabesatzes aufbauen (so wie Kindern die Sprache in der High School beigebracht wird) und sie dann in umwandeln die syntaktische Struktur des Ausgabesatzes und synthetisieren den Ausgabesatz, indem sie die richtigen Wörter aus dem Wörterbuch ersetzen. Solche Systeme werden T-Systeme genannt (vom englischen Wort transfer – Transformation).

Als vollkommenster Ansatz gilt der Ansatz zum Aufbau maschineller Übersetzungssysteme, der darauf basiert, durch semantische Analyse eine sprachunabhängige semantische Darstellung des Eingabesatzes zu erhalten. Anschließend wird der Ausgabesatz entsprechend der erhaltenen semantischen Darstellung synthetisiert. Solche Systeme werden I-Systeme (I – vom Wort „Interlingua“) genannt. Man geht davon aus, dass die nächsten Generationen maschineller Übersetzungssysteme zur Klasse der I-Systeme gehören werden.

Es gab jedoch zu viele Schwierigkeiten und Unklarheiten bei der Formalisierung und Erstellung von Algorithmen für die Arbeit mit Texten, bei den Wörterbüchern, die in die Maschine eingegeben werden sollten, bei der maschinellen Übersetzung sollten sprachliche Muster verwendet werden und um welche Muster handelt es sich im Allgemeinen.

Es stellte sich heraus, dass die traditionelle Linguistik weder über das tatsächliche Material noch über die Ideen und Darstellungen verfügt, die zum Aufbau maschineller Übersetzungssysteme erforderlich sind, die die Bedeutung des übersetzten Textes nutzen würden.

Die traditionelle Linguistik konnte nicht nur hinsichtlich der Semantik, sondern auch hinsichtlich der Syntax keine ersten Ideen liefern. Zu dieser Zeit gab es für keine Sprache Listen syntaktischer Konstruktionen, die Bedingungen für ihre Kompatibilität und Austauschbarkeit wurden nicht untersucht, die Regeln für die Konstruktion großer syntaktischer Struktureinheiten aus kleineren wurden nicht entwickelt. Tatsächlich konnte in den 1950er Jahren keine einzige Frage im Zusammenhang mit der Konstruktion maschineller Übersetzungssysteme von der traditionellen Linguistik beantwortet werden.

Und Mitte der 1960er Jahre wurden in den USA zwei Systeme der Russisch-Englisch-Übersetzung für den praktischen Einsatz bereitgestellt:

  • · MARK (in der Abteilung für ausländische Technologie der US Air Force);
  • · GAT (entwickelt von der Georgetown University, verwendet im National Atomic Energy Laboratory in Oak Ridge und im Euratom Center in Ispra, Italien).

Die zur Evaluierung solcher Systeme eingesetzte ALPAC-Kommission kam jedoch zu dem Schluss, dass diese Tätigkeit in den USA aufgrund der geringen Qualität maschinell übersetzter Texte unrentabel sei. Obwohl die Kommission generell eine Fortsetzung und Vertiefung der theoretischen Entwicklungen empfahl, führten ihre Schlussfolgerungen zu einem Anstieg des Pessimismus, einer Kürzung der Mittel und oft zu einer vollständigen Einstellung der Arbeiten zu diesem Thema.

Dennoch wurde die Forschung in einer Reihe von Ländern fortgesetzt, unterstützt durch die ständigen Fortschritte in der Computertechnologie. Ein besonders bedeutsamer Faktor war das Aufkommen von Mini- und Personalcomputern und mit ihnen immer komplexere Wörterbuch-, Such- und andere Systeme, die sich auf die Arbeit mit natürlichsprachlichen Daten konzentrierten. Auch der Übersetzungsbedarf als solcher wuchs aufgrund der Ausweitung der internationalen Beziehungen. All dies führte zu einem erneuten Aufschwung in diesem Bereich, der ab Mitte der 1970er Jahre einsetzte. In den 1980er-Jahren kam die Zeit für den breiten praktischen Einsatz von Übersetzungssystemen und es entstand ein Markt für kommerzielle Entwicklungen zu diesem Thema.

Doch die Träume, mit denen die Menschheit vor einem halben Jahrhundert die Aufgabe der maschinellen Übersetzung annahm, bleiben größtenteils Träume: Eine qualitativ hochwertige Übersetzung von Texten zu einem breiten Themenspektrum ist immer noch unerreichbar. Die Beschleunigung der Arbeit des Übersetzers beim Einsatz maschineller Übersetzungssysteme ist jedoch unbestritten: Schätzungen aus den späten 1980er Jahren zufolge bis zu fünfmal. Im Jahr 1990 schlug Larry Childs, ein Spezialist für maschinelle Übersetzung, die folgende Klassifizierung maschineller Übersetzungssysteme vor:

  • · FAMT (Vollautomatische maschinelle Übersetzung) – vollautomatische maschinelle Übersetzung;
  • · HAMT (Human-assisted Machine Translation) – maschinelle Übersetzung unter Beteiligung einer Person;
  • · MAHT (maschinell unterstützte menschliche Übersetzung) – Übersetzung, die von einer Person mithilfe eines Computers durchgeführt wird.

Derzeit gibt es viele kommerzielle maschinelle Übersetzungsprojekte. Einer der Pioniere auf dem Gebiet der maschinellen Übersetzung war Systran. In Russland leistete eine Gruppe unter der Leitung von Professor Piotrovsky (Russische Staatliche Pädagogische Universität, benannt nach Herzen, St. Petersburg) einen großen Beitrag zur Entwicklung der maschinellen Übersetzung.