Übersetzungstheorie und Computerlinguistik. Rasantes Wachstum des Volumens an Textinformationen in elektronischer Form. Die Aufgabe der Synthese ist das Gegenteil der Analyse: Den Text neu beleben.

Die Fakultät für Philologie der Hochschule für Wirtschaft startet einen neuen Masterstudiengang, der sich der Computerlinguistik widmet: Er heißt Bewerber mit einer Grundausbildung in Geisteswissenschaften und Mathematik sowie alle willkommen, die sich für die Lösung von Problemen in einem der vielversprechendsten Wissenschaftszweige interessieren . Ihre Direktorin, Anastasia Bonch-Osmolovskaya, erklärte Theories and Practitioners, was Computerlinguistik ist, warum Roboter Menschen nicht ersetzen werden und was im HSE-Masterstudiengang Computerlinguistik gelehrt wird.

Dieses Programm ist fast das einzige seiner Art in Russland. Wo hast du studiert?

Ich habe an der Moskauer Staatlichen Universität in der Abteilung für Theoretische und Angewandte Linguistik der Fakultät für Philologie studiert. Ich habe es nicht sofort geschafft, zuerst bin ich in die russische Abteilung eingetreten, aber dann habe ich mich ernsthaft für Linguistik interessiert und war von der Atmosphäre angezogen, die bis heute in der Abteilung herrscht. Das Wichtigste dabei ist der gute Kontakt zwischen Lehrenden und Studierenden sowie deren gegenseitiges Interesse.

Als ich Kinder bekam und meinen Lebensunterhalt verdienen musste, wandte ich mich der Wirtschaftslinguistik zu. Im Jahr 2005 war noch nicht ganz klar, um welches Tätigkeitsfeld es sich eigentlich handelte. Ich habe in verschiedenen Sprachunternehmen gearbeitet: Ich habe mit einem kleinen Unternehmen auf der Website Public.ru angefangen – das ist eine Art Medienbibliothek, wo ich angefangen habe, an Sprachtechnologien zu arbeiten. Dann arbeitete ich ein Jahr lang bei Rosnanotech, wo die Idee entstand, ein Analyseportal zu erstellen, damit die darauf befindlichen Daten automatisch strukturiert werden. Dann leitete ich die Sprachabteilung bei der Firma Avicomp – das ist bereits eine seriöse Produktion im Bereich Computerlinguistik und semantische Technologien. Gleichzeitig habe ich an der Moskauer Staatsuniversität einen Kurs über Computerlinguistik geleitet und versucht, ihn moderner zu gestalten.

Zwei Ressourcen für einen Linguisten: - eine von Linguisten erstellte Website für wissenschaftliche und angewandte Forschung im Zusammenhang mit der russischen Sprache. Hierbei handelt es sich um ein Modell der russischen Sprache, das anhand einer Vielzahl von Texten aus verschiedenen Genres und Epochen präsentiert wird. Die Texte sind mit sprachlicher Auszeichnung ausgestattet, mit deren Hilfe Sie Informationen über die Häufigkeit bestimmter sprachlicher Phänomene erhalten können. Wordnet ist eine riesige lexikalische Datenbank der englischen Sprache; die Hauptidee von Wordnet besteht darin, nicht Wörter, sondern ihre Bedeutungen in einem großen Netzwerk zu verbinden. Wordnet kann heruntergeladen und für Ihre eigenen Projekte verwendet werden.

Was macht Computerlinguistik?

Dies ist das interdisziplinärste Feld. Das Wichtigste dabei ist, zu verstehen, was in der elektronischen Welt vor sich geht und wer Ihnen bei bestimmten Dingen hilft.

Wir sind von sehr vielen digitalen Informationen umgeben, es gibt viele Geschäftsprojekte, deren Erfolg von der Informationsverarbeitung abhängt, diese Projekte können sich auf den Bereich Marketing, Politik, Wirtschaft und alles andere beziehen. Und es ist sehr wichtig, mit diesen Informationen effektiv umgehen zu können – das Wichtigste ist nicht nur die Geschwindigkeit der Informationsverarbeitung, sondern auch die Leichtigkeit, mit der Sie nach dem Herausfiltern des Rauschens die benötigten Daten erhalten und eine vollständige erstellen können Bild davon.

Früher wurden mit der Computerlinguistik einige globale Ideen in Verbindung gebracht, zum Beispiel: Man dachte, dass maschinelle Übersetzung die menschliche Übersetzung ersetzen würde, dass Roboter anstelle von Menschen arbeiten würden. Doch mittlerweile scheint es eine Utopie zu sein, und maschinelle Übersetzung wird in Suchmaschinen eingesetzt, um schnell in einer unbekannten Sprache zu suchen. Das heißt, die Linguistik beschäftigt sich heute nur noch selten mit abstrakten Problemen – meist mit einigen kleinen Dingen, die in ein großes Produkt eingefügt werden können und damit Geld verdienen.

Eine der großen Aufgaben der modernen Linguistik ist das semantische Web, bei dem die Suche nicht nur nach übereinstimmenden Wörtern, sondern nach Bedeutung erfolgt und alle Websites auf die eine oder andere Weise durch Semantik gekennzeichnet sind. Dies kann beispielsweise für polizeiliche oder medizinische Berichte nützlich sein, die täglich verfasst werden. Die Analyse interner Zusammenhänge liefert viele notwendige Informationen, aber das manuelle Lesen und Berechnen ist unglaublich zeitaufwändig.

Kurz gesagt, wir haben tausend Texte, wir müssen sie in Gruppen sortieren, jeden Text in Form einer Struktur präsentieren und eine Tabelle erhalten, mit der wir bereits arbeiten können. Dies wird als unstrukturierte Informationsverarbeitung bezeichnet. Andererseits beschäftigt sich die Computerlinguistik beispielsweise mit der Erstellung künstlicher Texte. Es gibt ein Unternehmen, das einen Mechanismus entwickelt hat, um Texte zu Themen zu generieren, über die man nicht schreiben kann: Änderungen der Immobilienpreise, Wettervorhersagen, Berichte über Fußballspiele. Es ist viel teurer, diese Texte für eine Person zu bestellen, und Computertexte zu solchen Themen werden in einer kohärenten menschlichen Sprache verfasst.

Yandex beteiligt sich aktiv an Entwicklungen im Bereich der Suche nach unstrukturierten Informationen in Russland; Kaspersky Lab stellt Forschungsgruppen ein, die sich mit maschinellem Lernen befassen. Versucht jemand auf dem Markt, etwas Neues auf dem Gebiet der Computerlinguistik zu entwickeln?

**Bücher zur Computerlinguistik:**

Daniel Jurafsky, Sprach- und Sprachverarbeitung

Christopher Manning, Prabhakar Raghavan, Heinrich Schütze, „Einführung in die Informationsbeschaffung“

Yakov Testelets, „Einführung in die allgemeine Syntax“

Die meisten sprachlichen Entwicklungen sind Eigentum großer Unternehmen, fast nichts ist gemeinfrei. Dies verlangsamt die Entwicklung der Branche; wir haben keinen freien Sprachmarkt oder Paketlösungen.

Darüber hinaus mangelt es an umfassenden Informationsressourcen. Es gibt ein Projekt wie das Nationale Korpus der russischen Sprache. Dies ist eines der besten Nationalgebäude der Welt, das sich rasant entwickelt und unglaubliche Möglichkeiten für wissenschaftliche und angewandte Forschung eröffnet. Der Unterschied ist ungefähr derselbe wie in der Biologie – vor und nach der DNA-Forschung.

Viele Ressourcen sind jedoch nicht auf Russisch verfügbar. Daher gibt es kein Analogon zu einer so wunderbaren englischsprachigen Ressource wie Framenet – dies ist ein konzeptionelles Netzwerk, in dem alle möglichen Verbindungen eines bestimmten Wortes mit anderen Wörtern formal dargestellt werden. Zum Beispiel gibt es das Wort „fliegen“ – wer kann fliegen, wo, mit welcher Präposition wird dieses Wort verwendet, mit welchen Wörtern wird es kombiniert und so weiter. Diese Ressource hilft, Sprache mit dem wirklichen Leben zu verbinden, das heißt, zu verfolgen, wie sich ein bestimmtes Wort auf der Ebene der Morphologie und Syntax verhält. Es ist sehr nützlich.

Die Firma Avicomp entwickelt derzeit ein Plugin zur Suche nach Artikeln mit ähnlichem Inhalt. Das heißt, wenn Sie sich für einen Artikel interessieren, können Sie schnell einen Blick auf die Geschichte der Handlung werfen: Wann entstand das Thema, was wurde geschrieben und wann war der Höhepunkt des Interesses an diesem Problem. Mit Hilfe dieses Plugins wird es beispielsweise möglich sein, ausgehend von einem Artikel über Ereignisse in Syrien sehr schnell zu sehen, wie sich die Ereignisse dort im vergangenen Jahr entwickelt haben.

Wie wird der Lernprozess im Masterstudium strukturiert sein?

Die Ausbildung an der HSE ist wie an westlichen Universitäten in separaten Modulen organisiert. Die Studierenden werden in kleine Teams, Mini-Startups, eingeteilt – das heißt, am Ende sollen wir mehrere fertige Projekte erhalten. Wir wollen echte Produkte bekommen, die wir dann den Menschen zugänglich machen und der Öffentlichkeit überlassen.

Zusätzlich zu den unmittelbaren Projektmanagern der Studierenden möchten wir für sie Kuratoren aus dem Kreis ihrer potenziellen Arbeitgeber finden – zum Beispiel vom selben Yandex, die dieses Spiel ebenfalls spielen und den Studierenden Ratschläge geben.

Ich hoffe, dass Menschen aus den unterschiedlichsten Bereichen zum Masterstudiengang kommen: Programmierer, Linguisten, Soziologen, Vermarkter. Wir werden mehrere Anpassungskurse in Linguistik, Mathematik und Programmierung anbieten. Dann werden wir zwei ernsthafte Kurse in Linguistik haben, die sich auf die aktuellsten Sprachtheorien beziehen; wir möchten, dass unsere Absolventen in der Lage sind, moderne sprachwissenschaftliche Artikel zu lesen und zu verstehen. Mit der Mathematik ist es genauso. Wir werden einen Kurs mit dem Titel „Mathematische Grundlagen der Computerlinguistik“ veranstalten, der diejenigen Zweige der Mathematik skizziert, auf denen die moderne Computerlinguistik basiert.

Um sich für ein Masterstudium einzuschreiben, müssen Sie eine Aufnahmeprüfung in Sprache bestehen und einen Portfolio-Wettbewerb bestehen.

Zusätzlich zu den Hauptkursen wird es eine Reihe von Wahlpflichtfächern geben. Wir haben mehrere Zyklen geplant – zwei davon konzentrieren sich auf die vertiefte Beschäftigung mit einzelnen Themen, zu denen beispielsweise maschinelle Übersetzung und Korpuslinguistik gehören. und einer bezieht sich im Gegenteil auf verwandte Bereiche: wie soziale Netzwerke, maschinelles Lernen oder Digital Humanities – ein Kurs, der hoffentlich auf Englisch unterrichtet wird.

Seit 2012 bildet das Institut für Linguistik der Russischen Staatlichen Universität für Geisteswissenschaften Master im Masterstudiengang aus Computerlinguistik(Richtung Grundlegende und angewandte Linguistik). Dieses Programm dient der professionellen Vorbereitung Linguisten die sowohl die Grundlagen der Linguistik als auch moderne Methoden der Forschung, der fachanalytischen und ingenieurwissenschaftlichen Arbeit beherrschen und in der Lage sind, sich effektiv an der Entwicklung innovativer Sprachcomputertechnologien zu beteiligen.

Am Ausbildungsprozess sind Entwickler großer Forschungs- und kommerzieller Systeme im Bereich der automatischen Textverarbeitung beteiligt, die die Verbindung der Masterausbildung mit dem Mainstream der modernen Computerlinguistik sicherstellen. Besonderes Augenmerk wird auf die Teilnahme von Meistern an russischen und internationalen Konferenzen gelegt.

Unter den Lehrern sind die Autoren grundlegender Lehrbücher zu sprachlichen Fachgebieten, Weltklasse-Spezialisten, Projektmanager großer automatischer Sprachverarbeitungssysteme: Ya.G. Testelets, I.M. Boguslavsky, V.I. Belikov, V.I. Podlesskaya, V.P. Selegey, L.L. Iomdin, A.S. Starostin, S.A. Sharov sowie Mitarbeiter von Unternehmen, die weltweit führend auf dem Gebiet der Computerlinguistik sind: IBM (Watson-System), Yandex, ABBYY (Lingvo, FineReader, Compreno-Systeme).

Grundlage für die Masterausbildung in diesem Studiengang ist der Projektansatz. Die Einbindung von Masterstudierenden in Forschungsarbeiten im Bereich der Computerlinguistik erfolgt auf Basis der Russischen Staatlichen Universität für Geisteswissenschaften und auf Basis von Unternehmen, die Programme im Bereich AOT entwickeln (ABBYY, IBM etc.), die , ist natürlich ein großes Plus sowohl für die Meister selbst als auch für ihre möglichen Arbeitgeber. In den Masterstudiengang werden insbesondere gezielt Masterstudierende aufgenommen, deren Ausbildung durch künftige Arbeitgeber erfolgt.

Aufnahmetests: „Formale Modelle und Methoden der modernen Linguistik.“ Genaue Informationen zur Prüfungszeit finden Sie auf der Website der Master-Abteilung der Russischen Staatlichen Universität für Geisteswissenschaften.

Leiter der Magistratur - Leiter. Bildungs- und Wissenschaftszentrum für Computerlinguistik, Direktor für Sprachforschung bei ABBYY Wladimir Pawlowitsch Selegej und Doktor der Philologie, Professor Vera Isaakovna Podleskaya .

Programm der Aufnahmeprüfung und des Vorstellungsgesprächs für das Fach „Formale Modelle und Methoden der modernen Linguistik“.

Kommentare zum Programm

  • Jede Programmfrage kann von Aufgaben begleitet werden, die sich auf die Beschreibung spezifischer sprachlicher Phänomene im Zusammenhang mit dem Abschnitt der Frage beziehen: Konstruktion von Strukturen, Beschreibung von Einschränkungen, mögliche Algorithmen zur Konstruktion und/oder Identifizierung.
  • Mit Sternchen gekennzeichnete Fragen sind optional (sie erscheinen unter Nummer 3 auf den Tickets). Kenntnisse über relevantes Material sind für Kandidaten ein großer Vorteil, aber nicht zwingend erforderlich.
  • Zusätzlich zu den theoretischen Fragen bieten die Prüfungstickets einen kleinen Ausschnitt eines speziellen (sprachlichen) Textes in englischer Sprache zur Übersetzung und Diskussion. Bewerber müssen ein ausreichendes Maß an Kenntnissen der englischen wissenschaftlichen Terminologie und der Fähigkeit zur wissenschaftlichen Textanalyse nachweisen. Als Beispiel für einen Text, der dem Antragsteller keine ernsthaften Schwierigkeiten bereiten sollte, finden Sie unten einen Auszug aus dem Artikel https://en.wikipedia.org/wiki/Anaphora_(linguistics):

In der Linguistik ist Anaphora (/əˈnæfərə/) die Verwendung eines Ausdrucks, dessen Interpretation von einem anderen Ausdruck im Kontext (seinem Antezedens oder Postzedens) abhängt. Im engeren Sinne ist Anaphora die Verwendung eines Ausdrucks, der speziell von einem vorangegangenen Ausdruck abhängt, und steht daher im Gegensatz zu Kataphora, bei der es sich um die Verwendung eines Ausdrucks handelt, der von einem postzedenten Ausdruck abhängt. Der anaphorische (verweisende) Begriff wird Anapher genannt. Beispielsweise ist in dem Satz „Sally angekommen, aber niemand hat sie gesehen“ das Pronomen „her“ eine Anapher, die sich auf das Vorgängerwort „Sally“ bezieht. Im Satz „Vor ihrer Ankunft sah niemand Sally“ bezieht sich das Pronomen „her“ auf das Nachwort „Sally“, daher ist „her“ nun eine Katapher (und eine Anapher im weiteren, aber nicht im engeren Sinne). Normalerweise ist ein anaphorischer Ausdruck ein Proform oder eine andere Art von deiktischem (kontextabhängigem) Ausdruck. Sowohl Anaphora als auch Cataphora sind Arten von Endophora und beziehen sich auf etwas, das an anderer Stelle in einem Dialog oder Text erwähnt wird.

Anaphora ist aus verschiedenen Gründen und auf verschiedenen Ebenen ein wichtiges Konzept: Erstens zeigt Anaphora an, wie ein Diskurs aufgebaut und aufrechterhalten wird; Zweitens verbindet Anaphora verschiedene syntaktische Elemente auf der Ebene des Satzes miteinander. Drittens stellt Anaphora eine Herausforderung für die Verarbeitung natürlicher Sprache in der Computerlinguistik dar, da die Identifizierung der Referenz schwierig sein kann; und viertens sagt Anaphora einiges darüber aus, wie Sprache verstanden und verarbeitet wird, was für Bereiche der Linguistik relevant ist, die sich für kognitive Psychologie interessieren.

THEORETISCHE FRAGEN

ALLGEMEINE FRAGEN DER LINGUISTIK

  • Gegenstand der Linguistik. Sprache und Rede. Synchronie und Diachronie.
  • Sprachniveaus. Formale Modelle von Sprachniveaus.
  • Syntagmatik und Paradigmatik. Das Konzept der Verteilung.
  • Grundlagen interlingualer Vergleiche: Typologische, genealogische und räumliche Linguistik.
  • *Mathematische Linguistik: Gegenstand und Forschungsmethoden

PHONETIK

  • Fachgebiet Phonetik. Artikulatorische und akustische Phonetik.
  • Segmentale und suprasegmentale Phonetik. Prosodie und Intonation.
  • Grundbegriffe der Phonologie. Typologie phonologischer Systeme und ihrer phonetischen Implementierungen.
  • *Computerwerkzeuge und Methoden der phonetischen Forschung
  • *Sprachanalyse und -synthese.

MORPHOLOGIE

  • Fachgebiet Morphologie. Morphe, Morpheme, Allomorphe.
  • Flexion und Wortbildung.
  • Grammatische Bedeutungen und Wege ihrer Umsetzung. Grammatische Kategorien und Grammeme. Morphologische und syntaktische grammatikalische Bedeutungen.
  • Die Konzepte Wortform, Stamm, Lemma und Paradigma.
  • Teile der Rede; grundlegende Ansätze zur Identifizierung von Wortarten.
  • *Formale Modelle zur Beschreibung von Flexion und Wortbildung.
  • *Morphologie bei automatischen Sprachverarbeitungsaufgaben: Rechtschreibprüfung, Lemmatisierung, POS-Tagging

SYNTAX

  • Thema Syntax. Möglichkeiten, syntaktische Beziehungen auszudrücken.
  • Möglichkeiten zur Darstellung der syntaktischen Struktur eines Satzes. Vor- und Nachteile von Abhängigkeitsbäumen und Komponenten.
  • Möglichkeiten zur Beschreibung linearer Ordnung. Mangelnde Projektivität und Bruch von Komponenten. Das Konzept der Transformation; Transformationen im Zusammenhang mit linearer Ordnung.
  • Die Beziehung zwischen Syntax und Semantik: Valenzen, Kontrollmodelle, Aktanten und Zirkonstanten.
  • Diathese und Sicherheiten. Aktantenableitung.
  • Kommunikative Organisation der Äußerung. Thema und Sinn, Gegebenes und Neues kontrastieren.
  • *Hauptsyntaktische Theorien: MST, Generativismus, funktionale Grammatik, HPSG
  • *Mathematische Modelle der Syntax: Klassifikation formaler Sprachen nach Chomsky, Erkennungsalgorithmen und deren Komplexität.

SEMANTIK

  • Thema Semantik. Naive und wissenschaftliche Sprachbilder der Welt. Sapir-Whorf-Hypothese.
  • Bedeutung in Sprache und Sprache: Bedeutung und Referent. Art der Referenz (denotativer Status).
  • Lexikalische Semantik. Möglichkeiten, die Semantik eines Wortes zu beschreiben.
  • Grammatische Semantik. Hauptkategorien am Beispiel der russischen Sprache.
  • Semantik des Satzes. Aussagekomponente. Deixis und Anaphora. Quantoren und Konnektoren. Modalität.
  • Hierarchie und Systematik lexikalischer Bedeutungen. Polysemie und Homonymie. Semantische Struktur eines polysemantischen Wortes. Die Konzepte von Invariante und Prototyp.
  • Paradigmatische und syntagmatische Beziehungen im Wortschatz. Lexikalische Funktionen.
  • Deutung. Sprache der Interpretation. Moskauer Semantische Schule
  • Semantik und Logik. Der Wahrheitswert der Aussage.
  • Theorie der Sprechakte. Die Äußerung und ihre illokutionäre Kraft. Performative. Klassifizierung von Sprechakten.
  • Phraseologie: Inventar und Methoden zur Beschreibung von Phraseologieeinheiten.
  • *Modelle und Methoden der formalen Semantik.
  • *Modelle der Semantik in der modernen Computerlinguistik.
  • *Distributive und operative Semantik.
  • *Grundlegende Ideen der Konstruktionsgrammatik.

TYPOLOGIE

  • Traditionelle typologische Klassifikationen von Sprachen.
  • Typologie grammatischer Kategorien von Substantiven und Verben.
  • Typologie eines einfachen Satzes. Die wichtigsten Konstruktionsarten: Akkusativ, Ergativ, Aktiv.
  • Typologie der Wortstellung und Greenberg-Korrelationen. Links- und rechtsverzweigte Sprachen.

LEXIKOGRAPHIE

  • Wortschatz als Inventar der Kultur; soziale Variation des Wortschatzes, lexikalischer Gebrauch, Norm, Kodifizierung.
  • Typologie von Wörterbüchern (zu russischem Material). Reflexion des Wortschatzes in Wörterbüchern verschiedener Art.
  • Zweisprachige Lexikographie unter Verwendung der russischen Sprache.
  • Beschreibende und präskriptive Lexikographie. Professionelle Sprachwörterbücher.
  • Besonderheiten der wichtigsten russischen erklärenden Wörterbücher. Struktur eines Wörterbucheintrags. Interpretation und enzyklopädische Informationen.
  • Wortschatz und Grammatik. Die Idee eines integralen Sprachmodells in der Moskauer Semantischen Schule.
  • *Methodik eines Lexikographen.
  • *Korpusmethoden in der Lexikographie.

Text- und Diskurslinguistik

  • Der Begriff Text und Diskurs.
  • Mechanismen der Interphrasenkommunikation. Die wichtigsten Arten von Mitteln ihrer sprachlichen Umsetzung.
  • Der Satz als Einheit der Sprache und als Element des Textes.
  • Superphrasale Einheiten, Prinzipien ihrer Bildung und Isolierung, Grundeigenschaften.
  • Hauptkategorien der Textklassifizierung (Genre, Stil, Register, Themenbereich usw.)
  • *Methoden zur automatischen Genreklassifizierung.

SOZIOLINGUISTIK

  • Das Problem des Themas und der Grenzen der Soziolinguistik, ihr interdisziplinärer Charakter. Grundbegriffe der Soziologie und Demographie. Ebenen der Sprachstruktur und Soziolinguistik. Grundbegriffe und Richtungen der Soziolinguistik.
  • Sprachkontakte. Zweisprachigkeit und Diglossie. Divergente und konvergente Prozesse in der Sprachgeschichte.
  • Soziale Differenzierung der Sprache. Existenzformen der Sprache. Literatursprache: Gebrauchsnorm-Kodifizierung. Funktionsbereiche der Sprache.
  • Sprachsozialisation. Die hierarchische Natur der sozialen und sprachlichen Identität. Das sprachliche Verhalten eines Individuums und sein kommunikatives Repertoire.
  • Methoden der soziolinguistischen Forschung.

Computerlinguistik

  • Aufgaben und Methoden der Computerlinguistik.
  • Korpuslinguistik. Hauptmerkmale des Falles.
  • Wissensrepräsentation. Grundgedanken der Rahmentheorie von M. Minsky. FrameNet-System.
  • Thesaurus und Ontologien. WordNet.
  • Grundlagen der statistischen Textanalyse. Frequenzwörterbücher. Kollokationsanalyse.
  • *Das Konzept des maschinellen Lernens.

LITERATUR

Pädagogisch (Grundniveau)

Baranov A. N. Einführung in die Angewandte Linguistik. M.: Editorial URRS, 2001.

Baranov A.N., Dobrovolsky D.O. Grundlagen der Phraseologie (Kurzkurs) Studienführer. 2. Auflage. Moskau: Flinta, 2014.

Belikov V.A., Krysin L.P. Soziolinguistik. M., Russische Staatliche Universität für Geisteswissenschaften, 2001.

Burlak S.A., Starostin S.A. Vergleichende historische Linguistik. M.: Akademie. 2005

Vakhtin N.B., Golovko E.V.. Soziolinguistik und Sprachsoziologie. St. Petersburg, 2004.

Knyazev S.V., Pozharitskaya S.K. Moderne russische Literatursprache: Phonetik, Grafik, Rechtschreibung, Rechtschreibung. 2. Aufl. M., 2010

Kobozeva I.M. Sprachliche Semantik. M.: Redaktion URSS. 2004.

Kodzasov S.V., Krivnova O.F. Allgemeine Phonetik. M.: RSUH, 2001.

Krongauz M.A. Semantik. M.: RSUH. 2001.

Krongauz M.A. Semantik: Aufgaben, Aufgaben, Texte. M.: Akademie. 2006..

Maslov Yu.S. Einführung in die Linguistik. Ed. 6., gelöscht. M.: Akademie, phil. Fak. Staatliche Universität St. Petersburg,

Plungyan V.A. Allgemeine Morphologie: Einführung in das Thema. Ed. 2. M.: Editorial URSS, 2003.

Testelets Ya.G. Einführung in die allgemeine Syntax. M., 2001.

Shaikevich A.Ya. Einführung in die Linguistik. M.: Akademie. 2005.

Wissenschaftlich und Referenz

Apresyan Yu.D. Ausgewählte Werke, Band I. Lexikalische Semantik: 2. Auflage, Spanisch. und zusätzlich M.: Schule „Sprachen der russischen Kultur“, 1995.

Apresyan Yu.D. Ausgewählte Werke, Band II. Integrale Beschreibung der Sprach- und Systemlexikographie. M.: Schule „Sprachen der russischen Kultur“, 1995.

Apresyan Yu.D.(Hrsg.) Neues erklärendes Wörterbuch der Synonyme der russischen Sprache. Moskau – Wien: „Sprachen der russischen Kultur“, Wiener Slavistischer Almanach, Sonderband 60, 2004.

Apresyan Yu.D.(Hrsg.) Sprachliches Weltbild und systemische Lexikographie (Hrsg. Yu. D. Apresyan). M.: „Sprachen slawischer Kulturen“, 2006, Vorwort und Kapitel. 1, S. 26 – 74.

Bulygina T.V., Shmelev A.D. Sprachliche Konzeptualisierung der Welt (basierend auf der russischen Grammatik). M.: Schule „Sprachen der russischen Kultur“, 1997.

Weinreich W. Sprachkontakte. Kiew, 1983.

Vezhbitskaya A. Semantische Universalien und Beschreibung von Sprachen. M.: Schule „Sprachen der russischen Kultur“. 1999.

Galperin I.R. Text als Gegenstand sprachwissenschaftlicher Forschung. 6. Aufl. M.: LKI, 2008 („Sprachliches Erbe des 20. Jahrhunderts“)

Zaliznyak A.A.„Russische Nominalflexion“ mit der Anwendung ausgewählter Werke zur modernen russischen Sprache und zur allgemeinen Sprachwissenschaft. M.: Sprachen der slawischen Kultur, 2002.

Zaliznyak A.A., Paducheva E.V. Auf dem Weg zu einer Typologie der Relativsätze. / Semiotik und Informatik, Bd. 35. M., 1997, p. 59-107.

Iwanow Wjatsch. Sonne.. Linguistik des dritten Jahrtausends. Fragen für die Zukunft. M., 2004. S. 89-100 (11. Sprachsituation in der Welt und Prognose für die nahe Zukunft).

Kibrik A.E. Aufsätze zu allgemeinen und angewandten Fragen der Linguistik. M.: Verlag der Moskauer Staatlichen Universität, 1992.

Kibrik A.E. Sprachkonstanten und -variablen. St. Petersburg: Aletheya, 2003.

Labov U. Zum Mechanismus des Sprachwandels // Neues in der Linguistik. Ausgabe 7. M., 1975. S. 320-335.

Lyons J. Linguistische Semantik: Einführung. M.: Sprachen der slawischen Kultur. 2003.

Lyons John. Sprache und Linguistik. Einführungskurs. M: URSS, 2004

Lakoff J. Frauen, Feuer und gefährliche Dinge: Was uns die Kategorien der Sprache über das Denken verraten. M.: Sprachen der slawischen Kultur. 2004.

Lakoff J, Johnson M. Metaphern, nach denen wir leben. Pro. aus dem Englischen Ausgabe 2. M.: URSS. 2008.

Linguistisches Enzyklopädisches Wörterbuch / Ed. IN UND. Jarzewa. M.: Wissenschaftlicher Verlag „Big Russian Encyclopedia“, 2002.

Melchuk I.A. Kurs der allgemeinen Morphologie. Tt. I-IV. Moskau-Wien: „Sprachen der slawischen Kultur“, Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997–2001.

Meltschuk I. A. Erfahrung in der Theorie sprachlicher Modelle „BEDEUTUNG ↔ TEXT“. M.: Schule „Sprachen der russischen Kultur“, 1999.

Fedorova L.L. Semiotik. M., 2004.

Filippov K. A. Textlinguistik: Vorlesungsreihe – 2. Aufl., Spanisch. und zusätzlich Ed. St. Petersburg Universität, 2007.

Haspelmath, M., et al. (Hrsg.). Weltatlas der Sprachstrukturen. Oxford, 2005.

Trockner, M.S. und Haspelmath, M.(Hrsg.) Der Weltatlas der Sprachstrukturen online. Leipzig: Max-Planck-Institut für evolutionäre Anthropologie, 2013. (http://wals.info)

Croft W. Typologie und Universalien. Cambridge: Cambridge University Press, 2003. Shopen, T. (Hrsg.). Sprachtypologie und syntaktische Beschreibung. 2. Auflage. Cambridge, 2007.

V. I. Belikov. Über Wörterbücher, „die die Normen der modernen russischen Literatursprache enthalten, wenn sie als Staatssprache der Russischen Föderation verwendet wird.“ 2010 // Portal Gramota.Ru (http://gramota.ru/biblio/research/slovari-norm)

Computerlinguistik und intellektuelle Technologien: Basierend auf den Materialien der jährlichen Internationalen Konferenz „Dialogue“. Bd. 1-11. - M.: Verlag Nauka, von der Russischen Staatlichen Universität für Geisteswissenschaften, 2002-2012. (Artikel zur Computerlinguistik, http://www.dialog-21.ru).

Nationales Korpus der russischen Sprache: 2006-2008. Neue Ergebnisse und Perspektiven. / Rep. Hrsg. V. A. Plungyan. - St. Petersburg: Nestor-Geschichte, 2009.

Neu in der Fremdlinguistik. Bd. XXIV, Computerlinguistik / Comp. B. Yu. Gorodetsky. M.: Fortschritt, 1989.

Shimchuk E. G. Russische Lexikographie: Lehrbuch. M.: Akademie, 2009.

Nationales Korpus der russischen Sprache: 2003-2005. Zusammenfassung der Artikel. M.: Indrik, 2005.

Für Kontakte:

Bildungs- und Wissenschaftszentrum für Computerlinguistik des Instituts für Linguistik der Russischen Staatlichen Universität für Geisteswissenschaften

Der Begriff „Computerlinguistik“ bezieht sich normalerweise auf einen weiten Bereich der Verwendung von Computerwerkzeugen – Programmen, Computertechnologien zum Organisieren und Verarbeiten von Daten – zur Modellierung der Funktionsweise von Sprache unter bestimmten Bedingungen, Situationen, Problembereichen sowie des Umfangs von Anwendung von Computermodellen der Sprache nicht nur in der Linguistik, sondern auch in verwandten Disziplinen. Eigentlich handelt es sich nur im letzteren Fall um Angewandte Linguistik im engeren Sinne, da die Computermodellierung von Sprache auch als Anwendungsgebiet der Informatiktheorie im Bereich der Linguistik angesehen werden kann. Dennoch besteht die allgemeine Praxis darin, dass das Gebiet der Computerlinguistik nahezu alles abdeckt, was mit dem Einsatz von Computern in der Linguistik zu tun hat: „Der Begriff „Computerlinguistik“ legt eine allgemeine Ausrichtung auf den Einsatz von Computern zur Lösung einer Vielzahl damit verbundener wissenschaftlicher und praktischer Probleme fest zur Sprache, ohne die Möglichkeiten zur Lösung dieser Probleme einzuschränken.

Institutioneller Aspekt der Computerlinguistik. Die Computerlinguistik entwickelte sich in den 60er Jahren zu einem besonderen Wissenschaftsgebiet. Der Publikationsfluss in diesem Bereich ist sehr groß. Neben thematischen Sammelbänden erscheint in den USA vierteljährlich die Zeitschrift Computational Linguistics. Ein Großteil der organisatorischen und wissenschaftlichen Arbeit wird von der Association for Computational Linguistics geleistet, die weltweit über regionale Strukturen (insbesondere eine europäische Niederlassung) verfügt. Alle zwei Jahre gibt es internationale Konferenzen zur Computerlinguistik – COLING. Relevante Themen sind auch auf internationalen Konferenzen zu künstlicher Intelligenz auf verschiedenen Ebenen umfassend vertreten.

Kognitive Werkzeuge für die Computerlinguistik

Die Computerlinguistik als spezielle angewandte Disziplin zeichnet sich vor allem durch ihr Instrumentarium aus, nämlich durch den Einsatz von Computerwerkzeugen zur Verarbeitung von Sprachdaten. Da Computerprogramme, die bestimmte Aspekte der Funktionsweise einer Sprache modellieren, eine Vielzahl von Programmierwerkzeugen nutzen können, scheint es nicht nötig zu sein, von einer allgemeinen Metasprache zu sprechen. Dies ist jedoch nicht der Fall. Es gibt allgemeine Prinzipien der Computermodellierung des Denkens, die in jedem Computermodell irgendwie umgesetzt werden. Diese Sprache basiert auf der in der künstlichen Intelligenz entwickelten Wissenstheorie und bildet einen wichtigen Zweig der Kognitionswissenschaft.

Die Hauptthese der Erkenntnistheorie besagt, dass Denken der Prozess der Verarbeitung und Generierung von Wissen ist. „Wissen“ oder „Wissen“ gilt als undefinierbare Kategorie. Das menschliche kognitive System fungiert als „Prozessor“, der Wissen verarbeitet. In der Erkenntnistheorie und Kognitionswissenschaft werden zwei Haupttypen von Wissen unterschieden – deklaratives („wissen was“) und prozedurales („wissen wie“2)). Deklaratives Wissen wird normalerweise in Form einer Reihe von Propositionen, Aussagen über etwas dargestellt. Ein typisches Beispiel für deklaratives Wissen kann die Interpretation von Wörtern in gewöhnlichen erklärenden Wörterbüchern sein. Zum Beispiel eine Tasse] – „ein kleines rundes Trinkgefäß, meist mit Henkel, aus Porzellan, Steingut usw.“ Deklaratives Wissen ist einem Überprüfungsverfahren im Sinne von „wahr-falsch“ zugänglich. Verfahrenswissen wird als eine Abfolge (Liste) von Operationen und Aktionen dargestellt, die ausgeführt werden sollten. Dies sind einige allgemeine Anweisungen zu Aktionen in bestimmten Situationen. Ein typisches Beispiel für Verfahrenswissen sind Anleitungen zur Nutzung von Haushaltsgeräten.

Im Gegensatz zu deklarativem Wissen kann prozedurales Wissen nicht als wahr oder falsch verifiziert werden. Sie können nur anhand des Erfolgs oder Misserfolgs des Algorithmus beurteilt werden.

Die meisten Konzepte der kognitiven Werkzeuge der Computerlinguistik sind gleichnamige: Sie bezeichnen gleichzeitig einige reale Entitäten des menschlichen kognitiven Systems und Möglichkeiten zur Darstellung dieser Entitäten in bestimmten Metasprachen. Mit anderen Worten: Elemente der Metasprache haben einen ontologischen und instrumentellen Aspekt. Ontologisch entspricht die Unterteilung in deklaratives und prozedurales Wissen unterschiedlichen Wissenstypen des menschlichen kognitiven Systems. Somit ist das Wissen über bestimmte Objekte, Objekte der Realität überwiegend deklarativ, und die funktionalen Fähigkeiten einer Person zum Gehen, Laufen und Autofahren werden im kognitiven System als prozedurales Wissen realisiert. Instrumentell kann Wissen (sowohl ontologisch prozedural als auch deklarativ) als eine Menge von Beschreibungen, Beschreibungen und als Algorithmus oder Anweisung dargestellt werden. Mit anderen Worten: ontologisch deklaratives Wissen über das Realitätsobjekt „Tabelle“ kann prozedural als eine Reihe von Anweisungen, Algorithmen zu seiner Erstellung, Zusammenstellung (= kreativer Aspekt des prozeduralen Wissens) oder als Algorithmus für seine typische Verwendung (= funktional) dargestellt werden Aspekt des prozeduralen Wissens). Im ersten Fall könnte es sich um einen Leitfaden für einen Tischleranfänger handeln, im zweiten Fall um eine Beschreibung der Fähigkeiten eines Büroschreibtisches. Auch umgekehrt gilt: ontologisch prozedurales Wissen lässt sich deklarativ darstellen.

Es bedarf einer gesonderten Diskussion, ob irgendein ontologisch deklaratives Wissen als prozedural dargestellt werden kann und ob jedes ontologisch prozedurale Wissen als deklarativ dargestellt werden kann. Forscher sind sich einig, dass jedes deklarative Wissen grundsätzlich prozedural dargestellt werden kann, obwohl dies für das kognitive System sehr verschwenderisch sein kann. Das Gegenteil dürfte wohl nicht der Fall sein. Tatsache ist, dass deklaratives Wissen viel expliziter und für eine Person leichter zu verstehen ist als prozedurales Wissen. Im Gegensatz zum deklarativen Wissen ist prozedurales Wissen überwiegend implizit. Somit bleibt die Sprachfähigkeit als prozedurales Wissen einem Menschen verborgen und wird von ihm nicht realisiert. Der Versuch, die Mechanismen der Sprachfunktion zu erklären, führt zu Funktionsstörungen. Fachleute auf dem Gebiet der lexikalischen Semantik wissen beispielsweise, dass eine langfristige semantische Introspektion, die zum Studium des Inhalts eines Wortes notwendig ist, dazu führt, dass der Forscher teilweise die Fähigkeit verliert, zwischen korrekten und falschen Verwendungen des analysierten Wortes zu unterscheiden. Weitere Beispiele können genannt werden. Es ist bekannt, dass der menschliche Körper aus mechanischer Sicht ein komplexes System aus zwei interagierenden Pendeln ist.

In der Wissenstheorie werden verschiedene Wissensstrukturen zur Untersuchung und Darstellung von Wissen verwendet – Rahmen, Szenarien, Pläne. Laut M. Minsky ist „ein Frame eine Datenstruktur, die eine stereotype Situation darstellen soll“ [Minsky 1978, S. 254]. Im Detail können wir sagen, dass ein Frame eine konzeptionelle Struktur zur deklarativen Darstellung von Wissen über eine typisierte thematisch einheitliche Situation ist, die Slots enthält, die durch bestimmte semantische Beziehungen miteinander verbunden sind. Aus Gründen der Übersichtlichkeit wird ein Rahmen häufig als Tabelle dargestellt, deren Reihen Schlitze bilden. Jeder Slot hat seinen eigenen Namen und Inhalt (siehe Tabelle 1).

Tabelle 1

Fragment des Rahmens „Tabelle“ in einer Tabellenansicht

Abhängig von der konkreten Aufgabenstellung kann die Rahmenstrukturierung deutlich komplexer sein; Ein Frame kann verschachtelte Subframes und Verweise auf andere Frames enthalten.

Anstelle einer Tabelle wird häufig eine Prädikatdarstellungsform verwendet. In diesem Fall liegt der Rahmen in Form eines Prädikats oder einer Funktion mit Argumenten vor. Es gibt andere Möglichkeiten, einen Rahmen darzustellen. Es kann beispielsweise als Tupel der folgenden Form dargestellt werden: ( (Frame-Name) (Slot-Name)) (Slot-Wert,),..., (Slot-Name n) (Slot-Wert l)).

Typischerweise weisen Frames in Wissensrepräsentationssprachen diesen Typ auf.

Wie andere kognitive Kategorien der Computerlinguistik ist der Begriff Frame gleichbedeutend. Ontologisch gesehen ist es Teil des menschlichen kognitiven Systems, und in diesem Sinne kann der Rahmen mit Konzepten wie Gestalt, Prototyp, Stereotyp, Schema verglichen werden. In der kognitiven Psychologie werden diese Kategorien aus ontologischer Sicht betrachtet. So unterscheidet D. Norman zwei Hauptformen der Existenz und Organisation von Wissen im menschlichen kognitiven System – semantische Netzwerke und Schemata. „Schemata“, schreibt er, „sind organisierte Wissenspakete, die zusammengestellt werden, um einzelne, unabhängige Wissenseinheiten darzustellen. Mein Schema für Sam könnte Informationen enthalten, die seine körperlichen Merkmale, seine Aktivitäten und Persönlichkeitsmerkmale beschreiben. Dieses Schema bezieht sich auf andere Schemata, die beschreiben.“ seine anderen Seiten“ [Norman 1998, S. 359]. Betrachtet man die instrumentelle Seite der Rahmenkategorie, so handelt es sich hierbei um eine Struktur zur deklarativen Repräsentation von Wissen. In bestehenden KI-Systemen können Frames komplexe Wissensstrukturen bilden; Rahmensysteme ermöglichen Hierarchie – ein Rahmen kann Teil eines anderen Rahmens sein.

Inhaltlich steht der Begriff des Rahmens der Kategorie der Interpretation sehr nahe. Tatsächlich ist ein Slot ein Analogon der Valenz, das Ausfüllen eines Slots ist ein Analogon eines Aktanten. Der Hauptunterschied zwischen ihnen besteht darin, dass die Interpretation nur sprachlich relevante Informationen über den Inhalt des Wortes enthält und der Rahmen erstens nicht unbedingt an das Wort gebunden ist und zweitens alle für eine bestimmte Problemsituation relevanten Informationen umfasst, einschließlich einschließlich außersprachlicher (Wissen über die Welt) 3).

Ein Skript ist eine konzeptionelle Struktur zur prozeduralen Darstellung von Wissen über eine stereotype Situation oder ein stereotypes Verhalten. Die Elemente eines Skripts sind die Schritte eines Algorithmus oder Anweisungen. Sie sprechen normalerweise von einem „Restaurantbesuchsszenario“, einem „Kaufszenario“ usw.

Ursprünglich wurde der Rahmen auch zur prozeduralen Darstellung verwendet (vgl. den Begriff „prozeduraler Rahmen“), heute wird in diesem Sinne jedoch häufiger der Begriff „Skript“ verwendet. Ein Szenario kann nicht nur als Algorithmus dargestellt werden, sondern auch als Netzwerk, dessen Eckpunkte bestimmten Situationen entsprechen und dessen Bögen Verbindungen zwischen Situationen entsprechen. Neben dem Konzept eines Skripts verwenden einige Forscher die Kategorie des Skripts für die Computermodellierung von Intelligenz. Ein Skript ist nach R. Schenk eine allgemein anerkannte, bekannte Abfolge von Kausalzusammenhängen. Zum Beispiel den Dialog verstehen

Draußen schüttet es wie aus Kübeln.

Sie müssen trotzdem in den Laden gehen: Es gibt nichts zu essen im Haus - gestern haben die Gäste alles weggefegt.

basiert auf unexpliziten semantischen Verbindungen wie „Wenn es regnet, ist es unerwünscht, nach draußen zu gehen, weil man sonst krank werden könnte.“ Diese Verbindungen bilden ein Skript, das von Muttersprachlern verwendet wird, um das sprachliche und nichtsprachliche Verhalten des anderen zu verstehen.

Durch die Anwendung des Szenarios auf eine konkrete Problemsituation wird a planen). Ein Plan wird verwendet, um Wissen über mögliche Maßnahmen, die zur Erreichung eines bestimmten Ziels führen, prozedural darzustellen. Ein Plan verknüpft ein Ziel mit einer Abfolge von Aktionen.

Im Allgemeinen umfasst ein Plan eine Abfolge von Vorgehensweisen, die den Ausgangszustand des Systems in den Endzustand überführen und zur Erreichung eines bestimmten Teilziels und Ziels führen. In KI-Systemen entsteht ein Plan als Ergebnis der Planungs- oder Planungsaktivität des entsprechenden Moduls – des Planungsmoduls. Der Planungsprozess kann auf der Anpassung von Daten aus einem oder mehreren Szenarios basieren, die durch Testverfahren aktiviert werden, um eine Problemsituation zu lösen. Der Plan wird vom Exekutivmodul ausgeführt, das die kognitiven Abläufe und physischen Aktionen des Systems steuert. Im elementaren Fall ist ein Plan in einem intelligenten System eine einfache Abfolge von Operationen; In komplexeren Versionen ist der Plan einem bestimmten Thema, seinen Ressourcen, Fähigkeiten, Zielen, detaillierten Informationen zur Problemsituation usw. zugeordnet. Die Entstehung eines Plans erfolgt im Prozess der Kommunikation zwischen dem Weltmodell, das zum Teil aus Szenarien besteht, dem Planungsmodul und dem Ausführungsmodul.

Im Gegensatz zu einem Drehbuch ist ein Plan an eine bestimmte Situation, einen bestimmten Darsteller gebunden und zielt darauf ab, ein bestimmtes Ziel zu erreichen. Die Wahl des Plans richtet sich nach den Ressourcen des Auftragnehmers. Die Machbarkeit eines Plans ist eine Voraussetzung für seine Generierung in einem kognitiven System, und das Merkmal der Machbarkeit ist nicht auf ein Szenario anwendbar.

Ein weiteres wichtiges Konzept ist das Modell der Welt. Unter einem Weltmodell versteht man üblicherweise eine Menge an Wissen über die Welt, die auf eine bestimmte Art und Weise organisiert ist und für ein kognitives System oder sein Computermodell charakteristisch ist. In einer etwas allgemeineren Form wird von einem Weltmodell als Teil eines kognitiven Systems gesprochen, das Wissen über die Struktur der Welt, ihre Muster usw. speichert. In einem anderen Verständnis wird ein Weltmodell mit den Ergebnissen des Verstehens eines Textes in Verbindung gebracht oder allgemeiner: Diskurs. Im Prozess des Verstehens des Diskurses wird sein mentales Modell aufgebaut, das das Ergebnis des Zusammenspiels des Inhaltsplans des Textes und des Wissens über die Welt ist, die für ein bestimmtes Thema charakteristisch ist [Johnson-Laird 1988, S. 237 ff]. Das erste und das zweite Verständnis werden oft kombiniert. Dies ist typisch für Sprachforscher, die in der kognitiven Linguistik und Kognitionswissenschaft arbeiten.

Eng mit der Kategorie des Rahmens verbunden ist der Begriff der Szene. Die Szenenkategorie wird in der Literatur vor allem als Bezeichnung einer begrifflichen Struktur zur deklarativen Darstellung von in einem Sprechakt aktualisierten und durch sprachliche Mittel (Lexeme, syntaktische Konstruktionen, grammatische Kategorien etc.) hervorgehobenen Situationen und deren Teilen verwendet. Da eine Szene mit sprachlichen Formen in Verbindung gebracht wird, wird sie oft durch ein bestimmtes Wort oder einen bestimmten Ausdruck aktualisiert. In Handlungsgrammatiken (siehe unten) erscheint eine Szene als Teil einer Episode oder Erzählung. Typische Beispiele für Szenen sind eine Reihe von Würfeln, mit denen das KI-System arbeitet, der Ort der Aktion in der Geschichte und die Teilnehmer der Aktion usw. In der künstlichen Intelligenz werden Szenen in Bilderkennungssystemen sowie in Programmen verwendet, die sich auf die Untersuchung (Analyse, Beschreibung) von Problemsituationen konzentrieren. Der Begriff einer Szene hat sich in der theoretischen Linguistik sowie in der Logik, insbesondere in der Situationssemantik, weit verbreitet, in der die Bedeutung einer lexikalischen Einheit direkt mit der Szene verknüpft ist.

Computerlinguisten beschäftigen sich mit der Entwicklung von Text- und Spracherkennungsalgorithmen, der Synthese künstlicher Sprache, der Schaffung semantischer Übersetzungssysteme und der eigentlichen Entwicklung künstlicher Intelligenz (im klassischen Sinne des Wortes – als Ersatz für die menschliche Intelligenz – it Es ist unwahrscheinlich, dass jemals erscheinen wird, sondern verschiedene Expertensysteme, die auf Datenanalysen basieren.

Spracherkennungsalgorithmen werden zunehmend im Alltag zum Einsatz kommen – Smart Homes und elektronische Geräte werden keine Fernbedienungen und Tasten mehr haben, sondern eine Sprachschnittstelle zum Einsatz kommen. Diese Technologie wird verfeinert, es gibt jedoch noch viele Herausforderungen: Für einen Computer ist es schwierig, menschliche Sprache zu erkennen, da verschiedene Menschen sehr unterschiedlich sprechen. Deshalb funktionieren Erkennungssysteme in der Regel gut, wenn sie entweder auf einen Sprecher trainiert und bereits an dessen Aussprachemerkmale angepasst sind, oder wenn die Anzahl der Phrasen, die das System erkennen kann, begrenzt ist (wie zum Beispiel bei Sprachbefehlen für ein Fernseher).

Spezialisten für die Erstellung semantischer Übersetzungsprogramme haben noch viel Arbeit vor sich: Gute Algorithmen wurden derzeit nur für die Übersetzung ins und aus dem Englischen entwickelt. Hier gibt es viele Probleme – verschiedene Sprachen sind semantisch unterschiedlich aufgebaut, dies unterscheidet sich auch auf der Ebene der Phrasenkonstruktion und nicht alle Bedeutungen einer Sprache können mit dem semantischen Apparat einer anderen vermittelt werden. Darüber hinaus muss das Programm Homonyme unterscheiden, Wortarten richtig erkennen und die richtige Bedeutung eines polysemantischen Wortes auswählen, das zum Kontext passt.

Auch die Synthese künstlicher Sprache (zum Beispiel für Heimroboter) ist mühsame Arbeit. Es ist schwierig, künstlich erzeugte Sprache für das menschliche Ohr natürlich klingen zu lassen, denn es gibt Millionen von Nuancen, auf die wir nicht achten, ohne die aber nicht mehr alles „gleich“ ist – Fehlstarts, Pausen, Zögern usw. Der Sprachfluss ist kontinuierlich und gleichzeitig diskret: Wir sprechen ohne Pause zwischen den Wörtern, aber es ist für uns nicht schwer zu verstehen, wo ein Wort endet und ein anderes beginnt, aber für eine Maschine wäre das ein großes Problem.

Die größte Richtung in der Computerlinguistik bezieht sich auf Big Data. Schließlich gibt es riesige Textkorpusse wie Newsfeeds, aus denen bestimmte Informationen isoliert werden müssen – zum Beispiel Newsfeeds hervorheben oder RSS an den Geschmack eines bestimmten Benutzers anpassen. Solche Technologien existieren bereits und werden sich weiterentwickeln, da die Rechenleistung rasant wächst. Die sprachliche Textanalyse wird auch zur Gewährleistung der Internetsicherheit und zur Suche nach notwendigen Informationen für Geheimdienste eingesetzt.

Wo kann man Computerlinguist studieren? In unserem Land sind die Fachgebiete der klassischen Linguistik und Programmierung, Statistik und Datenanalyse leider ziemlich getrennt. Und um ein digitaler Linguist zu werden, müssen Sie beides verstehen. Ausländische Universitäten verfügen über Hochschulprogramme in Computerlinguistik, aber für uns ist es derzeit die beste Option, eine sprachliche Grundausbildung zu absolvieren und anschließend die Grundlagen der IT zu erlernen. Es ist gut, dass es inzwischen viele verschiedene Online-Kurse gibt; während meiner Studienzeit war dies leider nicht der Fall. Ich habe an der Fakultät für Angewandte Linguistik der Moskauer Staatlichen Linguistischen Universität studiert, wo wir Kurse über künstliche Intelligenz und Spracherkennung hatten – aber immer noch nicht in ausreichendem Umfang. Jetzt versuchen IT-Unternehmen aktiv, mit Institutionen zu interagieren. Auch meine Kollegen von Kaspersky Lab und ich versuchen, uns am Bildungsprozess zu beteiligen: Wir halten Vorträge, veranstalten Studentenkonferenzen und vergeben Stipendien an Doktoranden. Doch bisher kommt die Initiative eher von Arbeitgebern als von Universitäten.

Linguistik, statistische Linguistiksoftware

Geschichte der Entwicklung der Computerlinguistik

Der Entstehungs- und Entstehungsprozess der modernen Linguistik als Wissenschaft der natürlichen Sprache stellt eine lange historische Entwicklung des Sprachwissens dar. Sprachwissen basiert auf Elementen, die im Prozess von Aktivitäten entstanden sind, die untrennbar mit der Entwicklung der Struktur der mündlichen Sprache, der Entstehung, Weiterentwicklung und Verbesserung des Schreibens, dem Schreibenlernen sowie der Interpretation und Dekodierung von Texten verbunden sind.

Die natürliche Sprache nimmt als Gegenstand der Linguistik einen zentralen Platz in dieser Wissenschaft ein. Im Laufe der Sprachentwicklung änderten sich auch die Vorstellungen darüber. Wurde der inneren Organisation der Sprache bisher keine besondere Bedeutung beigemessen und sie vor allem im Zusammenhang mit ihrer Beziehung zur Außenwelt betrachtet, kam ab dem späten 19. – frühen 20. Jahrhundert der inneren Organisation eine besondere Rolle zu formale Struktur der Sprache. In dieser Zeit entwickelte der berühmte Schweizer Linguist Ferdinand de Saussure die Grundlagen von Wissenschaften wie der Semiologie und der strukturellen Linguistik und legte sie in seinem Buch „Ein Kurs in allgemeiner Linguistik“ (1916) ausführlich dar.

Der Wissenschaftler kam auf die Idee, Sprache als einen einzigen Mechanismus, ein integrales Zeichensystem, zu betrachten, das es wiederum ermöglicht, Sprache mathematisch zu beschreiben. Saussure war der erste, der einen strukturellen Ansatz für die Sprache vorschlug, nämlich eine Beschreibung der Sprache durch Untersuchung der Beziehungen zwischen ihren Einheiten. Unter Einheiten oder „Zeichen“ verstand er ein Wort, das sowohl Bedeutung als auch Klang vereint. Das vom Schweizer Wissenschaftler vorgeschlagene Konzept basiert auf der Theorie der Sprache als einem Zeichensystem, das aus drei Teilen besteht: Sprache (aus dem Französischen langue), Sprache (aus dem Französischen parole) und Sprechaktivität (aus dem Französischen langage).

Der Wissenschaftler selbst definierte die von ihm geschaffene Wissenschaft als Semiologie als „eine Wissenschaft, die das Leben der Zeichen im Rahmen des Lebens der Gesellschaft untersucht“. Da Sprache ein Zeichensystem ist, argumentierte Saussure auf der Suche nach einer Antwort auf die Frage, welchen Platz die Linguistik unter anderen Wissenschaften einnimmt, dass die Linguistik Teil der Semiologie sei. Es ist allgemein anerkannt, dass es der Schweizer Philologe war, der den theoretischen Grundstein für eine neue Richtung in der Linguistik legte und zum Begründer und „Vater“ der modernen Linguistik wurde.

Das von F. de Saussure vorgeschlagene Konzept wurde in den Werken vieler herausragender Wissenschaftler weiterentwickelt: in Dänemark - L. Hjelmslev, in der Tschechischen Republik - N. Trubetskoy, in den USA - L. Bloomfield, Z. Harris, N. Chomsky. Was unser Land betrifft, so begann die Entwicklung der Strukturlinguistik hier ungefähr zur gleichen Zeit wie im Westen – an der Wende vom 19. zum 20. Jahrhundert. - in den Werken von F. Fortunatov und I. Baudouin de Courtenay. Es sei darauf hingewiesen, dass I. Baudouin de Courtenay eng mit F. de Saussure zusammenarbeitete. Wenn Saussure den theoretischen Grundstein der Strukturlinguistik legte, kann Baudouin de Courtenay als derjenige angesehen werden, der den Grundstein für die praktische Anwendung der vom Schweizer Wissenschaftler vorgeschlagenen Methoden legte. Er war es, der die Linguistik als eine Wissenschaft definierte, die statistische Methoden und funktionale Abhängigkeiten nutzt, und sie von der Philologie trennte. Die ersten Erfahrungen mit der Anwendung mathematischer Methoden in der Linguistik machte die Phonologie – die Wissenschaft von der Struktur der Laute einer Sprache.

Anzumerken ist, dass sich die von F. de Saussure aufgestellten Postulate in den in der Mitte des 20. Jahrhunderts relevanten Problemen der Linguistik widerspiegeln konnten. In dieser Zeit gab es eine deutliche Tendenz zur Mathematisierung der Sprachwissenschaft. In fast allen großen Ländern beginnt die rasante Entwicklung der Wissenschaft und Computertechnologie, die wiederum immer neue sprachliche Grundlagen erfordert. Das Ergebnis all dessen war die rasche Konvergenz der exakten Wissenschaften und der Geisteswissenschaften sowie das aktive Zusammenspiel von Mathematik und Linguistik, die praktische Anwendung bei der Lösung drängender wissenschaftlicher Probleme fanden.

In den 50er Jahren des 20. Jahrhunderts entstand an der Schnittstelle von Wissenschaften wie Mathematik, Linguistik, Informatik und künstlicher Intelligenz ein neuer Wissenschaftszweig – die Computerlinguistik (auch bekannt als Maschinenlinguistik oder automatische Textverarbeitung in natürlicher Sprache). Die Hauptentwicklungsstufen dieser Richtung fanden vor dem Hintergrund der Entwicklung der Methoden der künstlichen Intelligenz statt. Ein starker Impuls für die Entwicklung der Computerlinguistik war die Entwicklung der ersten Computer. Mit dem Aufkommen einer neuen Generation von Computern und Programmiersprachen in den 60er Jahren beginnt jedoch eine grundlegend neue Etappe in der Entwicklung dieser Wissenschaft. Es sollte auch beachtet werden, dass die Ursprünge der Computerlinguistik auf die Arbeiten des berühmten amerikanischen Linguisten N. Chomsky auf dem Gebiet der Formalisierung der Sprachstruktur zurückgehen. Die Ergebnisse seiner Forschung, die an der Schnittstelle von Linguistik und Mathematik gewonnen wurden, bildeten die Grundlage für die Entwicklung der Theorie formaler Sprachen und Grammatiken (generative oder generative Grammatiken), die häufig zur Beschreibung natürlicher und künstlicher Sprachen verwendet wird Sprachen, insbesondere Programmiersprachen. Genauer gesagt handelt es sich bei dieser Theorie um eine rein mathematische Disziplin. Es kann als eines der ersten in einer solchen Richtung der angewandten Linguistik wie der mathematischen Linguistik angesehen werden.

Die ersten Experimente und ersten Entwicklungen in der Computerlinguistik beziehen sich auf die Schaffung maschineller Übersetzungssysteme sowie von Systemen, die die menschlichen Sprachfähigkeiten modellieren. In den späten 80er Jahren kam es mit dem Aufkommen und der aktiven Entwicklung des Internets zu einem rasanten Wachstum der Menge an Textinformationen, die in elektronischer Form verfügbar waren. Dies hat dazu geführt, dass die Informationsabruftechnologien in eine qualitativ neue Phase ihrer Entwicklung eingetreten sind. Es entstand der Bedarf an der automatischen Verarbeitung von Texten in natürlicher Sprache und es entstanden völlig neue Aufgaben und Technologien. Wissenschaftler stehen vor dem Problem, einen riesigen Strom unstrukturierter Daten schnell zu verarbeiten. Um eine Lösung für dieses Problem zu finden, wurde großer Wert auf die Entwicklung und Anwendung statistischer Methoden im Bereich der automatischen Textverarbeitung gelegt. Mit ihrer Hilfe wurde es möglich, Probleme wie die Aufteilung von Texten in Cluster, die durch ein gemeinsames Thema verbunden sind, die Hervorhebung bestimmter Fragmente im Text usw. zu lösen. Darüber hinaus ermöglichte der Einsatz von Methoden der mathematischen Statistik und des maschinellen Lernens die Lösung der Probleme der Spracherkennung und der Erstellung von Suchmaschinen.

Wissenschaftler blieben nicht bei den erzielten Ergebnissen stehen: Sie setzten sich weiterhin neue Ziele und Vorgaben, entwickelten neue Techniken und Forschungsmethoden. All dies führte dazu, dass die Linguistik begann, als angewandte Wissenschaft zu fungieren, die eine Reihe anderer Wissenschaften vereinte, wobei die Mathematik mit ihrer Vielfalt quantitativer Methoden und der Fähigkeit, diese für ein tieferes Verständnis der Phänomene zu nutzen, eine führende Rolle spielte studiert werden. Auf diese Weise begann die Entstehung und Entwicklung der mathematischen Linguistik. Im Moment handelt es sich um eine relativ „junge“ Wissenschaft (sie existiert seit etwa fünfzig Jahren), die jedoch trotz ihres sehr „jungen Alters“ ein bereits etabliertes wissenschaftliches Wissensgebiet mit vielen erfolgreichen Errungenschaften darstellt.