Häufigkeitsliste von Wörtern. Englisches Frequenzwörterbuch: „kostenlos herunterladen ohne Registrierung.“ Definition des Begriffs „Frequenzwörterbuch“

Nachdem ich beschlossen hatte, mein Englischniveau zu verbessern (hauptsächlich im Hinblick auf den Wortschatz), wurde mir fast sofort klar, dass der effektivste Weg, Wörter zu lernen, ausschließlich aus Häufigkeitswörterbüchern besteht. Genauer gesagt können die Methoden des Lernens und Auswendiglernens sehr unterschiedlich sein, aber genau die Reihenfolge und Priorität bestimmter Wörter sollte anhand von Häufigkeitswörterbüchern bestimmt werden.

Nehmen wir an, Sie lesen ein Buch auf Englisch und alle 10 Wörter stoßen Sie auf etwas Unbekanntes. Stellen Sie sich vor, ich habe zuerst jedes unbekannte Wort aufgeschrieben und sie jeden Tag vollgestopft. Doch sehr bald wurde klar, dass die Effektivität eines solchen Studiums nahe Null liegt – da die meisten dieser Wörter im gesamten Buch nur ein- oder zweimal auftauchen und im Alltagsvokabular sogar einmal im Jahr vorkommen können.

Hier hilft das Frequenzwörterbuch. Die Idee dahinter ist: Sie stoßen auf ein Wort, dessen Übersetzung Sie nicht kennen. Erinnern Sie sich zunächst einmal: Wie oft kommt es Ihnen im Allgemeinen vor? Wenn dieses Wort in die Kategorie „Ja, ich habe es schon oft gehört, aber ich weiß nicht, wie es übersetzt wird“ fällt, stellen Sie es sicher auf „Lernen und Wiederholen“ ein. Wenn Ihnen dieses Wort selten begegnet oder Sie sich überhaupt nicht daran erinnern können, ist es an der Zeit, einen Blick in das Häufigkeitswörterbuch zu werfen.

Es gibt so einen wunderbaren Dienst „Test Your Vocabulary“, der es Ihnen ermöglicht, Ihren Wortschatz anhand einer kleinen Stichprobe (mehrere Dutzend Wörter) grob zu bestimmen, indem Sie Ihre Ergebnisse mit verfügbaren statistischen Analysedaten vergleichen. Es gibt auch verschiedene Ergebnisdiagramme, zum Beispiel ist dies die Verteilung der Teilnehmer (nicht englischsprachig) nach Wortschatz:

Wie Sie sehen, liegt der Wortschatz der meisten Menschen bei etwa 4500 Wörtern. Der Median der Verteilung liegt bei etwa 7800 Wörtern (die Hälfte der Menschen hat weniger Wortschatz, die andere Hälfte mehr).

Anderen linguistischen Studien zufolge garantiert ein Wortschatz von 6–7.000 Wörtern das Verständnis von 85 % der englischen Sprache. Daraus können wir schließen, dass ein 6.000 Jahre altes Wörterbuch zunächst ein durchaus akzeptables Ziel sein könnte.

Also zurück zu unserem Algorithmus. Wenn Sie ein Ihnen völlig unbekanntes Wort gefunden haben, suchen Sie es sofort im Häufigkeitswörterbuch. Wenn Sie beispielsweise Ihren Wortschatz auf mindestens 6.000.000 Wörter erweitern möchten und das gesuchte Wort in den ersten 6.000 Wörtern vorkommt, wiederholen Sie es.

Tatsächlich wird Ihr Wortschatz nach dem Erlernen der ersten 6000 im Notfall natürlich größer sein, aufgrund der Wörter, die Sie bereits kennen und die nicht im gelernten Intervall des Notfalls enthalten waren.

Nun, jetzt die Frage. Wo bekomme ich ein Frequenzwörterbuch? Bei Google? Egal wie es ist.

In der Regel bieten uns Websites zum Englischlernen nur die ersten tausend Wörter im Notfall an, für ein umfangreicheres Wörterbuch müssen wir jedoch bezahlen. Ja, die erste Suche nach einem Wörterbuch mit mindestens 3000 Wörtern löste bei mir einen Sturm der Empörung aus. Aber dann gelang es mir immer noch, ein sehr umfangreiches Wörterbuch zu finden, mit dem man allerdings nicht nach Wörtern suchen konnte: Es war in viele Seiten unterteilt und der Text war übrigens vor dem Kopieren und Einfügen geschützt (hilft, von (natürlich nur bei Schülern oder Hausfrauen). Um normal mit dem Häufigkeitswörterbuch arbeiten zu können, habe ich mir daher (nicht ohne einen gewissen Einfallsreichtum) den Code von den Seiten geschnappt und die ersten 6000 Wörter, die ich brauchte, in einer Tabelle zusammengefasst.

Genießen Sie es und es lebe der freie Zugang zu Informationen.

Aktualisieren: erweiterte die Tabelle auf 16.000 Wörter. Dieses Wörterbuch sollte 98 % der englischen Phrasen abdecken.

Hinweis: In der Tabelle fehlen einige Zahlen – es handelt sich um Eigennamen, deren Übersetzung einfach keinen Sinn ergibt.

Informationen des Sponsors

Primo4ki.com: Elektronik und Gadgets zu günstigen Preisen, Verkauf chinesischer Telefone. Vom Laden garantierte Qualität.

FREQUENZWÖRTERBUCH

Art des Wörterbuchs (siehe Wörterbuch) (normalerweise einsprachig), bei dem lexikalische Elemente anhand des Grades ihrer Verwendung in einem Textkörper charakterisiert werden, der entweder für die Sprache als Ganzes oder für einen bestimmten funktionalen Stil (siehe Stil) oder für einen einzelnen repräsentativ ist Autor. Je nach Typ unterscheiden sich lexikalische Einheiten. Wortformen, Wörter (Lexeme), Wortstämme (in der Informatik verwendet), Wörter mit bestimmter Bedeutung (semantische Phrasen), Phrasen. Es gibt Unterschiede zwischen absoluten und relativen Merkmalen der Verwendung einer lexikalischen Einheit ( X).Das absolute Merkmal ist die Häufigkeit ( F) einer gegebenen lexikalischen Einheit ( X), gleich der Anzahl der Nutzungen X in der untersuchten Textmenge F(X). In Ch.s. ist entweder gegeben F(X) oder normalisierte Frequenz

Wo N- Anzahl der untersuchten Wörter des Textes. Ein relatives Merkmal der Verwendung einer lexikalischen Einheit ist entweder ihr Rang (die Anzahl der lexikalischen Einheiten, die in einer bestimmten lexikalischen Einheit ein absolutes Verwendungsmerkmal aufweisen, das höher oder gleich dem absoluten Merkmal einer bestimmten lexikalischen Einheit ist) oder einige davon Merkmal, anhand dessen der Rang mehr oder weniger genau berechnet werden kann. In den meisten Ch.s. Es werden sowohl absolute als auch relative Merkmale angegeben. Ch.s. werden verwendet, um effektive Methoden für den Sprachunterricht zu entwickeln, Schlüsselwörter hervorzuheben (in der Informatik) und rationale Codes zu erstellen (in der Kommunikationstheorie).

Zündete.: Ermolenko G.V., Sprachstatistik. Kurzaufsatz und bibliografischer Index, Alma-Ata, 1970; Steinfeldt E. A., Frequenzwörterbuch der modernen russischen Literatursprache, M., 1973; Frequenzwörterbuch der russischen Sprache, hrsg. L. N. Zasorina, M., 1977; Kučera N., Francis W., Computeranalyse des heutigen amerikanischen Englisch, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier N., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1-4, P.-Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., Eine kommentierte Bibliographie der statistischen Stilistik, Ann Arbor, 1968.

In den letzten Jahrzehnten hat sich im Rahmen der Lexikographie eine neue Richtung herausgebildet – die lexikographische Statistik. Die lexikografische Statistik befasst sich mit der Erstellung von Häufigkeitswörterbüchern und löst damit verbundene theoretische und methodische Fragen zur Erstellung eines solchen Wörterbuchs.

Häufigkeitswörterbücher sind Listen von Wörtern, die die Häufigkeit ihrer Verwendung angeben, d. h. Zahlen, die angeben, wie oft ein bestimmtes Wort in Texten vorkommt.

Die ersten Häufigkeitswörterbücher der russischen Lexikographie erschienen in den 60er Jahren unseres Jahrhunderts. So wurde 1963 in Tallinn Z. A. Steinfeldts „Frequenzwörterbuch der modernen russischen Sprache“ veröffentlicht. Das Wörterbuch enthält 2500 der häufigsten Wörter. Dieses Wörterbuch diente viele Jahre lang als Quelle zur Bestimmung lexikalischer Mindestmaße für Autoren russischer Schulbücher an staatlichen Schulen.

Es sind auch andere Frequenzwörterbücher bekannt, die in den 60er und 70er Jahren veröffentlicht wurden: „2380 häufigste Wörter in der russischen Umgangssprache“ (1968), „Frequenzwörterbuch des allgemeinen wissenschaftlichen Vokabulars“, hrsg. V. M. Stepanova (1970), „Frequenzwörterbuch der Zeitungssprache“ G. P. Polyakova und G. Ya Solganik (1971), „Komplexes Frequenzwörterbuch des russischen wissenschaftlichen und technischen Vokabulars, 3047 Wörter“ P. N. Denisova, V. V. Morkovkina, Yu . L. Safyan (1978).

Bei der Erstellung von Frequenzwörterbüchern werden zunehmend die Möglichkeiten der Computertechnik genutzt. Dadurch wurde die lexikografische Statistik auf ein völlig neues Niveau gehoben.

Ein einzigartiges Ergebnis der Arbeit zur Analyse der Häufigkeit von Wörtern in der russischen Literatursprache war die Veröffentlichung des „Häufigkeitswörterbuchs der russischen Sprache“, hrsg. L. N. Zasorina (1977). Das Wörterbuch enthält 40.000 Wörter. Ziel der Compiler war es, die Grenzen des aktiven Wortschatzes zu bestimmen und einigermaßen vollständige Informationen über die Genredifferenzierung des modernen Wortschatzes bereitzustellen.

Das Häufigkeitswörterbuch besteht aus zwei Teilen: der Häufigkeitsliste selbst, die Wörter in der Reihenfolge ihrer abnehmenden Häufigkeit aufzeichnet, und der alphabetischen Häufigkeitsliste, in der dieselben Wörter in alphabetischer Reihenfolge angeordnet sind.

Das alphabetische Häufigkeitswörterbuch dieses Wörterbuchs enthält die folgenden Merkmale des Wortes:

1) Häufigkeit:

· Gesamthäufigkeit für die gesamte Stichprobe;

· Häufigkeit nach Genre (I – Zeitungs- und Zeitschriftentexte; II – Drama; III – wissenschaftliche und journalistische Texte; IV – Belletristik).

2) die Anzahl der Texte nach Genre, in denen dieses Wort vorkam.

Zum Beispiel:

Tabelle 2

Im Häufigkeitswörterbuch sind Wörter in absteigender Reihenfolge ihrer Häufigkeit angeordnet. Zum Beispiel:

Tisch 3

Frequenzwörterbücher können zum Studium verschiedener Aspekte des Wortschatzes verwendet werden. Laut Häufigkeitswörterbüchern werden Wörter mit hoher Häufigkeit und Wörter mit niedriger Häufigkeit unterschieden. Dies ermöglicht es uns, den Kern und die Peripherie des Wortschatzes zu identifizieren, zwischen Aktiv- und Passivbestand zu unterscheiden, die stilistische Zugehörigkeit und Gattung des Wortschatzes sowie seine soziale und Altersschichtung zu bestimmen. Die Berücksichtigung statistischer Daten ist wichtig bei der Lösung des Problems der Sprachnormalisierung, bei der Auswahl einer Reihe von Wörtern für die Aufnahme in den Wortschatz von Bildungswörterbüchern und bei der Übersetzung von Texten von einer Sprache in eine andere.

Zweite Version der Frequenzliste

Auf dieser Seite erhalten Sie Listen der häufigsten Wörter in der russischen Sprache. Bisher, Frequenzwörterbuch der russischen Sprache, hrsg. Als Informationsquelle über die Häufigkeit russischer Wörter wurde am häufigsten L.N. Zasorina (1977) herangezogen. Allerdings ist der Korpus, aus dem die Häufigkeit der Wörter in diesem Wörterbuch berechnet wurde, nach modernen Maßstäben sehr klein (etwa eine Million Wörter). Zudem ist die Liste deutlich veraltet: Sie entspricht der Häufigkeit der Wortverwendung im Zeitraum der 20er bis 60er Jahre. Infolgedessen umfasst das Korpus eine große Anzahl ideologischer Quellen, beispielsweise die Werke Lenins und Kalinins, Materialien des 22. und 23. Kongresses der KPdSU, sowjetische Zeitungen. Wörter Sowjetisch Und Genosse sind zusammen mit Funktionswörtern in den ersten hundert russischen Wörtern enthalten (sie kommen häufiger vor als Wörter). wo, hier, dein), Wörter Partei, Revolution, Kommunist kommen häufiger vor als zurück, herum, besser usw. Schließlich existiert die Liste der Wörter aus Zasorinas Wörterbuch nicht in elektronischer Form.

Die auf dieser Seite verfügbare Liste der Wörter enthält etwa 35.000 Wörter mit einer Häufigkeit von mehr als 1 ipm (Instanzen pro Million Wörter, Instanzen pro Million Wörter). Es gibt auch eine kürzere Liste der 5000 häufigsten russischen Wörter. Die Listen verwenden die kyrillische utf8-Kodierung und werden mit dem WinZip-Dienstprogramm komprimiert (Linux- oder Mac-Benutzer können StuffIt zum Entpacken verwenden).

Die Struktur der Listen folgt dem Format lemmatisierter Listen aus dem British National Corpus (BNC), erstellt von Adam Kilgariff, wie folgt:
Ordnungszahl, Häufigkeit (ipm), Lemma, Wortart (BNC-Klassifikation).

Wörter mit einer Häufigkeit von mehr als 1 ipm

  • - Wortformen nach Häufigkeit sortiert

Liste der 5000 häufigsten Wörter

  • - Lemmata in alphabetischer Reihenfolge sortiert
  • - Lemmata nach Häufigkeit sortiert

Einige Statistiken zur Verwendung russischer Wörter

  • Die durchschnittliche Wortlänge beträgt 5,28 Zeichen.
  • Die durchschnittliche Satzlänge beträgt 10,38 Wörter.
  • Die 1000 häufigsten Lemmata decken 64,0708 % des Textes ab.
  • Die 2000 häufigsten Lemmata decken 71,9521 % des Textes ab.
  • Die 3000 häufigsten Lemmata decken 76,5104 % des Textes ab.
  • Die 5000 häufigsten Lemmata decken 82,0604 % des Textes ab.

Weitere Informationen zum Zusammenhang zwischen Worthäufigkeit und Korpusabdeckung finden Sie hier.

Die Liste basiert auf einem repräsentativen Korpus der modernen russischen Sprache. Es umfasst eine Auswahl zeitgenössischer Prosa, politischer Memoiren, zeitgenössischer Zeitungen und Sachbücher (ca. 40 Millionen Wörter, wobei Prosa etwa etwas mehr als die Hälfte des Bandes ausmacht). Alle Texte des Korpus wurden zwischen 1970 und 2002 in russischer Sprache verfasst; der Großteil zwischen 1980 und 1995, Zeitungskorpus 1997-1999 (der Korpus basiert auf Texten aus der Moshkov-Bibliothek und dem Korpus des modernen Journalismus von A.V. Baranov).

Es ist bekannt, dass große Texte ein Problem für die Erstellung von Häufigkeitslisten darstellen, da ein relativ langer Text eine große Anzahl seltener Wörter enthalten kann, was seine Häufigkeit in der resultierenden Liste erheblich erhöht. Das zur Zusammenstellung dieser Liste verwendete Korpus enthält beispielsweise eine Variation von Tolkiens „Der Herr der Ringe“ (von Nick Perumov). Trotz der Tatsache, dass die Länge dieses Romans 250.000 Wörter beträgt, ist die Häufigkeit der Verwendung des Wortes weniger als ein Prozent des gesamten Korpus Hobbit In diesem Roman geht es um die ersten tausend russischen Wörter, wenn die Häufigkeit über alle Texte ohne Einschränkungen ihrer Länge gezählt wird. Aus diesem Grund wurden Häufigkeitslisten unter der Bedingung erstellt, dass die Stichprobe aus großen Texten auf 10.000 Wörter begrenzt ist und die Stichprobe aus Texten eines Autors weniger als 100.000 Wörter beträgt. Infolgedessen beträgt die Teilmenge des gesamten Korpus, die in Häufigkeitsberechnungen verwendet wird, etwa 16 Millionen Wörter.

Die Wortverteilung in den Texten ist alles andere als einheitlich. Einige Wörter (z. B. Präpositionen) kommen in vielen Texten mit ziemlich vorhersehbarer Häufigkeit vor. Die Häufigkeit anderer (z. B. Pronomen oder mentaler Verben) hängt maßgeblich vom Autor oder der Gattung des Textes ab, während viele Wörter „ansteckend“ sind: Wenn dieses Wort (z. B. ein Eigenname, eine Bezeichnung einer Person nach Rang) ist (z. B. Position oder ein Fachbegriff) einmal im Text vorkommt, ist es sehr wahrscheinlich, dass er dort noch viele Male wiederholt wird und somit seine Häufigkeit im Dokument deutlich erhöht. Es gibt verschiedene Möglichkeiten, solche Variationen zu messen (Church, K. und Gale, W. (1995) Poisson Mixtures, Zeitschrift für Natural Language Engineering, 1:2). Der einfachste Weg, das Verhalten eines Wortes zu bewerten, ist die Berechnung des Variationskoeffizienten, der sich aus der Standardabweichung dividiert durch den Mittelwert ergibt. Die Standardabweichung gibt den absoluten Wert der Variation in einem Datensatz an (sie steigt bei Wörtern mit höherer mittlerer Häufigkeit), während der Variationskoeffizient die Verteilung von Wörtern mit ungleicher mittlerer Häufigkeit vergleicht. Die Abweichungswerte für die 5000 häufigsten Wörter können eingesehen werden. Dateistruktur:
Lemma, durchschnittliche Häufigkeit (ipm), Anzahl der Texte, in denen dieses Wort vorkommt, Standardabweichung der Häufigkeit für alle Texte, Variationskoeffizient, Streuung.

Das Korpus, Werkzeuge für die Arbeit damit sowie das parallele englisch-russische Korpus (satzbasiertes Alignment) werden insbesondere in der folgenden Veröffentlichung des Autors beschrieben:

Sharoff, Serge, (2002). Bedeutung als Verwendung: Nutzung ausgerichteter Korpora für die kontrastive Untersuchung lexikalischer Semantik. Proz. Konferenz über Sprachressourcen und Evaluierung (LREC02). Mai 2002, Las Palmas, Spanien.

Es gibt auch separate Häufigkeitslisten für die folgenden Wortklassen:

Die Erstellung des Korpus und die Entwicklung zugehöriger Software und Frequenzlisten wurden durch ein Stipendium der Humboldt-Stiftung, Deutschland, unterstützt. Die Lemmatisierung zur Analyse der Wortformen im Korpus wurde mit dem morphologischen Analysator Dialing durchgeführt. Da viele Wortformen mehrdeutig sind (z. B. Lieber, waren, Stahl, für, schon drei), ist die Häufigkeit einiger Wörter nicht ganz zuverlässig, zum Beispiel Für wird nur dann als Verb behandelt, wenn ihm kein Substantiv, Adjektiv oder Pronomen folgt. werden wurde immer als Substantiv betrachtet, für Ehepartner wurde immer gewählt Ehepartner wenn möglich Ehepartner Und Ehepartner(Plural). Die Kriterien für die Wahl einer Wortform waren:

  1. Häufigkeit des entsprechenden Lemmas ( Ich habe es genommen, ich gebe es dir als Substantiv ist äußerst unwahrscheinlich, daher wird in diesen Fällen ein Verb gewählt);
  2. Vergleichshäufigkeit einer bestimmten Form (beide Lemmata für werden sind recht häufig, aber das Substantiv wird im Gegensatz zum Verb sehr oft in dieser Form verwendet; bilden es ist Zeit muss im prädikativen Gebrauch gezählt werden, während das Substantiv in allen anderen Formen vorkommt.
Wie bei Zasorinas Nachnamenwörterbuch wurden Vornamen und Vatersnamen aus den lemmatisierten Häufigkeitslisten herausgefiltert, geographische Namen wurden jedoch belassen, da es schwierig ist zu rechtfertigen, warum sie in Zasorinas Wörterbuch belassen wurden Moskau oder amerikanisch, aber nicht Moskau Und Amerika. Die Häufigkeitsliste der Wortformen wurde nicht gefiltert.