Частотный список слов. Частотный словарь английского: «скачать-бесплатно-без-регистрации. Определение термина "частотный словарь"

После того как я решил подтянуть свой уровень знания английского (главным образом в плане словарного запаса), практически сразу стало очевидно, что самый эффективный способ изучения слов - исключительно по частотным словарям. Точнее, способы изучения и запоминания могут быть самые различные, но вот именно очередность, приоритетность тех или иных слов должна определяться исходя из частотных словарей.

Скажем, читаете вы книгу на английском, и через каждые 10 слов вам попадается одно неизвестное. Представьте себе, первое время я записывал каждое неизвестное слово и ежедневно все их зубрил. Но очень скоро стало ясно, что эффективность такого изучения близка к нулю - так как большинство этих слов встречаются лишь раз-два за всю книгу, а в повседневном лексиконе они могут встречаться вообще раз в год.

Именно здесь на помощь приходит частотный словарь. Идея такая: вам встречается слово, перевод которого вы не знаете. Сначала вы припоминаете: насколько часто оно вам встречается вообще? Если это слово из разряда «да, я слышал его много раз, но не знаю, как оно переводится», уверенно ставьте его на изучение и повторение. Если это слово вам встречается редко, или вы вообще его не можете припомнить, значит, самое время заглянуть в частотный словарь.

Есть такой замечательный сервис Test Your Vocabulary , который позволяет по небольшой выборке (несколько десятков слов), путём сопоставления ваших результатов с имеющимися данными статистического анализа, примерно определить ваш словарный запас. Там же имеются различные графики результатов, например, вот это распределение участников (неанглоговорящих) по словарному запасу:

Как видим, уровень словарного запаса большинства людей находится в районе 4500 слов. Медиана же распределения находится в районе 7800 слов (у половины людей словарный запас меньше, у половины - больше).

По данным других лингвистических исследований словарный запас в 6–7 тысяч слов гарантирует понимание 85% английской речи. Таким образом, можно заключить, что 6-тысячный словарь для начала может быть вполне приемлемой целью.

Итак, возвращаясь к нашему алгоритму. После того, как вы нашли совершенно неизвестное вам слово - сразу же ищите его частотном словаре. Если, например, вы задались целью увеличить свой запас не менее чем до 6000 тысяч слов, и искомое слово как раз входит в первые 6 тысяч - ставьте его на повторение.

Фактически, после изучения первых 6000 в ЧС, ваш словарный запас будет конечно же больше, за счёт тех слов, которые вы уже знаете, и которые не вошли в изученный интервал ЧС.

Ну а теперь вопрос. Где взять частотный словарь? В Гугле? Как бы не так.

Как правило, сайты по изучению английского предлагают нам только первую тысячу слов ЧС, а за более обширный словарь придётся платить. Да, первые поиски словаря хотя бы на 3000 слов вызвали у меня бурю негодования. Но потом мне всё же удалось найти весьма обширный словарь, которым, однако, невозможно было пользоваться для поиска слов: он был разбит на много страниц, а текст, кстати, был защищен от копипаста (помогает, конечно же, только в случае со школьниками или домохозяйками). Потому, чтобы нормально работать с частотным словарём, я (не без определённой доли изобретательности) выцепил со страниц код и объединил первые 6000 необходимых мне слов в одну таблицу .

Пользуйтесь на здоровье, и да здравствует свободный доступ к информации.

Update: расширил таблицу до 16000 слов . Этот словарь должен покрыть 98% английских фраз.

Примечание: в таблице пропущены некоторые номера - это имена собственные, переводить которые просто нет смысла.

Информация от спонсора

Примо4ки.com: электроника и гаджеты по низким ценам, продажа китайских телефонов . Качество гарантировано магазином.

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля (См. Стиль), либо для одного автора. В зависимости от типа лексические единицы различаются Ч. с. словоформ, слов (лексем), основ слов (используются в информатике), слов в определённых значениях (семантический Ч. с.), словосочетаний. Различаются абсолютные и относительные характеристики употребительности лексической единицы (x ).Абсолютной характеристикой является частота (f ) данной лексической единицы (х ), равная числу употреблений х в обследованной совокупности текстов f (x ). В Ч. с. приводится либо f (x ), либо нормированная частота

где N - число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Ч. с. имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Ч. с. приводятся и абсолютные, и относительные характеристики. Ч. с. используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).

Лит.: Ермоленко Г. В., Лингвистическая статистика. Краткий очерк и библиографический указатель, Алма-Ата, 1970; Штейнфельдт Э. А., Частотный словарь современного русского литературного языка, М., 1973; Частотный словарь русского языка, под ред. Л. Н. Засориной, М., 1977; Kučera Н., Francis W., Computational analysis of present-day American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier Н., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1- 4, P.- Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., An annotated bibliography of statistical stylistics, Ann Arbor, 1968.

В последние десятилетия в рамках лексикографии складывается новое направление – лексикографическая статистика. Лексикографическая статистика занимается созданием частотных словарей и решает связанные с этой задачей вопросы теории и методики создания такого словаря.

Частотные словари представляют собой списки слов, в которых указаны частоты их употребления, т.е. цифры, показывающие, сколько раз данное слово встречается в текстах.

Первые в отечественной лексикографии частотные словари появились в 60-е г. нашего века. Так, в 1963 г. в Таллинне был издан «Частотный словарь современного русского языка» З. А. Штейнфельдт. Словарь содержит 2500 наиболее употребительных слов. Этот словарь в течение многих лет служил источником определения лексических минимумов для авторов школьных учебников русского языка в национальной школе.

Известны и другие частотные словари, вышедшие в 60-е – 70-е гг.: «2380 наиболее употребительных слов русской разговорной речи» (1968), «Частотный словарь общенаучной лексики» под ред. В. М. Степановой (1970), «Частотный словарь языка газеты» Г. П. Поляковой и Г. Я. Солганика (1971), «Комплексный частотный словарь русской научной и технической лексики, 3047 слов» П. Н. Денисова, В. В. Морковкина, Ю. Л. Сафьяна (1978).

При создании частотных словарей все чаще стали использоваться возможности вычислительной техники. Это подняло лексикографическую статистику на качественно новый уровень.

Своеобразным итогом работы по анализу частотности слов русского литературного языка стало издание «Частотного словаря русского языка» под ред. Л. Н. Засориной (1977). Словарь содержит 40000 слов. Составители преследовали цель определить границы активного словарного состава и дать достаточно полные сведения о жанровой дифференциации современной лексики.

Частотный словарь состоит из двух частей: собственно частотный список, который фиксирует слова в порядке их убывающих частот, и алфавитно-частотный список, в котором эти же слова расположены в алфавитном порядке.

Алфавитно-частотный словник этого словаря содержит следующие характеристики слова:

1) частоту:

· общую частоту по всей выборке;

· частоту по жанрам (I – газетно-журнальные тексты; II − драматургия; III − научные и публицистические тексты; IV − художественная проза).

2) количество текстов по жанрам, в которых встретилось данное слово.

Например:

Таблица 2

В частотном словнике слова расположены в порядке убывания частот. Например:

Таблица 3

Частотные словари могут быть использованы при изучении различных аспектов лексики. По данным частотных словарей выделяются слова с высокой частотностью и низкочастотные слова. Это позволяет выявить ядро и периферию лексики, разграничить активный и пассивный запас, определить стилистическую принадлежность и жанровую приуроченность лексики, её социально-возрастное расслоение. Учет статистических данных важен при решении проблемы нормализации языка, при выборе круга слов для включения в словник учебных словарей, при переводе текстов с одного языка на другой.

Вторая версия частотного списка

На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС, советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш ), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде.

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC) , созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Слова с частотой больше 1 ipm

  • - словоформы, отсортированные по частоте

Список 5000 наиболее частых слов

  • - леммы, отсортированные в алфавитном порядке
  • - леммы, отсортированные по частоте

Некоторые статистические данные об использовании русских слов

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

Более полная информация о соответствии между частотой слова и покрытием корпуса находится .

Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).

Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.

Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering , 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть . Структура файла:
лемма, средняя частота (ipm), число текстов, в которых это слово встречается, среднеквадратичное отклонение частоты по все текстам, коэффициент вариации, дисперсия.

Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Также отдельные частотные списки есть для следующих классов слов:

Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже ), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:

  1. частота соответствующей леммы (забрал, стану, подать в качестве существительного крайне маловероятно, поэтому в этих случаях выбирается глагол);
  2. сравнительная частота конкретной формы (обе леммы для стали достаточно частотны, но существительное в отличие от глагола очень часто употребляется именно в этой форме; форму пора приходится считать в предикативном употреблении, в то время как существительное выступает во всех своих остальных формах).
Подобно словарю Засориной фамилии, имена и отчества были отфильтрованы из лемматизированных частотных списков, но географические названия оставлены, поскольку сложно оправдать почему в словаре Засориной оставлены московский или американский , но не Москва и Америка . Частотный список словоформ отфильтрован не был.