فهرست فرکانس کلمات فرهنگ لغت فرکانس انگلیسی: «دانلود-رایگان-بدون ثبت نام. تعریف واژه فرهنگ لغت فرکانس

پس از اینکه تصمیم گرفتم سطح زبان انگلیسی خود را (عمدتاً از نظر واژگان) بهبود بخشم، تقریباً بلافاصله مشخص شد که مؤثرترین راه برای یادگیری کلمات منحصراً از فرهنگ لغات فرکانس است. به عبارت دقیق تر، روش های مطالعه و حفظ کردن می تواند بسیار متفاوت باشد، اما دقیقاً ترتیب و اولویت برخی کلمات است که باید بر اساس فرهنگ لغت های فراوانی تعیین شود.

فرض کنید در حال خواندن یک کتاب به زبان انگلیسی هستید و هر 10 کلمه با یک چیز ناشناخته مواجه می شوید. تصور کنید، ابتدا هر کلمه ناشناخته را یادداشت می کردم و همه آنها را هر روز جمع می کردم. اما خیلی زود مشخص شد که اثربخشی چنین مطالعه ای نزدیک به صفر است - زیرا بیشتر این کلمات فقط یک یا دو بار در کل کتاب ظاهر می شوند و در واژگان روزمره می توانند سالی یک بار ظاهر شوند.

اینجاست که فرهنگ لغت فرکانس به کمک می آید. ایده این است: شما با کلمه ای روبرو می شوید که ترجمه آن را نمی دانید. ابتدا به یاد می آورید: به طور کلی چند وقت یکبار به ذهن شما خطور می کند؟ اگر این کلمه در دسته «بله، بارها آن را شنیده‌ام، اما نمی‌دانم چگونه ترجمه شده است» است، با اطمینان آن را برای مطالعه و تکرار تنظیم کنید. اگر به ندرت با این کلمه برخورد می کنید، یا اصلا نمی توانید آن را به خاطر بسپارید، وقت آن است که به فرهنگ لغت فرکانس نگاه کنید.

چنین سرویس فوق‌العاده‌ای وجود دارد که واژگان خود را تست کنید، که به شما امکان می‌دهد با مقایسه نتایج خود با داده‌های تحلیل آماری موجود، واژگان خود را با استفاده از یک نمونه کوچک (چند ده کلمه) به طور تقریبی تعیین کنید. همچنین نمودارهای مختلفی از نتایج وجود دارد، به عنوان مثال، این توزیع شرکت کنندگان (غیر انگلیسی زبان) بر اساس واژگان است:

همانطور که می بینید، سطح واژگان اکثر افراد حدود 4500 کلمه است. میانگین توزیع حدود 7800 کلمه است (نیمی از افراد دایره لغات کوچکتری دارند، نیمی از افراد واژگان بزرگتری دارند).

بر اساس سایر مطالعات زبانشناسی، واژگان 6 تا 7 هزار کلمه، درک 85 درصد از گفتار انگلیسی را تضمین می کند. بنابراین، می توانیم نتیجه بگیریم که یک فرهنگ لغت 6000 ساله ممکن است برای شروع یک هدف کاملاً قابل قبول باشد.

بنابراین، بازگشت به الگوریتم ما. پس از یافتن کلمه ای کاملاً ناشناخته برای خود، فوراً آن را در فرهنگ لغت فرکانس جستجو کنید. برای مثال اگر قصد دارید دایره لغات خود را به حداقل 6000 هزار کلمه افزایش دهید و کلمه مورد نظر شما در 6 هزار کلمه اول قرار دارد، آن را تکرار کنید.

در واقع، پس از مطالعه 6000 اول در اورژانس، دایره لغات شما به دلیل کلماتی که از قبل می‌دانید و در بازه مورد مطالعه اورژانس لحاظ نشده‌اند، مسلماً بزرگ‌تر خواهد شد.

خب حالا سوال از کجا می توانم دیکشنری فرکانس تهیه کنم؟در گوگل؟ مهم نیست که چگونه باشد.

به عنوان یک قاعده، سایت های یادگیری زبان انگلیسی فقط هزار کلمه اول اضطراری را به ما ارائه می دهند و شما باید برای یک فرهنگ لغت گسترده تر هزینه کنید. بله، اولین جستجو برای فرهنگ لغت حداقل 3000 کلمه باعث طوفان خشم من شد. اما پس از آن من هنوز موفق به یافتن یک فرهنگ لغت بسیار گسترده شدم، که، با این حال، نمی توان از آن برای جستجوی کلمات استفاده کرد: به صفحات زیادی تقسیم شد، و متن، به هر حال، از کپی پیست محافظت شد (کمک، از البته فقط در مورد دانش آموزان یا زنان خانه دار). بنابراین، برای اینکه به طور معمول با فرهنگ لغت فرکانس کار کنم، (نه بدون مقدار مشخصی نبوغ) کد را از صفحات جدا کردم و 6000 کلمه اولی را که نیاز داشتم در یک جدول ترکیب کردم.

از آن لذت ببرید و زنده باد دسترسی رایگان به اطلاعات.

به روز رسانی:جدول را به 16000 کلمه افزایش داد. این فرهنگ لغت باید 98 درصد از عبارات انگلیسی را پوشش دهد.

توجه: برخی از اعداد در جدول وجود ندارد - اینها نامهای مناسبی هستند که ترجمه آنها به سادگی معنی ندارد.

اطلاعات از اسپانسر

Primo4ki.com: لوازم الکترونیکی و گجت با قیمت پایین، فروش گوشی های چینی. کیفیت تضمین شده توسط فروشگاه

فرهنگ لغت فرکانس

نوع فرهنگ لغت (به فرهنگ لغت مراجعه کنید) (معمولاً تک زبانه)، که در آن اقلام واژگانی بر حسب درجه استفاده از آنها در مجموعه ای از متون که نمایانگر زبان به عنوان یک کل یا یک سبک عملکردی خاص (به سبک) یا یک واحد مشخص می شوند، مشخص می شوند. نویسنده. بسته به نوع، واحدهای واژگانی متفاوت است. شکل‌های کلمه، واژه‌ها (واژه‌ها)، ریشه‌های کلمه (مورد استفاده در علوم رایانه)، کلمات با معانی خاص (عبارات معنایی)، عبارات. بین ویژگی های مطلق و نسبی استفاده از یک واحد واژگانی تفاوت وجود دارد ( ایکسمشخصه مطلق فرکانس است ( f) از یک واحد واژگانی معین ( ایکس), برابر تعداد استفاده ایکسدر مجموعه متون بررسی شده f(ایکس). در Ch.s. داده می شود f(ایکس) یا فرکانس نرمال شده

جایی که N-تعداد کلمات مطالعه شده متن یک ویژگی نسبی استفاده از یک واحد واژگانی یا رتبه آن است (تعداد واحدهای واژگانی که در یک واحد واژگانی مشخصه مطلق کاربرد دارند که بالاتر یا برابر با مشخصه مطلق یک واحد واژگانی معین است) یا مقداری مشخصه ای که با آن می توان رتبه را از دقت کم و بیش محاسبه کرد. در اکثر Ch.s. هر دو ویژگی مطلق و نسبی داده شده است. Ch.s. برای ایجاد روش های موثر برای آموزش زبان، برجسته کردن کلمات کلیدی (در علوم کامپیوتر)، ایجاد کدهای منطقی (در نظریه ارتباطات) استفاده می شود.

روشن: Ermolenko G.V.، آمار زبانشناسی. مقاله مختصر و نمایه کتابشناختی، آلما آتا، 1970; Steinfeldt E. A., Frequency Dictionary of the Modern Russian Literary Dictionary, M., 1973; فرهنگ لغت فرکانس زبان روسی، ویرایش. L. N. Zasorina، M.، 1977; Kučera N.، Francis W.، تحلیل محاسباتی انگلیسی آمریکایی امروزی، Providence، 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier N., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles، v. 1-4، P.-Nancy، 1971 (Centre de recherche pour un trésor de la langue française); بیلی آر، دولژل ال.، کتابشناسی مشروح از سبک شناسی آماری، آن آربور، 1968.

در دهه های اخیر، جهت جدیدی در چارچوب فرهنگ شناسی - آمار فرهنگ شناسی - در حال ظهور است. آمار واژگانی به ایجاد فرهنگ لغت های فراوانی می پردازد و مسائل مربوط به نظریه و روش برای ایجاد چنین فرهنگ لغت را حل می کند.

واژه‌نامه‌های فرکانس فهرستی از کلمات هستند که تعداد دفعات استفاده از آنها را نشان می‌دهند. اعدادی که نشان می دهد یک کلمه چند بار در متون ظاهر می شود.

اولین فرهنگ لغت فرکانس در فرهنگ لغت روسی در دهه 60 قرن ما ظاهر شد. بنابراین، در سال 1963، Z. A. Steinfeldt "فرکانس دیکشنری زبان مدرن روسی" در تالین منتشر شد. فرهنگ لغت شامل 2500 کلمه رایج است. برای سال‌ها، این فرهنگ لغت منبعی برای تعیین حداقل‌های واژگانی برای نویسندگان کتاب‌های درسی مدارس زبان روسی در مدارس ملی بود.

فرهنگ لغات فرکانس دیگری نیز شناخته شده است که در دهه 60 - 70 منتشر شده است: "2380 رایج ترین کلمه در گفتار محاوره روسی" (1968)، "فرکانس فرهنگ لغات عمومی علمی"، ویرایش. V. M. Stepanova (1970)، "فرکانس فرهنگ زبان روزنامه" G. P. Polyakova و G. Ya (1971)، "فرکانس پیچیده واژگان علمی و فنی روسی، 3047 کلمه" P. N. Denisova، V. V. Morkovkina، Yu. L. Safyan (1978).

هنگام ایجاد فرهنگ لغت فرکانس، از قابلیت های فناوری رایانه به طور فزاینده ای استفاده می شود. این آمار واژگانی را به سطح جدیدی ارتقا داد.

یک نتیجه منحصر به فرد از کار بر روی تجزیه و تحلیل فراوانی کلمات در زبان ادبی روسی انتشار "فرکانس فرهنگ زبان روسی" بود. L. N. Zasorina (1977). فرهنگ لغت شامل 40000 کلمه است. هدف گردآورندگان تعیین مرزهای واژگان فعال و ارائه اطلاعات نسبتاً کامل در مورد تمایز ژانری واژگان مدرن بود.

فرهنگ لغت فرکانس از دو بخش تشکیل شده است: خود فهرست فرکانس که کلمات را به ترتیب کاهش فراوانی آنها ثبت می کند و فهرست فرکانس الفبایی که در آن کلمات مشابه به ترتیب حروف الفبا مرتب شده اند.

فرهنگ لغت الفبایی بسامد این فرهنگ لغت دارای ویژگی های زیر است:

1) فرکانس:

فرکانس کل برای کل نمونه.

فرکانس بر اساس ژانر (I - متون روزنامه و مجلات؛ II - نمایشنامه؛ III - متون علمی و روزنامه نگاری؛ چهارم - داستانی).

2) تعداد متون بر اساس ژانر که این کلمه در آنها ظاهر شده است.

مثلا:

جدول 2

در فرهنگ لغت فرکانس، کلمات به ترتیب نزولی مرتب شده اند. مثلا:

جدول 3

برای مطالعه جنبه های مختلف واژگان می توان از فرهنگ لغت فرکانس استفاده کرد. بر اساس فرهنگ لغات فرکانس، کلمات با فرکانس بالا و کلمات کم بسامد متمایز می شوند. این به ما امکان می دهد هسته و حاشیه واژگان را شناسایی کنیم، بین سهام فعال و غیرفعال تمایز قائل شویم، وابستگی سبک و ژانر واژگان، طبقه بندی اجتماعی و سنی آن را تعیین کنیم. در نظر گرفتن داده های آماری هنگام حل مشکل عادی سازی زبان، هنگام انتخاب طیف وسیعی از کلمات برای گنجاندن در واژگان لغت نامه های آموزشی، هنگام ترجمه متون از یک زبان به زبان دیگر، مهم است.

نسخه دوم لیست فرکانس

در این صفحه می توانید لیستی از رایج ترین کلمات در زبان روسی را دریافت کنید. تا به حال، فرهنگ لغت فرکانس زبان روسی، ویرایش. L.N. Zasorina (1977) اغلب به عنوان منبع اطلاعات در مورد فراوانی کلمات روسی استفاده می شود. با این حال، مجموعه ای که فراوانی کلمات در این فرهنگ لغت از آن محاسبه شده است، با استانداردهای مدرن بسیار ناچیز است (حدود یک میلیون کلمه). علاوه بر این، فهرست به طور قابل توجهی منسوخ شده است: با فراوانی استفاده از کلمات در دوره 20 تا 60 مطابقت دارد. در نتیجه، مجموعه شامل تعداد زیادی از منابع ایدئولوژیک است، به عنوان مثال، آثار لنین و کالینین، مواد کنگره های 22 و 23 CPSU، روزنامه های شوروی. کلمات شورویو رفیقدر صد کلمه اول روسی به همراه کلمات تابعی گنجانده شده است (آنها بیشتر از کلمات رخ می دهند کجا، اینجا، شما) کلمات حزب، انقلاب، کمونیستبیشتر از پشت، اطراف، بهترو غیره. در نهایت، فهرست کلمات از فرهنگ لغت Zasorina به صورت الکترونیکی وجود ندارد.

فهرست کلمات موجود از این صفحه شامل تقریباً 35000 کلمه با فرکانس بیشتر از 1 آی پی در دقیقه (نمونه در میلیون کلمه، نمونه در میلیون کلمه) است. همچنین لیست کوتاه تری از 5000 کلمه رایج روسی وجود دارد. لیست ها از رمزگذاری utf8 سیریلیک استفاده می کنند و با ابزار WinZip فشرده می شوند (کاربران لینوکس یا مک می توانند از StuffIt برای باز کردن فشرده استفاده کنند).

ساختار فهرست‌ها از قالب فهرست‌های لماتیزه شده از مجموعه ملی بریتانیا (BNC)، ایجاد شده توسط آدام کیلگاریف، به شرح زیر است:
عدد ترتیبی، فراوانی (ipm)، لم، بخشی از گفتار (طبقه بندی BNC).

کلمات با فرکانس بیشتر از 1 آی پی ام

  • - فرم های کلمه بر اساس فرکانس مرتب شده اند

لیست 5000 کلمه رایج

  • - لم ها به ترتیب حروف الفبا مرتب شده اند
  • - لم ها بر اساس فراوانی مرتب شده اند

برخی آمار در مورد استفاده از کلمات روسی

  • میانگین طول کلمه 5.28 کاراکتر است.
  • میانگین طول جمله 10.38 کلمه است.
  • 1000 لم پرتکرار 64.0708 درصد متن را پوشش می دهند.
  • 2000 لم پرتکرار 71.9521 درصد متن را پوشش می دهد.
  • 3000 لم پرتکرار 76.5104 درصد متن را پوشش می دهند.
  • 5000 لم پرتکرار 82.0604 درصد متن را پوشش می دهند.

اطلاعات بیشتر در مورد مطابقت بین فراوانی کلمه و پوشش بدنه را می توان یافت.

این لیست بر اساس مجموعه ای از زبان مدرن روسی است. این شامل گزیده‌ای از نثر معاصر، خاطرات سیاسی، روزنامه‌های معاصر و داستان‌های غیرداستانی است (حدود 40 میلیون کلمه، با نثری که تقریباً بیش از نیمی از جلد را تشکیل می‌دهد). تمام متون موجود در مجموعه به زبان روسی بین سالهای 1970 و 2002 نوشته شده است. اکثریت بین سالهای 1980 و 1995، مجموعه روزنامه 1997-1999 (مجموعه بر اساس متون کتابخانه موشکوف و مجموعه روزنامه نگاری مدرن توسط A.V. Baranov است).

به خوبی شناخته شده است که متون بزرگ برای جمع آوری لیست های فرکانس مشکل ایجاد می کند، زیرا یک متن نسبتا طولانی ممکن است حاوی تعداد زیادی از موارد کمیاب باشد که به طور قابل توجهی فراوانی آن را در لیست حاصل افزایش می دهد. به عنوان مثال، مجموعه ای که برای گردآوری این فهرست استفاده شده است، شامل تغییراتی از تالکین ارباب حلقه ها (توسط نیک پروموف) است. علیرغم اینکه طول این رمان 250 هزار کلمه است، کمتر از یک درصد کل مجموعه، فراوانی استفاده از کلمه هابیتدر این رمان آن را در هزار کلمه اول روسی قرار می دهد، اگر فرکانس در تمام متون بدون محدودیت در طول آنها شمارش شود. به همین دلیل فهرست بسامدها به شرطی تنظیم شد که نمونه متون بزرگ به 10 هزار کلمه و نمونه از متون یک نویسنده کمتر از 100 هزار کلمه باشد. در نتیجه، زیر مجموعه مجموعه کامل مورد استفاده در محاسبات فرکانس تقریباً 16 میلیون کلمه است.

توزیع کلمات در متون به دور از یکنواختی است. برخی از کلمات (مثلاً حروف اضافه) در بسیاری از متون با بسامد کاملاً قابل پیش بینی ظاهر می شوند. فراوانی دیگران (به عنوان مثال، ضمایر یا افعال ذهنی) به طور قابل توجهی به نویسنده یا ژانر متن بستگی دارد، در حالی که بسیاری از کلمات "مسری" هستند: اگر این کلمه (به عنوان مثال، یک نام خاص، تعیین یک شخص بر اساس رتبه یا موقعیت، یا یک اصطلاح فنی) یک بار در متن رخ می دهد، به احتمال بسیار زیاد در آنجا بارها تکرار می شود، بنابراین فراوانی آن در سند به طور قابل توجهی افزایش می یابد. روش های مختلفی برای اندازه گیری چنین تغییراتی وجود دارد (Church, K. and Gale, W. (1995) Poisson Mixtures, مجله مهندسی زبان طبیعی، 1:2). ساده ترین راه برای ارزیابی رفتار یک کلمه، محاسبه ضریب تغییرات است که به صورت انحراف معیار تقسیم بر میانگین محاسبه می شود. انحراف استاندارد قدر مطلق تغییرات را در یک مجموعه داده نشان می دهد (برای کلمات با میانگین فراوانی بالاتر افزایش می یابد)، در حالی که ضریب تغییرات توزیع کلمات را با فراوانی میانگین نابرابر مقایسه می کند. مقادیر انحراف برای 5000 کلمه پرتکرار قابل مشاهده است. ساختار فایل:
لم، فرکانس متوسط ​​(ipm)، تعداد متونی که این کلمه در آنها آمده است، انحراف معیار فراوانی برای همه متون، ضریب تغییرات، پراکندگی.

مجموعه، ابزار کار با آن، و همچنین پیکره موازی انگلیسی و روسی (تراز مبتنی بر جمله) به ویژه در انتشار زیر توسط نویسنده شرح داده شده است:

شارف، سرژ، (2002). معنی به عنوان کاربرد: بهره‌برداری از پیکره‌های همسو برای مطالعه متضاد معناشناسی واژگانی. Proc. کنفرانس منابع زبان و ارزیابی (LREC02).می، 2002، لاس پالماس، اسپانیا.

همچنین لیست های فرکانس جداگانه ای برای کلاس های کلمات زیر وجود دارد:

ایجاد مجموعه و توسعه نرم‌افزارهای مرتبط و فهرست‌های فرکانس با کمک مالی که توسط بنیاد هومبولت آلمان به نویسنده ارائه شده بود، حمایت شد. Lemmatization برای تجزیه و تحلیل فرم های کلمه در پیکره با استفاده از تجزیه و تحلیل مورفولوژیکی Dialing انجام شد. از آنجایی که بسیاری از اشکال کلمه مبهم هستند (به عنوان مثال، عزیز، بودند، فولاد، برای، سه، قبلافراوانی برخی از کلمات کاملاً قابل اعتماد نیست، به عنوان مثال، برایفقط در صورتی که اسم، صفت یا ضمیر به دنبال آن نباشد، به عنوان فعل تلقی می شود، تبدیل شودهمیشه به عنوان یک اسم در نظر گرفته شده است، برای همسرانهمیشه انتخاب شد همسردر صورت امکان همسرو همسران(جمع). معیارهای انتخاب فرم کلمه عبارت بودند از:

  1. فراوانی لم مربوطه ( گرفت بهت میدمبه عنوان یک اسم بسیار بعید است، بنابراین در این موارد یک فعل انتخاب می شود).
  2. فراوانی مقایسه ای یک فرم خاص (هر دو لم برای تبدیل شودبسیار مکرر هستند، اما اسم، بر خلاف فعل، اغلب در این شکل استفاده می شود. فرم وقتشهباید در استعمال مصدر شمارش شود، در حالی که اسم در تمام اشکال دیگر ظاهر می شود).
مانند فرهنگ لغت نام خانوادگی زاسورینا، نام‌ها و نام‌های پدری از فهرست‌های فراوانی حذف شدند، اما نام‌های جغرافیایی باقی ماندند زیرا توجیه اینکه چرا در فرهنگ لغت زاسورینا جا مانده‌اند، دشوار است. مسکویا آمریکایی، اما نه مسکوو آمریکا. فهرست فرکانس فرم‌های کلمه فیلتر نشد.