میانگین خطای نمونه گیری اگر بزرگتر باشد، کوچکتر است. خطاهای نمونه گیری خاص، میانگین و حاشیه ای. جمعیت و نمونه برداری از آن

خطاهای سیستماتیک و تصادفی

واحد مدولار 2 خطاهای نمونه گیری

از آنجایی که یک نمونه معمولاً بخش بسیار کوچکی از جامعه را پوشش می‌دهد، باید فرض کرد که بین برآورد و ویژگی‌های جامعه‌ای که برآورد منعکس می‌کند تفاوت‌هایی وجود خواهد داشت. به این تفاوت ها خطاهای نقشه برداری یا خطاهای بازنمایی می گویند. خطاهای نمایندگی به دو نوع سیستماتیک و تصادفی تقسیم می شوند.

خطاهای سیستماتیک- این یک تخمین یا دست کم گرفتن ثابت ارزش ارزیابی در مقایسه با ویژگی های جمعیت عمومی است. دلیل بروز خطای سیستماتیک عدم رعایت اصل احتمال برابری هر واحد از جمعیت عمومی در نمونه است، یعنی نمونه عمدتاً از "بدترین" (یا "بهترین") تشکیل شده است. نمایندگان جمعیت عمومی رعایت اصل فرصت برابر برای هر واحد برای درج در نمونه به ما این امکان را می دهد که این نوع خطا را به طور کامل حذف کنیم.

خطاهای تصادفی -اینها تفاوت هایی هستند که از نمونه ای به نمونه دیگر در علامت و بزرگی بین برآورد و ویژگی ارزیابی شده جامعه متفاوت است. دلیل بروز خطاهای تصادفی، بازی شانس هنگام تشکیل نمونه ای است که تنها بخشی از جمعیت عمومی را تشکیل می دهد. این نوع خطا به طور ارگانیک در روش نمونه گیری ذاتی است. حذف کامل آنها غیرممکن است. ترتیب اقدامات مربوط به این موضوع از در نظر گرفتن سه نوع خطای تصادفی به دست می آید: خاص، متوسط ​​و افراطی.

2.2.1 خاصخطا خطای یک نمونه گرفته شده است. اگر میانگین برای این نمونه () تخمینی برای میانگین کلی (0) باشد و با فرض اینکه این میانگین کلی برای ما شناخته شده باشد، تفاوت = -0 و خطای خاص این نمونه خواهد بود. اگر نمونه ای از این جامعه عمومی را بارها تکرار کنیم، هر بار مقدار جدیدی برای یک خطای خاص دریافت می کنیم: ... و غیره. در مورد این خطاهای خاص می توان گفت: برخی از آنها از نظر بزرگی و علامت با یکدیگر منطبق خواهند شد، یعنی توزیع خطاها وجود دارد، برخی از آنها برابر با 0 خواهد بود، برآورد تصادفی وجود دارد. و پارامتر جمعیت عمومی؛

2.2.2 خطای متوسطمجذور میانگین تمام خطاهای تخمینی خاص ممکن است تصادفی باشد: , مقدار تغییر خطاهای خاص کجاست. فراوانی (احتمال) وقوع یک خطای خاص. میانگین خطای نمونه گیری نشان می دهد که اگر قضاوتی در مورد پارامتر جمعیت بر اساس برآورد انجام شود، به طور متوسط ​​چقدر خطا می تواند انجام شود. فرمول بالا محتوای خطای میانگین را نشان می دهد، اما نمی توان از آن برای محاسبات عملی استفاده کرد، البته فقط به این دلیل که دانش پارامتر جمعیت را پیش فرض می گیرد، که خود نیاز به نمونه برداری را بی نیاز می کند.



محاسبات عملی میانگین خطای تخمین بر این فرض استوار است که آن (خطای متوسط) اساساً انحراف استاندارد همه مقادیر تخمین ممکن است. این فرض به ما امکان می دهد الگوریتم هایی را برای محاسبه میانگین خطا بر اساس داده های یک نمونه واحد بدست آوریم. به طور خاص، میانگین خطای میانگین نمونه را می توان بر اساس استدلال زیر تعیین کرد. یک نمونه (،…) متشکل از واحدها وجود دارد. برای نمونه، میانگین نمونه به عنوان تخمینی از میانگین کلی تعریف می شود. هر مقدار (،...) در زیر علامت جمع باید به عنوان یک متغیر تصادفی مستقل در نظر گرفته شود، زیرا با تکرار بی نهایت نمونه اول، دوم و غیره. واحدها می توانند هر ارزشی را از واحدهای موجود در جمعیت بگیرند. از این رو از آنجایی که همانطور که مشخص است، واریانس مجموع متغیرهای تصادفی مستقل برابر با مجموع واریانس ها است، پس . بنابراین میانگین خطای میانگین نمونه برابر خواهد بود و با حجم نمونه (از طریق جذر آن) و نسبت مستقیم با انحراف معیار مشخصه در جامعه عمومی رابطه معکوس دارد. این منطقی است، زیرا میانگین نمونه یک تخمین ثابت برای میانگین عمومی است و با افزایش حجم نمونه، مقدار آن به پارامتر تخمینی جمعیت عمومی نزدیک می‌شود. وابستگی مستقیم میانگین خطا به متغیر بودن یک مشخصه به این دلیل است که هر چه تنوع مشخصه در جمعیت عمومی بیشتر باشد، ساختن یک مدل مناسب از جامعه عمومی بر اساس نمونه دشوارتر است. در عمل، انحراف معیار یک مشخصه در جامعه با تخمین آن در نمونه جایگزین می‌شود و سپس فرمول محاسبه میانگین خطای میانگین نمونه به شکل زیر در می‌آید: با در نظر گرفتن سوگیری واریانس نمونه، نمونه انحراف معیار با استفاده از فرمول = محاسبه می شود. از آنجایی که نماد n نشان دهنده حجم نمونه است. ، پس از مخرج هنگام محاسبه انحراف معیار نباید از حجم نمونه (n) استفاده شود، بلکه به اصطلاح از تعداد درجه آزادی (n-1) استفاده شود. تعداد درجات آزادی به عنوان تعداد واحدهایی در یک مجموعه درک می شود که اگر مشخصه ای از کل مشخص شود، آزادانه می تواند تغییر کند (تغییر کند). در مورد ما، از آنجایی که میانگین نمونه تعیین می شود، واحدها می توانند آزادانه تغییر کنند.

جدول 2.2 فرمول هایی را برای محاسبه میانگین خطاهای برآوردهای نمونه مختلف ارائه می دهد. همانطور که از این جدول مشاهده می شود، میانگین خطا برای تمام تخمین ها با حجم نمونه رابطه معکوس دارد و با تغییرپذیری رابطه مستقیم دارد. این را می توان در مورد میانگین خطای کسر نمونه (فرکانس) نیز گفت. زیر ریشه واریانس مشخصه جایگزین است که از نمونه ایجاد شده است ()

فرمول های ارائه شده در جدول 2.2 به انتخاب تصادفی و مکرر واحدها در نمونه اشاره دارد. با روش های دیگر انتخاب، که در زیر مورد بحث قرار خواهد گرفت، فرمول ها کمی تغییر خواهند کرد.

جدول 2.2

فرمول های محاسبه میانگین خطاهای برآورد نمونه

2.2.3 خطای نمونه گیری حاشیه ایآگاهی از برآورد و میانگین خطای آن در برخی موارد کاملاً ناکافی است. به عنوان مثال، هنگام استفاده از هورمون ها در تغذیه حیوانات، دانستن تنها اندازه متوسط ​​باقی مانده های مضر تجزیه نشده آنها و میانگین خطای آنها به معنای قرار دادن مصرف کنندگان محصول در معرض خطر جدی است. این به شدت نیاز به تعیین حداکثر ( حداکثر خطا). هنگام استفاده از روش نمونه گیری، حداکثر خطا نه به صورت یک مقدار خاص، بلکه در قالب مرزهای مساوی تنظیم می شود.

(فاصله ها) در هر جهت از مقدار ارزیابی.

تعیین حدود حداکثر خطا بر اساس ویژگی های توزیع خطاهای خاص است. برای نمونه های به اصطلاح بزرگ، که تعداد آنها بیش از 30 واحد است ()، خطاهای خاص مطابق با قانون توزیع عادی توزیع می شوند. با نمونه های کوچک () خطاهای خاص مطابق با قانون توزیع Gosset توزیع می شوند

(دانشجو). در رابطه با خطاهای خاص در میانگین نمونه، تابع توزیع نرمال به شکل زیر است: چگالی احتمال وقوع مقادیر معین کجاست، مشروط بر اینکه، میانگین نمونه کجا باشد. - میانگین کلی، - میانگین خطا برای میانگین نمونه. از آنجایی که خطای متوسط ​​() یک مقدار ثابت است، خطاهای خاص مطابق با قانون عادی توزیع می شوند که در سهم خطای متوسط ​​یا به اصطلاح انحرافات نرمال شده بیان می شود.

با گرفتن انتگرال تابع توزیع نرمال، می‌توانیم احتمال اینکه خطا در بازه معینی از تغییر t باشد و احتمال اینکه خطا از این بازه فراتر خواهد رفت (رویداد مخالف) را تعیین کنیم. به عنوان مثال، احتمال اینکه خطا از نصف خطای میانگین تجاوز نکند (در هر جهت از میانگین عمومی) 0.3829 است، که خطا در یک خطای متوسط ​​- 0.6827، 2 خطای متوسط ​​- 0.9545 و غیره قرار می گیرد.

رابطه بین سطح احتمال و فاصله تغییر t (و در نهایت بازه تغییر خطا) به ما اجازه می دهد تا به تعیین بازه (یا حدود) حداکثر خطا نزدیک شویم و مقدار آن را با احتمال مرتبط کنیم. احتمال وقوع احتمال وقوع خطا در یک بازه زمانی است. احتمال وقوع "اطمینان" خواهد بود اگر رویداد مخالف (خطا خارج از بازه زمانی باشد) دارای چنین احتمالی باشد که بتوان از آن چشم پوشی کرد. بنابراین، سطح اطمینان احتمال، به عنوان یک قاعده، حداقل 0.90 تنظیم می شود (احتمال رویداد مخالف 0.10 است). هر چه وقوع خطاهای خارج از بازه تعیین شده پیامدهای منفی بیشتری داشته باشد، سطح اطمینان احتمال باید بالاتر باشد (95/0؛ 99/0؛ 999/0 و غیره).

با انتخاب سطح اطمینان احتمال از جدول انتگرال احتمال توزیع نرمال، باید مقدار مربوط به t را پیدا کنید و سپس با استفاده از عبارت = فاصله حداکثر خطا را تعیین کنید. معنای مقدار بدست آمده به این صورت است: با سطح احتمال اطمینان پذیرفته شده، حداکثر خطای میانگین نمونه از مقدار بیشتر نخواهد شد.

برای تعیین حدود حداکثر خطا بر اساس نمونه‌های بزرگ برای سایر تخمین‌ها (واریانس، انحراف استاندارد، نسبت و غیره)، با در نظر گرفتن این واقعیت که از الگوریتم متفاوتی برای تعیین میانگین استفاده می‌شود، از رویکرد مورد بحث در بالا استفاده می‌شود. خطا برای هر تخمین

همانطور که در مورد نمونه های کوچک ()، همانطور که قبلا ذکر شد، توزیع خطاهای تخمین در این مورد با توزیع t - Student مطابقت دارد. ویژگی این توزیع این است که به عنوان پارامتر در آن، همراه با خطا، حجم نمونه، یا بهتر است بگوییم نه حجم نمونه، بلکه تعداد درجات آزادی با افزایش حجم نمونه، توزیع t-Student وجود دارد به نرمال نزدیک می شود و در این توزیع ها عملاً منطبق هستند. با مقایسه مقادیر مقدار t-Student و توزیع t-نرمال در سطح اطمینان یکسان، می توان گفت که مقدار t-Student همیشه از توزیع t-نرمال بیشتر است و تفاوت ها با کاهش در افزایش می یابد. حجم نمونه و با افزایش سطح اطمینان احتمال. در نتیجه، هنگام استفاده از نمونه‌های کوچک، در مقایسه با نمونه‌های بزرگ، محدودیت‌های گسترده‌تری برای حداکثر خطا وجود دارد و این محدودیت‌ها با کاهش حجم نمونه و افزایش سطح اطمینان احتمال گسترش می‌یابد.

بر اساس مقادیر ویژگی های واحدها در جامعه نمونه ثبت شده مطابق با برنامه مشاهده آماری، ویژگی های نمونه تعمیم یافته محاسبه می شود: میانگین نمونه() و سهم نمونهواحدهایی که دارای هر ویژگی مورد علاقه محققین هستند، در تعداد کل ( w).

تفاوت بین شاخص های نمونه و جامعه عمومی نامیده می شود خطای نمونه گیری.

خطاهای نمونه گیری، مانند خطاهای هر نوع مشاهده آماری دیگر، به خطاهای ثبت و خطاهای نمایندگی تقسیم می شوند. هدف اصلی روش نمونه گیری، بررسی و اندازه گیری خطاهای تصادفی بازنمایی است.

میانگین نمونه و نسبت نمونه متغیرهای تصادفی هستند که بسته به اینکه چه واحدهای جمعیتی در نمونه گنجانده شده است، می توانند مقادیر متفاوتی به خود بگیرند. بنابراین، خطاهای نمونه گیری نیز وجود دارد متغیرهای تصادفی هستندو می تواند معانی مختلفی به خود بگیرد. بنابراین میانگین خطاهای احتمالی تعیین می شود.

میانگین خطای نمونه گیری (µ - mu) برابر است با:

برای متوسط ; برای اشتراک گذاری ,

جایی که آر- سهم یک ویژگی خاص در جمعیت عمومی.

در این فرمول ها σ x 2و آر(1-آر) ویژگی های جمعیت عمومی هستند که در طول مشاهده نمونه ناشناخته هستند. در عمل، بر اساس قانون اعداد بزرگ، با ویژگی های مشابه جمعیت نمونه جایگزین می شوند، که طبق آن، جامعه نمونه، با حجم کافی بزرگ، کاملاً دقیق ویژگی های جمعیت عمومی را بازتولید می کند. روش‌های محاسبه میانگین خطاهای نمونه‌گیری برای میانگین و نسبت برای نمونه‌گیری مکرر و غیر تکراری در جدول آورده شده است. 6.1.

جدول 6.1.

فرمول های محاسبه میانگین خطای نمونه گیری برای میانگین و سهم

مقدار همیشه کمتر از یک است، بنابراین میانگین خطای نمونه گیری با نمونه گیری غیر تکراری کمتر از نمونه گیری مکرر است. در مواردی که سهم نمونه ناچیز باشد و ضریب به واحد نزدیک باشد، می توان از اصلاح صرف نظر کرد.

می توان ادعا کرد که مقدار میانگین کلی یک شاخص یا سهم عمومی تنها با درجه ای از احتمال از حد متوسط ​​خطای نمونه تجاوز نخواهد کرد. بنابراین برای مشخص کردن خطای نمونه گیری، علاوه بر میانگین خطا، محاسبه کنید خطای نمونه برداری حاشیه ای(Δ) که با سطح احتمالی مرتبط است که آن را تضمین می کند.

سطح احتمال ( آر) مقدار انحراف نرمال شده را تعیین می کند ( تی)، و بالعکس. ارزش های تیدر جداول توزیع احتمال نرمال آورده شده است. بیشترین استفاده از ترکیبات تیو آردر جدول آورده شده است. 6.2.


جدول 6.2

مقادیر انحراف نرمال شده تیدر مقادیر مربوط به سطوح احتمال آر

تی 1,0 1,5 2,0 2,5 3,0 3,5
آر 0,683 0,866 0,954 0,988 0,997 0,999

تی- ضریب اطمینان، بسته به احتمالی که با آن می توان تضمین کرد که از حداکثر خطا تجاوز نمی کند تی- خطای میانگین چندگانه نشان می دهد که چند خطای متوسط ​​در خطای حاشیه ای وجود دارد. بنابراین، اگر تی= 1، سپس با احتمال 0.683 می توان بیان کرد که تفاوت بین شاخص های نمونه و عمومی از یک خطای متوسط ​​بیشتر نخواهد شد.

فرمول های محاسبه حداکثر خطاهای نمونه گیری در جدول آورده شده است. 6.3.

جدول 6.3.

فرمول های محاسبه حداکثر خطای نمونه برداری برای میانگین و سهم

پس از محاسبه حداکثر خطاهای نمونه گیری، پیدا می کنیم فواصل اطمینان برای شاخص های عمومی. احتمالی که هنگام محاسبه خطای مشخصه نمونه پذیرفته می شود، اطمینان نامیده می شود. سطح اطمینان 0.95 به این معنی است که فقط در 5 مورد از 100 خطا می تواند از حد تعیین شده فراتر رود. احتمالات 0.954 - در 46 مورد از 1000 و با 0.999 - در 1 مورد از 1000.

برای میانگین کلی، محتمل ترین مرزهایی که در آن قرار می گیرد، با در نظر گرفتن حداکثر خطای نمایندگی، به شکل زیر خواهد بود:

.

محتمل ترین مرزهایی که سهم عمومی در آن قرار می گیرد عبارتند از:

.

از اینجا، میانگین عمومی , سهم عمومی .

در جدول آورده شده است. 6.3. فرمول ها برای تعیین خطاهای نمونه برداری با استفاده از روش های کاملا تصادفی و مکانیکی استفاده می شوند.

با نمونه‌گیری طبقه‌ای، نمونه لزوماً شامل نمایندگان همه گروه‌ها و معمولاً به نسبت جمعیت عمومی است. بنابراین، خطای نمونه گیری در این مورد عمدتاً به میانگین واریانس های درون گروهی بستگی دارد. بر اساس قانون اضافه کردن واریانس، می‌توان نتیجه گرفت که خطای نمونه‌گیری برای نمونه‌گیری طبقه‌ای همیشه کمتر از خود نمونه‌گیری تصادفی خواهد بود.

با انتخاب سریال (خوشه ای)، معیار تغییرپذیری پراکندگی بین گروهی خواهد بود.

اختلاف بین مقدار هر شاخصی که از طریق مشاهدات آماری یافت می شود و اندازه واقعی آن نامیده می شود خطاهای مشاهده . بسته به دلایل وقوع آنها، خطاهای ثبت نام و خطاهای نمایندگی متمایز می شوند.

خطاهای ثبت نام در نتیجه شناسایی نادرست حقایق یا ثبت اشتباه در فرآیند مشاهده یا مصاحبه ایجاد می شود. آنها می توانند تصادفی یا سیستماتیک باشند. خطاهای ثبت نام تصادفی می تواند هم توسط پاسخ دهندگان در پاسخ های خود و هم توسط مصاحبه کنندگان انجام شود. خطاهای سیستماتیک می توانند هم عمدی و هم غیرعمدی باشند. تحریفات عمدی - آگاهانه و تمایلی در وضعیت واقعی امور. موارد غیر عمدی به دلایل تصادفی مختلف (غفلت، بی توجهی) ایجاد می شود.

خطاهای نمایندگی (نمایندگی) در نتیجه یک بررسی ناقص ایجاد می شود و اگر جمعیت مورد بررسی به طور کامل جمعیت عمومی را بازتولید نکند. آنها می توانند تصادفی یا سیستماتیک باشند. خطاهای تصادفی بازنمایی انحرافاتی هستند که در طول مشاهده ناقص به دلیل این واقعیت که مجموعه واحدهای مشاهده انتخابی (نمونه) به طور کامل کل جمعیت را به عنوان یک کل بازتولید نمی کنند، به وجود می آیند. خطاهای سیستماتیک نمایندگی انحرافاتی هستند که در نتیجه نقض اصول انتخاب تصادفی واحدها ایجاد می شوند. خطاهای نمایندگی به طور ارگانیک در مشاهده انتخابی ذاتی هستند و به دلیل این واقعیت ایجاد می شوند که جامعه نمونه به طور کامل جمعیت عمومی را بازتولید نمی کند. از خطاهای نمایندگی نمی توان اجتناب کرد، با این حال، با استفاده از روش های نظریه احتمال مبتنی بر استفاده از قضایای حدی قانون اعداد بزرگ، می توان این خطاها را به حداقل مقادیر کاهش داد که مرزهای آن با دقت کافی بالا تعیین می شود.

خطاهای نمونه گیری – تفاوت بین ویژگی های نمونه و جامعه عمومی. برای مقدار متوسط، خطا با فرمول تعیین می شود

جایی که

اندازه
تماس گرفت خطای شدید نمونه ها.

حداکثر خطای نمونه گیری یک مقدار تصادفی است. قضایای حدی قانون اعداد بزرگ به مطالعه الگوهای خطاهای نمونه گیری تصادفی اختصاص دارد. این الگوها به طور کامل در قضایای P. L. Chebyshev و A. M. Lyapunov آشکار می شوند.

قضیه P. L. Chebyshev در رابطه با روش مورد بررسی، می توان آن را به صورت زیر فرمول بندی کرد: با تعداد کافی مشاهدات مستقل، می توان با احتمال نزدیک به یک (یعنی تقریباً با قطعیت) ادعا کرد که انحراف نمونه میانگین از میانگین عمومی به اندازه دلخواه کوچک خواهد بود. در قضیه P.L. Chebyshev ثابت شده است که بزرگی خطا نباید از . به نوبه خود، ارزش بیان انحراف معیار میانگین نمونه از میانگین کلی، به متغیر بودن مشخصه در جامعه بستگی دارد. و تعداد واحدهای انتخاب شده n. این وابستگی با فرمول بیان می شود

, (7.2)

جایی که به روش نمونه گیری نیز بستگی دارد.

اندازه =تماس گرفت میانگین خطای نمونه گیری در این بیان - واریانس عمومی n- اندازه جامعه نمونه

بیایید در نظر بگیریم که چگونه تعداد واحدهای انتخاب شده بر میانگین خطا تأثیر می گذارد n. از نظر منطقی، تأیید اینکه وقتی تعداد واحدهای زیادی انتخاب می‌شوند، تفاوت بین میانگین‌ها کمتر خواهد بود، کار دشواری نیست، یعنی بین میانگین خطای نمونه‌گیری و تعداد واحدهای انتخاب شده رابطه معکوس وجود دارد. در این حالت فقط یک رابطه ریاضی معکوس شکل نمی گیرد، بلکه رابطه ای که نشان می دهد مجذور اختلاف بین میانگین ها با تعداد واحدهای انتخاب شده نسبت معکوس دارد.

افزایش در تغییرپذیری یک مشخصه مستلزم افزایش انحراف معیار و در نتیجه یک خطا است. اگر فرض کنیم که همه واحدها دارای مقدار یکسانی از ویژگی باشند، انحراف معیار صفر می شود و خطای نمونه گیری نیز از بین می رود. سپس نیازی به اعمال نمونه گیری نیست. با این حال، باید در نظر داشت که میزان تغییرپذیری یک صفت در جمعیت عمومی ناشناخته است، زیرا اندازه واحدهای موجود در آن ناشناخته است. محاسبه تنها متغیر بودن یک مشخصه در جامعه نمونه امکان پذیر است. رابطه بین واریانس های جمعیت عمومی و نمونه با فرمول بیان می شود

از آنجایی که ارزش به اندازه کافی بزرگ nنزدیک به وحدت است، تقریباً می توانیم فرض کنیم که واریانس نمونه برابر با واریانس عمومی است، یعنی.

در نتیجه، میانگین خطای نمونه گیری نشان می دهد که چه انحرافات احتمالی ویژگی های جامعه نمونه از ویژگی های متناظر جامعه عمومی وجود دارد. با این حال، بزرگی این خطا را می توان با احتمال خاصی قضاوت کرد. مقدار احتمال با ضریب نشان داده می شود

قضیه A. M. Lyapunov . A. M. Lyapunov ثابت کرد که توزیع میانگین نمونه (و بنابراین انحراف آنها از میانگین کلی) با تعداد کافی مشاهدات مستقل به اندازه کافی نرمال است، مشروط بر اینکه جمعیت عمومی دارای میانگین محدود و واریانس محدود باشد.

از نظر ریاضی قضیه لیاپانوفمی توان اینگونه نوشت:

(7.3)

جایی که
, (7.4)

جایی که
- ثابت ریاضی؛

خطای نمونه برداری حاشیه ای , که این امکان را فراهم می کند تا دریابیم که مقدار میانگین عمومی در چه محدوده هایی قرار دارد.

مقادیر این انتگرال برای مقادیر مختلف ضریب اطمینان تیمحاسبه و در جداول ریاضی ویژه ارائه شده است. به ویژه زمانی که:

زیرا تینشان دهنده احتمال مغایرت است
یعنی احتمال تفاوت میانگین کلی با میانگین نمونه چقدر خواهد بود، سپس می توان آن را به صورت زیر خواند: با احتمال 0.683 می توان بیان کرد که تفاوت بین میانگین های نمونه و میانگین های عمومی از یک مقدار بیشتر نمی شود. میانگین خطای نمونه گیری به عبارت دیگر در 68.3 درصد موارد خطای بازنمایی از حد مجاز فراتر نخواهد رفت
با احتمال 0.954 می توان بیان کرد که خطای بازنمایی بیشتر نیست
(یعنی در 95 درصد موارد). با احتمال 0.997، یعنی کاملاً نزدیک به وحدت، می‌توان انتظار داشت که اختلاف بین نمونه و میانگین عمومی سه برابر میانگین خطای نمونه‌گیری و غیره بیشتر نشود.

به طور منطقی، ارتباط در اینجا کاملاً واضح به نظر می رسد: هر چه محدودیت هایی که در آن یک خطای احتمالی مجاز است بیشتر باشد، احتمال قضاوت در مورد بزرگی آن بیشتر است.

دانستن مقدار میانگین نمونه صفت
و خطای نمونه گیری حاشیه ای
، می توان حدود (حدود) را تعیین کرد که میانگین کلی در آن قرار دارد

1 . نمونه گیری تصادفی مناسب - این روش بر انتخاب واحدها از جمعیت عمومی بدون هیچ گونه تقسیم بندی به بخش ها یا گروه ها متمرکز است. در عین حال، به منظور رعایت اصل اولیه نمونه گیری - فرصت برابر برای انتخاب همه واحدهای عمومی - از طرحی برای استخراج تصادفی واحدها با قرعه کشی (قرعه کشی) یا جدول اعداد تصادفی استفاده می شود. . انتخاب واحدهای تکراری و غیر تکراری امکان پذیر است

میانگین خطای یک نمونه واقعا تصادفی، انحراف معیار مقادیر احتمالی میانگین نمونه از میانگین عمومی است. میانگین خطاهای نمونه گیری با استفاده از روش نمونه گیری صرفاً تصادفی در جدول ارائه شده است. 7.2.

جدول 7.2

میانگین خطای نمونه گیری μ

هنگام انتخاب

تکرار کرد

قابل تکرار

برای میانگین

از نمادهای زیر در جدول استفاده شده است:

- واریانس جامعه نمونه؛

- اندازهی نمونه؛

- اندازه جمعیت عمومی؛

- نسبت نمونه از واحدهای دارای صفت مورد مطالعه؛

- تعداد واحدهای دارای ویژگی مورد مطالعه؛

- اندازهی نمونه.

برای افزایش دقت به جای ضریب باید ضریب بگیری
، اما با تعداد زیادی نتفاوت بین این عبارات معنای عملی ندارد.

حداکثر خطای یک نمونه واقعا تصادفی
با فرمول محاسبه می شود

, (7.6)

جایی که تی - ضریب اطمینان به مقدار احتمال بستگی دارد.

مثال.هنگام بررسی صد نمونه از محصولات انتخاب شده از دسته به طور تصادفی، 20 نمونه غیر استاندارد بودند. با احتمال 0.954، حدودی را تعیین کنید که در آن سهم محصولات غیر استاندارد در دسته قرار دارد.

راه حل. بیایید سهم عمومی را محاسبه کنیم ( آر):
.

سهم محصولات غیر استاندارد:
.

حداکثر خطای سهم نمونه با احتمال 0.954 با استفاده از فرمول (7.6) با استفاده از فرمول جدول محاسبه می شود. 7.2 برای اشتراک گذاری:

با احتمال 0.954 می توان عنوان کرد که سهم محصولات غیر استاندارد در یک دسته از کالاها در محدوده 12٪ ≤ پ≤ 28 %.

در عمل طراحی مشاهده نمونه، نیاز به تعیین اندازه نمونه وجود دارد که برای اطمینان از دقت خاصی در محاسبه میانگین های عمومی ضروری است. حداکثر خطای نمونه گیری و احتمال آن داده شده است. از فرمول
و فرمول میانگین خطاهای نمونه گیری، حجم نمونه مورد نیاز تعیین می شود. فرمول های تعیین حجم نمونه ( n) به روش انتخاب بستگی دارد. محاسبه حجم نمونه برای یک نمونه کاملا تصادفی در جدول آورده شده است. 7.3.

جدول 7.3

انتخاب تخمینی

برای متوسط

تکرار شد

بی تکرار

2 . نمونه برداری مکانیکی - با این روش، آنها از در نظر گرفتن ویژگی های خاصی از مکان اشیاء در جمعیت عمومی، ترتیب آنها (بر اساس لیست، شماره، الفبا) اقدام می کنند. نمونه برداری مکانیکی با انتخاب اشیاء فردی از جمعیت عمومی در یک بازه زمانی معین (هر 10 یا 20) انجام می شود. فاصله در رابطه با محاسبه می شود ، جایی که n- اندازهی نمونه، ن- اندازه جمعیت عمومی بنابراین، اگر انتظار می رود از یک جمعیت 500000 واحدی، نمونه 2% به دست آید، یعنی 10000 واحد انتخاب شود، نسبت انتخاب خواهد بود.
انتخاب واحدها مطابق با نسبت تعیین شده در فواصل منظم انجام می شود. اگر مکان اشیاء در جمعیت عمومی تصادفی باشد، نمونه برداری مکانیکی از نظر محتوا شبیه به انتخاب تصادفی است. در انتخاب مکانیکی فقط از نمونه برداری غیر تکراری استفاده می شود.

میانگین خطا و اندازه نمونه در طول انتخاب مکانیکی با استفاده از فرمول‌های نمونه‌برداری تصادفی مناسب محاسبه می‌شود (جدول 7.2 و 7.3 را ببینید).

3 . نمونه معمولی ، که در آن جمعیت عمومی بر اساس برخی ویژگی های اساسی به گروه های معمولی تقسیم می شود. واحدها از گروه های معمولی انتخاب می شوند. با این روش انتخاب، جمعیت عمومی به گروه هایی تقسیم می شوند که از برخی جهات همگن هستند که ویژگی های خاص خود را دارند و سؤال به تعیین حجم نمونه از هر گروه می رسد. شاید نمونه برداری یکنواخت – با این روش تعداد واحدهای یکسانی از هر گروه معمولی انتخاب می شود
این رویکرد تنها در صورتی توجیه می شود که تعداد گروه های معمولی اصلی برابر باشد. با انتخاب معمولی، نامتناسب با اندازه گروه ها، تعداد کل واحدهای انتخاب شده بر تعداد گروه های معمولی تقسیم می شود، مقدار حاصل تعداد انتخاب از هر گروه معمولی را نشان می دهد.

یک شکل پیشرفته تر از انتخاب است نمونه گیری متناسب . طرحی برای تشکیل یک جامعه نمونه زمانی متناسب نامیده می شود که تعداد نمونه های گرفته شده از هر گروه معمولی در جامعه عمومی با اعداد، واریانس ها (یا ترکیبی از هر دو اعداد و واریانس ها) متناسب باشد. ما به صورت مشروط حجم نمونه را 100 واحد تعیین می کنیم و واحدها را از گروه ها انتخاب می کنیم:

متناسب با اندازه جمعیت عمومی آنها (جدول 7.4). جدول نشان می دهد:

ن من- اندازه گروه معمولی؛

د j- اشتراک گذاری ( نمن/ ن);

ن- اندازه جمعیت عمومی؛

n من- حجم نمونه از یک گروه معمولی محاسبه می شود:

, (7.7)

n- حجم نمونه از جامعه عمومی.

جدول 7.4

ن من

د j

n من

متناسب با انحراف معیار (جدول 7.5).

اینجا  من- انحراف معیار گروه های معمولی؛

n من - حجم نمونه از یک گروه معمولی با استفاده از فرمول محاسبه می شود

(7.8)

جدول 7.5

ن من

n من

ترکیب شده (جدول 7.6).

حجم نمونه با استفاده از فرمول محاسبه می شود

. (7.9)

جدول 7.6

من ن من

هنگام انجام یک نمونه معمولی، انتخاب مستقیم از هر گروه با استفاده از نمونه گیری تصادفی انجام می شود.

میانگین خطاهای نمونه گیری با استفاده از فرمول های جدول محاسبه می شود. 7.7 بسته به روش انتخاب از گروه های معمولی.

جدول 7.7

روش انتخاب

تکرار شد

بی تکرار

برای متوسط

برای اشتراک گذاری

برای متوسط

برای اشتراک گذاری

نامتناسب با اندازه گروه

متناسب با اندازه گروه

متناسب با نوسانات در گروه ها (سودآورترین است)

اینجا
- میانگین واریانس های درون گروهی گروه های معمولی؛

- نسبت واحدهای دارای صفت مورد مطالعه؛

- میانگین واریانس های درون گروهی برای سهم؛

- انحراف معیار در یک نمونه از منگروه معمولی

- حجم نمونه از یک گروه معمولی؛

- حجم کل نمونه؛

- حجم یک گروه معمولی؛

- حجم جمعیت عمومی

حجم نمونه از هر گروه معمولی باید متناسب با انحراف معیار در این گروه باشد
.محاسبه اعداد
مطابق فرمول های ارائه شده در جدول تولید شده است. 7.8.

جدول 7.8

4 . نمونه برداری سریال - مناسب در مواردی که واحدهای جمعیتی در گروه ها یا سری های کوچک ترکیب می شوند. در نمونه‌گیری سریالی، جمعیت عمومی به گروه‌هایی با اندازه مساوی – سری تقسیم می‌شوند. سری ها در جامعه نمونه انتخاب می شوند. ماهیت نمونه‌برداری سریال، انتخاب تصادفی یا مکانیکی سری‌ها است که در آن بررسی مداوم واحدها انجام می‌شود. میانگین خطای یک نمونه سریال با سری مساوی فقط به بزرگی واریانس بین گروه بستگی دارد. میانگین خطاها در جدول خلاصه شده است. 7.9.

جدول 7.9

روش انتخاب سری

برای متوسط

برای اشتراک گذاری

تکرار شد

بی تکرار

اینجا آر- تعداد سریال ها در جمعیت عمومی؛

r- تعداد سری های انتخابی؛

- پراکندگی میان سری (بین گروهی) وسایل؛

- پراکندگی بین سری (بین گروهی) سهم.

با انتخاب سریال، تعداد سری های انتخابی مورد نیاز مانند روش انتخاب کاملا تصادفی تعیین می شود.

تعداد نمونه های سریال با استفاده از فرمول های ارائه شده در جدول محاسبه می شود. 7.10.

جدول 7.10

مثال.در کارگاه مکانیکی کارخانه 100 کارگر در ده تیم کار می کنند. به منظور بررسی صلاحیت کارگران، نمونه‌گیری 20 درصدی زنجیره‌ای غیرتکراری شامل دو تیم انجام شد. توزیع زیر از کارگران بررسی شده بر اساس دسته به دست آمد:

دسته بندی کارگران تیپ 1

دسته بندی کارگران تیپ 2

دسته بندی کارگران تیپ 1

دسته بندی کارگران تیپ 2

لازم است با احتمال 0.997 حدودی تعیین شود که میانگین طبقه بندی کارگران در یک ماشین سازی در آن قرار دارد.

راه حل.اجازه دهید میانگین های نمونه برای تیم ها و میانگین کلی را به عنوان میانگین وزنی میانگین های گروه تعریف کنیم:

اجازه دهید پراکندگی بین اجرا را با استفاده از فرمول (5.25) تعیین کنیم:

بیایید میانگین خطای نمونه گیری را با استفاده از فرمول جدول محاسبه کنیم. 7.9:

بیایید حداکثر خطای نمونه گیری را با احتمال 0.997 محاسبه کنیم:

با احتمال 0.997 می توان بیان کرد که میانگین رده کارگران یک ماشین سازی در محدوده است.

همانطور که قبلاً می دانیم، نمایندگی ویژگی یک جامعه نمونه برای نشان دادن ویژگی های جامعه عمومی است. اگر مطابقت وجود نداشته باشد، آنها از یک خطای نمایندگی صحبت می کنند - اندازه گیری انحراف ساختار آماری نمونه از ساختار جامعه عمومی مربوطه. فرض کنید متوسط ​​درآمد ماهانه خانواده مستمری بگیران در جمعیت عمومی 2 هزار روبل و در جمعیت نمونه - 6 هزار روبل است. این بدان معناست که جامعه شناس فقط با بخش ثروتمند مستمری بگیران مصاحبه کرده است و یک خطای نمایندگی در مطالعه او رخ می دهد. به عبارت دیگر، خطای بازنمایی، اختلاف بین دو جامعه است - جمعیت عمومی، که علاقه نظری جامعه شناس به آن معطوف است و ایده ای از ویژگی هایی که در نهایت می خواهد به دست آورد، و نمونه ای که جامعه شناس به آن می رسد. علاقه عملی هدایت می شود که به طور همزمان به عنوان یک هدف بررسی و وسیله ای برای به دست آوردن اطلاعات در مورد جمعیت عمومی عمل می کند.

همراه با عبارت "خطای نمایندگی"، اصطلاح دیگری را می توان در ادبیات داخلی یافت: "خطای نمونه گیری". گاهی اوقات آنها به جای یکدیگر استفاده می شوند و گاهی اوقات "خطای نمونه" به جای "خطای نمایندگی" به عنوان یک مفهوم کمی دقیق تر استفاده می شود.

خطای نمونه گیری عبارت است از انحراف میانگین ویژگی های جامعه نمونه از میانگین ویژگی های جامعه عمومی.

در عمل، خطای نمونه گیری با مقایسه ویژگی های شناخته شده جمعیت با میانگین نمونه تعیین می شود. در جامعه شناسی، هنگام بررسی جمعیت بزرگسال، بیشتر از داده های سرشماری جمعیت، آمارهای فعلی و نتایج بررسی های قبلی استفاده می شود. مشخصه های اجتماعی-جمعیت شناختی معمولاً به عنوان پارامترهای کنترلی استفاده می شود. مقایسه میانگین‌های جمعیت عمومی و نمونه، بر این اساس، تعیین خطای نمونه‌گیری و کاهش آن را کنترل بازنمایی می‌گویند. از آنجایی که می توان پس از تکمیل مطالعه، مقایسه داده های خود و دیگران را انجام داد، این روش کنترل پسینی نامیده می شود، یعنی. پس از تجربه انجام شد.

در نظرسنجی های گالوپ، نمایندگی با استفاده از داده های موجود در سرشماری های ملی در مورد توزیع جمعیت بر اساس جنسیت، سن، تحصیلات، درآمد، حرفه، نژاد، محل سکونت و اندازه محل سکونت کنترل می شود. مرکز همه روسی برای مطالعه افکار عمومی (VTsIOM) برای اهدافی از شاخص هایی مانند جنسیت، سن، تحصیلات، نوع محل سکونت، وضعیت تأهل، منطقه اشتغال، وضعیت شغلی پاسخ دهنده استفاده می کند که از آنها به عاریت گرفته شده است. کمیته دولتی آمار فدراسیون روسیه. در هر دو مورد، جمعیت مشخص است. اگر مقادیر متغیر در نمونه و جامعه ناشناخته باشند، خطای نمونه گیری قابل تعیین نیست.

متخصصان VTsIOM از تعمیر دقیق نمونه در طول تجزیه و تحلیل داده ها اطمینان حاصل می کنند تا انحرافات ایجاد شده در مرحله کار میدانی را به حداقل برسانند. به خصوص سوگیری های قوی از نظر جنسیت و سن مشاهده می شود. این با این واقعیت توضیح داده می شود که زنان و افراد دارای تحصیلات عالی زمان بیشتری را در خانه می گذرانند و راحت تر با مصاحبه کننده ارتباط برقرار می کنند. در مقایسه با مردان و افراد «بی‌سواد» گروهی هستند که به راحتی در دسترس هستند.

خطای نمونه گیری توسط دو عامل ایجاد می شود: روش نمونه گیری و حجم نمونه.

خطاهای نمونه گیری به دو نوع تصادفی و سیستماتیک تقسیم می شوند. خطای تصادفی احتمال این است که میانگین نمونه خارج از یک بازه معین قرار گیرد (یا نخواهد شد). خطاهای تصادفی شامل خطاهای آماری ذاتی خود روش نمونه گیری است. با افزایش حجم نمونه کاهش می یابند.

نوع دوم خطای نمونه گیری، خطای سیستماتیک است. اگر یک جامعه شناس تصمیم گرفت نظر همه ساکنان شهر را در مورد سیاست اجتماعی که توسط مقامات محلی دنبال می شود، دریابد و فقط کسانی را که تلفن دارند بررسی کند، در این صورت یک سوگیری عمدی در نمونه به نفع اقشار ثروتمند ایجاد می شود. خطای سیستماتیک

بنابراین، خطاهای سیستماتیک نتیجه فعالیت های خود محقق است. آنها خطرناک ترین هستند زیرا منجر به سوگیری های قابل توجهی در نتایج تحقیقات می شوند. خطاهای سیستماتیک بدتر از خطاهای تصادفی در نظر گرفته می شوند همچنین به این دلیل که نمی توان آنها را کنترل و اندازه گیری کرد.

آنها زمانی به وجود می آیند که به عنوان مثال: 1) نمونه با اهداف مطالعه مطابقت ندارد (جامعه شناس تصمیم گرفت فقط بازنشستگان شاغل را مطالعه کند، اما با همه مصاحبه کرد). 2) ناآگاهی آشکار از ماهیت جمعیت عمومی وجود دارد (جامعه شناس فکر می کرد که 70٪ از همه مستمری بگیران کار نمی کنند ، اما معلوم شد که فقط 10٪ کار نمی کنند). 3) فقط عناصر "برنده" از جمعیت عمومی انتخاب می شوند (به عنوان مثال، فقط بازنشستگان ثروتمند).

توجه! برخلاف خطاهای تصادفی، خطاهای سیستماتیک با افزایش حجم نمونه کاهش نمی یابد.

روش شناسان با خلاصه کردن تمام مواردی که خطاهای سیستماتیک رخ می دهد، ثبتی از آنها تهیه کردند. آنها معتقدند که عوامل زیر ممکن است منشا اعوجاج های کنترل نشده در توزیع مشاهدات نمونه باشند:
♦ قوانین روش شناختی و روش شناختی برای انجام تحقیقات جامعه شناختی نقض شد.
♦ روش‌های ناکافی برای تشکیل جامعه نمونه، روش‌های جمع‌آوری و محاسبه داده‌ها انتخاب شدند.
♦ واحدهای رصد مورد نیاز با واحدهای قابل دسترس دیگری جایگزین شدند.
♦ پوشش ناقص جامعه نمونه (عدم دریافت پرسشنامه کافی، تکمیل نکردن کامل آنها، عدم دسترسی به واحدهای مشاهده) مشاهده شد.

یک جامعه شناس به ندرت مرتکب اشتباهات عمدی می شود. بیشتر اوقات، خطاها به این دلیل رخ می دهد که جامعه شناس از ساختار جمعیت عمومی آگاهی ضعیفی دارد: توزیع افراد بر اساس سن، حرفه، درآمد و غیره.

پیشگیری از خطاهای سیستماتیک آسان تر است (در مقایسه با خطاهای تصادفی)، اما حذف آنها بسیار دشوار است. بهتر است از اشتباهات سیستماتیک با پیش بینی دقیق منابع آنها از قبل - در همان ابتدای مطالعه - جلوگیری کنید.

در اینجا چند راه برای جلوگیری از خطاهای نمونه وجود دارد:
♦ هر واحد در جامعه باید احتمال یکسانی برای گنجاندن در نمونه را داشته باشد.
♦ توصیه می شود از بین جمعیت های همگن انتخاب شود.
♦ باید ویژگی های جمعیت عمومی را بدانید.
♦ هنگام گردآوری جامعه نمونه، خطاهای تصادفی و سیستماتیک باید در نظر گرفته شود.

اگر جامعه نمونه (یا صرفاً یک نمونه) به درستی جمع آوری شود، جامعه شناس نتایج قابل اعتمادی را دریافت می کند که مشخصه کل جامعه است. اگر اشتباه تدوین شود، خطای ایجاد شده در مرحله نمونه گیری در هر مرحله بعدی از تحقیقات جامعه شناسی چند برابر می شود و در نهایت به مقداری می رسد که بر ارزش تحقیق انجام شده بیشتر می شود. آنها می گویند که چنین تحقیقاتی بیشتر از اینکه فایده داشته باشد ضرر دارد.

چنین خطاهایی فقط با یک جامعه نمونه ممکن است رخ دهد. برای جلوگیری یا کاهش احتمال خطا، ساده‌ترین راه افزایش حجم نمونه است (به طور ایده‌آل به اندازه نمونه عمومی: وقتی هر دو جمعیت با هم مطابقت داشته باشند، خطای نمونه‌گیری به طور کلی ناپدید می‌شود). از نظر اقتصادی، این روش غیرممکن است. راه دیگری وجود دارد - بهبود روش های ریاضی برای نمونه گیری. آنها در عمل استفاده می شوند. این اولین کانال نفوذ به جامعه شناسی ریاضیات است. کانال دوم پردازش داده های ریاضی است.

مشکل خطاها به ویژه در تحقیقات بازاریابی، که در آن از نمونه های کوچک استفاده می شود، اهمیت بیشتری پیدا می کند. معمولاً تعداد آنها چند صد نفر است، کمتر - هزار پاسخ دهنده. در اینجا، نقطه شروع برای محاسبه نمونه، مسئله تعیین اندازه جامعه نمونه است. اندازه جامعه نمونه به دو عامل بستگی دارد: 1) هزینه جمع آوری اطلاعات و 2) تمایل به درجه خاصی از پایایی آماری نتایجی که محقق امیدوار است به دست آورد. البته، حتی افرادی که در آمار و جامعه شناسی تجربه ندارند، به طور شهودی درک می کنند که هر چه حجم نمونه بزرگتر باشد، یعنی. هر چه آنها به اندازه کل جمعیت نزدیکتر باشند، داده های به دست آمده قابل اعتمادتر و معتبرتر هستند. با این حال، ما قبلاً در مورد عدم امکان عملی بررسی های مداوم در مواردی که آنها بر روی اشیایی که تعداد آنها از ده ها، صدها هزار و حتی میلیون ها تجاوز می کند، صحبت کردیم. واضح است که هزینه جمع آوری اطلاعات (شامل پرداخت برای تکرار ابزارها، نیروی کار پرسشنامه ها، مدیران میدانی و اپراتورهای ورودی کامپیوتر) بستگی به مقداری دارد که مشتری مایل به تخصیص آن است و بستگی کمی به محققین دارد. در مورد عامل دوم، کمی بیشتر به آن خواهیم پرداخت.

بنابراین، هر چه حجم نمونه بزرگتر باشد، خطای احتمالی کوچکتر است. اگرچه لازم به ذکر است که اگر می خواهید دقت را دو برابر کنید، باید نمونه را نه دو، بلکه چهار افزایش دهید. به عنوان مثال، برای تخمین دوبرابر دقیق‌تر داده‌های به‌دست‌آمده از نظرسنجی از 400 نفر، به جای 800، باید از 1600 نفر نظرسنجی کنید. با این حال، بعید است که تحقیقات بازاریابی نیاز به دقت 100٪ داشته باشد. اگر یک تولیدکننده آبجو باید دریابد که چه نسبتی از مصرف کنندگان آبجو نام تجاری او را بر نام تجاری رقیب خود ترجیح می دهند - 60٪ یا 40٪ - در این صورت تفاوت بین 57٪، 60 یا 63٪، برنامه های او به هیچ وجه تحت تأثیر قرار نمی گیرد.

خطای نمونه گیری ممکن است نه تنها به اندازه آن بستگی داشته باشد، بلکه به درجه تفاوت بین واحدهای فردی در جامعه مورد مطالعه ما نیز بستگی دارد. به عنوان مثال، اگر بخواهیم بدانیم چقدر آبجو مصرف می شود، متوجه می شویم که در جمعیت ما، میزان مصرف در بین افراد مختلف (جمعیت ناهمگن) به طور قابل توجهی متفاوت است. در موردی دیگر، مصرف نان را مطالعه خواهیم کرد و متوجه خواهیم شد که تفاوت آن در بین افراد مختلف (جمعیت همگن) بسیار کمتر است. هر چه تنوع (یا ناهمگنی) در یک جمعیت بیشتر باشد، بزرگی خطای نمونه گیری احتمالی بیشتر است. این الگو تنها آنچه را که عقل سلیم ساده به ما می گوید تایید می کند. بنابراین، همانطور که V. Yadov به درستی بیان می کند، «اندازه (حجم) نمونه به سطح همگنی یا ناهمگنی اشیاء مورد مطالعه بستگی دارد. هر چه آنها همگن تر باشند، اعداد کوچکتر می توانند نتایج آماری قابل اعتمادی ارائه دهند.

تعیین حجم نمونه به میزان فاصله اطمینان خطای آماری مجاز نیز بستگی دارد. این به اشتباهات به اصطلاح تصادفی اشاره دارد که با ماهیت هر خطای آماری مرتبط است. در و. Paniotto محاسبات زیر را برای یک نمونه نماینده با فرض خطای 5٪ ارائه می دهد:
این بدان معناست که اگر شما با بررسی مثلاً 400 نفر در یک شهر منطقه ای که جمعیت حلال بالغ در آن 100 هزار نفر است، دریافتید که 33٪ از خریداران مورد بررسی محصولات یک کارخانه فرآوری گوشت محلی را ترجیح می دهند، سپس با 95٪. به احتمال زیاد می توان گفت 5+33 درصد (یعنی از 28 تا 38 درصد) از ساکنان این شهر خریداران دائمی این محصولات هستند.

همچنین می توانید از محاسبات گالوپ برای تخمین نسبت حجم نمونه و خطای نمونه گیری استفاده کنید.

قاعدتاً بین شاخص‌های جامعه نمونه و شاخص‌های (پارامترهای) مورد نظر جامعه کلی اختلاف نظر وجود دارد که به آنها می‌گویند. خطاهای نمونه گیریخطای نمونه گیری کلی از دو نوع خطا تشکیل شده است: خطای ثبت و خطای نمایندگی.

خطاهای ثبتی از مشخصه های هر مشاهده آماری است و وقوع آن می تواند ناشی از بی احتیاطی مسئول ثبت، عدم دقت محاسبات، نقص ابزار اندازه گیری و ... باشد.

خطاهای نمایندگی فقط در مشاهده انتخابی ذاتی هستند و به دلیل ماهیت آن تعیین می شوند، زیرا صرف نظر از اینکه انتخاب واحدها چقدر دقیق و درست انجام می شود، میانگین و شاخص های نسبی جامعه نمونه همیشه تا حدودی با شاخص های مربوطه متفاوت خواهد بود. از جمعیت عمومی

خطاهای سیستماتیک و تصادفی نمایندگی وجود دارد. خطاهای سیستماتیک بازنمایی، نادرستی هستند که در نتیجه عدم رعایت شرایط انتخاب واحدها در جامعه نمونه، فراهم نکردن فرصت برابر برای هر واحد از جامعه عمومی برای گنجاندن در نمونه ایجاد می شود. خطاهای تصادفی بازنمایی، خطاهایی هستند که به دلیل عدم بازتولید دقیق ویژگی‌های جامعه عمومی (میانگین، نسبت، واریانس و غیره) در جامعه نمونه به دلیل ماهیت غیر مستمر نظرسنجی به وجود می‌آیند.

اگر اصل نمونه گیری تصادفی رعایت شود، اندازه خطای نمونه در درجه اول به اندازه نمونه بستگی دارد. هرچه اندازه نمونه بزرگتر باشد، همه چیزهای دیگر برابر باشند، خطای نمونه برداری کوچکتر است. با حجم نمونه بزرگ، تأثیر قانون اعداد بزرگ به وضوح آشکارتر می شود، که بر اساس آن: با احتمال دلخواه نزدیک به وحدت، می توان استدلال کرد که با حجم نمونه به اندازه کافی بزرگ و پراکندگی محدود، ویژگی های نمونه ( سهم متوسط) به اندازه دلخواه با مشخصات کلی مربوطه متفاوت خواهد بود.

اندازه خطای نمونه گیری نیز مستقیماً با درجه تنوع مشخصه مورد مطالعه مرتبط است، و درجه تنوع، همانطور که در بالا ذکر شد، در آمار با اندازه پراکندگی (پراکندگی) مشخص می شود: هر چه پراکندگی کوچکتر باشد، هر چه خطای نمونه برداری کوچکتر باشد، نتایج آماری قابل اعتمادتر است. بنابراین، در عمل، واریانس با خطای نمونه‌گیری شناسایی می‌شود.

از آنجایی که پارامتر جمعیت مقدار مورد نظر است و ناشناخته است، باید بر روی یک خطای خاص تمرکز نکنید، بلکه بر میانگین تمام نمونه های ممکن تمرکز کنید.

اگر چند جمعیت نمونه از جامعه عمومی انتخاب شوند، هر یک از نمونه های به دست آمده مقدار متفاوتی برای یک خطای خاص می دهد.

ریشه میانگین ارزش مربع محاسبه شده از تمام مقادیر ممکن خطاهای خاص (;) خواهد بود:

جایی که * و میانگین های نمونه هستند. x - میانگین کلی؛)] - تعداد نمونه ها بر اساس مقدار є1 = ~si - x.

انحراف معیار میانگین نمونه از میانگین کلی را میانگین خطای نمونه گیری می نامند.

وابستگی بزرگی خطای نمونه برداری به اندازه آن و درجه تغییرات مشخصه در فرمول میانگین خطای نمونه برداری /u بیان می شود.

میانگین مجذور خطا (واریانس میانگین نمونه) مستقیماً با واریانس متناسب استیکصد و با حجم نمونه n نسبت معکوس دارد:

واریانس این صفت در جمعیت کجاست.

از اینجا، میانگین خطا به طور کلی با فرمول تعیین می شود:

بنابراین، با تعیین انحراف معیار برای نمونه، می‌توانیم مقدار میانگین خطای نمونه‌گیری را تعیین کنیم که مقدار آن، مطابق فرمول، بیشتر است، تغییرات متغیر تصادفی بیشتر و هر چه کوچکتر باشد، حجم نمونه بزرگتر

بنابراین، با افزایش حجم نمونه، اندازه خطای متوسط ​​کاهش می یابد. به عنوان مثال، اگر لازم باشد میانگین خطای نمونه‌گیری به نصف کاهش یابد، حجم نمونه باید چهار برابر شود، اگر لازم است خطای نمونه‌گیری تا سه برابر کاهش یابد، حجم نمونه باید نه برابر شود. و غیره.

در محاسبات عملی، دو فرمول برای میانگین خطای نمونه گیری برای میانگین و نسبت استفاده می شود.

در یک مطالعه نمونه از شاخص های میانگین، فرمول میانگین خطا به شرح زیر است:

هنگام مطالعه شاخص های نسبی (ویژگی های خاص)، فرمول میانگین خطا به شکل زیر است:

جایی کهجی - سهم یک ویژگی در جمعیت

استفاده از فرمول های بالا برای خطای متوسط ​​فرض می کند که واریانس عمومی و سهم کلی مشخص است. با این حال، در واقع این شاخص ها ناشناخته هستند و به دلیل فقدان داده ها در مورد جمعیت عمومی قابل محاسبه نیستند. بنابراین، نیاز به جایگزینی پراکندگی عمومی و سهم کلی با سایر مقادیر نزدیک به آنها وجود دارد.

در آمار ریاضی ثابت شده است که چنین مقادیری می توانند واریانس نمونه (st) و کسر نمونه (co) باشند.

با در نظر گرفتن موارد فوق، فرمول های میانگین خطا را می توان به صورت زیر نوشت:

این فرمول ها امکان تعیین میانگین خطا را هنگام نمونه گیری مجدد فراهم می کند. استفاده از نمونه‌گیری مجدد تصادفی ساده در عمل محدود است. اولاً بررسی مجدد واحدهای مشابه غیرعملی و گاهی غیرممکن است. استفاده از نمونه گیری غیر تکراری به جای نمونه گیری مکرر نیز به دلیل افزایش درجه دقت و قابلیت اطمینان نمونه دیکته می شود. بنابراین در عمل از روش انتخاب تصادفی غیر تکراری بیشتر استفاده می شود. بر اساس این روش انتخاب، واحد جمعیتی انتخاب شده برای نمونه در انتخاب بعدی شرکت نمی کند. واحدها از جمعیتی انتخاب می شوند که با تعداد واحدهای انتخاب شده قبلی کاهش یافته است. بنابراین، در رابطه با تغییر اندازه جمعیت عمومی پس از هر انتخاب و احتمال انتخاب واحدهای باقی مانده، یک ضریب تصحیح در فرمول میانگین خطای نمونه‌گیری وارد می‌شود.

که در آن N اندازه جمعیت عمومی است. پ- اندازهی نمونه. اگر مقدار N به اندازه کافی بزرگ باشد، می توان از مخرج صرف نظر کرد. سپس

در نتیجه، فرمول های میانگین خطای نمونه گیری برای نمونه گیری غیر تکراری برای میانگین و برای سهم به ترتیب دارای شکل زیر است:

زیرا پهمیشه کمتر از M است، سپس ضریب اضافی همیشه کمتر از یک است. در نتیجه قدر مطلق خطای نمونه گیری در نمونه گیری غیر تکراری همیشه کمتر از نمونه گیری مکرر خواهد بود.

اگر اندازه نمونه به اندازه کافی بزرگ باشد، مقدار 1^ نزدیک به وحدت است و بنابراین می توان از آن صرف نظر کرد. سپس میانگین خطای نمونه گیری تصادفی غیر تکراری با فرمول نمونه گیری تصادفی مکرر مناسب تعیین می شود.

برای مثال، اجازه دهید میانگین خطای عملکرد و نسبت کرت‌های با عملکرد 25 c/ha یا بیشتر را محاسبه کنیم.

میانگین خطای نمونه گیری

الف) متوسط ​​عملکرد جو

میانگین عملکرد جو در جمعیت x -G^= c/ha 0.12 ± 25.1، یعنی از 24.98 تا 25.22 c/ha متغیر است.

سهم کرت های با عملکرد 25 سانتی متر در هکتار یا بیشتر در جمعیت عمومی منطقه

T-^G = 0.07 ± 0.80، یعنی. بین 73 تا 87 درصد است.

میانگین خطای نمونه گیری انحرافات احتمالی ویژگی های جامعه نمونه از ویژگی های جامعه عمومی را نشان می دهد. در عین حال، هنگام انجام مشاهدات نمونه، محققان اغلب با وظیفه محاسبه نه تنها میانگین خطا، بلکه تعیین حداکثر خطای نمونه گیری ممکن روبرو هستند. با دانستن میانگین خطا، می توانید مرزهایی را تعیین کنید که خطای نمونه برداری از آن فراتر نخواهد رفت. با این حال، می توان ادعا کرد که این انحرافات نه با قطعیت مطلق، بلکه فقط با درجه ای از احتمال، از یک مقدار معین تجاوز نمی کنند. سطح احتمالی که هنگام تعیین حدود ممکن که حاوی مقادیر پارامترهای جمعیت است پذیرفته می شود، سطح اطمینان احتمال نامیده می شود.

احتمال اطمینان- این یک احتمال نسبتاً بالا است و به گونه ای است که عملاً در هر مورد خاص انجام می شود که دریافت نتایج آماری قابل اعتماد را تضمین می کند. اجازه دهید آن را با علامت گذاری کنیم جیو احتمال فراتر رفتن از این سطح است آ. بنابراین،آ =1 - آر احتمالآ سطح معناداری نامیده می شود(ماهیت)، که مشخص کننده تعداد نسبی نتیجه گیری های اشتباه در تعداد کل نتیجه گیری است و به عنوان تفاوت بین وحدت و احتمال اطمینان پذیرفته شده تعریف می شود.

سطح اطمینان توسط محقق بر اساس میزان مسئولیت و ماهیت وظایف حل شده تعیین می شود. در مطالعات آماری در اقتصاد، سطح اطمینان اغلب اتخاذ می شود جی = 0.95; P = 0.99 (به ترتیب، سطح معنی داریآ = 0,05; آ = 0.01) کمترجی = 0.999. به عنوان مثال، احتمال اطمینانГ = 0.99 به این معنی است که خطای تخمین در 99 مورد از 100 مورد از مقدار تعیین شده بیشتر نخواهد بود و تنها در یک مورد از 100 می تواند به مقدار محاسبه شده برسد یا از آن فراتر رود.

خطای نمونه گیری محاسبه شده با درجه معینی از احتمال قابل اعتماد نامیده می شودخطای نمونه برداری حاشیه ای اره

بیایید در نظر بگیریم که چگونه مقدار حداکثر خطای نمونه گیری ممکن ایجاد می شود. اندازه er با انحراف نرمال شده همراه است و به عنوان نسبت حداکثر خطای نمونه گیری تعریف می شود. er به میانگین خطاو:

برای راحتی محاسبات، انحرافات یک متغیر تصادفی از مقدار میانگین آن معمولاً در واحدهای انحراف استاندارد بیان می شود. اصطلاح

تماس گرفتانحراف نرمال شده V در ادبیات آماریو تماس گرفتعامل اعتماد، یا مضرب میانگین خطای نمونه گیری.

بنابراین، انحراف نرمال شده میانگین نمونه را می توان با فرمول تعیین کرد:

و _є_р_

از بیان 1 می توانید حداکثر خطای نمونه گیری احتمالی را پیدا کنید

er = i/l.

جایگزین کردن g در معنای آن، ما فرمول های حداکثر خطای نمونه گیری را برای میانگین و سهم با انتخاب تصادفی غیر تکراری ارائه می کنیم.

در نتیجه، حداکثر خطای نمونه گیری به مقدار میانگین خطا و انحراف نرمال شده بستگی دارد و برابر ± مضربی از میانگین خطاهای نمونه گیری است.

میانگین و حداکثر خطاهای نمونه گیری کمیت نامگذاری می شوند و با واحدهای میانگین حسابی و انحراف معیار بیان می شوند.

انحراف نرمال شده از نظر عملکردی با احتمال مرتبط است. برای یافتن ارزش هاو جداول ویژه ای (داخلی 2) گردآوری شده است که می توانید مقدار را از آنها بیابیدوبرای سطح معینی از احتمال اطمینان و مقدار احتمال برای یک و.

بیایید ارزش ها را بدهیمو و احتمالات مربوط به آنها برای نمونه های اندازهp> 30 که بیشتر در محاسبات عملی استفاده می شود:

بنابراین، زمانی کهو = 1، احتمال انحراف ویژگی های نمونه از ویژگی های عمومی با مقدار یک خطای نمونه گیری متوسط ​​0.6827 است. این به این معنی است که به طور متوسط ​​از هر 1000 نمونه، 683 مورد ویژگی های تعمیم یافته ای را ارائه می دهند که با ویژگی های عمومی تعمیم یافته بیش از یک خطای میانگین تفاوت ندارند. وقتی u = 2، احتمال 0.9545 است. V این بدان معنی است که از هر یک 1000 نمونه 954 ویژگی های تعمیم یافته ای را ارائه می دهند که با ویژگی های عمومی تعمیم یافته بیش از دو برابر میانگین خطای نمونه گیری و غیره متفاوت نخواهد بود.

اما با توجه به اینکه معمولاً فقط یک نمونه گرفته می شود، می گوییم که مثلاً با احتمال 0.9545 می توان تضمین کرد که اندازه خطای حاشیه ای از دو برابر میانگین خطای نمونه گیری بیشتر نخواهد شد. .

از نظر ریاضی ثابت شده است که نسبت خطای نمونه گیری به خطای متوسط، به عنوان یک قاعده، تجاوز نمی کند.± 3d برای یک عدد به اندازه کافی بزرگ n، علیرغم این واقعیت که خطای نمونه گیری می تواند هر مقداری داشته باشد. به عبارت دیگر، می توان گفت که با احتمال قضاوت به اندازه کافی بالا (0.9973 = P)، حداکثر خطای نمونه گیری، به عنوان یک قاعده، از سه خطای نمونه گیری متوسط ​​تجاوز نمی کند. بنابراین، مقدار Ep = 3d را می توان به عنوان حد خطای نمونه گیری احتمالی در نظر گرفت.

برای مثال ما حداکثر خطای نمونه برداری را برای میانگین عملکرد و نسبت کرت های با عملکرد 25 c/ha یا بیشتر تعیین می کنیم. سطح اطمینان احتمال را برابر با P = 0.9545 در نظر می گیریم. V مطابق جدول (adj..2) مقادیر را بیابید و = 2. میانگین خطاهای نمونه برداری برای عملکرد و سهم کرت های با عملکرد 25 سی در هکتار و بیشتر قبلاً پیدا شد و بر این اساس عبارت بود از: Ts~= 0.12 ± c/ha MP = 0.07 ±.

خطای نهایی متوسط ​​عملکرد جو:

بنابراین، اختلاف میانگین عملکرد نمونه با میانگین عمومی بیش از 0.24 c/ha نخواهد بود. حدود متوسط ​​عملکرد در جمعیت عمومی: x = x ± ~ = 25.1 + 0.24 است، یعنی از 24.86 تا 25.34 c/ha.

حداکثر خطای سهم کرت های با عملکرد 25 c/ha یا بیشتر:

در نتیجه، حداکثر خطا در تعیین نسبت کرت‌های با عملکرد 25 سانتی‌گراد در هکتار یا بیشتر از 14 درصد تجاوز نخواهد کرد، یعنی نسبت کرت‌های با عملکرد مشخص شده در جمعیت عمومی در محدوده‌های زیر است: جی= a> ± ep = 0.80 ± 0.14، یعنی از 66 تا 94٪.