روش حداقل مربعات در گروه گنجانده شده است. به عنوان مثال یک سیستم معادلات خطی است. نمونه هایی از حل مسائل خاص

روش حداقل مربعاتبرای تخمین پارامترهای معادله رگرسیون استفاده می شود.
تعداد خطوط (داده ی منبع)

یکی از روش های بررسی روابط تصادفی بین ویژگی ها، تحلیل رگرسیون است.
تحلیل رگرسیون مشتق از یک معادله رگرسیونی است که به کمک آن مقدار متوسط ​​یک متغیر تصادفی (ویژگی نتیجه) در صورت معلوم بودن مقدار متغیرهای دیگر (یا سایر) (عوامل - ویژگی ها) به دست می آید. شامل مراحل زیر می باشد:

  1. انتخاب شکل اتصال (نوع معادله رگرسیون تحلیلی)؛
  2. تخمین پارامترهای معادله;
  3. ارزیابی کیفیت معادله رگرسیون تحلیلی.
اغلب، یک فرم خطی برای توصیف رابطه آماری ویژگی ها استفاده می شود. تمرکز بر روابط خطی با تفسیر اقتصادی واضح پارامترهای آن، تنوع محدود متغیرها، و این واقعیت که در بیشتر موارد اشکال غیرخطی روابط (با لگاریتم یا جایگزینی متغیرها) به شکل خطی برای انجام محاسبات تبدیل می‌شوند، توضیح داده می‌شود. .
در مورد یک رابطه زوجی خطی، معادله رگرسیون به شکل زیر خواهد بود: y i =a+b·x i +u i. پارامترهای a و b این معادله از داده های مشاهدات آماری x و y برآورد شده است. نتیجه چنین ارزیابی معادله است: ، که در آن، تخمین پارامترهای a و b هستند، مقدار مشخصه (متغیر) حاصل از معادله رگرسیون (مقدار محاسبه شده) است.

اغلب برای تخمین پارامترها استفاده می شود روش حداقل مربعات (LSM).
روش حداقل مربعات بهترین تخمین (سازگار، کارآمد و بی طرفانه) را از پارامترهای معادله رگرسیون ارائه می دهد. اما تنها در صورتی که مفروضات خاصی در مورد عبارت تصادفی (u) و متغیر مستقل (x) برآورده شوند (به فرضیات OLS مراجعه کنید).

مسئله تخمین پارامترهای یک معادله جفت خطی با استفاده از روش حداقل مربعاتبه شرح زیر است: برای به دست آوردن چنین تخمینی از پارامترها، که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل - y i از مقادیر محاسبه شده - حداقل است.
به صورت رسمی تست OLSمی توان اینگونه نوشت: .

طبقه بندی روش های حداقل مربعات

  1. روش حداقل مربعات
  2. روش حداکثر درستنمایی (برای یک مدل رگرسیون خطی کلاسیک نرمال، نرمال بودن باقیمانده های رگرسیون فرض شده است).
  3. روش حداقل مربعات تعمیم یافته OLS در مورد خودهمبستگی خطاها و در مورد ناهمسانی استفاده می شود.
  4. روش حداقل مربعات وزنی (مورد خاص OLS با باقیمانده های ناهمسان).

بیایید موضوع را توضیح دهیم روش حداقل مربعات کلاسیک به صورت گرافیکی. برای انجام این کار، یک نمودار پراکندگی بر اساس داده های مشاهده ای (x i, y i, i=1;n) در یک سیستم مختصات مستطیلی می سازیم (به چنین نمودار پراکندگی، میدان همبستگی می گویند). بیایید سعی کنیم خط مستقیمی را انتخاب کنیم که نزدیکترین خط به نقاط میدان همبستگی باشد. بر اساس روش حداقل مربعات، خط به گونه ای انتخاب می شود که مجموع مجذورات فواصل عمودی بین نقاط میدان همبستگی و این خط حداقل باشد.

نماد ریاضی برای این مسئله: .
مقادیر y i و x i = 1 ... n برای ما شناخته شده است. در تابع S آنها ثابت ها را نشان می دهند. متغیرهای این تابع برآوردهای مورد نیاز پارامترهای - , . برای یافتن حداقل یک تابع از دو متغیر، لازم است مشتقات جزئی این تابع را برای هر یک از پارامترها محاسبه کرده و آنها را با صفر برابر کنیم، یعنی. .
در نتیجه سیستمی متشکل از 2 معادله خطی عادی بدست می آوریم:
با حل این سیستم، تخمین پارامترهای مورد نیاز را پیدا می کنیم:

صحت محاسبه پارامترهای معادله رگرسیون را می توان با مقایسه مقادیر بررسی کرد (ممکن است مقداری مغایرت به دلیل گرد کردن محاسبات وجود داشته باشد).
برای محاسبه تخمین پارامترها، می توانید جدول 1 را بسازید.
علامت ضریب رگرسیون b جهت رابطه را نشان می دهد (اگر b>0، رابطه مستقیم است، اگر b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
به طور رسمی، مقدار پارامتر a میانگین مقدار y با x برابر با صفر است. اگر ویژگی-factor مقدار صفر نداشته باشد و نمی تواند داشته باشد، تفسیر بالا از پارامتر a معنی ندارد.

ارزیابی نزدیکی رابطه بین ویژگی ها با استفاده از ضریب همبستگی جفت خطی - r x,y انجام شد. با استفاده از فرمول قابل محاسبه است: . علاوه بر این، ضریب همبستگی جفت خطی را می توان از طریق ضریب رگرسیون b تعیین کرد: .
دامنه مقادیر قابل قبول ضریب همبستگی جفت خطی از -1 تا +1 است. علامت ضریب همبستگی جهت رابطه را نشان می دهد. اگر r x، y > 0، آنگاه اتصال مستقیم است. اگر r x، y<0, то связь обратная.
اگر این ضریب از نظر مقدار نزدیک به وحدت باشد، رابطه بین ویژگی ها را می توان به عنوان یک رابطه خطی نسبتا نزدیک تفسیر کرد. اگر ماژول آن برابر با یک ê r x، y ê =1 باشد، آنگاه رابطه بین مشخصه ها تابعی خطی است. اگر ویژگی های x و y به صورت خطی مستقل باشند، آنگاه r x,y نزدیک به 0 است.
برای محاسبه r x,y می توانید از جدول 1 نیز استفاده کنید.

میز 1

N مشاهداتx iy منx i ∙y i
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
جمع بر ستون∑x∑y∑ x y
مقدار متوسط
برای ارزیابی کیفیت معادله رگرسیون حاصل، ضریب تعیین نظری را محاسبه کنید - R 2 yx:

,
که در آن d 2 واریانس y است که با معادله رگرسیون توضیح داده می شود.
e 2 - واریانس باقیمانده (غیر قابل توضیح با معادله رگرسیون) y;
s 2 y - واریانس کل (کل) y.
ضریب تعیین، نسبت تغییرات (پراکندگی) ویژگی حاصل y را که با رگرسیون (و در نتیجه، عامل x) در کل تغییرات (پراکندگی) y توضیح داده شده است، مشخص می کند. ضریب تعیین R 2 yx مقادیر 0 تا 1 را می گیرد. بر این اساس، مقدار 1-R 2 yx نسبت واریانس y را مشخص می کند که ناشی از تأثیر سایر عوامل در نظر گرفته نشده در مدل و خطاهای مشخصات است.
با رگرسیون خطی زوجی، R 2 yx = r 2 yx.

کاربردهای زیادی دارد، زیرا امکان نمایش تقریبی یک تابع داده شده توسط سایر تابع های ساده تر را فراهم می کند. LSM می تواند در پردازش مشاهدات بسیار مفید باشد و به طور فعال برای تخمین برخی از کمیت ها بر اساس نتایج اندازه گیری های دیگر حاوی خطاهای تصادفی استفاده می شود. در این مقاله با نحوه اجرای محاسبات حداقل مربعات در اکسل آشنا می شوید.

بیان مسئله با استفاده از یک مثال خاص

فرض کنید دو شاخص X و Y وجود دارد. علاوه بر این، Y به X بستگی دارد. از آنجایی که OLS از نقطه نظر تحلیل رگرسیون به ما علاقه مند است (روش های آن در اکسل با استفاده از توابع داخلی پیاده سازی می شوند)، باید بلافاصله به بررسی یک مشکل خاص

بنابراین، اجازه دهید X فضای خرده فروشی یک فروشگاه مواد غذایی باشد که بر حسب متر مربع اندازه گیری می شود، و Y گردش مالی سالانه است که در میلیون ها روبل تعیین می شود.

لازم است پیش بینی کنید که اگر فروشگاه دارای این یا آن فضای خرده فروشی باشد، چه گردش مالی (Y) خواهد داشت. بدیهی است که تابع Y = f (X) در حال افزایش است، زیرا هایپرمارکت بیشتر از غرفه کالا می فروشد.

چند کلمه در مورد صحت داده های اولیه مورد استفاده برای پیش بینی

فرض کنید جدولی داریم که با استفاده از داده برای n فروشگاه ساخته شده است.

طبق آمار ریاضی، اگر داده های حداقل 5-6 شی مورد بررسی قرار گیرد، نتایج کم و بیش درست خواهد بود. علاوه بر این، از نتایج "غیر عادی" نمی توان استفاده کرد. به ویژه، یک بوتیک کوچک نخبه می تواند گردش مالی چندین برابر بیشتر از گردش مالی خرده فروشی های بزرگ کلاس "ماس مارکت" داشته باشد.

ماهیت روش

داده های جدول را می توان در یک صفحه دکارتی به شکل نقاط M 1 (x 1، y 1)، ... M n (x n، y n) به تصویر کشید. اکنون راه حل مسئله به انتخاب یک تابع تقریبی y = f (x) کاهش می یابد، که دارای نموداری است که تا حد امکان به نقاط M 1، M 2، .. M n می گذرد.

البته، می توانید از یک چند جمله ای درجه بالا استفاده کنید، اما اجرای این گزینه نه تنها دشوار است، بلکه به سادگی نادرست است، زیرا روند اصلی را که باید شناسایی شود منعکس نمی کند. معقول ترین راه حل جستجوی خط مستقیم y = ax + b است که به بهترین وجه به داده های تجربی یا به طور دقیق تر، ضرایب a و b را تقریب می کند.

ارزیابی دقت

با هر تقریبی، ارزیابی دقت آن از اهمیت ویژه ای برخوردار است. اجازه دهید تفاوت (انحراف) بین مقادیر عملکردی و تجربی نقطه x i را با e i نشان دهیم، یعنی e i = y i - f (x i).

بدیهی است که برای ارزیابی دقت تقریب، می توانید از مجموع انحرافات استفاده کنید، به عنوان مثال، هنگام انتخاب یک خط مستقیم برای نمایش تقریبی وابستگی X به Y، باید به خطی که کمترین مقدار را دارد ترجیح دهید. مجموع e i در تمام نقاط مورد بررسی. با این حال، همه چیز به این سادگی نیست، زیرا در کنار انحرافات مثبت، موارد منفی نیز وجود خواهد داشت.

مشکل را می توان با استفاده از ماژول های انحراف یا مربع های آنها حل کرد. آخرین روش بیشترین استفاده را دارد. در بسیاری از زمینه ها از جمله تجزیه و تحلیل رگرسیون (که در اکسل با استفاده از دو تابع داخلی پیاده سازی شده است) استفاده می شود و مدتهاست که کارایی خود را ثابت کرده است.

روش حداقل مربعات

همانطور که می دانید اکسل دارای یک تابع AutoSum داخلی است که به شما امکان می دهد مقادیر تمام مقادیر موجود در محدوده انتخاب شده را محاسبه کنید. بنابراین، هیچ چیز ما را از محاسبه مقدار عبارت باز نمی دارد (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

در نماد ریاضی این به نظر می رسد:

از آنجایی که در ابتدا تصمیم به تقریب با استفاده از یک خط مستقیم گرفته شد، داریم:

بنابراین، وظیفه یافتن خط مستقیمی که وابستگی خاص کمیت‌های X و Y را به بهترین شکل توصیف می‌کند، به محاسبه حداقل یک تابع از دو متغیر ختم می‌شود:

برای انجام این کار، شما باید مشتقات جزئی را با توجه به متغیرهای جدید a و b برابر با صفر کنید و یک سیستم ابتدایی متشکل از دو معادله با 2 مجهول شکل را حل کنید:

پس از چند تبدیل ساده، از جمله تقسیم بر 2 و دستکاری مجموع، به دست می آوریم:

برای حل آن، به عنوان مثال، با استفاده از روش کرامر، یک نقطه ثابت با ضرایب معین a * و b * به دست می آوریم. این حداقل است، یعنی برای پیش بینی اینکه یک فروشگاه برای یک منطقه خاص چه گردش مالی خواهد داشت، خط مستقیم y = a * x + b * مناسب است که یک مدل رگرسیونی برای مثال مورد نظر است. البته، این به شما اجازه نمی دهد که نتیجه دقیق را پیدا کنید، اما به شما کمک می کند تا تصور کنید که آیا خرید یک منطقه خاص با اعتبار فروشگاه نتیجه می دهد یا خیر.

نحوه پیاده سازی حداقل مربعات در اکسل

اکسل تابعی برای محاسبه مقادیر با استفاده از حداقل مربعات دارد. شکل زیر را دارد: "TREND" (مقادیر Y شناخته شده؛ مقادیر X شناخته شده؛ مقادیر X جدید؛ ثابت). بیایید فرمول محاسبه OLS در اکسل را در جدول خود اعمال کنیم.

برای انجام این کار، علامت "=" را در سلولی که باید نتیجه محاسبه با استفاده از روش حداقل مربعات در اکسل نمایش داده شود وارد کنید و تابع "TREND" را انتخاب کنید. در پنجره باز شده، فیلدهای مربوطه را پر کنید و برجسته کنید:

  • محدوده مقادیر شناخته شده برای Y (در این مورد، داده های گردش تجاری)؛
  • محدوده x 1، …x n، یعنی اندازه فضای خرده فروشی؛
  • هم مقادیر شناخته شده و هم ناشناخته x، که برای آن باید اندازه گردش مالی را بدانید (برای اطلاعات در مورد مکان آنها در کاربرگ، به زیر مراجعه کنید).

علاوه بر این، فرمول حاوی متغیر منطقی "Const" است. اگر در فیلد مربوطه عدد 1 را وارد کنید، به این معنی است که باید محاسبات را با فرض b = 0 انجام دهید.

اگر نیاز به پیش بینی بیش از یک مقدار x دارید، پس از وارد کردن فرمول نباید "Enter" را فشار دهید، بلکه باید ترکیب "Shift" + "Control" + "Enter" را روی صفحه کلید تایپ کنید.

برخی از ویژگی ها

تجزیه و تحلیل رگرسیون می تواند حتی برای آدمک ها نیز قابل دسترسی باشد. فرمول اکسل برای پیش‌بینی مقدار آرایه‌ای از متغیرهای ناشناخته - TREND - می‌تواند حتی برای کسانی که تا به حال در مورد حداقل مربع‌ها نشنیده‌اند استفاده شود. کافی است برخی از ویژگی های کار آن را بدانید. به خصوص:

  • اگر محدوده مقادیر شناخته شده متغیر y را در یک سطر یا ستون مرتب کنید، هر سطر (ستون) با مقادیر شناخته شده x توسط برنامه به عنوان یک متغیر جداگانه درک می شود.
  • اگر محدوده ای با x شناخته شده در پنجره TREND مشخص نشده باشد، هنگام استفاده از تابع در اکسل، برنامه با آن به عنوان یک آرایه متشکل از اعداد صحیح برخورد می کند که تعداد آنها با محدوده با مقادیر داده شده مطابقت دارد. متغیر y.
  • برای خروجی آرایه ای از مقادیر «پیش بینی شده»، عبارت محاسبه روند باید به عنوان فرمول آرایه وارد شود.
  • اگر مقادیر جدید x مشخص نشده باشد، تابع TREND آنها را برابر با مقادیر شناخته شده در نظر می گیرد. اگر آنها مشخص نشده باشند، آرایه 1 به عنوان آرگومان در نظر گرفته می شود. 2 3; 4;…، که متناسب با محدوده با پارامترهای از قبل مشخص شده y است.
  • محدوده حاوی مقادیر جدید x باید همان یا چند ردیف یا ستون به اندازه محدوده حاوی مقادیر y داده شده داشته باشد. به عبارت دیگر باید متناسب با متغیرهای مستقل باشد.
  • آرایه ای با مقادیر x شناخته شده می تواند شامل چندین متغیر باشد. با این حال، اگر فقط در مورد یکی صحبت می کنیم، لازم است که محدوده هایی با مقادیر داده شده x و y متناسب باشند. در مورد چندین متغیر، لازم است که محدوده با مقادیر y داده شده در یک ستون یا یک ردیف قرار گیرد.

تابع پیش بینی

با استفاده از چندین توابع پیاده سازی شده است. یکی از آنها "پیش بینی" نام دارد. این شبیه به "TREND" است، یعنی نتیجه محاسبات را با استفاده از روش حداقل مربعات ارائه می دهد. با این حال، فقط برای یک X، که مقدار Y برای آن ناشناخته است.

اکنون فرمول هایی را در اکسل برای ساختگی ها می شناسید که به شما امکان می دهد ارزش آینده یک اندیکاتور خاص را با توجه به روند خطی پیش بینی کنید.

اجازه دهید تابع را با یک چند جمله ای درجه 2 تقریب کنیم. برای انجام این کار، ضرایب سیستم نرمال معادلات را محاسبه می کنیم:

, ,

بیایید یک سیستم حداقل مربعات معمولی ایجاد کنیم که به شکل زیر است:

یافتن راه حل برای سیستم آسان است:،، .

بنابراین، یک چند جمله ای درجه 2 یافت می شود: .

اطلاعات نظری

بازگشت به صفحه<Введение в вычислительную математику. Примеры>

مثال 2. یافتن درجه بهینه یک چند جمله ای

بازگشت به صفحه<Введение в вычислительную математику. Примеры>

مثال 3. استخراج یک سیستم نرمال معادلات برای یافتن پارامترهای وابستگی تجربی.

اجازه دهید سیستمی از معادلات را برای تعیین ضرایب و توابع استخراج کنیم ، که تقریب ریشه میانگین مربع یک تابع داده شده را توسط نقاط انجام می دهد. بیایید یک تابع بسازیم و شرط افراطی لازم برای آن را بنویسید:

سپس سیستم معمولی به شکل زیر در می آید:

ما یک سیستم خطی معادلات برای پارامترهای مجهول به دست آوردیم که به راحتی قابل حل است.

اطلاعات نظری

بازگشت به صفحه<Введение в вычислительную математику. Примеры>

مثال.

داده های تجربی در مورد مقادیر متغیرها ایکسو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع به دست می آید

استفاده كردن روش حداقل مربعات، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها آو ب). دریابید که کدام یک از دو خط بهتر (به معنای روش حداقل مربعات) داده های تجربی را تراز می کند. یک نقاشی بکشید.

ماهیت روش حداقل مربعات (LSM).

وظیفه یافتن ضرایب وابستگی خطی است که در آن تابع دو متغیر است آو بکمترین مقدار را می گیرد. یعنی داده شده آو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

بنابراین، حل مثال به یافتن حداکثر یک تابع از دو متغیر ختم می شود.

استخراج فرمول برای یافتن ضرایب.

یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی یک تابع توسط متغیرها آو ب، این مشتقات را با صفر برابر می کنیم.

ما سیستم معادلات حاصل را با استفاده از هر روشی حل می کنیم (مثلا با روش جایگزینییا روش کرامر) و فرمول هایی برای یافتن ضرایب با استفاده از روش حداقل مربعات (LSM) بدست آورید.

داده شده آو بتابع کمترین مقدار را می گیرد. اثبات این حقیقت در زیر در متن انتهای صفحه آورده شده است.

این کل روش حداقل مربعات است. فرمول یافتن پارامتر آشامل مجموع ، ، ، و پارامتر است n- مقدار داده های تجربی توصیه می کنیم مقادیر این مقادیر را جداگانه محاسبه کنید.

ضریب ببعد از محاسبه پیدا شد آ.

وقت آن است که نمونه اصلی را به خاطر بسپارید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم آو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

تخمین خطای روش حداقل مربعات.

برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که داده های اصلی را به معنای روش حداقل مربعات بهتر تقریب می کند.

از آن زمان، سپس مستقیم y = 0.165x+2.184داده های اصلی را بهتر تقریب می کند.

تصویر گرافیکی روش حداقل مربعات (LS).

همه چیز به وضوح در نمودارها قابل مشاهده است. خط قرمز خط مستقیم پیدا شده است y = 0.165x+2.184، خط آبی است ، نقطه های صورتی داده های اصلی هستند.

چرا این مورد نیاز است، چرا این همه تقریب؟

من شخصا از آن برای حل مشکلات هموارسازی داده ها، درون یابی و مشکلات برون یابی استفاده می کنم (در مثال اصلی ممکن است از آنها خواسته شود مقدار یک مقدار مشاهده شده را پیدا کنند. yدر x=3یا چه زمانی x=6با استفاده از روش حداقل مربعات). اما بعداً در بخش دیگری از سایت در مورد این موضوع بیشتر صحبت خواهیم کرد.

بالای صفحه

اثبات

به طوری که وقتی پیدا شد آو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

دیفرانسیل مرتبه دوم به شکل زیر است:

به این معنا که

بنابراین، ماتریس فرم درجه دوم دارای فرم است

و مقادیر عناصر به آن بستگی ندارد آو ب.

اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. برای انجام این کار، مینورهای زاویه ای باید مثبت باشند.

مینور زاویه ای مرتبه اول . نابرابری سخت است زیرا نقاط با هم مطابقت ندارند. در ادامه به این موضوع اشاره خواهیم کرد.

مینور زاویه ای مرتبه دوم

این را ثابت کنیم به روش استقراء ریاضی

نتیجه: مقادیر یافت شده آو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نیاز برای روش حداقل مربعات هستند.

زمانی برای فهمیدن آن نیست؟
یک راه حل سفارش دهید

بالای صفحه

توسعه پیش بینی با استفاده از روش حداقل مربعات. نمونه ای از راه حل مسئله

برون یابی یک روش تحقیق علمی است که مبتنی بر انتشار روندهای گذشته و حال، الگوها و ارتباطات با توسعه آینده شی پیش بینی است. روش های برون یابی شامل روش میانگین متحرک، روش هموارسازی نمایی، روش حداقل مربعات.

ذات روش حداقل مربعات شامل به حداقل رساندن مجموع انحرافات مربع بین مقادیر مشاهده شده و محاسبه شده است. مقادیر محاسبه شده با استفاده از معادله انتخاب شده - معادله رگرسیون پیدا می شود. هرچه فاصله بین مقادیر واقعی و مقادیر محاسبه شده کمتر باشد، پیش بینی بر اساس معادله رگرسیون دقیق تر است.

تجزیه و تحلیل نظری از ماهیت پدیده مورد مطالعه، تغییری که در آن توسط یک سری زمانی منعکس می شود، به عنوان مبنایی برای انتخاب یک منحنی عمل می کند. گاهی اوقات ملاحظاتی در مورد ماهیت افزایش سطوح سریال مورد توجه قرار می گیرد. بنابراین، اگر رشد خروجی در یک پیشرفت حسابی انتظار می‌رود، هموارسازی در یک خط مستقیم انجام می‌شود. اگر معلوم شد که رشد در پیشرفت هندسی است، صاف کردن باید با استفاده از یک تابع نمایی انجام شود.

فرمول کار برای روش حداقل مربعات : Y t+1 = a*X + b، جایی که t + 1 – دوره پیش بینی; Уt+1 - شاخص پیش بینی شده. a و b ضرایب هستند. X نماد زمان است.

محاسبه ضرایب a و b با استفاده از فرمول های زیر انجام می شود:

جایی که، Uf - مقادیر واقعی سری دینامیک؛ n - تعداد سطوح سری زمانی؛

هموارسازی سری‌های زمانی با استفاده از روش حداقل مربعات، الگوی توسعه پدیده مورد مطالعه را منعکس می‌کند. در بیان تحلیلی یک روند، زمان به عنوان یک متغیر مستقل در نظر گرفته می شود و سطوح سری تابعی از این متغیر مستقل عمل می کنند.

توسعه یک پدیده به این بستگی ندارد که چند سال از نقطه شروع آن گذشته باشد، بلکه به این بستگی دارد که چه عواملی بر توسعه آن تأثیر گذاشته اند، در چه جهتی و با چه شدتی. از اینجا مشخص می شود که توسعه یک پدیده در طول زمان نتیجه عمل این عوامل است.

تعیین صحیح نوع منحنی، نوع وابستگی تحلیلی به زمان یکی از دشوارترین وظایف تحلیل پیش بینی است. .

انتخاب نوع تابعی که روند را توصیف می کند، که پارامترهای آن با روش حداقل مربعات تعیین می شود، در بیشتر موارد به صورت تجربی و با ساخت تعدادی توابع و مقایسه آنها با یکدیگر بر اساس مقدار میانگین مربعات خطا، با فرمول محاسبه می شود:

که در آن UV مقادیر واقعی سری دینامیک است. Ur - مقادیر محاسبه شده (صاف) سری دینامیک؛ n - تعداد سطوح سری زمانی؛ p - تعداد پارامترهای تعریف شده در فرمول های توصیف کننده روند (روند توسعه).

معایب روش حداقل مربعات :

  • هنگام تلاش برای توصیف پدیده اقتصادی مورد مطالعه با استفاده از یک معادله ریاضی، پیش‌بینی برای مدت کوتاهی دقیق خواهد بود و معادله رگرسیون باید با دستیابی به اطلاعات جدید مجدداً محاسبه شود.
  • پیچیدگی انتخاب یک معادله رگرسیونی که با استفاده از برنامه های کامپیوتری استاندارد قابل حل است.

نمونه ای از استفاده از روش حداقل مربعات برای توسعه پیش بینی

وظیفه . داده هایی وجود دارد که نرخ بیکاری در منطقه را مشخص می کند، %

  • پیش بینی نرخ بیکاری در منطقه را برای ماه های نوامبر، دسامبر، ژانویه با استفاده از روش های زیر بسازید: میانگین متحرک، هموارسازی نمایی، حداقل مربعات.
  • با استفاده از هر روش، خطاهای پیش بینی های حاصل را محاسبه کنید.
  • نتایج را مقایسه کنید و نتیجه بگیرید.

راه حل حداقل مربعات

برای حل این موضوع، جدولی را ترسیم می کنیم که در آن محاسبات لازم را انجام می دهیم:

ε = 28.63/10 = 2.86٪ دقت پیش بینیبالا

نتیجه : مقایسه نتایج به دست آمده از محاسبات روش میانگین متحرک , روش هموارسازی نمایی و روش حداقل مربعات، می توان گفت که میانگین خطای نسبی در محاسبه با استفاده از روش هموارسازی نمایی در محدوده 20-50٪ قرار می گیرد. این بدان معنی است که صحت پیش بینی در این مورد فقط رضایت بخش است.

در حالت اول و سوم، دقت پیش‌بینی بالا است، زیرا میانگین خطای نسبی کمتر از 10٪ است. اما روش میانگین متحرک امکان دستیابی به نتایج قابل اعتماد تری را فراهم کرد (پیش بینی برای نوامبر - 1.52٪ ، پیش بینی برای دسامبر - 1.53٪ ، پیش بینی ژانویه - 1.49٪) ، زیرا میانگین خطای نسبی هنگام استفاده از این روش کوچکترین است - 1 13 درصد.

روش حداقل مربعات

مقالات دیگر در این زمینه:

فهرست منابع استفاده شده

  1. توصیه های علمی و روش شناختی در زمینه تشخیص خطرات اجتماعی و پیش بینی چالش ها، تهدیدها و پیامدهای اجتماعی. دانشگاه دولتی اجتماعی روسیه مسکو. 2010;
  2. ولادیمیروا L.P. پیش بینی و برنامه ریزی در شرایط بازار: کتاب درسی. کمک هزینه م.: انتشارات داشکوف و شرکت، 2001;
  3. نوویکووا N.V.، Pozdeeva O.G. پیش بینی اقتصاد ملی: راهنمای آموزشی و روش شناختی. اکاترینبورگ: انتشارات اورال. حالت اقتصاد دانشگاه، 2007;
  4. Slutskin L.N. دوره MBA در زمینه پیش بینی کسب و کار. M.: کتاب های کسب و کار آلپینا، 2006.

برنامه MNC

داده ها را وارد کنید

داده ها و تقریب y = a + b x

من- تعداد نقطه آزمایشی؛
x i- مقدار یک پارامتر ثابت در یک نقطه من;
y من- مقدار پارامتر اندازه گیری شده در یک نقطه من;
ωi- اندازه گیری وزن در یک نقطه من;
y i، محاسبه- تفاوت بین مقدار اندازه گیری شده و رگرسیون محاسبه شده yدر نقطه من;
S x i (x i)- برآورد خطا x iهنگام اندازه گیری yدر نقطه من.

داده ها و تقریب y = k x

من x i y من ωi y i، محاسبه Δy i S x i (x i)

روی نمودار کلیک کنید

راهنمای کاربر برای برنامه آنلاین MNC.

در قسمت داده، در هر خط جداگانه، مقادیر «x» و «y» را در یک نقطه آزمایشی وارد کنید. مقادیر باید با یک کاراکتر فضای خالی (فضا یا تب) از هم جدا شوند.

مقدار سوم می تواند وزن نقطه «w» باشد. اگر وزن یک نقطه مشخص نشده باشد برابر با یک است. در اکثریت قریب به اتفاق موارد، وزن نقاط تجربی ناشناخته یا محاسبه نشده است، یعنی. تمام داده های تجربی معادل در نظر گرفته می شوند. گاهی اوقات وزن ها در محدوده مقادیر مورد مطالعه مطلقاً معادل نیستند و حتی می توان آنها را به صورت تئوری محاسبه کرد. برای مثال، در اسپکتروفتومتری، وزن‌ها را می‌توان با استفاده از فرمول‌های ساده محاسبه کرد، اگرچه این امر عمدتاً برای کاهش هزینه‌های نیروی کار نادیده گرفته می‌شود.

داده ها را می توان از طریق کلیپ بورد از یک صفحه گسترده در مجموعه آفیس مانند Excel از Microsoft Office یا Calc از Open Office قرار داد. برای انجام این کار، در صفحه گسترده، محدوده داده را برای کپی انتخاب کنید، در کلیپ بورد کپی کنید و داده ها را در فیلد داده در این صفحه جای گذاری کنید.

برای محاسبه با استفاده از روش حداقل مربعات، حداقل دو نقطه برای تعیین دو ضریب "b" - مماس زاویه شیب خط و "a" - مقدار قطع شده توسط خط در محور "y" مورد نیاز است.

برای تخمین خطای ضرایب رگرسیون محاسبه شده، باید تعداد نقاط آزمایشی را بیش از دو تنظیم کنید.

روش حداقل مربعات (LSM).

هر چه تعداد امتیازهای آزمایشی بیشتر باشد، ارزیابی آماری ضرایب (به دلیل کاهش ضریب دانشجو) دقیق‌تر و برآورد به برآورد نمونه عمومی نزدیک‌تر است.

به دست آوردن مقادیر در هر نقطه آزمایشی اغلب با هزینه های نیروی کار قابل توجهی همراه است، بنابراین تعداد آزمایش های مصالحه ای اغلب انجام می شود که تخمین قابل مدیریتی را ارائه می دهد و منجر به هزینه های نیروی کار بیش از حد نمی شود. به عنوان یک قاعده، تعداد نقاط آزمایشی برای وابستگی حداقل مربعات خطی با دو ضریب در منطقه 5-7 نقطه انتخاب می شود.

نظریه مختصری از حداقل مربعات برای روابط خطی

فرض کنید مجموعه ای از داده های تجربی به شکل جفت مقادیر [`y_i`, `x_i`] داریم که در آن `i` تعداد یک اندازه گیری آزمایشی از 1 تا n است. `y_i` - مقدار مقدار اندازه گیری شده در نقطه `i`. "x_i" - مقدار پارامتری که در نقطه "i" تنظیم می کنیم.

به عنوان مثال، عملکرد قانون اهم را در نظر بگیرید. با تغییر ولتاژ (اختلاف پتانسیل) بین بخش های یک مدار الکتریکی، مقدار جریان عبوری از این بخش را اندازه گیری می کنیم. فیزیک به ما یک وابستگی می دهد که به صورت تجربی پیدا شده است:

"I = U/R"،
جایی که "من" قدرت فعلی است. `R` - مقاومت؛ "U" - ولتاژ.

در این حالت، «y_i» مقدار جریان اندازه‌گیری شده و «x_i» مقدار ولتاژ است.

به عنوان مثال دیگر، جذب نور توسط محلول یک ماده در محلول را در نظر بگیرید. شیمی این فرمول را به ما می دهد:

"A = ε l C"،
که در آن "A" چگالی نوری محلول است. «ε» - انتقال املاح؛ `l` - طول مسیر هنگامی که نور از یک کووت با محلول عبور می کند. "C" غلظت ماده محلول است.

در این حالت، «y_i» مقدار اندازه‌گیری شده چگالی نوری «A» است و «x_i» مقدار غلظت ماده‌ای است که ما مشخص می‌کنیم.

زمانی که خطای نسبی در مشخصات 'x_i' به طور قابل توجهی کمتر از خطای نسبی در اندازه گیری 'y_i' باشد را در نظر خواهیم گرفت. همچنین فرض می‌کنیم که تمام مقادیر اندازه‌گیری شده «y_i» تصادفی هستند و به طور معمول توزیع می‌شوند، یعنی. از قانون توزیع عادی پیروی کنید.

در مورد وابستگی خطی «y» به «x»، می‌توانیم وابستگی نظری را بنویسیم:
`y = a + b x`.

از دیدگاه هندسی، ضریب «b» مماس زاویه میل خط به محور «x» را نشان می‌دهد و ضریب «a» مقدار «y» را در نقطه تقاطع خط نشان می‌دهد. خط با محور `y` (در `x = 0`).

یافتن پارامترهای خط رگرسیون

در یک آزمایش، مقادیر اندازه‌گیری شده «y_i» به دلیل خطاهای اندازه‌گیری، که همیشه در زندگی واقعی ذاتی هستند، نمی‌توانند دقیقاً روی خط مستقیم نظری قرار گیرند. بنابراین، یک معادله خطی باید با یک سیستم معادلات نشان داده شود:
`y_i = a + b x_i + ε_i` (1)،
که در آن «ε_i» خطای اندازه‌گیری ناشناخته «y» در آزمایش «i» است.

وابستگی (1) نیز نامیده می شود پسرفت، یعنی وابستگی دو کمیت به یکدیگر با اهمیت آماری.

وظیفه بازگرداندن وابستگی یافتن ضرایب «a» و «b» از نقاط آزمایشی [`y_i`، `x_i`] است.

برای یافتن ضرایب «a» و «b» معمولاً از آن استفاده می شود روش حداقل مربعات(MNC). این یک مورد خاص از اصل حداکثر احتمال است.

بیایید (1) را به شکل 'ε_i = y_i - a - b x_i' بازنویسی کنیم.

سپس مجموع مجذور خطاها خواهد بود
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

اصل حداقل مربعات (کمترین مربعات) به حداقل رساندن مجموع (2) با توجه به پارامترهای "a" و "b" است..

حداقل زمانی حاصل می شود که مشتقات جزئی حاصل از مجموع (2) با توجه به ضرایب «a» و «b» برابر با صفر باشد:
`frac(ف جزئی)(جزئی a) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(جزئی a) = 0`
`frac(ف جزئی)(ب جزئی) = frac(جمع جزئی_(i=1)^(n) (y_i - a - b x_i)^2)(b جزئی) = 0`

با گسترش مشتقات، سیستمی متشکل از دو معادله با دو مجهول به دست می آوریم:
`sum_(i=1)^(n) (2a + 2bx_i — 2y_i) = sum_(i=1)^(n) (a + bx_i — y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

براکت ها را باز می کنیم و مجموع را مستقل از ضرایب مورد نیاز به نیمه دیگر منتقل می کنیم، یک سیستم معادلات خطی به دست می آوریم:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

با حل سیستم به دست آمده، فرمول هایی برای ضرایب «a» و «b» پیدا می کنیم:

`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (جمع_(i=1)^(n) x_i)^2)` (3.2)

این فرمول‌ها زمانی جواب دارند که «n > 1» (خط را می‌توان با حداقل 2 نقطه ساخت) و زمانی که تعیین‌کننده «D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) )^(n) x_i)^2 != 0`، یعنی. هنگامی که نقاط "x_i" در آزمایش متفاوت است (یعنی زمانی که خط عمودی نیست).

برآورد خطاهای ضرایب خط رگرسیون

برای ارزیابی دقیق‌تر خطا در محاسبه ضرایب «a» و «b»، تعداد زیادی از نقاط آزمایشی مطلوب است. وقتی n=2 باشد، تخمین خطای ضرایب غیرممکن است، زیرا خط تقریبی به طور منحصر به فرد از دو نقطه عبور می کند.

خطای متغیر تصادفی "V" مشخص می شود قانون انباشت خطا
`S_V^2 = sum_(i=1)^p (frac(f جزئی)(جزئی z_i))^2 S_(z_i)^2`,
که در آن "p" تعداد پارامترهای "z_i" با خطای "S_(z_i)" است که بر خطای "S_V" تأثیر می گذارد.
«f» تابعی از وابستگی «V» به «z_i» است.

اجازه دهید قانون انباشت خطا را برای خطای ضرایب «a» و «b» بنویسیم.
`S_a^2 = sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(جزئی a )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی a)(جزئی y_i))^2 `,
`S_b^2 = sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(b جزئی )(x_i جزئی))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(جزئی b)(جزئی y_i))^2 `,
زیرا `S_(x_i)^2 = 0` (ما قبلاً رزرو کردیم که خطای `x` ناچیز است).

`S_y^2 = S_(y_i)^2` - خطا (واریانس، مجذور انحراف استاندارد) در اندازه گیری `y`، با فرض اینکه خطا برای همه مقادیر `y` یکنواخت است.

جایگزینی فرمول های محاسبه «a» و «b» در عبارات به دست آمده

`S_a^2 = S_y^2 فراک (sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 فراک (جمع_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 فرک(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 فرک( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) (4.2)

در بیشتر آزمایش‌های واقعی، مقدار «Sy» اندازه‌گیری نمی‌شود. برای انجام این کار، انجام چندین اندازه گیری موازی (آزمایش) در یک یا چند نقطه از طرح ضروری است که باعث افزایش زمان (و احتمالاً هزینه) آزمایش می شود. بنابراین، معمولاً فرض می‌شود که انحراف «y» از خط رگرسیون را می‌توان تصادفی در نظر گرفت. برآورد واریانس `y` در این مورد با استفاده از فرمول محاسبه می شود.

`S_y^2 = S_(y، استراحت)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

مقسوم علیه n-2 ظاهر می شود زیرا تعداد درجات آزادی ما به دلیل محاسبه دو ضریب با استفاده از نمونه مشابه داده های تجربی کاهش یافته است.

به این تخمین، واریانس باقیمانده نسبت به خط رگرسیون S_(y، استراحت)^2 نیز گفته می شود.

معنی داری ضرایب با استفاده از آزمون t Student ارزیابی می شود

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

اگر معیارهای محاسبه‌شده «t_a»، «t_b» کمتر از معیارهای جدول‌بندی‌شده «t(P, n-2)» باشند، در نظر گرفته می‌شود که ضریب مربوطه تفاوت معنی‌داری با صفر با احتمال داده شده «P» ندارد.

برای ارزیابی کیفیت توصیف یک رابطه خطی، می‌توانید «S_(y، استراحت)^2» و «S_(bar y)» را نسبت به میانگین با استفاده از معیار فیشر مقایسه کنید.

`S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i= 1)^n y_i) /n)^2) (n-1)` - برآورد نمونه از واریانس `y` نسبت به میانگین.

برای ارزیابی اثربخشی معادله رگرسیون برای توصیف وابستگی، ضریب فیشر محاسبه شده است.
`F = S_(نوار y) / S_(y، استراحت)^2`،
که با ضریب فیشر جدولی "F(p، n-1، n-2)" مقایسه شده است.

اگر «F > F(P، n-1، n-2)»، تفاوت بین توصیف رابطه «y = f(x)» با استفاده از معادله رگرسیون و توصیف با استفاده از میانگین از نظر آماری با احتمال معنی دار در نظر گرفته می شود. "P". آن ها رگرسیون وابستگی را بهتر از گسترش «y» حول میانگین توصیف می کند.

روی نمودار کلیک کنید
برای اضافه کردن مقادیر به جدول

روش حداقل مربعات روش حداقل مربعات به معنای تعیین پارامترهای مجهول a، b، c، وابستگی تابعی پذیرفته شده است.

روش حداقل مربعات به تعیین پارامترهای مجهول اشاره دارد الف، ب، ج، …وابستگی عملکردی پذیرفته شده

y = f(x,a,b,c,…),

که حداقل میانگین مربع (واریانس) خطا را فراهم می کند

, (24)

که در آن x i، y i مجموعه ای از جفت اعداد به دست آمده از آزمایش است.

از آنجایی که شرط حداکثر بودن یک تابع از چندین متغیر شرطی است که مشتقات جزئی آن برابر با صفر باشد، پس پارامترها الف، ب، ج، …از سیستم معادلات تعیین می شود:

; ; ; … (25)

باید به خاطر داشت که از روش حداقل مربعات برای انتخاب پارامترهای بعد از نوع تابع استفاده می شود y = f(x)تعریف شده است

اگر از ملاحظات نظری، هیچ نتیجه‌ای در مورد اینکه فرمول تجربی باید چه باشد، نمی‌توان گرفت، در این صورت باید با بازنمایی‌های بصری، عمدتاً با نمایش‌های گرافیکی داده‌های مشاهده‌شده، هدایت شد.

در عمل، آنها اغلب به انواع توابع زیر محدود می شوند:

1) خطی ;

2) درجه دوم الف.

100 RURجایزه برای سفارش اول

انتخاب نوع کار کار دیپلم کار درسی چکیده پایان نامه کارشناسی ارشد گزارش تمرین مقاله گزارش بررسی کار آزمایشی تک نگاری حل مسئله طرح کسب و کار پاسخ به سوالات کار خلاقانه انشا نقاشی انشا ترجمه ارائه تایپ دیگر افزایش منحصر به فرد بودن متن پایان نامه کارشناسی ارشد کار آزمایشگاهی کمک آنلاین

قیمت را دریابید

روش حداقل مربعات یک تکنیک ریاضی (ریاضی-آماری) است که برای تراز کردن سری های زمانی، شناسایی شکل همبستگی بین متغیرهای تصادفی و غیره استفاده می شود. این روش شامل این واقعیت است که تابع توصیف کننده این پدیده با یک تابع ساده تر تقریب می شود. علاوه بر این، دومی به گونه ای انتخاب می شود که انحراف استاندارد (نگاه کنید به پراکندگی) سطوح واقعی تابع در نقاط مشاهده شده از موارد تراز، کوچکترین باشد.

به عنوان مثال، با توجه به داده های موجود ( xi,یی) (من = 1, 2, ..., n) چنین منحنی ساخته شده است y = آ + bx، که در آن حداقل مجذور انحرافات به دست می آید

به عنوان مثال، یک تابع بسته به دو پارامتر به حداقل می رسد: آ- قطعه بر روی محور ارتین و ب- شیب خط مستقیم

معادلاتی که شرایط لازم برای کمینه سازی تابع را ارائه می دهند اس(آ,ب)، نامیده می شوند معادلات عادیبه عنوان توابع تقریبی، نه تنها خطی (تراز در امتداد یک خط مستقیم)، بلکه درجه دوم، سهمی، نمایی، و غیره استفاده می شود. M.2، که در آن مجموع فواصل مجذور ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... کوچکترین است و خط مستقیم حاصله به بهترین وجه روند یک سری مشاهدات دینامیکی از یک شاخص خاص را در طول زمان منعکس می کند.

برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط به عوامل، باید برابر با صفر باشد. این شرط، به ویژه، اگر برآورده شود: 1-انتظار ریاضی خطاهای تصادفی صفر باشد، و 2-عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل باشند. شرط اول را می‌توان برای مدل‌های دارای ثابت همیشه برآورده‌شده در نظر گرفت، زیرا ثابت انتظار ریاضی غیرصفری از خطاها را دارد. شرط دوم - شرط برون زایی عوامل - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها به ما امکان نمی دهد در این مورد تخمین های با کیفیت بالا به دست آوریم. ).

رایج ترین روش برآورد آماری پارامترهای معادلات رگرسیون، روش حداقل مربعات است. این روش بر اساس تعدادی از مفروضات در رابطه با ماهیت داده ها و نتایج مدل است. اصلی ترین آنها تقسیم واضح متغیرهای اصلی به وابسته و مستقل، عدم همبستگی عوامل موجود در معادلات، خطی بودن رابطه، عدم وجود خودهمبستگی باقیمانده ها، برابری انتظارات ریاضی آنها به صفر و ثابت است. پراکندگی

یکی از فرضیه‌های اصلی OLS، فرض برابری واریانس‌های انحراف ei، یعنی. گسترش آنها در اطراف مقدار متوسط ​​(صفر) سری باید یک مقدار پایدار باشد. به این خاصیت هموسکداستیسیته می گویند. در عمل، واریانس انحرافات اغلب نابرابر است، یعنی ناهمسانی مشاهده می شود. این ممکن است به دلایل مختلفی باشد. به عنوان مثال، ممکن است خطاهایی در داده های منبع وجود داشته باشد. عدم دقت گاه به گاه در اطلاعات منبع، مانند اشتباه در ترتیب اعداد، می تواند تأثیر قابل توجهی بر نتایج داشته باشد. اغلب، گسترش بزرگتر انحرافات єi با مقادیر زیاد متغیر وابسته (متغیرها) مشاهده می شود. اگر داده ها حاوی خطای قابل توجهی باشند، طبیعتا انحراف مقدار مدل محاسبه شده از داده های اشتباه نیز زیاد خواهد بود. برای خلاص شدن از شر این خطا، باید سهم این داده ها را در نتایج محاسبات کاهش دهیم و وزن کمتری به آنها نسبت به سایرین اختصاص دهیم. این ایده در OLS وزنی پیاده سازی شده است.

روش حداقل مربعات

روش حداقل مربعات ( OLS، OLS، حداقل مربعات معمولی) - یکی از روش های اساسی تحلیل رگرسیون برای تخمین پارامترهای مجهول مدل های رگرسیونی با استفاده از داده های نمونه. این روش بر اساس به حداقل رساندن مجموع مجذورهای باقیمانده رگرسیون است.

لازم به ذکر است که خود روش حداقل مربعات را می توان روشی برای حل مسئله در هر ناحیه ای نامید که راه حل در معیاری برای به حداقل رساندن مجموع مجذورهای برخی از توابع متغیرهای مورد نیاز باشد یا دارای معیاری باشد. بنابراین، هنگام یافتن مجموعه‌ای از مقادیری که معادلات یا محدودیت‌هایی را برآورده می‌کنند که تعداد آنها از تعداد این کمیت‌ها بیشتر است، می‌توان از روش حداقل مربعات نیز برای نمایش تقریبی (تقریبی) یک تابع معین توسط توابع دیگر (ساده‌تر) استفاده کرد. ، و غیره.

ماهیت MNC

اجازه دهید یک مدل (پارامتری) از یک رابطه احتمالی (رگرسیون) بین متغیر (توضیح داده شده) ارائه شود. yو بسیاری از عوامل (متغیرهای توضیحی) ایکس

بردار پارامترهای مدل ناشناخته کجاست

- خطای مدل تصادفی

اجازه دهید مشاهدات نمونه ای از مقادیر این متغیرها نیز وجود داشته باشد. اجازه دهید عدد مشاهده (). سپس مقادیر متغیرها در مشاهده ام قرار دارند. سپس، برای مقادیر داده شده پارامترهای b، می توان مقادیر نظری (مدل) متغیر توضیح داده شده y را محاسبه کرد:

اندازه باقیمانده ها به مقادیر پارامترهای b بستگی دارد.

ماهیت روش حداقل مربعات (معمولی، کلاسیک) یافتن پارامترهای b است که مجموع مربعات باقیمانده (eng. مجموع باقیمانده مربع ها) حداقل خواهد بود:

در حالت کلی، این مشکل را می توان با روش های بهینه سازی عددی (به حداقل رساندن) حل کرد. در این مورد آنها صحبت می کنند حداقل مربعات غیر خطی(NLS یا NLLS - انگلیسی) حداقل مربعات غیر خطی). در بسیاری از موارد می توان به یک راه حل تحلیلی دست یافت. برای حل مسئله کمینه سازی، لازم است نقاط ثابت تابع را با تفکیک آن نسبت به پارامترهای مجهول b، معادل سازی مشتقات با صفر و حل سیستم معادلات حاصل، پیدا کنیم:

اگر خطاهای تصادفی مدل به طور معمول توزیع شده باشند، واریانس یکسانی داشته باشند و همبستگی نداشته باشند، تخمین پارامتر OLS همان برآوردهای حداکثر درستنمایی (MLM) است.

OLS در مورد یک مدل خطی

بگذارید وابستگی رگرسیون خطی باشد:

اجازه دهید yیک بردار ستونی از مشاهدات متغیر توضیح داده شده است و ماتریسی از مشاهدات عامل است (ردیف های ماتریس بردار مقادیر عامل در یک مشاهده داده شده هستند، ستون ها بردار مقادیر یک عامل معین هستند. در تمام مشاهدات). نمایش ماتریسی مدل خطی به شکل زیر است:

سپس بردار تخمین های متغیر توضیح داده شده و بردار باقیمانده های رگرسیون برابر خواهد بود.

بر این اساس مجموع مجذورهای باقیمانده رگرسیون برابر خواهد بود

با تمایز این تابع با توجه به بردار پارامترها و معادل سازی مشتقات با صفر، سیستمی از معادلات (به صورت ماتریسی) به دست می آید:

.

حل این سیستم معادلات فرمول کلی را برای برآورد حداقل مربعات برای یک مدل خطی به دست می دهد:

برای اهداف تحلیلی، نمایش اخیر این فرمول مفید است. اگر در مدل رگرسیونی داده ها متمرکز شده است، سپس در این نمایش ماتریس اول به معنای ماتریس کوواریانس نمونه عوامل است و دومی بردار کوواریانس عوامل با متغیر وابسته است. اگر علاوه بر این داده ها نیز باشد عادی شده استبه MSE (یعنی در نهایت استاندارد شده، سپس ماتریس اول به معنای ماتریس همبستگی نمونه عوامل است، بردار دوم - بردار همبستگی نمونه عوامل با متغیر وابسته.

ویژگی مهم تخمین OLS برای مدل ها با ثابت- خط رگرسیون ساخته شده از مرکز ثقل داده های نمونه می گذرد، یعنی برابری برآورده می شود:

به طور خاص، در حالت شدید، زمانی که تنها رگرسیون یک ثابت است، متوجه می‌شویم که تخمین OLS تنها پارامتر (خود ثابت) برابر است با مقدار متوسط ​​متغیر توضیح داده شده. یعنی، میانگین حسابی، که به دلیل خواص خوبش از قوانین اعداد بزرگ شناخته می شود، همچنین یک تخمین حداقل مربعات است - این معیار حداقل مجموع مجذور انحرافات از آن را برآورده می کند.

مثال: ساده ترین رگرسیون (جفتی).

در مورد رگرسیون خطی زوجی، فرمول های محاسبه ساده می شوند (شما می توانید بدون جبر ماتریسی انجام دهید):

ویژگی های برآوردگرهای OLS

اول از همه، متذکر می شویم که برای مدل های خطی، برآوردهای OLS، تخمین های خطی هستند، همانطور که از فرمول بالا آمده است. برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی، مشروط به عوامل، باید برابر با صفر باشد. این شرط، به ویژه، برآورده می شود اگر

  1. انتظار ریاضی خطاهای تصادفی صفر است و
  2. عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل هستند.

شرط دوم - شرط برون زایی عوامل - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها به ما امکان نمی دهد در این مورد تخمین های با کیفیت بالا به دست آوریم. ). در مورد کلاسیک، فرض قوی تری در مورد قطعیت عوامل ایجاد می شود، در مقابل یک خطای تصادفی، که به طور خودکار به این معنی است که شرط برون زایی برآورده شده است. در حالت کلی، برای سازگاری تخمین‌ها، ارضای شرط برون‌زایی همراه با هم‌گرایی ماتریس به برخی از ماتریس‌های غیرمفرد با افزایش حجم نمونه تا بی نهایت کافی است.

برای اینکه، علاوه بر سازگاری و بی طرفی، برآوردهای حداقل مربعات (معمولی) نیز مؤثر باشند (بهترین در کلاس تخمین های بی طرف خطی)، ویژگی های اضافی خطای تصادفی باید رعایت شود:

این مفروضات را می توان برای ماتریس کوواریانس بردار خطای تصادفی فرموله کرد

مدل خطی که این شرایط را برآورده کند نامیده می شود کلاسیک. تخمین‌های OLS برای رگرسیون خطی کلاسیک، بی‌طرفانه، سازگار و مؤثرترین تخمین‌ها در کلاس همه تخمین‌های بی‌طرفانه خطی هستند (در ادبیات انگلیسی گاهی اوقات از این مخفف استفاده می‌شود. آبی (بهترین برآوردگر خطی بدون پایه) - بهترین تخمین بی طرفانه خطی. در ادبیات داخلی، قضیه گاوس-مارکوف بیشتر مورد استناد قرار می گیرد). همانطور که نشان دادن آسان است، ماتریس کوواریانس بردار برآورد ضرایب برابر با:

OLS عمومی

روش حداقل مربعات امکان تعمیم گسترده را فراهم می کند. به جای به حداقل رساندن مجموع مجذورهای باقیمانده، می توان برخی از شکل درجه دوم قطعی مثبت بردار باقیمانده ها را به حداقل رساند، که در آن ماتریس وزن قطعی مثبت متقارن وجود دارد. حداقل مربعات متعارف یک مورد خاص از این رویکرد است که در آن ماتریس وزن متناسب با ماتریس هویت است. همانطور که از نظریه ماتریس های متقارن (یا عملگرها) مشخص است، برای چنین ماتریس هایی تجزیه وجود دارد. در نتیجه، تابع مشخص شده را می توان به صورت زیر نشان داد، یعنی این تابع را می توان به عنوان مجموع مربع های برخی از "باقیمانده" تبدیل شده نشان داد. بنابراین، ما می توانیم یک کلاس از روش های حداقل مربعات - روش های LS (کمترین مربع) را تشخیص دهیم.

ثابت شده است (قضیه آیتکن) که برای یک مدل رگرسیون خطی تعمیم یافته (که در آن هیچ محدودیتی بر روی ماتریس کوواریانس خطاهای تصادفی اعمال نمی شود)، موثرترین (در کلاس تخمین های بی طرف خطی) به اصطلاح تخمین ها هستند. حداقل مربعات تعمیم یافته (GLS - حداقل مربعات تعمیم یافته)- روش LS با ماتریس وزنی معادل ماتریس کوواریانس معکوس خطاهای تصادفی: .

می توان نشان داد که فرمول تخمین GLS پارامترهای یک مدل خطی دارای فرم است

ماتریس کوواریانس این برآوردها بر این اساس برابر خواهد بود

در واقع، ماهیت OLS در یک تبدیل خاص (خطی) (P) از داده های اصلی و استفاده از OLS معمولی برای داده های تبدیل شده نهفته است. هدف از این تبدیل این است که برای داده های تبدیل شده، خطاهای تصادفی از قبل مفروضات کلاسیک را برآورده می کنند.

OLS وزنی

در مورد ماتریس وزن مورب (و در نتیجه ماتریس کوواریانس خطاهای تصادفی)، به اصطلاح حداقل مربعات وزنی (WLS) را داریم. در این حالت، مجموع وزنی مجذورهای باقیمانده مدل به حداقل می رسد، یعنی هر مشاهده یک "وزن" دریافت می کند که با واریانس خطای تصادفی در این مشاهده نسبت معکوس دارد: . در واقع، داده ها با وزن دادن به مشاهدات (تقسیم بر مقداری متناسب با انحراف استاندارد تخمینی خطاهای تصادفی) تبدیل می شوند و OLS معمولی برای داده های وزنی اعمال می شود.

برخی از موارد خاص استفاده از MNC در عمل

تقریب وابستگی خطی

اجازه دهید موردی را در نظر بگیریم که در نتیجه مطالعه وابستگی یک کمیت اسکالر خاص به یک کمیت اسکالر خاص (این می تواند برای مثال، وابستگی ولتاژ به قدرت جریان باشد: جایی که یک مقدار ثابت است، مقاومت هادی)، اندازه گیری این مقادیر انجام شد، در نتیجه مقادیر و مقادیر مربوط به آنها. داده های اندازه گیری باید در یک جدول ثبت شود.

جدول. نتایج اندازه گیری

شماره اندازه گیری
1
2
3
4
5
6

سوال این است: چه مقدار از ضریب را می توان برای توصیف بهترین وابستگی انتخاب کرد؟ طبق روش حداقل مربعات، این مقدار باید به گونه ای باشد که مجموع مجذور انحراف مقادیر از مقادیر

حداقل بود

مجموع انحرافات مجذور دارای یک حداکثر است - حداقل، که به ما امکان می دهد از این فرمول استفاده کنیم. اجازه دهید از این فرمول مقدار ضریب را پیدا کنیم. برای انجام این کار، سمت چپ آن را به صورت زیر تبدیل می کنیم:

آخرین فرمول به ما امکان می دهد مقدار ضریب را پیدا کنیم، همان چیزی که در مسئله مورد نیاز است.

داستان

تا اوایل قرن نوزدهم. دانشمندان قوانین خاصی برای حل یک سیستم معادلات که در آن تعداد مجهولات کمتر از تعداد معادلات باشد، نداشتند. تا آن زمان از تکنیک‌های خصوصی استفاده می‌شد که به نوع معادلات و هوشمندی ماشین‌حساب‌ها بستگی داشت و بنابراین ماشین‌حساب‌های مختلف بر اساس داده‌های مشاهداتی یکسان به نتایج متفاوتی می‌رسیدند. گاوس (1795) اولین کسی بود که از این روش استفاده کرد و لژاندر (1805) به طور مستقل آن را با نام مدرن خود (فرانسوی) کشف و منتشر کرد. Méthode des moindres quarrés ) . لاپلاس این روش را به نظریه احتمال مرتبط کرد و ریاضیدان آمریکایی آدرین (1808) کاربردهای نظری احتمالی آن را در نظر گرفت. این روش با تحقیقات بیشتر توسط انکه، بسل، هانسن و دیگران گسترش یافت و بهبود یافت.

کاربردهای جایگزین OLS

ایده روش حداقل مربعات را می توان در موارد دیگری که مستقیماً به تحلیل رگرسیون مرتبط نیستند نیز استفاده کرد. واقعیت این است که مجموع مربع ها یکی از رایج ترین معیارهای مجاورت بردارها است (متریک اقلیدسی در فضاهای بابعد محدود).

یکی از کاربردها "حل" سیستم های معادلات خطی است که در آنها تعداد معادلات بیشتر از تعداد متغیرها است.

که در آن ماتریس مربع نیست، بلکه مستطیل شکل است.

چنین سیستم معادلاتی، در حالت کلی، هیچ راه حلی ندارد (اگر رتبه واقعاً از تعداد متغیرها بیشتر باشد). بنابراین، این سیستم تنها به معنای انتخاب چنین بردار برای به حداقل رساندن «فاصله» بین بردارها و . برای این کار می توانید معیار کمینه سازی مجموع مجذورات اختلاف سمت چپ و راست معادلات سیستم را اعمال کنید، یعنی. به راحتی می توان نشان داد که حل این مسئله کمینه سازی منجر به حل سیستم معادلات زیر می شود