خانه » طراحی حمام » مجموع حداقل مربعات حداقل مربعات در اکسل - با استفاده از تابع روند. دو دسته از رگرسیون های غیر خطی وجود دارد

مجموع حداقل مربعات حداقل مربعات در اکسل - با استفاده از تابع روند. دو دسته از رگرسیون های غیر خطی وجود دارد

ماهیت روش حداقل مربعات این است در یافتن پارامترهای یک مدل روند که به بهترین شکل روند توسعه یک پدیده تصادفی را در زمان یا مکان توصیف می کند (روند خطی است که روند این توسعه را مشخص می کند). وظیفه روش حداقل مربعات (OLS) یافتن نه تنها مدل روند، بلکه یافتن بهترین یا بهینه مدل است. اگر مجموع انحرافات مجذور بین مقادیر واقعی مشاهده شده و مقادیر روند محاسبه شده مربوطه حداقل (کوچکترین) باشد، این مدل بهینه خواهد بود:

انحراف استاندارد بین مقدار واقعی مشاهده شده کجاست

و مقدار روند محاسبه شده مربوطه،

ارزش واقعی (مشاهده شده) پدیده مورد مطالعه،

ارزش تخمینی مدل روند،

تعداد مشاهدات پدیده مورد مطالعه.

MNC به ندرت به تنهایی استفاده می شود. به عنوان یک قاعده، اغلب از آن فقط به عنوان یک تکنیک ضروری در مطالعات همبستگی استفاده می شود. لازم به یادآوری است که اساس اطلاعات LSM فقط می تواند یک سری آماری قابل اعتماد باشد و تعداد مشاهدات نباید کمتر از 4 باشد، در غیر این صورت، رویه های هموارسازی LSM ممکن است حس مشترک خود را از دست بدهند.

جعبه ابزار OLS به رویه های زیر کاهش می یابد:

روش اول معلوم می‌شود که آیا اصلاً تمایلی برای تغییر ویژگی حاصله در هنگام تغییر عامل-استدلال انتخابی وجود دارد یا به عبارت دیگر، آیا ارتباطی بین " در "و" ایکس ».

رویه دوم مشخص می شود که کدام خط (مسیر) بهتر می تواند این روند را توصیف یا توصیف کند.

رویه سوم.

مثال. فرض کنید اطلاعاتی در مورد میانگین عملکرد آفتابگردان برای مزرعه مورد مطالعه داریم (جدول 9.1).

جدول 9.1

شماره مشاهده

بهره وری، c/ha

از آنجایی که سطح فناوری تولید آفتابگردان در کشور ما طی 10 سال گذشته تغییر چندانی نکرده است، به این معنی است که به احتمال زیاد، نوسانات عملکرد در دوره مورد تجزیه و تحلیل بستگی زیادی به نوسانات آب و هوا و شرایط آب و هوایی دارد. آیا حقیقت دارد؟

اولین روش MNC فرضیه وجود یک روند در تغییر عملکرد آفتابگردان بسته به تغییرات آب و هوا و شرایط آب و هوایی در طی 10 سال مورد تجزیه و تحلیل در حال آزمایش است.

در این مثال، برای " y توصیه می شود محصول آفتابگردان را مصرف کنید و برای « ایکس » تعداد سال مشاهده شده در دوره مورد تجزیه و تحلیل است. آزمون فرضیه وجود هر گونه رابطه بین " ایکس "و" y » به دو صورت دستی و با کمک برنامه های کامپیوتری قابل انجام است. البته با در دسترس بودن تکنولوژی کامپیوتری این مشکل خود به خود حل می شود. اما، برای درک بهتر جعبه ابزار OLS، توصیه می‌شود که فرضیه وجود رابطه بین ایکس "و" y » به صورت دستی، زمانی که فقط یک خودکار و یک ماشین حساب معمولی در دسترس باشد. در چنین مواردی، فرضیه وجود یک روند به بهترین وجه از طریق مکان تصویر گرافیکی سری زمانی تحلیل شده - میدان همبستگی، بررسی می شود:

میدان همبستگی در مثال ما در اطراف یک خط به آرامی در حال افزایش قرار دارد. این خود نشان دهنده وجود روند خاصی در تغییر عملکرد آفتابگردان است. تنها زمانی نمی توان در مورد وجود هر روندی صحبت کرد که میدان همبستگی شبیه یک دایره، یک دایره، یک ابر کاملاً عمودی یا کاملا افقی باشد یا از نقاط پراکنده تصادفی تشکیل شده باشد. در سایر موارد، تأیید فرضیه وجود رابطه بین ایکس "و" y و تحقیقات را ادامه دهید.

روش دوم MNC. مشخص می‌شود که کدام خط (مسیر) بهتر می‌تواند روند تغییرات عملکرد آفتابگردان را برای دوره مورد تجزیه و تحلیل توصیف یا توصیف کند.

با در دسترس بودن فناوری رایانه، انتخاب روند بهینه به طور خودکار اتفاق می افتد. با پردازش "دستی"، انتخاب تابع بهینه، به عنوان یک قاعده، به صورت بصری - با محل میدان همبستگی انجام می شود. یعنی با توجه به نوع نمودار، معادله خط انتخاب می شود که به بهترین وجه برای روند تجربی (به مسیر واقعی) مناسب است.

همانطور که می دانید، در طبیعت تنوع زیادی از وابستگی های عملکردی وجود دارد، بنابراین تجزیه و تحلیل بصری حتی قسمت کوچکی از آنها بسیار دشوار است. خوشبختانه، در عمل اقتصادی واقعی، بیشتر روابط را می توان با دقت یا با سهمی یا هذلولی یا یک خط مستقیم توصیف کرد. در این راستا، با گزینه «دستی» برای انتخاب بهترین عملکرد، می توانید خود را تنها به این سه مدل محدود کنید.

		هذلولی:

سهمی مرتبه دوم: :

به راحتی می توان دید که در مثال ما، روند تغییرات عملکرد آفتابگردان در طول 10 سال تجزیه و تحلیل شده به بهترین وجه با یک خط مستقیم مشخص می شود، بنابراین معادله رگرسیون یک معادله خط مستقیم خواهد بود.

رویه سوم. پارامترهای معادله رگرسیون که این خط را مشخص می کند محاسبه می شود یا به عبارت دیگر یک فرمول تحلیلی تعیین می شود که بهترین مدل روند را توصیف می کند.

یافتن مقادیر پارامترهای معادله رگرسیون، در مورد ما، پارامترها و هسته LSM است. این فرآیند به حل یک سیستم معادلات عادی کاهش می یابد.

(9.2)

این سیستم معادلات به راحتی با روش گاوس حل می شود. به یاد بیاورید که در نتیجه راه حل، در مثال ما، مقادیر پارامترها و یافت می شوند. بنابراین، معادله رگرسیون یافت شده به شکل زیر خواهد بود:

100 rجایزه سفارش اول

انتخاب نوع کار کار فارغ التحصیلی مقاله ترم چکیده پایان نامه کارشناسی ارشد گزارش عملی مقاله گزارش بررسی آزمایشی تک نگاری حل مسئله طرح کسب و کار پاسخ به سوالات کار خلاقانه انشا طراحی ترکیبات ترجمه ارائه تایپ سایر افزایش منحصر به فرد بودن متن پایان نامه داوطلبی کار آزمایشگاهی راهنما در- خط

قیمت بخواهید

روش حداقل مربعات یک تکنیک ریاضی (ریاضی-آماری) است که برای یکسان سازی سری های زمانی، شناسایی شکل همبستگی بین متغیرهای تصادفی و غیره است. این شامل این واقعیت است که تابعی که این پدیده را توصیف می کند با یک تابع ساده تر تقریب می شود. . علاوه بر این، دومی به گونه ای انتخاب می شود که انحراف استاندارد (به واریانس مراجعه کنید) سطوح واقعی تابع در نقاط مشاهده شده از سطوح تراز شده کوچکترین باشد.

به عنوان مثال، با توجه به داده های موجود ( xi,یی) (من = 1, 2, ..., n) چنین منحنی ساخته شده است y = آ + bx، که در آن حداقل مجموع انحرافات مجذور بدست می آید

به عنوان مثال، تابعی به حداقل می رسد که به دو پارامتر بستگی دارد: آ- قطعه بر روی محور y و ب- شیب خط مستقیم.

معادلات شرایط لازم برای کمینه کردن یک تابع اس(آ,ب)، نامیده می شوند معادلات عادیبه عنوان توابع تقریبی، نه تنها خطی (تراز در امتداد یک خط مستقیم)، بلکه درجه دوم، سهمی، نمایی و غیره نیز استفاده می شود. M.2، که در آن مجموع مجذور فواصل ( y 1 – ȳ 1)2 + (y 2 – ȳ 2)2 .... کوچکترین است و خط مستقیم حاصله به بهترین وجه روند سری دینامیکی مشاهدات را برای برخی از شاخص ها در طول زمان منعکس می کند.

برای تخمین های OLS بی طرفانه، انجام مهم ترین شرط تحلیل رگرسیون لازم و کافی است: انتظار ریاضی یک خطای تصادفی مشروط به عوامل باید برابر با صفر باشد. این شرط مخصوصاً در صورتی برآورده می شود که: 1-انتظار ریاضی خطاهای تصادفی برابر با صفر باشد و 2-عوامل و خطاهای تصادفی متغیرهای تصادفی مستقل باشند. شرط اول را می‌توان برای مدل‌های دارای ثابت همیشه برآورده کرد، زیرا ثابت انتظار ریاضی غیرصفری خطاها را دارد. شرط دوم - شرط عوامل برونزا - اساسی است. اگر این ویژگی برآورده نشود، می توانیم فرض کنیم که تقریباً هر تخمینی بسیار رضایت بخش نخواهد بود: آنها حتی سازگار نخواهند بود (یعنی حتی حجم بسیار زیادی از داده ها امکان به دست آوردن تخمین های کیفی را در این مورد نمی دهد).

رایج ترین روش در عمل تخمین آماری پارامترهای معادلات رگرسیون، روش حداقل مربعات است. این روش بر اساس تعدادی از مفروضات در مورد ماهیت داده ها و نتایج ساخت مدل است. اصلی ترین آنها عبارتند از تفکیک واضح متغیرهای اولیه به متغیرهای وابسته و مستقل، عدم همبستگی عوامل موجود در معادلات، خطی بودن رابطه، عدم وجود خود همبستگی باقیمانده ها، برابری انتظارات ریاضی آنها به صفر و پراکندگی ثابت

یکی از فرضیه های اصلی LSM این فرض است که پراکندگی انحرافات ei برابر است، یعنی. گسترش آنها حول میانگین (صفر) مقدار سری باید یک مقدار پایدار باشد. به این خاصیت هموسکداستیسیته می گویند. در عمل، واریانس انحرافات اغلب یکسان نیست، یعنی ناهمسانی مشاهده می شود. این ممکن است به دلایل مختلفی باشد. به عنوان مثال، ممکن است در داده های اصلی خطاهایی وجود داشته باشد. عدم دقت تصادفی در اطلاعات منبع، مانند اشتباهات در ترتیب اعداد، می تواند تأثیر قابل توجهی بر نتایج داشته باشد. اغلب گسترش بیشتر انحرافات єi در مقادیر زیاد متغیر وابسته (متغیرها) مشاهده می شود. اگر داده ها حاوی خطای قابل توجهی باشند، طبیعتا انحراف مقدار مدل محاسبه شده از داده های اشتباه نیز زیاد خواهد بود. برای خلاص شدن از شر این خطا، باید سهم این داده ها را در نتایج محاسبات کاهش دهیم، وزن کمتری را برای آنها نسبت به بقیه تعیین کنیم. این ایده در حداقل مربعات وزنی پیاده سازی شده است.

اگر مقداری فیزیکی به کمیت دیگری بستگی داشته باشد، این وابستگی را می توان با اندازه گیری y در مقادیر مختلف x بررسی کرد. در نتیجه اندازه گیری ها، یک سری مقادیر به دست می آید:

x 1 , x 2 , ..., x i , ... , x n ;

y 1 , y 2 , ..., y i , ... , y n .

بر اساس داده های چنین آزمایشی، می توان وابستگی y = ƒ(x) را ترسیم کرد. منحنی حاصل قضاوت در مورد شکل تابع ƒ(x) را ممکن می سازد. با این حال، ضرایب ثابتی که وارد این تابع می شوند ناشناخته باقی می مانند. آنها را می توان با استفاده از روش حداقل مربعات تعیین کرد. نقاط آزمایشی، به عنوان یک قاعده، دقیقاً روی منحنی قرار نمی گیرند. روش حداقل مربعات مستلزم آن است که مجموع انحرافات مجذور نقاط تجربی از منحنی، یعنی. 2 کوچکترین بود.

در عمل، این روش اغلب (و به سادگی) در مورد یک رابطه خطی استفاده می شود، یعنی. چه زمانی

y=kxیا y = a + bx.

وابستگی خطی در فیزیک بسیار گسترده است. و حتی زمانی که وابستگی غیر خطی است، معمولا سعی می کنند یک نمودار را به گونه ای بسازند که یک خط مستقیم به دست آید. به عنوان مثال، اگر فرض شود که ضریب شکست شیشه n با طول موج λ موج نور با رابطه n = a + b/λ 2 مرتبط است، آنگاه وابستگی n به λ -2 بر روی نمودار رسم می شود. .

وابستگی را در نظر بگیرید y=kx(خط مستقیم که از مبدا می گذرد). اجازه دهید مقدار φ را جمع مجذور انحراف نقاط خود از خط مستقیم بسازیم

مقدار φ همیشه مثبت است و معلوم می شود که کوچکتر است، نقاط ما به خط مستقیم نزدیکتر هستند. روش حداقل مربعات بیان می کند که برای k باید چنین مقداری انتخاب شود که φ دارای حداقل باشد

یا
(19)

محاسبه نشان می دهد که خطای ریشه میانگین مربع در تعیین مقدار k برابر است با

, (20)
که در آن n تعداد ابعاد است.

اجازه دهید اکنون یک مورد کمی دشوارتر را در نظر بگیریم، زمانی که نقاط باید فرمول را برآورده کنند y = a + bx(خط مستقیمی که از مبدأ نمی گذرد).

وظیفه یافتن بهترین مقادیر a و b از مجموعه مقادیر داده شده x i, y i است.

دوباره یک فرم درجه دوم φ برابر با مجذور انحرافات نقاط x i , y i از خط مستقیم می سازیم.

و مقادیر a و b را پیدا کنید که φ برای آنها حداقل است

;

حل مشترک این معادلات به دست می دهد

(21)

خطاهای ریشه میانگین مربع در تعیین a و b برابر است

(23)

. (24)

هنگام پردازش نتایج اندازه گیری با این روش، خلاصه کردن تمام داده ها در جدولی که در آن تمام مقادیر موجود در فرمول (19) (24) به طور مقدماتی محاسبه شده است، راحت است. اشکال این جداول در مثال های زیر نشان داده شده است.

مثال 1معادله اصلی دینامیک حرکت چرخشی ε = M/J (خط مستقیمی که از مبدا می گذرد) مورد مطالعه قرار گرفت. برای مقادیر مختلف لحظه M، شتاب زاویه ای ε یک جسم خاص اندازه گیری شد. تعیین ممان اینرسی این جسم مورد نیاز است. نتایج اندازه گیری گشتاور نیرو و شتاب زاویه ای در ستون های دوم و سوم ذکر شده است. جداول 5.

جدول 5

n	M، N m	ε, s-1	M2	M ε	ε - کیلومتر	(ε - کیلومتر) 2
1	1.44	0.52	2.0736	0.7488	0.039432	0.001555
2	3.12	1.06	9.7344	3.3072	0.018768	0.000352
3	4.59	1.45	21.0681	6.6555	-0.08181	0.006693
4	5.90	1.92	34.81	11.328	-0.049	0.002401
5	7.45	2.56	55.5025	19.072	0.073725	0.005435
∑			123.1886	41.1115		0.016436

با فرمول (19) تعیین می کنیم:

برای تعیین خطای ریشه میانگین مربع از فرمول (20) استفاده می کنیم.

0.005775کیلوگرم-1 · متر -2 .

با فرمول (18) داریم

; .

SJ = (2.996 0.005775)/0.3337 = 0.05185 کیلوگرم متر مربع.

با توجه به پایایی 0.95 = P، با توجه به جدول ضرایب Student برای n = 5، t = 2.78 را پیدا می کنیم و خطای مطلق ΔJ = 2.78 0.05185 = 0.1441 ≈ 0.2 را تعیین می کنیم. کیلوگرم متر مربع.

نتایج را به شکل زیر می نویسیم:

J = (0.2 ± 3.0) کیلوگرم متر مربع;

مثال 2ضریب دمایی مقاومت فلز را با استفاده از روش حداقل مربعات محاسبه می کنیم. مقاومت طبق یک قانون خطی به دما بستگی دارد

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

عبارت آزاد مقاومت R 0 را در دمای 0 درجه سانتیگراد تعیین می کند و ضریب زاویه ای حاصل ضرب ضریب دما α و مقاومت R 0 است.

نتایج اندازه گیری ها و محاسبات در جدول ( جدول 6 را ببینید).

جدول 6

n	t°, s	r، اهم	t-¯t	(t-¯t) 2	(t-¯t)r	r-bt-a	(r - bt - a) 2،10 -6
1	23	1.242	-62.8333	3948.028	-78.039	0.007673	58.8722
2	59	1.326	-26.8333	720.0278	-35.581	-0.00353	12.4959
3	84	1.386	-1.83333	3.361111	-2.541	-0.00965	93.1506
4	96	1.417	10.16667	103.3611	14.40617	-0.01039	107.898
5	120	1.512	34.16667	1167.361	51.66	0.021141	446.932
6	133	1.520	47.16667	2224.694	71.69333	-0.00524	27.4556
∑	515	8.403		8166.833	21.5985		746.804
∑/n	85.83333	1.4005

با فرمول های (21)، (22) تعیین می کنیم

R 0 = ¯ R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 اهم.

اجازه دهید یک خطا در تعریف α پیدا کنیم. از آنجا که، پس با فرمول (18) داریم:

با استفاده از فرمول های (23)، (24) داریم

;

0.014126 اهم.

با توجه به پایایی 0.95 = P، طبق جدول ضرایب Student برای n = 6، t = 2.57 را پیدا کرده و خطای مطلق Δα = 2.57 0.000132 = 0.000338 را تعیین می کنیم. درجه -1.

α = (23 ± 4) 10 -4 تگرگ-1 در P = 0.95.

مثال 3برای تعیین شعاع انحنای عدسی از حلقه های نیوتن لازم است. شعاع حلقه های نیوتن r m اندازه گیری شد و تعداد این حلقه ها m تعیین شد. شعاع حلقه های نیوتن به شعاع انحنای عدسی R و عدد حلقه با معادله مربوط می شود.

r 2 m = mλR - 2d 0 R,

جایی که d 0 ضخامت شکاف بین عدسی و صفحه موازی صفحه (یا تغییر شکل عدسی)،

λ طول موج نور فرودی است.

λ = (6 ± 600) نانومتر.
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a،

سپس معادله شکل خواهد گرفت y = a + bx.

نتایج اندازه گیری ها و محاسبات وارد می شود جدول 7.

جدول 7

n	x = m	y \u003d r 2، 10 -2 mm 2	m-¯m	(m-¯m) 2	(m-¯m)y	y-bx-a، 10-4	(y - bx - a) 2، 10 -6
1	1	6.101	-2.5	6.25	-0.152525	12.01	1.44229
2	2	11.834	-1.5	2.25	-0.17751	-9.6	0.930766
3	3	17.808	-0.5	0.25	-0.08904	-7.2	0.519086
4	4	23.814	0.5	0.25	0.11907	-1.6	0.0243955
5	5	29.812	1.5	2.25	0.44718	3.28	0.107646
6	6	35.760	2.5	6.25	0.894	3.12	0.0975819
∑	21	125.129		17.5	1.041175		3.12176
∑/n	3.5	20.8548333

روش حداقل مربعات (LSM) به شما امکان می دهد با استفاده از نتایج بسیاری از اندازه گیری های حاوی خطاهای تصادفی، مقادیر مختلف را تخمین بزنید.

MNC مشخصه

ایده اصلی این روش این است که مجموع مجذور خطاها به عنوان معیاری برای صحت حل مسئله در نظر گرفته می شود که درصدد به حداقل رساندن آن است. هنگام استفاده از این روش می توان از هر دو روش عددی و تحلیلی استفاده کرد.

به طور خاص، به عنوان یک پیاده سازی عددی، روش حداقل مربعات مستلزم اندازه گیری هر چه بیشتر یک متغیر تصادفی ناشناخته است. علاوه بر این، هر چه محاسبات بیشتر باشد، راه حل دقیق تر خواهد بود. در این مجموعه از محاسبات (داده های اولیه)، مجموعه دیگری از راه حل های پیشنهادی به دست می آید که از بین آنها بهترین راه حل انتخاب می شود. اگر مجموعه راه حل ها پارامتری باشد، روش حداقل مربعات به یافتن مقدار بهینه پارامترها کاهش می یابد.

به عنوان یک رویکرد تحلیلی برای اجرای LSM بر روی مجموعه داده های اولیه (اندازه گیری ها) و مجموعه راه حل های پیشنهادی، مقداری (عملکردی) تعریف شده است که می تواند با فرمولی به دست آمده به عنوان یک فرضیه خاص بیان شود که نیاز به تأیید دارد. در این حالت، روش حداقل مربعات به یافتن حداقل این تابع در مجموعه مجذور خطاهای داده های اولیه کاهش می یابد.

توجه داشته باشید که نه خود خطاها، بلکه مربع های خطاها. چرا؟ واقعیت این است که اغلب انحرافات اندازه گیری ها از مقدار دقیق هم مثبت و هم منفی است. هنگام تعیین میانگین، جمع بندی ساده می تواند به نتیجه گیری نادرستی در مورد کیفیت تخمین منجر شود، زیرا لغو متقابل مقادیر مثبت و منفی، قدرت نمونه برداری مجموعه اندازه گیری ها را کاهش می دهد. و در نتیجه، دقت ارزیابی.

برای جلوگیری از این اتفاق، انحرافات مجذور خلاصه می شوند. حتی بیشتر از آن، برای یکسان سازی بعد مقدار اندازه گیری شده و تخمین نهایی، از مجموع مجذور خطاها برای استخراج استفاده می شود.

برخی از کاربردهای MNC ها

MNC به طور گسترده در زمینه های مختلف استفاده می شود. به عنوان مثال، در تئوری احتمال و آمار ریاضی، از این روش برای تعیین چنین مشخصه ای از یک متغیر تصادفی به عنوان انحراف استاندارد استفاده می شود که عرض محدوده مقادیر یک متغیر تصادفی را تعیین می کند.

که گسترده ترین کاربرد را در زمینه های مختلف علمی و عملی می یابد. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما بلیط یک کشور شگفت انگیز به نام اقتصاد سنجی=) ... چطور این را نمی خواهی؟! آنجا خیلی خوب است - فقط باید تصمیم بگیرید! ... اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید کمترین مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع نیز حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال مرتبط:

اجازه دهید شاخص هایی در برخی از حوزه های موضوعی مورد مطالعه قرار گیرند که بیان کمی دارند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض هم می تواند یک فرضیه علمی باشد و هم بر اساس عقل سلیم ابتدایی. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. نشان دادن با:

- فضای خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در اکثر موارد گردش مالی آن بیشتر است.

فرض کنید پس از انجام مشاهدات / آزمایش / محاسبات / رقصیدن با تنبور، داده های عددی در اختیار داریم:

در مورد فروشگاه های مواد غذایی، من فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه 2، - گردش مالی سالانه آن و غیره. به هر حال ، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی را می توان با استفاده از آمار ریاضی. با این حال، منحرف نشوید، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه ای نوشت و به روش معمول برای ما ترسیم کرد. سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

هرچه بزرگتر بهتر. حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، با مقدار کمی داده، نتایج "غیر طبیعی" نباید در نمونه گنجانده شود. بنابراین، به عنوان مثال، یک فروشگاه کوچک نخبه می‌تواند بیشتر از «همکاران خود» به سفارش‌های بزرگ کمک کند، در نتیجه الگوی کلی را که باید پیدا کرد، مخدوش می‌کند!

اگر خیلی ساده است، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . چنین تابعی نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، در اینجا بلافاصله یک "مدعوی" آشکار ظاهر می شود - یک چند جمله ای درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (زیرا نمودار همیشه "باد" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع مورد نظر باید به اندازه کافی ساده باشد و در عین حال وابستگی را به اندازه کافی منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود کمترین مربعات. ابتدا اجازه دهید ماهیت آن را به صورت کلی تحلیل کنیم. اجازه دهید برخی از تابع ها به داده های تجربی تقریب داشته باشند:

چگونه می توان صحت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن خطور می کند این است که مقدار مجموع را تخمین بزنیم، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلا، ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، خود را پیشنهاد می کند که مجموع را بگیرد ماژول هاانحرافات:

یا به صورت تا شده: (ناگهان، کسی که نمی داند: نماد جمع است و یک متغیر کمکی است - "counter" که مقادیری از 1 تا را می گیرد).

با تقریب نقاط آزمایشی با توابع مختلف، مقادیر متفاوتی از عدد بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است، آن تابع دقت بیشتری دارد.

چنین روشی وجود دارد و نامیده می شود روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است. روش حداقل مربع، که در آن مقادیر منفی احتمالی نه با مدول، بلکه با مربع کردن انحرافات حذف می شوند:

، پس از آن تلاش ها برای انتخاب چنین تابعی است که مجموع انحرافات مجذور تا حد امکان کوچک بود در واقع، از این رو نام روش است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از این توابع نیز وجود دارد: خطی , هذلولی, نمایی, لگاریتمی, درجه دوم و غیره. و البته در اینجا بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از کارکردها را برای تحقیق انتخاب کنیم؟ تکنیک ابتدایی اما موثر:

- ساده ترین راه برای رسم امتیاز بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل دارند در یک خط مستقیم باشند، پس باید به دنبال آن باشید معادله خط مستقیم با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است - به طوری که مجموع انحرافات مجذور کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هایپربولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند .

حال توجه کنید که در هر دو مورد صحبت می کنیم توابع دو متغیر، که استدلال های آن است گزینه های وابستگی را جستجو کرد:

و در اصل، ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل یک تابع از دو متغیر.

مثال ما را به یاد بیاورید: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و هر دلیلی برای باور وجود وجود دارد. وابستگی خطیگردش مالی از منطقه تجاری بیایید چنین ضرایبی "a" و "be" را پیدا کنیم تا مجذور انحرافات کوچکترین بود همه چیز طبق معمول - اول مشتقات جزئی از مرتبه 1. مطابق با قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می خواهید از این اطلاعات برای یک مقاله یا یک مقاله ترم استفاده کنید، از پیوند موجود در لیست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات دقیقی را در هیچ کجا پیدا نمی کنید:

بیایید یک سیستم استاندارد بسازیم:

هر معادله را یک "دو" کاهش می دهیم و علاوه بر این، مجموع را "از هم جدا می کنیم":

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا می توان "a" و "be" را از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم حل مسئله ما شروع به ترسیم می کند:

آیا مختصات نقاط را می دانیم؟ ما میدانیم. مبالغ می توانیم پیدا کنیم؟ به آسانی. ما ساده ترین ها را می سازیم سیستم دو معادله خطی با دو مجهول(«الف» و «به»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، منجر به یک نقطه ثابت می شود. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد کمترین. تأیید با محاسبات اضافی همراه است و بنابراین ما آن را در پشت صحنه رها می کنیم. (در صورت لزوم، قاب گم شده قابل مشاهده است). نتیجه نهایی را می گیریم:

تابع بهترین راه (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا نوع گردش مالی را پیش بینی کنید ("یگ")در فروشگاه با یک یا مقدار دیگری از منطقه فروش خواهد بود (یک یا معنای دیگری از "x"). بله، پیش‌بینی حاصل تنها یک پیش‌بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه در کلاس های 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، توان و برخی توابع دیگر دشوارتر نیست.

در واقع، توزیع خوبی های وعده داده شده باقی مانده است - به طوری که یاد بگیرید چگونه چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را به دقت مطالعه می کنیم:

وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها. یک نقاشی بکشید که در یک سیستم مختصات مستطیلی دکارتی، نقاط آزمایشی و نموداری از تابع تقریبی را ترسیم کنید. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا عملکرد بهتر است یا خیر (از نظر روش حداقل مربعات)نقاط آزمایشی تقریبی

توجه داشته باشید که مقادیر "x" مقادیر طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "G" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای یک نماد فشرده تر، متغیر "counter" را می توان حذف کرد، زیرا از قبل مشخص است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:

محاسبات را می توان بر روی یک ریز ماشین حساب انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب با استعداد نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، بنابراین سیستم یک راه حل منحصر به فرد دارد.

بیا چک کنیم می‌دانم که نمی‌خواهم، اما چرا از اشتباهاتی که نمی‌توانی آنها را از دست ندهی، بگذریم؟ جواب پیدا شده را در سمت چپ هر معادله سیستم جایگزین کنید:

قسمت های مناسب معادلات مربوطه به دست می آید، یعنی سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیداده های تجربی به بهترین وجه توسط آن تقریب می شوند.

بر خلاف سر راست وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر - کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود ضریب زاویه ای. تابع به ما اطلاع می دهد که با افزایش 1 واحد در یک شاخص خاص، مقدار اندیکاتور وابسته کاهش می یابد میانگین 0.65 واحد همانطور که می گویند، هر چه قیمت گندم سیاه بیشتر باشد، کمتر فروخته می شود.

برای رسم تابع تقریبی، دو مقدار از آن را پیدا می کنیم:

و نقشه را اجرا کنید:

خط ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با تعبیر "در ترند بودن" آشنا هستند و فکر می کنم این اصطلاح نیاز به توضیح اضافی ندارد.

مجموع انحرافات مجذور را محاسبه کنید بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مجذور طول قطعات "زرشکی" است (دوتا از آنها آنقدر کوچک هستند که حتی نمی توانید آنها را ببینید).

بیایید محاسبات را در یک جدول خلاصه کنیم:

آنها دوباره می توانند به صورت دستی انجام شوند، فقط در صورتی که برای نکته 1 مثالی بزنم:

اما انجام روشی که قبلاً شناخته شده است بسیار کارآمدتر است:

تکرار کنیم: منظور از نتیجه چیست؟از جانب همه توابع خطیتابع توان کوچکترین است، یعنی بهترین تقریب در خانواده خود است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی چه می‌شود؟ آیا بهتر است نقاط تجربی را تقریب کنیم؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص آنها، آنها را با حرف "epsilon" مشخص می کنم. تکنیک دقیقاً مشابه است:

و دوباره برای هر محاسبه آتش برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سینتکس را می توان در راهنمای اکسل یافت).

نتیجه: بنابراین تابع نمایی نقاط آزمایشی را بدتر از خط مستقیم تقریب می کند .

اما در اینجا باید توجه داشت که «بدتر» است هنوز به این معنی نیست، چه اشکالی دارد. اکنون من یک نمودار از این تابع نمایی ساختم - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون مطالعه تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را کامل می کند و من به سؤال ارزش های طبیعی استدلال برمی گردم. در مطالعات مختلف، به طور معمول، اقتصادی یا جامعه شناختی، ماه ها، سال ها یا سایر فواصل زمانی مساوی با "X" طبیعی شماره گذاری می شوند. به عنوان مثال، چنین مشکلی را در نظر بگیرید.

تایپ کنید