Statistische Methoden zur Analyse von Artikeldaten. Analyse von Ursache-Wirkungs-Beziehungen. Absolute und relative statistische Größen

Nach Erhalt und Sammlung von Informationen werden statistische Daten analysiert. Es wird angenommen, dass die Informationsverarbeitungsphase die wichtigste ist. Tatsächlich ist es so: In der Phase der Verarbeitung statistischer Daten werden Muster erkannt und Schlussfolgerungen und Prognosen gezogen. Aber nicht weniger wichtig ist die Phase des Sammelns von Informationen, die Phase des Empfangens.

Bereits vor Beginn der Studie muss über die Art der Variablen entschieden werden, die qualitativ und quantitativ sein können. Variablen werden auch nach der Art der Messskala unterteilt:

  • es kann nominell sein – es ist nur ein Symbol zur Beschreibung von Objekten oder Phänomenen. Die nominale Skala kann nur qualitativ sein.
  • Bei einer ordinalen Messskala können die Daten in aufsteigender oder absteigender Reihenfolge angeordnet werden, es ist jedoch unmöglich, die quantitativen Indikatoren dieser Skala zu bestimmen.
  • Und es gibt 2 rein quantitative Skalen:
    — Intervall
    - und rational.

Die Intervallskala gibt an, wie viel mehr oder weniger ein Indikator im Vergleich zu einem anderen ist, und ermöglicht die Auswahl von Verhältnissen von Indikatoren mit ähnlichen Eigenschaften. Gleichzeitig kann sie jedoch nicht angeben, wie oft dieser oder jener Indikator größer oder kleiner als ein anderer ist, da sie keinen einzigen Bezugspunkt hat.

Aber im rationalen Maßstab gibt es einen solchen Bezugspunkt. Darüber hinaus enthält die rationale Skala nur positive Werte.

Statistische Forschungsmethoden

Sobald die Variable definiert ist, können Sie mit dem Sammeln und Analysieren von Daten beginnen. Herkömmlicherweise können wir die deskriptive Phase der Analyse und die analytische Phase selbst unterscheiden. Die beschreibende Phase umfasst die Darstellung der gesammelten Daten in einer praktischen grafischen Form – das sind Grafiken, Diagramme, Dashboards.

Für die Datenanalyse selbst werden statistische Forschungsmethoden eingesetzt. Oben haben wir uns ausführlich mit den Variablentypen befasst – die Unterschiede der Variablen sind bei der Auswahl einer statistischen Forschungsmethode wichtig, da jede von ihnen einen eigenen Variablentyp erfordert.
Eine statistische Forschungsmethode ist eine Methode zur Untersuchung der quantitativen Seite von Daten, Objekten oder Phänomenen. Heute gibt es mehrere Methoden:

  1. Statistische Beobachtung ist die systematische Sammlung von Daten. Vor der Beobachtung müssen die zu untersuchenden Merkmale festgelegt werden.
  2. Nach der Beobachtung können die Daten durch eine Zusammenfassung aufbereitet werden, die einzelne Sachverhalte als Teil des Ganzen analysiert und beschreibt. Oder mittels Gruppierung, bei der alle Daten anhand bestimmter Merkmale in Gruppen eingeteilt werden.
  3. Es können absolute und relative statistische Größen definiert werden – wir können sagen, dass dies die erste Form der Darstellung statistischer Daten ist. Der Absolutwert verleiht den Daten unabhängig von anderen Daten individuelle quantitative Eigenschaften. Und relative Größen beschreiben, wie der Name schon sagt, einige Objekte oder Eigenschaften relativ zu anderen. Darüber hinaus kann die Bedeutung von Größen durch verschiedene Faktoren beeinflusst werden. In diesem Fall ist es notwendig, die Variationsreihe dieser Größen (z. B. die Maximal- und Minimalwerte unter bestimmten Bedingungen) herauszufinden und die Gründe anzugeben, von denen sie abhängen.
  4. Irgendwann gibt es zu viele Daten, und in diesem Fall können Sie die Stichprobenmethode verwenden – verwenden Sie nicht alle Daten in der Analyse, sondern nur einen Teil davon, der nach bestimmten Regeln ausgewählt wird. Das Beispiel könnte sein:
    zufällig,
    stratifiziert (wobei beispielsweise der prozentuale Anteil der Gruppen am Datenvolumen der Studie berücksichtigt wird),
    Cluster (wenn es schwierig ist, eine vollständige Beschreibung aller in den untersuchten Daten enthaltenen Gruppen zu erhalten, werden nur einige Gruppen für die Analyse herangezogen)
    und Quote (ähnlich wie geschichtet, aber das Verhältnis der Gruppen entspricht nicht dem, was ursprünglich verfügbar war).
  5. Die Methode der Korrelations- und Regressionsanalyse hilft dabei, Beziehungen zwischen Daten und die Gründe für die Abhängigkeit von Daten voneinander zu identifizieren und die Stärke dieser Abhängigkeit zu bestimmen.
  6. Und schließlich ermöglicht Ihnen die Zeitreihenmethode, die Stärke, Intensität und Häufigkeit von Veränderungen in Objekten und Phänomenen zu verfolgen. Es ermöglicht die Auswertung von Daten im Zeitverlauf und ermöglicht die Vorhersage von Phänomenen.

Für eine qualitativ hochwertige statistische Forschung sind natürlich Kenntnisse der mathematischen Statistik erforderlich. Große Unternehmen haben den Nutzen einer solchen Analyse längst erkannt – sie ist praktisch nicht nur eine Gelegenheit zu verstehen, warum sich das Unternehmen so entwickelt hat wie in der Vergangenheit, sondern auch herauszufinden, was es in Zukunft erwartet: zum Beispiel die Kenntnis von Umsatzspitzen, Sie können den Einkauf von Waren, deren Lagerung und Logistik richtig organisieren sowie die Anzahl der Mitarbeiter und ihre Arbeitspläne anpassen.

Heutzutage können und sollen alle Schritte der statistischen Analyse von Maschinen durchgeführt werden – und es gibt bereits Automatisierungslösungen auf dem Markt

Zur Datenanalyse können verschiedene Methoden eingesetzt werden. Statistische Methoden der Datenanalyse zielen darauf ab, diese zu verdichten, Zusammenhänge und Strukturen zu erkennen.

statistische Methoden– Methoden der statistischen Datenanalyse. Sie werden ihrer Natur nach in quantitative und kategorische unterteilt.

Quantitativ (metrisch) Daten sind in ihrer Struktur kontinuierlich. Diese Daten werden entweder mithilfe einer Intervallskala (einer numerischen Skala, deren quantitativ gleiche Intervalle gleiche Abstände zwischen den Werten der gemessenen Merkmale widerspiegeln) oder mithilfe einer Verhältnisskala (zusätzlich zur Entfernung wird auch die Reihenfolge der Werte bestimmt) gemessen ).

Kategorisch (nicht metrisch) Daten sind qualitative Daten mit einer begrenzten Anzahl eindeutiger Werte und Kategorien. Es gibt zwei Arten von kategorialen Daten: nominal – zur Nummerierung von Objekten verwendet und ordinal – Daten, für die es eine natürliche Reihenfolge der Kategorien gibt.

Statistische Methoden werden in ein- und multivariate Methoden unterteilt. Univariate Methoden werden verwendet, wenn alle Elemente der Stichprobe durch ein einziges Maß bewertet werden oder wenn es für jedes Element mehrere dieser Maße gibt, jede Variable jedoch getrennt von allen anderen analysiert wird.

3.4.3.1. Univariate statistische Methoden

Univariate statistische Methoden(Univariate Techniken ) – Methoden der statistischen Datenanalyse in Fällen, in denen es ein einziges Maß zur Bewertung jedes Elements der Stichprobe gibt oder wenn mehrere dieser Maße vorhanden sind, jede Variable jedoch getrennt von allen anderen analysiert wird.

Eindimensionale Methoden (Abbildung 3.9) können danach klassifiziert werden, ob die analysierten Daten metrisch oder nicht metrisch sind. Metrische Daten ( metrische Daten) werden auf einer Intervall- oder Relativskala gemessen. Nichtmetrische Daten ( nichtmetrische Daten) werden auf einer nominalen oder ordinalen Skala bewertet. Diese Methoden werden dann in Klassen eingeteilt, je nachdem, wie viele Proben – eine, zwei oder mehr – in einer Studie analysiert werden. Es ist zu beachten, dass die Anzahl der Proben davon abhängt, wie mit den Daten für eine bestimmte Analyse umgegangen wird, und nicht davon, wie die Daten gesammelt wurden.

Reis. 3.9.

Betrachten wir einige der in Abb. aufgeführten. 3.9 Univariate statistische Methoden.

Einweg-ANOVA

Der Zweck der Varianzanalyse besteht darin, den Einfluss eines oder mehrerer Faktoren auf das betrachtete Merkmal zu untersuchen. Die einseitige Varianzanalyse wird in Fällen verwendet, in denen drei oder mehr unabhängige Stichproben verfügbar sind, die aus derselben Grundgesamtheit durch Änderung eines unabhängigen Faktors gewonnen werden, für den aus irgendeinem Grund keine quantitativen Messungen vorliegen. Es wird davon ausgegangen, dass diese Stichproben unterschiedliche Stichprobenmittelwerte und die gleichen Stichprobenvarianzen aufweisen. Daher muss die Frage beantwortet werden, ob dieser Faktor einen signifikanten Einfluss auf die Streuung der Stichprobenmittelwerte hatte oder ob die Streuung eine Folge der durch kleine Stichprobengrößen verursachten Zufälligkeit ist. Mit anderen Worten: Wenn die Stichproben derselben Grundgesamtheit angehören, sollte die Streuung der Daten zwischen Stichproben (zwischen Gruppen) nicht größer sein als die Streuung der Daten innerhalb dieser Stichproben (innerhalb von Gruppen).

Variationsreihe

Variation- Dies ist der Unterschied in den Werten eines Merkmals zwischen verschiedenen Einheiten einer bestimmten Bevölkerung im gleichen Zeitraum oder zum gleichen Zeitpunkt. Mitarbeiter eines Unternehmens unterscheiden sich beispielsweise in Einkommen, Arbeitszeit, Größe, Gewicht, bevorzugter Freizeitbeschäftigung usw. Sie entsteht dadurch, dass die Einzelwerte eines Merkmals unter dem gemeinsamen Einfluss verschiedener Faktoren (Bedingungen) entstehen, die im Einzelfall unterschiedlich kombiniert sind. Somit ist die Größe jeder Option objektiv.

Variationsreihe– Hierbei handelt es sich um eine geordnete Verteilung von Einheiten in einer Population, meist nach zunehmenden (seltener abnehmenden) Werten eines Merkmals und Zählung der Anzahl der Einheiten mit einem bestimmten Wert des Merkmals. Es gibt folgende Formen von Variationsreihen: Rangliste– ist eine Liste einzelner Einheiten der Bevölkerung in aufsteigender (oder absteigender) Reihenfolge des untersuchten Merkmals; diskrete Variationsreihe– eine Tabelle, die aus spezifischen Werten eines variablen Merkmals besteht X und die Anzahl der Bevölkerungseinheiten mit einem bestimmten Wert F-Zeichen der Frequenzen; Intervallreihe– Werte eines kontinuierlichen Merkmals werden durch Intervalle angegeben, die durch Intervallhäufigkeit charakterisiert werden T.

Mit der Variationsanalyse soll getestet werden, ob Änderungen unabhängiger Variablen einen signifikanten Einfluss auf abhängige Variablen haben. Mit dieser Methode werden beispielsweise folgende Fragen beantwortet:

  • Beeinflusst die Art der Werbung das Verkaufsvolumen?
  • Beeinflusst die Farbe einer Werbung die Anzahl der Personen, die sich an die Werbung erinnern?
  • Beeinflusst die Wahl der Vertriebspolitik den Umsatz?

Statistische Prüfung der Aussagekraft von Marktforschungsergebnissen.

Im Rahmen der Datenanalyse stellt sich der Forscher regelmäßig die Frage: Sind die Forschungsergebnisse aussagekräftig genug? Mit anderen Worten: Könnte das Ergebnis dadurch erklärt werden, dass die Stichprobe Befragte umfasste, die nicht repräsentativ für die Gesamtbevölkerung waren? Zur Beantwortung dieser Frage werden statistische Hypothesen herangezogen.

Hypothesen- Hierbei handelt es sich um Annahmen oder Theorien, die der Forscher über bestimmte Merkmale der zu befragenden Bevölkerung vorbringt. Mithilfe statistischer Techniken versucht der Forscher festzustellen, ob es empirische Beweise gibt, die die aufgestellten Hypothesen stützen. Durch das Testen statistischer Hypothesen können Sie die Wahrscheinlichkeit des Eintretens eines Ereignisses berechnen. Fehlen jedoch vollständige und umfassende Informationen (was bei der Verwendung von Beispieldaten selbstverständlich ist), besteht immer eine gewisse Wahrscheinlichkeit einer fehlerhaften Schlussfolgerung.

Eine Hypothese vorschlagen (null oder alternativ). Nullhypothese (H 0), auch Hypothese genannt Status Quo ist eine Aussage, in der der Forscher angibt, dass es keine Unterschiede oder Einflüsse in den Originaldaten gibt. Ziel ist es, die Konsistenz der Ausgangsdaten mit der getroffenen Annahme festzustellen. Der Forscher muss die Nullhypothese so formulieren, dass ihre Ablehnung zu der gewünschten Schlussfolgerung führt. Beispielsweise erwägt ein Unternehmen die Möglichkeit, ein neues Produkt zu entwickeln und auf den Markt zu bringen. Um eine positive Entscheidung zu treffen, muss das Verkaufsvolumen um 20 % steigen. Gehen wir von folgender Annahme aus: Das Umsatzvolumen wird um weniger als 20 % steigen. Diese Annahme wird Nullhypothese genannt und mit bezeichnet N 0: R ≤ 0,20.

Alternative Hypothese (H a) soll die Konsistenz der Daten mit der Nullhypothese feststellen und diese widerlegen. In unserem Beispiel können wir gegen die Nullhypothese eine Alternativhypothese der Form aufstellen N A: R > 0,20.

Führt die Hypothesenprüfung zu einer Ablehnung der Nullhypothese, wird die Alternativhypothese akzeptiert, wonach mit einer Umsatzsteigerung von 20 % zu rechnen ist.

Es gibt viele Methoden zum Testen statistischer Hypothesen. Die wichtigsten Methoden sind in der Tabelle aufgeführt. 3.10 beschrieben und anschließend mit Beispielen beschrieben.

Tabelle 3.10

Statistische Tests zum Testen statistischer Hypothesen

Anwendungsgebiet

Anzahl der Untergruppen oder Stichproben

Arten von Skalen

Kriterium

Besondere Anforderungen

Hypothesen zur Häufigkeitsverteilung

Nominell

Zufällig

Ob die beobachteten Unterschiede in den Antworten der Befragten zufällig sind oder nicht

Zwei oder mehr

Nominell

Zufallsstichproben, unabhängige Stichproben

Sind die Unterschiede in der Anzahl der Männer und Frauen, die auf Produktwerbung reagieren, zufällig oder nicht?

Ordinal

Zufallsstichprobe, natürliche Reihenfolge der Daten

Zufällig oder nicht, die Verteilung der Frauen, die eine bestimmte Mascara-Farbe bevorzugen (von dunkel bis hell)

Hypothesen über Durchschnittswerte

Eins (große Stichprobe)

Metrik (Intervall oder relativ)

Z-Test für einen Mittelwert

Stichproben p> 30

Ob der beobachtete Unterschied zwischen dem Stichprobenmittelwert und dem Standard- oder erwarteten Mittelwert auf Zufall zurückzuführen ist oder nicht

Eine (kleine Probe)

T- Kriterium für einen Durchschnitt

Stichproben N < 30

Ob der beobachtete Unterschied zwischen dem Stichprobenmittelwert und dem Standard- oder erwarteten Mittelwert auf Zufall zurückzuführen ist oder nicht. Geeignet für kleine Proben

Zwei (große Proben)

Z-Test für zwei Mittelwerte

Stichproben p> 30

Ist der beobachtete Unterschied zwischen den Mittelwerten für zwei Untergruppen (mittleres Einkommen von Männern und Frauen) zufällig oder nicht?

Zwei (kleine Proben)

ANOVA(Variationsanalyse)

Zufällig

Ist die Variation zwischen den Mittelwerten für drei oder mehr Untergruppen zufällig oder nicht (durchschnittliche Unterhaltungsausgaben für verschiedene soziale Gruppen)?

Hypothesen über Proportionen

Eins (große Stichprobe)

Z- Kriterium für einen Anteil

Stichproben p> 30

Ob der Unterschied zwischen einer Stichprobenschätzung der Proportionen und einer Gruppe von Standard- oder erwarteten Schätzungen (der Prozentsatz derjenigen, die beabsichtigen, ein bestimmtes Produkt zu kaufen) zufällig ist oder nicht.

Zwei (große Proben)

Z- Kriterium für zwei Proportionen

Ob der beobachtete Unterschied zwischen den geschätzten Anteilen für die beiden Untergruppen (Prozentsatz der Männer und Frauen mit Hochschulabschluss) zufällig ist oder nicht.

Bevor die grundlegenden Kriterien für die Prüfung statistischer Kriterien untersucht werden, müssen Entscheidungsregeln festgelegt werden. Zur Bestätigung oder Ablehnung der Nullhypothese sind Entscheidungsregeln erforderlich. Diese Regeln in der Statistik werden „Signifikanzniveaus“ (a) genannt. Sie sind Indikatoren für die Qualität der statistischen Überprüfung von Hypothesen und charakterisieren die Wahrscheinlichkeit einer fehlerhaften Schlussfolgerung. Und da jede Entscheidung, die auf der Grundlage einer begrenzten Anzahl von Beobachtungen getroffen wird, zwangsläufig mit der Wahrscheinlichkeit einer Fehlentscheidung einhergeht, ist es wichtig zu bestimmen, wie groß diese Wahrscheinlichkeit ist. In der Praxis werden häufig folgende Standardwerte von a verwendet: 0,1; 0,05; 0,01; 0,005; 0,001. Bei einer festen Stichprobengröße wird üblicherweise der Wert a angegeben – die Wahrscheinlichkeit, die zu testende Hypothese fälschlicherweise abzulehnen N 0.

Kriterien zum Testen von Hypothesen über Durchschnittswerte (Z-Test undT -Kriterium). Eines der wichtigen Probleme in der Marktforschung besteht darin, anhand von Stichprobendaten den Durchschnittswert für die Bevölkerung zu ermitteln. Der entsprechende statistische Test der Mittelwerthypothese erfolgt mit dem Z-Test, der bei ausreichender Stichprobengröße zum Einsatz kommt (n> dreißig). Für eine kleine Kostprobe (P < 30) используется ί-критерий Стьюдента с (P– 1) Freiheitsgrade (P– Stichprobengröße). Um Hypothesen über zwei oder mehr Stichprobenmittelwerte zu testen, werden die Unterschiede zwischen den Mittelwerten bewertet.

T-Kriterium für eine Probe

T -Kriterium (t-Test) – eine eindimensionale Methode zum Testen von Hypothesen mithilfe der t-Verteilung. Wird verwendet, wenn die Standardabweichung unbekannt ist und die Stichprobengröße klein ist.

T -Verteilung (t-Statistik ) – Student-Verteilung, eine symmetrische glockenförmige Verteilung, die zum Testen kleiner Stichproben verwendet wird. Bei einer großen Anzahl von Beobachtungen tendiert sie zu einer Normalverteilung.

T- Mit dem Test für eine Stichprobe können Sie die Hypothese testen, dass der Stichprobenmittelwert einer bestimmten vorgegebenen Zahl entspricht.

Im sogenannten One-Sample T-Kriterien beobachteter Durchschnitt X(berechnet aus der Stichprobenimplementierung) wird mit dem erwarteten (oder Referenz-) Stichprobenmittelwert μ (d. h. mit einem theoretischen Mittelwert) verglichen:

Kriterienstatistik:

Es hat T-Studentenverteilung mit (P– 1) Freiheitsgrad.

Standardabweichung der Stichprobe S geschätzt basierend auf der beobachteten Implementierung der Stichprobe:

Berechneter Wert T Prüfen Sie, ob sie in den kritischen Bereich fallen (den kritischen Wert finden Sie in den Tabellen). Wenn der berechnete Wert T in den kritischen Bereich fällt, dann heißt es H 0 wird auf Ebene a zugunsten der Alternative abgelehnt.

Lassen Sie uns beispielsweise einige feste Leistungsindikatoren eines Handelsunternehmens festlegen: Die Rentabilität des Handelsumsatzes beträgt 20 %. Daher können wir anhand gegebener Rentabilitätsdaten (z. B. pro Monat) einen F-Test bei einer Stichprobe anwenden, um die Hypothese zu testen, dass das durchschnittliche Rentabilitätsniveau einem bestimmten Wert entspricht.

Beachten Sie, dass in diesem Fall ein einseitiges Kriterium angewendet werden muss, da eine Verletzung der Effizienz der kommerziellen Aktivitäten nur dann vorliegt, wenn der Rentabilitätsindikator im Vergleich zum Standardindikator abnimmt.

Beispiel. Zehn Geschäfte in der Stadt wurden nach dem Zufallsprinzip ausgewählt. Ihnen wurde für einen bestimmten Zeitraum ein neues Erfrischungsgetränk zum Verkauf angeboten. Das Unternehmen erwartete, in jedem Geschäft 100 Flaschen des neuen Getränks pro Tag zu verkaufen. Nur in diesem Fall rechtfertigt der erwartete Gewinn die Kosten für die Werbung für ein neues Produkt (Tabelle 3.11).

Tabelle 3.11

Tatsächliche Filialverkaufsdaten

Shop-Nummer

Durchschnittliche Ladenverkäufe X ich

Umsatzabweichung pro Tag

Quadratische Abweichung des Durchschnittswertes

1. Wir stellen die Null- und Alternativhypothese auf:

H 0: M < 100 бутылок (M– durchschnittliches wöchentliches Verkaufsvolumen in einem Geschäft).

H 1 : M> 100 Flaschen.

  • 2. Festlegung eines akzeptablen Stichprobenfehlerniveaus (σ). Für σ = 0,05 und die Anzahl der Freiheitsgrade 10-1=9 tabellarischer (kritischer) Wert t= 2,2622.
  • 3. Berechnen Sie die Standardabweichung:

4. Berechnung des Standardfehlers:

5. Berechnung T-Kriterien:

T-Test für zwei unabhängige Proben

T-Der Test für zwei unabhängige Stichproben (Zweistichproben-F-Test) testet die Hypothese der Gleichheit der Mittelwerte in zwei Stichproben (es wird eine Normalverteilung der Variablen sowie Gleichheit der Stichprobenvarianzen angenommen). Das Kriterium kommt beispielsweise dann zum Einsatz, wenn es darum geht, zwei Regionen hinsichtlich des Pro-Kopf-Einkommens zu vergleichen.

Der Entscheidungsalgorithmus für die Ablehnung oder Nichtablehnung der Nullhypothese ähnelt dem oben diskutierten (eine Stichprobe). T-Kriterium)

T-Test für zwei abhängige Stichproben

T-Das Kriterium für zwei abhängige (gepaarte) Stichproben wird beispielsweise verwendet, um die Effizienz eines Unternehmens in verschiedenen Jahren oder nach einigen Innovationen zu beurteilen. Die Nullhypothese besagt auch, dass es keinen Unterschied gibt (der durchschnittliche Unterschied zwischen den Beobachtungen in den beiden Gruppen ist Null).

Der Algorithmus zur Entscheidung, ob die Nullhypothese abgelehnt werden soll oder nicht, ähnelt dem oben diskutierten.

Z-Test für eine Probe

Um aus Stichprobendaten Rückschlüsse auf den Grundgesamtheitsmittelwert zu ziehen, können Sie den Z-Test verwenden, wenn zwei Bedingungen erfüllt sind:

  • 1) die Verteilung der Variablen in der Grundgesamtheit ist normal;
  • 2) Die Stichprobengröße ist ziemlich groß.

Der Z-Score basiert auf der Standardnormalverteilung und wird wie folgt berechnet:

Wo ist der Stichprobendurchschnitt? X– Allgemeiner Durchschnitt für N 0; S x ist der Standardfehler der Schätzung des Mittelwerts.

In diesem Fall ist der durchschnittliche Schätzfehler gleich

Standardabweichung wo P– Stichprobengröße.

Beispiel. Einer der Schönheitssalons führte eine Studie mit 500 Kunden durch, die gebeten wurden, den Service in diesem Salon mit anderen in derselben Stadt zu vergleichen. Die Befragten konnten die folgenden Antworten wählen

Der aus den Antworten der Befragten berechnete Durchschnittswert betrug 3,5 mit einer Standardabweichung von 1,5. Kann ein Manager sicher sein, dass die durchschnittliche Servicebewertung in der Bevölkerung nicht weniger als 3 (die durchschnittliche Bewertung auf der verwendeten Skala) beträgt?

N 0: M ≤ 3 (M– Bewertung auf der verwendeten Skala),

N 0:M> 3.

  • 2. Festlegung eines akzeptablen Stichprobenfehlerniveaus (σ). Für σ = 0,05 beträgt der Tabellenwert des Z-Kriteriums 1,64.
  • 3. Standardabweichung der Stichprobe: bei x = 1,5.
  • 4. Berechnung des Standardfehlers der allgemeinen Durchschnittsschätzung

nach der Formel

5. Berechnung des Z-Kriteriums:

6. Entscheidung über die Nullhypothese: Die Nullhypothese kann verworfen werden, da der berechnete Wert Ζ = 7,454 größer als der kritische Wert Ζ = 1,64 ist. Der Manager kann sicher sein, dass die durchschnittliche Servicebewertung höher als 3 ist.

Ζ-Test für zwei unabhängige Stichproben

Entscheidungsträger sind oft daran interessiert, Unterschiede zwischen Käufergruppen zu testen. Wenn Stichproben zufällig gebildet werden und die Daten einer Stichprobe keinen Einfluss auf die Werte einer anderen haben, gelten solche Stichproben als unabhängig. Im praktischen Marketing werden Hypothesen über die Parameter zweier Stichproben verwendet, um die Bedeutung von Unterschieden zwischen Verbrauchern und denen, die ein Produkt einer bestimmten Marke nicht konsumieren (nicht verwenden), zu bestimmen; oder Unterschiede im Konsum zwischen zwei Personengruppen (Männer und Frauen, Stadt- und Landbevölkerung, Menschen mit hohem und niedrigem Einkommen, Alleinstehende und Verheiratete, Erwerbstätige und Rentner, Einwohner zweier Länder usw.).

Um die Signifikanz von Unterschieden zu überprüfen, verwenden Sie den Z-Test:

Wo ist die Differenz zwischen den Mittelwerten in der ersten und zweiten Stichprobe? – die Differenz zwischen den Mittelwerten unter der Nullhypothese; – Standardfehler der Differenzen zwischen zwei Mittelwerten.

In diesem Fall wird der Standardfehler anhand der Standardabweichungen für einzelne Gruppen berechnet:

Beispiel. Der Leiter eines Selbstbedienungsladens war sich sicher, dass Männer den Laden häufiger besuchten als Frauen. Um Testhypothesen zu zwei Durchschnittswerten zu veranschaulichen, kehren wir zu den Daten von 215 Ladenbesuchern zurück (Tabelle 3.12).

Tabelle 3.12

Eingabe zum Testen von Unterschieden zwischen zwei unabhängigen Stichproben

1. Satz von Null- und Alternativhypothesen:

H 0: X T - X F 0, durchschnittliche Anzahl der Ladenbesuche von Männern (X t) gleich oder geringer als die durchschnittliche Anzahl der Ladenbesuche von Frauen (X F). Mit anderen Worten: Männer besuchen dieses Geschäft seltener als Frauen;

H 1: X T - X F > 0 ist die durchschnittliche Anzahl der Ladenbesuche von Männern höher als die Anzahl der Ladenbesuche von Frauen.

2. Ermittlung der tatsächlichen Unterschiede in den durchschnittlichen Indikatorwerten:

  • 3. Auswahl des Stichprobenfehlerniveaus (A). Nehmen wir an, dass der akzeptable Stichprobenfehler in diesem Fall 0,05 beträgt. Der Tabellenwert des Z-Tests für ein Signifikanzniveau von 0,05 beträgt 1,6449.
  • 4. Die Standardabweichung beträgt:
    • für Männer

für Frauen

5. Berechnung des Standardfehlers der Differenzen zwischen zwei Durchschnittswerten anhand der Formel

6. Berechnung der Z-Kriterium-Statistik:

7. Formulierung von Schlussfolgerungen. Berechneter Wert der Menge Z= 2,782 größer als der kritische Wert Z= 1,64. Die Nullhypothese wird abgelehnt. Ein Manager kann mit 95-prozentiger Sicherheit zu dem Schluss kommen, dass Männer im Durchschnitt häufiger Selbstbedienungsläden besuchen als Frauen.

Kriterien für die Güte der Anpassung: – Kriterium für eine Stichprobe

Um die Zufälligkeit oder Signifikanz von Diskrepanzen zwischen den Häufigkeiten der empirischen und theoretischen Verteilungen zu beurteilen, werden eine Reihe von Indikatoren verwendet, die als Kriterien für die Güte der Anpassung bezeichnet werden. Einer der wichtigsten und häufigsten Indikatoren ist das von K. Pearson vorgeschlagene Kriterium:

Wo ist die beobachtete Häufigkeit in jeder Kategorie? – erwartete Häufigkeit.

K. Pearson hat die Verteilung des Wertes gefunden und Tabellen erstellt, die es ermöglichen, den maximalen Oberwert für ein gegebenes Signifikanzniveau und die Anzahl der Freiheitsgrade zu bestimmen, deren Wert im allgemeinen Fall gleich der Anzahl ist Beobachtungen abzüglich der Anzahl der zur Berechnung des statistischen Merkmals erforderlichen Einschränkungen. Wenn der tatsächliche Wert kleiner als der tabellierte Wert ist, werden die Abweichungen zwischen der empirischen und der theoretischen Häufigkeit als zufällig betrachtet und die Hypothese über das akzeptierte Verteilungsgesetz akzeptiert.

Beispiel. Der Leiter eines Elektronikgeschäfts muss die Wirksamkeit von drei Aktivitäten überprüfen, die im Geschäft durchgeführt werden, um Kunden anzulocken. Er möchte anhand der folgenden Daten abschätzen, wie sich jedes Ereignis auf die Anzahl der Kunden im Geschäft auswirkt.

Der Manager muss herausfinden, ob es signifikante Unterschiede zwischen der Anzahl der Ladenbesucher in verschiedenen Zeiträumen gibt. Das Kriterium ermöglicht es uns, diese Frage zu beantworten. Wenden wir uns der Reihenfolge der Berechnungen gemäß dem zuvor besprochenen Hypothesentestprozess zu:

1) Es werden Null- und Alternativhypothesen aufgestellt:

N 0: Die Anzahl der Ladenbesucher während der drei Veranstaltungen ist gleich,

H 1: Es gibt einen erheblichen Unterschied in der Anzahl der Ladenbesucher während Veranstaltungen;

2) Die erwartete (theoretische) Besucherzahl wird ermittelt, wenn die Nullhypothese wahr ist. Es liegt nahe, davon auszugehen, dass die Besucherzahl gleich bleiben sollte, sofern kein Einfluss anderer Faktoren vorliegt.

Mit der Formel lässt sich die voraussichtliche Besucherzahl ermitteln

3) Der Wert von χ2 wird berechnet:

Kriterien für die Güte der Anpassung: – Test für zwei unabhängige Stichproben

Marketingforscher müssen häufig feststellen, ob eine Beziehung zwischen zwei oder mehr Variablen besteht. Um eine Marketingstrategie zu formulieren, muss eine Antwort auf die Fragen gefunden werden: Gibt es Unterschiede in der Einteilung von Männern und Frauen in aktive, gemäßigte und schwache Konsumenten oder wie hoch ist der Anteil der Befragten, die ein bestimmtes Produkt kaufen und nicht kaufen? das Gleiche gilt für Gruppen mit niedrigem, mittlerem und hohem Einkommen. In den beschriebenen Situationen wird üblicherweise das -Kriterium für zwei unabhängige Stichproben verwendet:

Wo ist jeweils die beobachtete Zahl? ich Zeile J te Spalte; – erwartete Anzahl in ich Zeile J- Spalte.

Beispiel. Der Manager muss gegebenenfalls die Art des Zusammenhangs zwischen dem Geschlecht des Kunden und der Häufigkeit der Ladenbesuche ermitteln. Die Häufigkeit der Ladenbesuche wurde in drei Kategorien untersucht:

  • 1) 1–5 Besuche pro Monat – schwache Verbraucher;
  • 2) 6–14 Besuche – moderate Konsumenten;
  • 3) 15 oder mehr Mal – aktive Verbraucher.

Die Ausgangsdaten sind in der Tabelle angegeben. 3.12.

Durchschnittliche Anzahl der Ladenbesuche von Männern:

Durchschnittliche Anzahl der Ladenbesuche von Frauen:

Zur Durchführung des Tests benötigen Sie:

1) Formulieren Sie die Null- und Alternativhypothese:

H 0: kein Zusammenhang zwischen Geschlecht und Einkaufshäufigkeit;

H 1: Die Beziehung zwischen zwei Variablen ist signifikant;

2) Bestimmen Sie die erwarteten Häufigkeiten für jede in die Studie einbezogene Gruppe unter Verwendung der Gesamtdaten für die entsprechenden Zeilen und Spalten (Tabelle 3.13);

Tabelle 3.13

Berechnung erwarteter (theoretischer) Häufigkeiten

4) Vergleichen Sie den Tabellenwert mit dem berechneten (theoretischen) Wert. Der Tabellenwert (für ein Signifikanzniveau von 0,05 und Freiheitsgrade) beträgt 5,991. Da der berechnete Wert (= 13,35) größer als der Tabellenwert ist,

Die Nullhypothese wird verworfen und es kann gefolgert werden, dass es Unterschiede zwischen Männern und Frauen in der Einkaufshäufigkeit gibt.

Kolmogorov-Smirnov-Kriterium

Das Kolmogorov-Smirnov-Kriterium besteht darin, die empirisch akkumulierten Häufigkeiten (Anteile) zu ermitteln und sie mit theoretischen Häufigkeiten zu vergleichen. Es wird in Fällen verwendet, in denen die Quelldaten geordnet sind. Der Punkt, an dem die beiden Verteilungen eine maximale Divergenz (in absoluten Werten) aufweisen, kann als Designkriterium verwendet werden, das durch die Formel bezeichnet und bestimmt wird

Wo sind die akkumulierten Häufigkeiten (Anteile) der empirischen Verteilung? – akkumulierte Häufigkeiten der theoretischen Verteilung. Der aus den Beispieldaten berechnete Wert wird mit dem kritischen Wert verglichen:

Dabei ist λ der Kolmogorov-Smirnov-Test, der einem gegebenen Signifikanzniveau α entspricht, und die Stichprobengröße.

Unterschiedliche Werte entsprechen unterschiedlichen Wahrscheinlichkeitswerten. Diese Indikatoren sind tabellarisch aufgeführt. Bei einem Signifikanzniveau von a = 0,05 beträgt der Wert von λ für eine große Stichprobe 1,36. Was den χ2-Indikator betrifft, wird es als durchaus akzeptabel angesehen, die Abweichungen zwischen empirischen und theoretischen Häufigkeiten als zufällig zu betrachten, wenn der tatsächliche Wert vorliegt D" kleiner als der kritische Wert Ecrit.

Beispiel. Angenommen, ein Farbenhersteller interessiert sich für die Verbrauchermeinung zu fünf neuen Blautönen (Tabelle 3.14). Für den Hersteller ist es wichtig zu wissen, ob Verbraucher eine der Farben bevorzugen. Im Rahmen der Umfrage wurden 1000 Befragte befragt.

Tabelle 3.14

Ergebnisse einer Befragung der Befragten zu ihren Präferenzen

Die Herausforderung besteht darin, festzustellen, ob die Farben von den Befragten zufällig ausgewählt wurden oder ob die bereitgestellten Daten auf eine signifikante Präferenz für helle Farben hinweisen.

Der Kolmogorov-Smirnov-Test umfasst die folgenden Schritte:

1) Definition von Null- und Alternativhypothesen:

N 0: Verbraucher bevorzugen keine der Farbtöne;

N 1: Verbraucherpräferenzen sind von Bedeutung;

  • 2) Berechnung der theoretischen akkumulierten Häufigkeiten entsprechend der Nullhypothese. Die Nullhypothese besagt, dass es keinen Unterschied in den Verbraucherpräferenzen für verschiedene Farbtöne der neuen Farbe gibt. Wenn dies der Fall ist, sollte der Anteil der Menschen, die jede der Farbtöne bevorzugen, 1/5 (oder 0,2) betragen;
  • 3) Berechnung empirisch akkumulierter Häufigkeiten basierend auf Beispieldaten.

In der Tabelle In Abb. 3.15 zeigt die zur Berechnung des Kriteriums notwendigen Daten.

Tabelle 3.15

Daten zur Berechnung des Kolmogorov-Smirnov-Kriteriums

4) Wahl des Signifikanzniveaus α.

Auf dem Signifikanzniveau beträgt der kritische Wert von λ 1,36 und wird daher für eine große Stichprobe durch die Formel bestimmt

5) Ermittlung des tatsächlichen Wertes D n, gleich der maximalen absoluten Abweichung zwischen theoretischen und empirischen Häufigkeiten.

Der größte absolute Unterschied beträgt 0,24, was dem Wert entspricht D n nach dem Kolmogorov-Smirnov-Kriterium;

6) Vergleich des berechneten Wertes D n und kritischer Wert. Entscheidung über die Nullhypothese.

Da der berechnete Wert den kritischen Wert überschreitet, wird die Nullhypothese der Nichtpräferenz verworfen: Die Befragten bevorzugen helle Farben.

3.4.3.2. Multivariate statistische Methoden

Multivariate statistische Methoden eignen sich hervorragend für die Datenanalyse, wenn zwei oder mehr Maße zur Auswertung der Daten für jedes Stichprobenelement verwendet werden und diese Variablen gleichzeitig analysiert werden. Multivariate Methoden unterscheiden sich von univariaten Methoden vor allem dadurch, dass sich bei ihrer Anwendung der Fokus der Aufmerksamkeit vom Niveau (Mittelwert) und der Verteilung (Varianz) der Phänomene auf den Grad der Beziehung (Korrelation oder Kovarianz) zwischen diesen Phänomenen verlagert.

Multivariate statistische Methoden(multivariate Techniken) – Methoden der statistischen Analyse zur Analyse von Daten, wenn zwei oder mehr Maße zur Schätzung jedes Stichprobenelements verwendet werden und diese Variablen gleichzeitig analysiert werden (Abbildung 3.10). Diese Methoden werden verwendet, um gleichzeitige Beziehungen zwischen zwei oder mehr Phänomenen zu bestimmen.

Reis. 3.10.

Kreuztabelle (Kreuztabelle ) – eine statistische Methode, bei der die Werte von zwei oder mehr Variablen gleichzeitig charakterisiert werden. Bei der Kreuztabelle werden Kontingenztabellen erstellt, die die gemeinsame Verteilung von zwei oder mehr Variablen mit einer begrenzten Anzahl von Kategorien oder spezifischen Werten widerspiegeln.

Varianzanalyse(Varianzanalyse) – eine Methode in der mathematischen Statistik, die auf die Suche nach Abhängigkeiten in experimentellen Daten abzielt, indem die Signifikanz von Unterschieden in Durchschnittswerten untersucht wird. Im Gegensatz dazu können Sie mit dem T-Test die Mittelwerte von Sünde und mehr Gruppen vergleichen. Entwickelt von R. Fischer zur Analyse der Ergebnisse experimenteller Studien. Die Bezeichnung findet sich auch in der Literatur ANOVA (ANalysis Of Variance).

Allgemein ANOVA-Problem besteht darin, drei besondere Variationen der allgemeinen Variabilität eines Merkmals zu identifizieren:

  • 1) Variabilität aufgrund der Wirkung jeder der untersuchten unabhängigen Variablen;
  • 2) Variabilität aufgrund der Wechselwirkung der untersuchten unabhängigen Variablen;
  • 3) zufällige Variabilität aufgrund aller unerklärlichen Umstände.

Analyse der Kovarianz (Analyse der Kovarianz) Eng verwandt mit der Varianzanalyse, einem statistischen Verfahren, bei dem die abhängige Variable auf der Grundlage zusätzlicher damit verbundener Informationen statistisch angepasst wird, um extern eingeführte Variabilität zu eliminieren und so die Effizienz der Analyse zu verbessern.

Diskriminanzanalyse (Diskriminanzanalyse) – eine Methode zur Analyse von Marktforschungsdaten für den Fall, dass die abhängige Variable kategorial ist und die Prädiktoren (unabhängige Variablen) Intervallvariablen sind. Zweck der Diskriminanzanalyse– Dies ist die Differenzierung (Diskriminierung) von Beobachtungsobjekten in Klassen nach vorgegebenen Merkmalen.

Regressionsanalyse (Regressionsanalyse) – statistische Methode zur Untersuchung des Einflusses einer oder mehrerer unabhängiger Variablen X 1, X 2, ..., X p auf der abhängigen Variablen u. Unabhängige Variablen werden auch als Regressoren oder Prädiktoren bezeichnet, und abhängige Variablen werden als Kriteriumsvariablen bezeichnet. Ziele der Regressionsanalyse:

  • Bestimmen des Bestimmungsgrades der Variation der Kriteriumsvariable (abhängig) durch Prädiktoren (unabhängige Variablen);
  • Vorhersagen des Werts der abhängigen Variablen unter Verwendung der unabhängigen Variablen;
  • Bestimmen des Beitrags einzelner unabhängiger Variablen zur Variation der abhängigen Variablen.

Korrelationsanalyse (Korrelationsanalyse) – eine statistische Methode, die die Beziehung zwischen zwei oder mehr Zufallsvariablen (oder Variablen, die mit einiger akzeptabler Genauigkeit als solche betrachtet werden können) offenlegt. Zweck der Korrelationsanalyse– Geben Sie mithilfe einer anderen Variable Informationen zu einer Variablen an.

Faktorenanalyse(Faktorenanalyse) – eine Methode der multivariaten mathematischen Statistik, die bei der Untersuchung statistisch verwandter Merkmale verwendet wird, um eine bestimmte Anzahl von Faktoren zu identifizieren, die der direkten Beobachtung verborgen bleiben. Zweck der Faktorenanalyse– Durch Beobachtung einer großen Anzahl gemessener Variablen eine kleine Anzahl latenter Makrovariablen identifizieren – Faktoren, die hauptsächlich das Verhalten der gemessenen Variablen bestimmen.

Clusteranalyse(Clusteranalyse ) – ein multivariates statistisches Verfahren, das Daten mit Informationen über eine Stichprobe von Objekten sammelt und die Objekte dann in relativ homogene Gruppen anordnet. Der Zweck der Clusteranalyse ist Aufteilen von Beobachtungen, Befragten (Zeilen der Datenmatrix) in relativ homogene Cluster, basierend auf der Menge der betrachteten Variablen, so dass ähnliche, nahe beieinander liegende Beobachtungen in einen Cluster fallen und voneinander entfernte Beobachtungen in unterschiedliche fallen Einsen.

Mehrdimensionale Skalierung(mehrdimensionale Skalierung) Eine Methode der Datenanalyse, die es ermöglicht, Punkte, die den untersuchten Objekten (skalierten Objekten) entsprechen, in einem (normalerweise euklidischen) mehrdimensionalen „Merkmalsraum“ zu lokalisieren, sodass paarweise Abstände zwischen Punkten in diesem Raum so wenig wie möglich von empirisch gemessenen abweichen misst paarweise die „Nähe“ dieser untersuchten Objekte. Jede Achse dieses Raumes entspricht einer Skala, beispielsweise einer Intervallskala. Das Kriterium für die Differenz dieser beiden Größen wird Spannungsfunktion genannt. Wenn die Elemente der Proximity-Matrix mithilfe von Intervallskalen ermittelt werden, wird die mehrdimensionale Skalierungsmethode als metrisch bezeichnet. Wenn ähnliche Skalen ordinal sind, wird die mehrdimensionale Skalierungsmethode als nichtmetrisch bezeichnet. Zweck der mehrdimensionalen Skalierung– Suche und Interpretation von „latenten (d. h. nicht direkt beobachtbaren) Variablen“, die es dem Benutzer ermöglichen, die Ähnlichkeiten zwischen Objekten anhand von Punkten im ursprünglichen Merkmalsraum zu erklären.

Auswählen einer bestimmten Analysemethode hängt neben der Art und Richtung der Verbindungen mit Variablen und dem Grad der Skalierung auch vom zu lösenden Problem ab. In der Tabelle 3.16 gibt Empfehlungen zur Auswahl einer Analysemethode zur Lösung typischer Marketingprobleme in einem Unternehmen.

Die multivariate statistische Analyse ist ein arbeitsintensiver Prozess, der ohne statistische Softwareprodukte praktisch nicht durchführbar ist. Auf dem Weltmarkt werden etwa tausend Pakete vertrieben, die statistische Datenanalyseprobleme in dem einen oder anderen Bereich lösen. Die meisten Statistikpakete lassen sich in zwei Gruppen einteilen: Allzweck-Statistikpakete (Universalpakete) und Spezialpakete.

Typische Fragestellung

Korrelations- und Regressionsanalyse

  • Wie verändern sich die Umsätze, wenn die Werbeausgaben um 10 % sinken?
  • Welche Eigenschaften des Produkts sind für diese Verbrauchergruppe interessant?
  • Welche Eigenschaften eines Produkts können in einem Faktor zusammengefasst werden?
  • Wie hoch wird der Preis für den Service im nächsten Jahr sein?

Diskriminative Analyse

  • Wie teilt man Verbraucher innerhalb eines Clusters in Gruppen ein?
  • Welche Eigenschaften von Marketingmitarbeitern sind für die Einteilung in erfolgreiche und erfolglose Mitarbeiter am wichtigsten?
  • Kann eine bestimmte Person aufgrund ihres Alters, ihres Einkommens und ihrer Ausbildung als zuverlässig genug angesehen werden, um einen Kredit zu vergeben?

Faktorenanalyse

  • Ist es möglich, die vielen Funktionen, die den Kunden eines Unternehmens wichtig sind, auf eine kleine Anzahl zu reduzieren?
  • Wie lassen sich unterschiedliche Unternehmen anhand dieser Faktoren beschreiben?

Clusteranalyse

  • Können Kunden entsprechend ihrer Bedürfnisse in Gruppen eingeteilt werden?
  • Hat das Unternehmen unterschiedliche Kundentypen?
  • Hat die Zeitung unterschiedliche Lesertypen?
  • Wie können Sie Kunden danach klassifizieren, an welchen Einlagenarten sie interessiert sind?

Mehrdimensionale Skalierung

  • Wie passt das Produkt oder Unternehmen zum „Ideal“ des Kunden?
  • Welches Image hat das Unternehmen?
  • Wie hat sich die Einstellung des Kunden zum Produkt im Laufe der Jahre verändert?

Universelle Pakete– bieten eine breite Palette statistischer Methoden an. Ihnen fehlt der Fokus auf ein bestimmtes Themengebiet. Sie verfügen über eine benutzerfreundliche Oberfläche. Die gebräuchlichsten ausländischen Universalpakete sind In AS, SPSS, Systat, Minilab, Statgraphics, STATISTICA.

Spezialisierte Pakete– Sie wenden in der Regel mehrere statistische Methoden oder Methoden an, die in einem bestimmten Fachgebiet verwendet werden. Am häufigsten handelt es sich dabei um Systeme, die sich auf Zeitreihenanalyse, Korrelation und Regression, Faktor- oder Clusteranalyse konzentrieren. Der Einsatz solcher Pakete empfiehlt sich in Fällen, in denen es notwendig ist, Probleme in diesem Bereich, für den ein Spezialpaket gedacht ist, systematisch zu lösen und die Fähigkeiten von Allzweckpaketen nicht ausreichen. Von den russischen Paketen sind die bekanntesten Stadien, Olympus, Klassenmeister, QUASAR, Statistiker-Berater; Amerikanische Pakete – ODA, WinSTAT, Statisch usw.

Standardmethoden zur statistischen Datenverarbeitung sind in Tabellenkalkulationen enthalten, z Excel, Lotus 1-2-3, QuattroPro, und in allgemeine Mathematikpakete, z.B. Mathcad.

Sie sind in der heimischen Literatur ausreichend detailliert beschrieben. In der Praxis russischer Unternehmen werden sie jedoch nur teilweise genutzt. Schauen wir uns einige genauer an Methoden der statistischen Verarbeitung.

allgemeine Informationen

In der Praxis inländischer Unternehmen sind sie überwiegend verbreitet statistische Kontrollmethoden. Wenn wir über die Regulierung des technologischen Prozesses sprechen, wird dies äußerst selten beobachtet. Anwendung statistischer Methoden sieht vor, dass das Unternehmen eine Gruppe von Fachkräften bildet, die über die entsprechende Qualifikation verfügen.

Bedeutung

Gemäß den Anforderungen der ISO ser. 9000 muss der Lieferant den Bedarf an statistischen Methoden ermitteln, die bei der Entwicklung, Regulierung und Prüfung der Fähigkeiten des Herstellungsprozesses und der Produktleistung verwendet werden. Die verwendeten Techniken basieren auf Wahrscheinlichkeitstheorie und mathematischen Berechnungen. Statistische Methoden der Datenanalyse kann in jeder Phase des Produktlebenszyklus implementiert werden. Sie ermöglichen eine Bewertung und Bilanzierung des Grades der Produktheterogenität oder der Variabilität seiner Eigenschaften im Vergleich zu etablierten Nennwerten oder erforderlichen Werten sowie der Variabilität im Prozess seiner Herstellung. Statistische Methoden sind Techniken, mit denen man den Zustand der untersuchten Phänomene mit einer bestimmten Genauigkeit und Zuverlässigkeit beurteilen kann. Sie ermöglichen es Ihnen, bestimmte Probleme vorherzusagen und auf der Grundlage der untersuchten Sachinformationen, Trends und Muster optimale Lösungen zu entwickeln.

Gebrauchsanweisung

Hauptgebiete, in denen sie verbreitet sind statistische Methoden sind:


Praxis der entwickelten Länder

Statistische Methoden sind eine Basis, die die Schaffung von Produkten mit hohen Verbrauchereigenschaften gewährleistet. Diese Techniken sind in Industrieländern weit verbreitet. Statistische Methoden sind im Wesentlichen Garantien dafür, dass Verbraucher Produkte erhalten, die den festgelegten Anforderungen entsprechen. Die Wirkung ihres Einsatzes wurde durch die Praxis japanischer Industrieunternehmen nachgewiesen. Sie haben dazu beigetragen, das höchste Produktionsniveau in diesem Land zu erreichen. Langjährige Erfahrungen im Ausland zeigen, wie wirksam diese Techniken sind. Insbesondere ist bekannt, dass das Unternehmen Hewlelt Packard mithilfe statistischer Methoden in einem Fall die Anzahl der Mängel pro Monat von 9.000 auf 45 Einheiten reduzieren konnte.

Schwierigkeiten bei der Umsetzung

In der häuslichen Praxis gibt es eine Reihe von Hindernissen, die der Verwendung entgegenstehen statistische Untersuchungsmethoden Indikatoren. Schwierigkeiten entstehen durch:


Programm Entwicklung

Es muss gesagt werden, dass die Bestimmung des Bedarfs an bestimmten statistischen Methoden im Bereich Qualität, Auswahl und Beherrschung spezifischer Techniken für jedes inländische Unternehmen eine recht komplexe und langwierige Arbeit ist. Für die effektive Umsetzung empfiehlt es sich, ein spezielles Langzeitprogramm zu entwickeln. Es sollte die Bildung eines Dienstes vorsehen, zu dessen Aufgaben die Organisation und methodische Anleitung der Anwendung statistischer Methoden gehört. Im Rahmen des Programms ist es erforderlich, für die Ausstattung mit geeigneten technischen Mitteln zu sorgen, Fachkräfte auszubilden und die Zusammensetzung der Produktionsaufgaben festzulegen, die mit den ausgewählten Techniken gelöst werden müssen. Es wird empfohlen, mit dem Mastering mit den einfachsten Ansätzen zu beginnen. Sie können beispielsweise die bekannte Elementarproduktion nutzen. Anschließend ist es ratsam, zu anderen Techniken überzugehen. Dies könnten beispielsweise Varianzanalysen, selektive Informationsverarbeitung, Regulierung von Prozessen, Planung faktorieller Forschung und Experimente usw. sein.

Einstufung

Zu den statistischen Methoden der Wirtschaftsanalyse gehören verschiedene Techniken. Es ist erwähnenswert, dass es davon ziemlich viele gibt. Ein führender Experte auf dem Gebiet des Qualitätsmanagements in Japan, K. Ishikawa, empfiehlt jedoch die Verwendung von sieben Hauptmethoden:

  1. Pareto-Diagramme.
  2. Informationen nach gemeinsamen Merkmalen gruppieren.
  3. Kontrollkarten.
  4. Ursache-Wirkungs-Diagramme.
  5. Histogramme.
  6. Checklisten.
  7. Streudiagramme.

Basierend auf seiner eigenen Managementerfahrung behauptet Ishikawa, dass 95 % aller Probleme und Probleme in einem Unternehmen mit diesen sieben Ansätzen gelöst werden können.

Pareto-Diagramm

Dieser basiert auf einem bestimmten Verhältnis. Es wurde das „Pareto-Prinzip“ genannt. Ihm zufolge entstehen 80 % der Wirkungen aus 20 % der Ursachen. zeigt in klarer und verständlicher Form den relativen Einfluss jedes Umstands auf das Gesamtproblem in absteigender Reihenfolge. Diese Auswirkungen können anhand der Anzahl der durch jede Ursache verursachten Verluste und Defekte untersucht werden. Der relative Einfluss wird durch Balken dargestellt, der kumulierte Einfluss der Faktoren durch eine kumulative Gerade.

Ursache-Wirkungs-Diagramm

Darauf wird das untersuchte Problem herkömmlicherweise in Form eines horizontalen geraden Pfeils dargestellt, und die Bedingungen und Faktoren, die es indirekt oder direkt beeinflussen, werden in Form von geneigten Pfeilen dargestellt. Bei der Konstruktion sollten auch scheinbar unbedeutende Umstände berücksichtigt werden. Dies liegt daran, dass es in der Praxis häufig Fälle gibt, in denen die Lösung eines Problems durch die Eliminierung mehrerer scheinbar unwichtiger Faktoren erreicht wird. Die Gründe, die die Hauptumstände (der ersten und nachfolgenden Ordnungen) beeinflussen, sind im Diagramm mit horizontalen kurzen Pfeilen dargestellt. Das detaillierte Diagramm hat die Form eines Fischskeletts.

Informationen gruppieren

Das Wirtschaftsstatistische Methode Wird verwendet, um eine Vielzahl von Indikatoren zu organisieren, die durch die Bewertung und Messung eines oder mehrerer Parameter eines Objekts gewonnen wurden. Typischerweise werden solche Informationen in Form einer ungeordneten Folge von Werten dargestellt. Dies können die linearen Abmessungen des Werkstücks, die Schmelztemperatur, die Materialhärte, die Anzahl der Fehler usw. sein. Basierend auf einem solchen System ist es schwierig, Rückschlüsse auf die Eigenschaften des Produkts oder die Prozesse seiner Entstehung zu ziehen. Die Sortierung erfolgt über Liniendiagramme. Sie zeigen deutlich Veränderungen der beobachteten Parameter über einen bestimmten Zeitraum.

Checkliste

In der Regel wird in Form einer Tabelle die Häufigkeitsverteilung des Auftretens von Messwerten von Objektparametern in den entsprechenden Intervallen dargestellt. Je nach Zweck der Studie werden Checklisten zusammengestellt. Der Bereich der Indikatorwerte ist in gleiche Intervalle unterteilt. Ihre Anzahl wird üblicherweise gleich der Quadratwurzel der Anzahl der durchgeführten Messungen gewählt. Das Formular sollte einfach sein, um Probleme beim Ausfüllen, Lesen oder Überprüfen zu vermeiden.

Balkendiagramm

Es wird in Form eines Stufenpolygons dargestellt. Es veranschaulicht deutlich die Verteilung der Messindikatoren. Der Bereich der ermittelten Werte wird in gleiche Intervalle unterteilt, die entlang der Abszissenachse aufgetragen werden. Für jedes Intervall wird ein Rechteck konstruiert. Seine Höhe entspricht der Häufigkeit des Auftretens einer Größe in einem bestimmten Intervall.

Streudiagramme

Sie werden verwendet, um eine Hypothese über die Beziehung zwischen zwei Variablen zu testen. Das Modell ist wie folgt aufgebaut. Auf der Abszissenachse ist der Wert eines Parameters aufgetragen, auf der Ordinatenachse der Wert eines anderen Parameters. Als Ergebnis erscheint ein Punkt im Diagramm. Diese Schritte werden für alle Variablenwerte wiederholt. Wenn eine Beziehung besteht, wird das Korrelationsfeld verlängert und die Richtung stimmt nicht mit der Richtung der y-Achse überein. Wenn es keine Einschränkung gibt, ist es parallel zu einer der Achsen oder hat die Form eines Kreises.

Kontrollkarten

Sie werden bei der Bewertung eines Prozesses über einen bestimmten Zeitraum verwendet. Der Erstellung von Regelkarten liegen folgende Bestimmungen zugrunde:

  1. Alle Prozesse weichen im Laufe der Zeit von vorgegebenen Parametern ab.
  2. Der instabile Verlauf von Phänomenen ändert sich nicht zufällig. Abweichungen, die über die erwarteten Grenzen hinausgehen, sind nicht zufällig.
  3. Individuelle Veränderungen sind vorhersehbar.
  4. Ein stabiler Prozess kann innerhalb der erwarteten Grenzen zufällig abweichen.

Einsatz in der Praxis russischer Unternehmen

Es ist anzumerken, dass in- und ausländische Erfahrungen zeigen, dass die Erstellung von Kontrollkarten die effektivste statistische Methode zur Beurteilung der Stabilität und Genauigkeit von Geräten und technologischen Prozessen ist. Diese Methode wird auch zur Regulierung der Produktionspotenzialkapazitäten verwendet. Beim Erstellen von Karten ist es notwendig, den zu untersuchenden Parameter richtig auszuwählen. Es wird empfohlen, solchen Indikatoren den Vorzug zu geben, die in direktem Zusammenhang mit dem Verwendungszweck des Produkts stehen, leicht messbar sind und durch die Prozesssteuerung beeinflusst werden können. Wenn eine solche Auswahl schwierig oder nicht gerechtfertigt ist, können Sie die mit dem gesteuerten Parameter korrelierten (zusammenhängenden) Größen auswerten.

Nuancen

Ist die Messung von Indikatoren mit der für die Erstellung von Karten anhand quantitativer Kriterien erforderlichen Genauigkeit wirtschaftlich oder technisch nicht möglich, wird ein alternativer Indikator verwendet. Damit verbunden sind Begriffe wie „Defekt“ und „Defekt“. Unter Letzterem versteht man jede einzelne Nichtübereinstimmung des Produkts mit den festgelegten Anforderungen. Mängel sind Produkte, die aufgrund des Vorliegens von Mängeln nicht an Verbraucher abgegeben werden dürfen.

Besonderheiten

Jeder Kartentyp hat seine eigenen Besonderheiten. Dies muss bei der Auswahl für einen bestimmten Fall berücksichtigt werden. Karten, die auf einem quantitativen Kriterium basieren, gelten als empfindlicher gegenüber Prozessänderungen als Karten, die ein alternatives Merkmal verwenden. Die ersten sind jedoch arbeitsintensiver. Sie werden verwendet für:

  1. Debuggen des Prozesses.
  2. Bewertung der Möglichkeiten zur Technologieimplementierung.
  3. Überprüfung der Genauigkeit des Gerätebetriebs.
  4. Toleranzdefinitionen.
  5. Vergleich mehrerer akzeptabler Möglichkeiten zur Erstellung eines Produkts.

Zusätzlich

Wenn die Prozessstörung durch eine Verschiebung des kontrollierten Parameters gekennzeichnet ist, ist der Einsatz von X-Karten erforderlich. Wenn die Streuung der Werte zunimmt, müssen Sie sich für R- oder S-Modelle entscheiden. Allerdings ist es notwendig, eine Reihe von Besonderheiten zu berücksichtigen. Insbesondere die Verwendung von S-Karten ermöglicht eine genauere und schnellere Ermittlung der Störung des Prozesses als gleichzeitig R-Modelle, deren Konstruktion jedoch keine komplexen Berechnungen erfordert.

Abschluss

In den Wirtschaftswissenschaften ist es möglich, Faktoren zu untersuchen, die bei einer qualitativen Bewertung in Raum und Dynamik entdeckt werden. Mit ihrer Hilfe können Sie prädiktive Berechnungen durchführen. Statistische Methoden der Wirtschaftsanalyse umfassen keine Methoden zur Bewertung der Ursache-Wirkungs-Zusammenhänge wirtschaftlicher Prozesse und Ereignisse sowie zur Identifizierung vielversprechender und ungenutzter Reserven zur Steigerung der Unternehmensleistung. Mit anderen Worten: Die betrachteten Ansätze beinhalten keine faktoriellen Techniken.

Die Lehrveranstaltung führt die Studierenden in die grundlegenden Probleme und Methoden der angewandten Statistik ein.

Kursziele- Theorie und Praxis verbinden, den Studierenden beibringen, statistische Probleme in verschiedenen Fachgebieten zu „sehen“ und Methoden der angewandten Statistik richtig anzuwenden, anhand praktischer Beispiele die Möglichkeiten und Grenzen statistischer Methoden aufzeigen. Der Kurs hat eher einen methodischen als einen mathematischen Schwerpunkt und enthält keine Beweise für Theoreme.

Jede Methode wird nach einem einzigen Schema beschrieben:

  • Formulierung des Problems;
  • Beispiele für angewandte Probleme aus den Bereichen Biologie, Ökonomie, Soziologie, Fertigung, Medizin;
  • Grundannahmen und Grenzen der Anwendbarkeit;
  • Beschreibung der Methode (für Methoden zum Testen statistischer Hypothesen: Nullhypothese und Alternativen, Statistik, ihre Nullverteilung);
  • Vorteile, Nachteile, Einschränkungen, Fallstricke;
  • Vergleich mit anderen Methoden.

Der Kurs wird seit 2007 für Studierende des 4. Studienjahres der Abteilung für Mathematische Prognosemethoden der Moskauer Staatlichen Universität und seit 2011 für Studierende des 4. Studienjahres der Fakultät für Management und Angewandte Mathematik des MIPT unterrichtet. Es wird davon ausgegangen, dass die Studierenden bereits Kurse in Wahrscheinlichkeitstheorie und mathematischer Statistik belegt haben.

Kursprogramm

Einführung

Überprüfung der notwendigen Informationen aus der Wahrscheinlichkeitstheorie und der mathematischen Statistik.

  • Konzepte der einfachen Stichprobenziehung und Statistik. Beispiele für Statistiken: Momente, Schiefe und Kurtosis, Variationsreihen und Ordinalstatistiken, empirische Verteilung.
  • Statistische Punktschätzungen und ihre Eigenschaften: Unvoreingenommenheit, Konsistenz, Optimalität, Robustheit.
  • Intervallschätzungen, Konzepte des Konfidenzintervalls und des Konfidenzniveaus. Konfidenzintervalle für Mittelwert und Median.
  • Häufig verwendete Verteilungen: Normal, Chi-Quadrat, Fisher, Student, Bernoulli, Binomial, Poisson.
  • Testen statistischer Hypothesen, Grundkonzepte: Signifikanzniveau, erreichtes Signifikanzniveau (p-Wert), Fehler vom Typ I und Typ II. Einseitige und doppelseitige Alternativen.
  • Eigenschaften erreichter Signifikanzniveaus. Statistische und praktische Bedeutung.
  • Eigenschaften der Kriterien: Unvoreingenommenheit, Konsistenz, Aussagekraft.

Testen parametrischer Hypothesen

  • Normalitätskriterien: Chi-Quadrat-Test (Pearson), Shapiro-Wilk-Test, Kriterien basierend auf Unterschieden zwischen empirischen und theoretischen Verteilungsfunktionen, Kolmogorov-Smirnov-Test (Lillefors). Ein vereinfachter Test der Normalität durch Schiefe und Kurtosis: der Jarque-Bera-Test.
  • Normale parametrische Tests zum Testen von Hypothesen: Positionshypothesen, Dispersionshypothesen.
  • Hypothesen über Mittelwerte: T- und Z-Tests bei einer und zwei Stichproben, verknüpfte Stichproben
  • Hypothesen zu Varianzen: Chi-Quadrat- und Fisher-Tests.
  • Hypothesen über die Werte des Bernoulli-Verteilungsparameters: Vergleich des Parameterwerts mit einem gegebenen, Vergleich der Parameter der Verteilungen zweier Stichproben (Fälle verwandter und unabhängiger Stichproben).
  • Konfidenzintervall für den Bernoulli-Verteilungsparameter: Wald, Wilson. Wilson-Konfidenzintervalle für die Differenz zwischen Parametern zweier Stichproben.

Nichtparametrische Hypothesenprüfung

Testen mehrerer Hypothesen

Varianzanalyse (ANOVA)

  • Ein-Faktor-Modell. Unabhängige Stichproben: Fisher-, Kruskal-Wallis- und Jonckheere-Tests. Verwandte Beispiele: Fisher-, Friedman- und Page-Tests. Annahme der Sphärizität.
  • Zufallseffektmodell, Varianzteilung.
  • Fixed-Effect-Modell, Verfeinerung der Unterschiede: LSD- und HSD-Methoden, Nemenyi- und Dunnett-Tests.
  • Testen der Hypothese der Varianzgleichheit: Bartlett- und Flyner-Killian-Tests.
  • Zwei-Faktoren-Modell. Zusammenspiel von Faktoren, ihre Interpretation. Zwei-Wege-Normalanalyse. Hierarchisches Design.

Abhängigkeitsanalyse

Lineare Regressionsanalyse

Verallgemeinerungen der linearen Regression

  • Verallgemeinerte lineare Modelle. Verbindungsfunktion. Schätzung von Parametern mit der Maximum-Likelihood-Methode.
  • Konfidenzintervalle und Schätzung der Signifikanz von Koeffizienten, Wald-Tests und Likelihood-Verhältnissen.
  • Qualitätsmaße verallgemeinerter linearer Modelle: Anomalie, Informationskriterien.
  • Darstellung des logistischen Regressionsproblems. Logit, Interpretation logistischer Regressionskoeffizienten.
  • Testen der Logit-Linearität: geglättete Streudiagramme, gebrochene Polynome.
  • Klassifizierung basierend auf logistischer Regression: Sensitivität, Spezifität, Schwellenwertauswahl.
  • Regression eines Zählmerkmals. Poisson-Modell.
  • Die Annahme der Gleichheit von Erwartung und Varianz und ihre Überprüfung. Negatives Binomialmodell. Robuste Schätzung der Koeffizientenstreuung.

Zeitreihenanalyse

Sequentielle Analyse

[Wald, Mukhopadhyay]

  • Anwendung bei Problemen zum Testen von Hypothesen über die Werte eines Binomialverteilungsparameters: Vergleich eines Wertes mit einem gegebenen Wert, Vergleich zweier Werte.
  • Anwendung bei Problemen beim Testen von Hypothesen über die Werte von Parametern einer Normalverteilung: Vergleich des Mittelwerts mit den gegebenen (symmetrische und asymmetrische Optionen), Vergleich des Streuwerts mit dem gegebenen.
  • Sequentielle Konfidenzintervalle für einen Normalpopulationsmittelwert mit unbekannter Varianz (zweistufiges, sequentielles Verfahren). Verfahren für die Differenz der Mittelwerte zweier Normalpopulationen, Fälle gleicher und ungleicher Varianzen.
  • Nichtparametrische sequentielle Konfidenzintervalle für den Mittelwert und den Median.

Ursache-Wirkungs-Analyse

  • Unlösbarkeit des Simpson-Paradoxons im Rahmen der klassischen Statistik.
  • Kausalgraphen, Ketten, Gabeln, Collider. D-Trennbarkeit.
  • Interventionen. Abschätzung des Effekts anhand von Beobachtungsdaten. Diagrammchirurgie und Anpassungsformel.
  • Regel der kausalen Wirkung. Optionen für abwesende Eltern: Hintertürregel, Vordertürregel.
  • Propensity Score, inverse Wahrscheinlichkeitsgewichtung.
  • Graphen in linearen Modellen. Zusammenhang mit Strukturgleichungen.

Literatur

  1. Wald, A. Sequentielle Analyse. - M.: Fizmatlit, 1960.
  2. Lagutin, M.B. Visuelle mathematische Statistik. In zwei Bänden. - M.: P-Center, 2003.
  3. Kobzar, A.I. Angewandte mathematische Statistik. - M.: Fizmatlit, 2006.
  4. Agresti, A. Kategoriale Datenanalyse. - Hoboken: John Wiley & Sons, 2013.
  5. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nichtparametrische Hypothesentests: Rang- und Permutationsmethoden mit Anwendungen in R. – Hoboken: John Wiley & Sons, 2014.
  6. Bretz, F., Hothorn, T., Westfall, P. Mehrere Vergleiche mit R. – Boca Raton: Chapman und Hall/CRC, 2010.
  7. Cameron, A.A., Trivedi, P.K. Regressionsanalyse von Zähldaten. - Cambridge: Cambridge University Press, 2013.
  8. Dickhaus, T. Gleichzeitige statistische Inferenz mit Anwendungen in den Biowissenschaften. - Heidelberg: Springer, 2014.
  9. Gut, P. Permutations-, parametrische und Bootstrap-Tests von Hypothesen: Ein praktischer Leitfaden für Resampling-Methoden zum Testen von Hypothesen. - New York: Springer, 2005.
  10. Hastie, T., Tibshirani, R., Friedman, J. Die Elemente des statistischen Lernens, 2. Auflage. - Springer, 2009. - 533 S. ()
  11. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Angewandte logistische Regression. - Hoboken: John Wiley & Sons, 2013.
  12. Hyndman, R. J., Athanasopoulos G. Prognose: Prinzipien und Praxis. - OTexts, 2015. https://www.otexts.org/book/fpp
  13. Kanji, G.K. 100 statistische Tests. - London: SAGE Publications, 2006.
  14. Mukhopadhyay, N., de Silva, B. M. Sequentielle Methoden und ihre Anwendungen. – Boca Raton: Chapman und Hall/CRC, 2009.
  15. Olson, U. Verallgemeinerte lineare Modelle: Ein angewandter Ansatz. - Lund: Studentenliteratur, 2004.
  16. Pearl J., Glymour M., Jewell N.P. Kausaler Schluss in der Statistik: Eine Einführung. - Chichester: John Wiley & Sons, 2016.
  17. Tabachnick, B.G., Fidell, L.S. Verwendung multivariater Statistiken. - Boston: Pearson Education, 2012.
  18. Wooldridge, J. Einführende Ökonometrie: Ein moderner Ansatz. - Mason: South-Western Cengage Learning, 2013.