Verschiedene Mittelwerte

Wie auf der Webseite der Mehr als Durchschnitt Statistikberatung angedeutet, existieren mehrere Durchschnittswerte, welche je nach Situation verwendet werden sollten. Der Name des Unternehmens, das sich auf Beratung in Statistik spezialisiert hat, ist unter anderem dieser Tatsache geschuldet. Kommen wir nun aber zu  verschiedenen Lagemaßen, deren Verwendung und Berechnung.

Das arithmetische Mittel bzw. der Mittelwert

Liegen die zu untersuchenden Daten auf der metrischen Skala vor, so bietet sich zur Berechnung des Durchschnitts das arithmetische Mittel an. Wir werden später noch Situationen begegnen, bei denen trotz metrischem Skalenniveaus die Verwendung des arithmetischen Mittels nicht sinnvoll ist, hierzu später mehr. Nehmen wir an, wir haben folgende Einkommensstichprobe vorliegen: 1500 €, 2500 € 3000 €, 6000 €. Dann berechnet sich der Mittelwert zu  bar{x}=frac{1}{4}(1500 + 2500 + 3000 + 6000)=frac{13000}{4}=3250. Eine Schwäche von bar{x} ist seine Anfällgkeit gegenüber "Ausreißern". Betrachten wir nun folgende (von oben abgewandelte) Einkommensverteilung: 1500 €, 2500 € 3000 €, 10000 €. Hier ergibt sich der Mittelwert zu  bar{x}=frac{1}{4}(1500 + 2500 + 3000 + 10000)=frac{17000}{4}=4250. Der Mittelwert hat sich also verschoben, in Richtung des Ausreißers. In der Statistik, wird dieses Phänomen als Nicht-Robustheit bezeichnet.

Eine klare Defintion vom Ausreißern existiert nicht. Ein Ausreißer ist eine Beobachtung, welche in einer "unnatürlichen" Distanz von den anderen Beobachtungen entfernt liegt. Somit liegt es im Auge des Datenanalysten, ob eine Beobachtung ein Ausreißer ist oder nicht. Nichtsdestotrotz muss die Entscheidung, ob Ausreißer vorliegen, gut begründet sein. Häufig fließen in diese Beurteilung auch inhaltliche Gründe ein.

Der Median

Das wohl bekannteste robuste Lagemaß ist der Median. Der Median ist dahingehend charakterisiert, als dass 50 % der Werte einer (geordneten) Beobachtungsreihe kleiner/gleich bzw. größer/gleich dem Median sind. Das heißt, dass im Falle einer ungeraden Beobachtungsanzahl es der mittlere Wert der geordneten Datenreihe ist, und im geraden Fall der Mittelwert aus den beiden mittleren Werten. Für die Einkommensverteilung von oben 1500 €, 2500 € 3000 €, 10000 €, bedeutet dies, dass der Median  Tilde{x}=frac{1500+2500}{2}=2000 beträgt.

Mit der Robustheit des Medians geht simultan ein Informationsverlust einher, da der Median aus maximal zwei Werten der Beobachtungsreihe ermittelt wird. Weitere Beispiele für robuste Lagemaße sind das α-getrimmte Mittel und M-Schätzer (Huber rho und phi) . Abschließend muss erwähnt werden, dass sich der Median für mindestens ordinalskalierte Daten als Lagemaß eignet.

Der Modalwert oder Modus

Liegen die Daten nominalskaliert vor, so ist der Modalwert oder Modus ein adäquates Maß, um die Lage der Beobachtungen zu beschreiben. Beim Modus handelt es sich um die in der Beobachtungsreihe am häufigsten auftretende Ausprägung eines Merkmals. Nehmen wir an, wir haben Farben von Autos erhoben. Folgende Beobachtungen sind hierbei aufgetreten schwarz, schwarz, schwarz, weiß, weiß und grün. Damit ist der Modus schwarz. Der Modus muss nicht eindeutig sein, das heißt es können auch mehr als ein Modus in einer Datenreihe auftreten. Weiterhin lässt sich der Modus ebenfalls für höherskalierte Daten berechnen, wobei spätestens auf der metrischen Skala der Modus in den wenigsten Fällen ein sinnvolles Lagemaß darstellt.

 Das geometrische Mittel

Liegen Wachstumsraten vor, so ist die Verwendung des arithmetischen Mittels nicht mehr sinnvoll. Bei Wachstumsraten spiegelt sich die Gesamtänderung nicht durch eine Summe, sondern durch ihr Produkt wieder. Zur Verdeutlichung ein kleines Beispiel. Produktionsraten eines Betriebes über 3 Jahre: 1. Jahr 5 %, 2. Jahr 7 %, 3. Jahr 4 %, bei einer Anfangsproduktion von 100 Einheiten. Dann ergibt sich für das erste Jahr eine Produktion von  100 cdot 1,05 = 105 und für das zweite Jahr 105 cdot 1,07 = (100cdot 1,05)cdot1,07=112,3. Somit gilt für die Produktion im dritten Jahr 100cdot 1,05cdot 1,07cdot1,04.

Das geometrische Mittel lässt sich ganz allgemein aus dem Produkt der Beobachtung, von welchen noch die n-te Wurzel gezogen (oder hoch 1/n) wird, berechnen. Für das obige Beispiel ergibt sich das geometrische Mittel zu x_text{geo}=(1,05cdot1,07cdot1,04)^{1/3}=1,053. Die durchschnittliche Produktionsrate ist demzufolge 5,3 %.

Das harmonische Mittel

Handelt es sich bei den vorliegenden Daten um Indexzahlen bei denen die Nennereinheit konstant ist, wie Kilometer pro Stunde frac{text{km}}{text{h}}, Einwohner pro 100 Quadratmeter frac{text{Einw.}}{100m^2}, etc., so ist die Verwendung des harmonischen Mittels sinnvoll.  Angenommen wir fahren 50 km mit einer Geschwindigkeit von 80 km/h und weitere 50 km mit einer Geschwindigkeit von 120 km/h. Dann ergibt sich das arithmetische Mittel zu 100 km/h. Dieser Mittelwert ist aber falsch, da sich die durchschnittliche Geschwindigkeit durch Normierung der Strecke durch die Zeit ergibt (km/h). Wie oben erwähnt ist die Zeit bei der Indexzahl konstant, so dass die tatsächlich benötigte Zeit in der Berechnung mitbetrachtet werden muss. Für die Strecke von 100 km benötigen wir frac{50text{ km}}{80 text{ km/h}} + frac{50text{ km}}{120 text{ km/h}}=frac{50}{80text{ 1/h}} + frac{50}{120text{ 1/h}}=frac{50}{80}text{ h} + frac{50}{120}text{ h}=1,04text{ h}. Wir fahren also etwa 62 1/2 Minuten. Es ergibt sich damit eine Durchschnittsgeschwindigkeit von frac{100text{ km}}{1,04text{ h}}=96,16frac{text{km}}{text{h}}. Gleiches würde sich ergeben, wenn wir die oben erwähnte Berechnungsvorschrift für das harmonische Mittel verwenden würden: x_{text{har}}=frac{2}{frac{1}{80text{ km/h}} + frac{1}{120text{ km/h}}}=2/0,0208text{ km/h}=96,16text{ km/h}.

Literatur

Barnett, V. und Lewis, T. (1994): Outliers in Statistical Data, 3. Auflage, John Wiley & Sons, Chichester.

Bortz, J. (2005): Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Springer, Heidelberg.

Hartung, J., Elpelt, B. und Klösener, K.-H. (2005): Statistik. Lehr- und Handbuch der angewandten Statistik, 14. Auflage, Oldenbourg, München.

 

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.