Achtung: Daten! Herausforderungen bei der DIY-Marktforschung
Marktforschungsprojekte, die im Do-it-yourself-Modus abgewickelt werden (DIY-Marktforschung), werden mehr und mehr. Das liegt vor allem in der rasanten Entwicklung der Online-Angebote für die Datenerhebung und die Datenanalyse. Zum Teil bieten sie umfangreiche Funktionen und das - zumindest in den Basisversionen - kostenlos. Alles in allem ist es positiv zu sehen, wenn die Gruppe derer, die sich aktiv mit Marktforschung auseinandersetzen, größer wird. Allerdings gehen damit bei ungenügendem Marktforschungswissen nicht wenige Herausforderungen - um nicht zu sagen Probleme - einher. Gar nicht so selten zeigen sich inhaltlich wenig sinnvolle Umfragen, schlecht gemachte Fragebögen, willkürlich gezogene Stichproben (zumindest solche mit einem gravierenden Auswahlbias) und schlecht oder gar falsch analysierte Daten.
Dem Wunsch, wiederholt zu beobachtende und in den Trainings von Kondeor beispielhaft erwähnte Herausforderungen der DIY-Marktforschung zu verschriftlichen (natürlich anonymisiert, verfremdet und zum Teil zugespitzt!), wird mit dieser ähnlich einem Blog gestalteten Seite entsprochen. In loser Folge und nicht einer vorgegebenen Reihenfolge folgend werden hier und im Podcast auf YouTube immer wieder neue Beiträge erscheinen.
Blog- & Podcast-Beiträge
Datenerhebung
Stichprobe - Auswahl und Anzahl der Befragten
Datenanalyse und Ergebnisinterpretation
Datenkontrolle und Datenbereinigung
Quantitative Analyse
Berichtsgestaltung und Ergebniskommunikation
Auswahl der Befragten
Einladung über verfügbare E-Mail-Adressen
(Mit Video)
Überlegen Sie, Ihre Mitarbeiterinnen, Lieferanten, Kundinnen oder Newsletter-Abonnenten zu befragen? Steht bei Ihnen, wieder einmal, eine Entscheidung an, die mit Informationen aus so einer Befragung leichter zu treffen wäre? Wenn Sie die E-Mail-Adressen Ihrer Befragungszielgruppe haben, dann ziehen Sie doch auch in Betracht, die Befragung selbst durchzuführen, oder?
Bias bei der Online-Befragung
Der Do-it-yourself-Marktforschung (DIY-Marktforschung) begegne ich in diesem Zusammenhang nämlich immer wieder. Ist es heutzutage doch ein Leichtes, einen Online-Fragebogen zusammenzustellen und eine Einladung an alle Personen auszusenden, von denen man gerne eine Antwort hätte. Es ist ja zu verlockend: Wenn ich alle Mitarbeiter, Lieferantinnen etc. anschreibe, dann muss das Ergebnis doch repräsentativ sein, also für die gewählte Befragungszielgruppe als Ganzes gelten! Aber weit gefehlt: Bei so einer Vorgangsweise ist zu beachten, dass es zu systematischen Verzerrungen kommen kann. Dies ist zum Beispiel der Fall, wenn Personen mit für die Befragung relevanten Eigenschaften nicht teilnehmen können oder wollen (Unit-Non-Response-Bias). Aus einem anderen Blickwinkel betrachtet trifft das ebenfalls zu, wenn gerade die teilnehmen, die das Thema besonders betrifft bzw. die zu diesem Thema eine „spezielle Agenda verfolgen“. Tritt so ein Bias auf, dann kann es schwerwiegende Folgen haben, aus den Befragungsergebnissen Entscheidungen abzuleiten, die auch die Personen treffen, die ihre Meinung nicht zum Ausdruck gebracht haben.
Lösungsansätze
Was kann man nun dagegen tun? Allem voran muss der Datenerhebungstechnik und der Stichprobenauswahl besonderes Augenmerk geschenkt werden. In manchen Fällen kann es zum Beispiel besser sein, zufällig Ausgewählte persönlich oder telefonisch zu befragen, anstatt alle online. Wenn die Anonymität eine Rolle spielt, dann müssen die Interviews allerdings von außenstehenden Dritten geführt werden - zum Beispiel dann doch von einem darauf spezialisierten Institut. In anderen Fällen kann eine schriftliche Befragung einer zufälligen Stichprobe (paper & pencil) eine Option sein. Und wenn der Kreis der potentiell zu Befragenden, also die Grundgesamtheit, von Haus aus relativ klein ist, dann kann bei einem drohenden Auswahlbias (und damit einer Stichprobenverzerrung) überlegt werden, anstelle einer quantitativen Datenerhebung einen qualitativen Zugang zu wählen.
Hilfreich kann sein, mittels des Fragebogens Eckdaten zu erheben, anhand derer man überprüfen kann, ob die Stichprobe (die ausgefüllten Fragebögen) der Grundgesamtheit entspricht. Dies ist leider jedoch sehr häufig nicht möglich, nämlich dann, wenn die Merkmale, die den Bias auslösen, für die Gesamtgruppe der zu Befragenden nicht bekannt sind (würde man sonst die Befragung brauchen?). Sollte die Aufnahme dieser Eckdaten in den Fragebogen doch möglich sein, dann können eventuell vorliegende Verzerrungen der Stichprobe durch eine nachträgliche Datengewichtung korrigiert werden.
Einfach zum Nachdenken
Was gefällt Ihnen (abgesehen von möglichen Compliance-Konflikten) aus methodischer Sicht an der Stichprobenauswahl bei dem folgenden Beispiel einer DIY-Marktforschung nicht?
Eine Hotelkette der gehobenen Kategorie hat für seine Businesskunden einen besonderen Service eingeführt. Nun will man von den Top-Businesskunden wissen, ob der neue Service beim letzten Aufenthalt wahrgenommen wurde und wenn ja, wie er beurteilt wird. Da zu dieser Befragungszielgruppe nahezu vollständig Firmen-E-Mail-Adressen vorliegen (häufig office@..., info@..., sales@... etc.), entscheidet man sich für eine DIY-Online-Befragung. In der Einladungs-E-Mail wird gebeten, diese im Falle des Falles an die richtige Person, also den Hotelgast weiterzuleiten. Und es wird angekündigt, dass jede Person, die den Fragebogen ausfüllt, bei der nächsten Veranstaltung, die die Hotelkette für seine wichtigsten Kunden in ausgewählten Hotels im ganzen Land ausrichtet, zu einem besonderen Programmpunkt eingeladen wird. Die dazu notwendigen Kontaktdaten werden aus Gründen der Anonymität und des Datenschutzes unabhängig vom Fragebogen nach dem Ausfüllen in einem eigenen Kontaktformular erfasst.
Hinweise
- Hinweise zum „Einfach zum Nachdenken“ finden Sie im Download-Bereich.
- Weitere Beispiele zur Stichprobenverzerrung im Allgemeinen und zum Unit-Non-Response-Bias im Speziellen enthalten die Beiträge „Auswahl der Befragten. Offene Befragung“ sowie „Ergebniskommunikation. Titel als Aufmerksamkeitserreger“.
- Tipp: Angemeldete Nutzer finden zu den Stichprobenauswahlverfahren und zu den Bias im KE-Learning-Kurs Planung eines Marktforschungsprojekts weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema beim LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 21. 1. 2024.
Auswahl der Befragten
Offene Befragung
(Mit Video)
Sie trauen sich die Fragebogenerstellung und die Datenanalyse zu - wie kommen Sie nun aber zu den ausgefüllten Fragebögen? Haben Sie sich in diesem Zusammenhang nicht auch schon gedacht „Dazu nutze ich einfach meine Kanäle, dann wird schon eine ausreichende Anzahl an Fragebögen zusammenkommen“?
Mangelnde Repräsentativität
Nicht selten leidet die Aussagekraft der im Rahmen der Do-it-yourself-Marktforschung (DIY-Marktforschung) erhobenen Daten unter dem Umstand, dass der Stichprobenziehung viel zu wenig Aufmerksamkeit und Mühe gewidmet wird. Ist es doch am einfachsten, auf den Fragebogen (CAWI - computer assisted web interview) - je nach den vorhandenen Möglichkeiten - über die Homepage und/oder den Newsletter, E-Mails an verfügbare Kontaktadressen, Social-Media-Postings, Werbemittel etc. hinzuweisen. Oder persönliche Interviews (CAPI - computer assisted personal interview bzw. PAPI - paper and pencil interview) an leicht erreichbaren und frequenzstarken Stellen zu führen. Die Hauptsorge gilt dann in der Regel der Anzahl der erreichbaren Interviews, nicht aber der Struktur der Antwortenden. Solcherart gezogene willkürliche Stichproben (convenience samples) bilden die behauptete Grundgesamtheit sehr häufig nicht ab; es kommt zu systematischen Verzerrungen. Man denke nur an die vielzitierte „Blase“ innerhalb der man sich zum Beispiel auf Social Media bewegt.
Abgrenzung der Grundgesamtheit
Schrauben Sie also die Erwartungen nicht zu hoch. Wenn es an Zeit und/oder Geld mangelt, aus einer eigentlich gewünschten Grundgesamtheit eine repräsentative Stichprobe zu ziehen, dann ist die naheliegendste Konsequenz, eine realistisch abzubildende Grundgesamtheit zu definieren:
· Wenn Sie zu den Konsumenten einer bestimmten (Ihrer) Produktkategorie Aussagen treffen wollen, dann reicht es in der Regel nicht, die Besucher Ihrer Homepage zu befragen. In diesem Fall müsste die Grundgesamtheit wesentlich enger gefasst und auf die Homepage-Besucher eingeschränkt werden.
· Bilden die Personen, die Sie an ausgewählten Befragungsorten antreffen, einen repräsentativen Querschnitt über alle Personen einer Region? Wenn nein, dann macht es keinen Sinn, Letztere als Grundgesamtheit zu definieren.
· Ihre Follower auf Social Media repräsentieren ziemlich sicher nicht die Bevölkerung Ihres Landes. Ehrlicherweise müssen sich die Ergebnisse der Befragung dann auch auf die Grundgesamtheit Ihrer Follower beziehen und nicht etwa - als mangels Repräsentativität unzulässige Verallgemeinerung! - auf die „Österreicherinnen und Österreicher ab 18 Jahren“.
· Etc.
Einfach zum Nachdenken
Was gefällt Ihnen aus methodischer Sicht an der Stichprobenauswahl bei dem folgenden Beispiel einer DIY-Marktforschung nicht?
Ein für seine Zielgruppe auflagenstarkes, eher hochpreisiges deutsches Nachrichtenmagazin mit den Schwerpunkten Politik und Wirtschaft führt eine DIY-Leserbefragung durch. Dazu wird in den vier Ausgaben eines Monats ein ganzseitiges Inserat geschalten, das den Link zur Umfrage, auch als QR-Code, enthält. Die Ergebnisse sollen in weiterer Folge eine Artikelserie illustrieren.
Der Fragebogen wird mehrere tausend Male angeklickt und in einem höheren vierstelligen Bereich auch fertig ausgefüllt. Im Bemühen um eine repräsentative Stichprobe wird daraus eine quotierte Nettostichprobe gezogen, die hinsichtlich der Anteile der Kriterien Alter, Geschlecht, höchste abgeschlossene Schulbildung und Wohnsitz (Ost-/Westdeutschland) der Gesamtbevölkerung ab 18 Jahren entspricht und die die Basis für die Datenanalyse bildet.
Dementsprechend werden die Analyseergebnisse dann auch als für die deutsche Bevölkerung gültig berichtet; etwa in der Form „Drei Viertel der Deutschen lehnen die beschriebenen Maßnahmen ab“.
Hinweise
- Hinweise zum „Einfach zum Nachdenken“ finden Sie im Download-Bereich.
- Weitere Beispiele der unzulässigen Verallgemeinerung enthalten die Beiträge „Ergebniskommunikation. Unzulässige Verallgemeinerung“ und „Simpsons Paradoxon" (Ergebnisinterpretation). Zur Stichprobenverzerrung im Allgemeinen und zum Unit-Non-Response-Bias im Speziellen siehe auch die Beiträge „Auswahl der Befragten. Einladung über verfügbare E-Mail-Adressen“ sowie „Ergebniskommunikation. Titel als Aufmerksmankeitserreger“.
- Tipp: Angemeldete Nutzer finden zu den Stichprobenauswahlverfahren und zur Repräsentativität im KE-Learning-Kurs Planung eines Marktforschungsprojekts weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema bei unserem LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 22. 1. 2024.
Notwendiger Stichprobenumfang
„Data-driven decision making“ einzusetzen, also seine Entscheidungen datengestützt zu treffen, ist nach wie vor in vieler Munde – und das wird wohl auch so bleiben. Naturgemäß kann die Markt- und Meinungsforschung dazu wertvolle Beiträge liefern. Dabei lauern aber so manche Fallstricke. Dieser Beitrag greift eine Herausforderung heraus, an der gar nicht so wenige scheitern: Die Festlegung des notwendigen Stichprobenumfangs.
Eine Unternehmerin, Frau N., mit rund 15.000 Kunden pro Jahr beschäftigt sich intensiv mit der Reduktion des motorisierten Individualeinkaufsverkehrs. Ein paar Tage lang hat sie dazu in ihrem Geschäft eine Stricherlliste geführt und gesehen, dass 16,5 % ihrer Kunden mit öffentlichen Verkehrsmitteln zu ihr ins Geschäft kommen. Ihres Gefühls nach gibt es unter allen ihren Kunden zwei Gruppen, die sie mit bestimmten Maßnahmen unterschiedlich stark dazu motivieren könnte, bei ihren Einkäufen auf das Auto zu verzichten. Sie hat aber keine belastbaren Belege dafür, bei welcher Gruppe die Maßnahmen stärker wirken könnten. Um dazu valide Informationen zu bekommen plant sie eine größer angelegte Kundenbefragung. Ein Berater rät ihr: „Befragen Sie 1 % Ihrer Kunden, also 150!“ Ihr Mann dagegen sagt: „Ich habe gelernt, 50 pro Gruppe, also in Summe 100 Befragte, genügen.“ Unter anderem mit dieser Frage zum optimalen Stichprobenumfang hat sie sich dann an Kondeor gewendet.
Den ersten Teil der Antwort auf diese Frage kennen Sie wahrscheinlich schon:
„So einfach ist das nicht; es kommt darauf an."
Vorweg muss festgehalten werden, dass der notwendige Stichprobenumfang weder als fixer Anteil des Umfangs der Grundgesamtheit festgelegt werden kann noch als allgemeingültige Größe von Gruppen. Im vorliegenden Fall genügt es aber, wenn man sich Gedanken zu vier bzw. fünf Parametern macht:
- Als wie stark wird der Effekt der Maßnahmen eingeschätzt (kein Effekt, schwacher, mittlerer oder starker Effekt)? Gibt es vielleicht vergleichbare Situationen, zu denen eine Effektstärke publiziert wurde? Wenn das nicht der Fall ist, wird zu Beginn häufig von mittleren Effekten ausgegangen. Generell gilt: Je schwächer der Effekt ist, desto mehr Interviews braucht man, um ihn auch zu entdecken.
- Wie sicher will man sein, dass ein entdeckter Effekt nicht nur in der Stichprobe, sondern auch in der Grundgesamtheit vorliegt? Oder anders formuliert, dass es diesen Effekt tatsächlich gibt und er nicht zufällig bei der Befragung auftritt. Sehr häufig wird dazu eine Vertrauenswahrscheinlichkeit von 95 % festgelegt. Die Wahrscheinlichkeit für ein zufälliges, bei allen Kunden so gar nicht vorliegendes Ergebnis, die Irrtumswahrscheinlichkeit, sollte also kleiner als 5 % sein. Generell gilt: Je geringer diese Irrtumswahrscheinlichkeit sein soll, desto mehr Interviews braucht man.
- Welche Teststärke soll die Kundenbefragung aufweisen – wie sicher will man also sein, einen unter allen Kunden, also in der Grundgesamtheit, existierenden Effekt mit der Kundenbefragung auch erfassen zu können? Häufig findet man dazu Vorgaben von 80 % bis 95 %. Generell gilt: Je größer die angestrebte Teststärke ist, desto mehr Interviews braucht man.
- Sollen aus beiden Gruppen gleich viele Personen befragt werden oder nicht? Gleich viele Befragte pro Gruppe zeigen eine Verhältniszahl von 1; werden in einer Gruppe zum Beispiel doppelt so viele Personen befragt wie in der anderen, dann haben sie eine Verhältniszahl von 0,5 bzw. 2. Usw. Generell gilt: Je stärker sich die Anzahl der Interviews in den beiden Gruppen unterscheidet, desto mehr Interviews braucht man.
- Eventuell ist als weiterer Parameter darüber hinaus interessant, wie genau man denn das Ergebnis haben will. Eine Stichprobe bringt ja keinen genauen Wert als Ergebnis, sondern eine Bandbreite (das Konfidenzintervall), innerhalb der der Wert in der Grundgesamt mit der angenommenen Vertrauenswahrscheinlich liegen wird. Generell gilt: Je genauer das Ergebnis sein soll, desto mehr Interviews braucht man.
Was bedeutet das Wissen um diese Parameter nun für die Frau N. vorgeschlagene Stichprobe von 150 Befragten?
Bei einem mittleren Effekt, bei einer Irrtumswahrscheinlichkeit von 5 %, bei einer Teststärke von 95 %, bei gleich vielen Befragten in beiden Gruppen und bei einer Schwankungsbreite des erzielten Ergebnisses von ± 5 Prozent(punkten) sind 210 Interviews notwendig, also 105 pro Gruppe.
Insgesamt nur 150 Interviews anstelle der berechneten 210 zu machen, hätte beispielsweise zur Folge, dass die Wahrscheinlichkeit fälschlicherweise einen Effekt zu behaupten von 5 % auf 16 % steigt. Oder, dass die Teststärke, also die Wahrscheinlichkeit einen existierenden Effekt zu entdecken, von 95 % auf 86 % sinkt. Oder, dass ein mittlerer Effekt womöglich nicht mehr entdeckt werden kann und Frau N. dann fälschlicherweise davon ausgehen könnte, dass es gar keinen Effekt gibt. Oder Kombinationen davon. Und das Konfidenzintervall des erzielten Ergebnisses verbreitert sich von ± 5 Prozent(punkten) auf knapp ± 6 Prozent(punkte). Angenommen, es geben 20 % der Befragten an, mit öffentlichen Verkehrsmitteln einkaufen kommen zu wollen, wenn eine bestimmte Maßnahme gesetzt wird. Dann weiß man nur, dass dieser Wert zwischen 14 % und 26 % liegen wird. Das ist ganz schön ungenau und gilt noch dazu nur mit 95%iger Sicherheit.
Bei nur 100 Interviews wären die Auswirkungen dementsprechend noch gravierender.
Wenn Sie nun neugierig geworden sind und für Frau N. die Paramter bei einem Stichprobenumfang von 100 Befragten ausrechnen wollen oder wenn Sie den Stichprobenumfang für ein eigenes Projekt berechnen wollen, dann darf ich Ihnen das kostenlose Programm G*Power der Heinrich Heine Universität Düsseldorf ans Herz legen (für das angeführte Beispiel wählen Sie: Test family: t tests; Statistical test: Means: Differences between two independent means / two groups). Mit ein bisschen methodischem Vorwissen oder Unterstützung ist es so ganz leicht, den richtigen Stichprobenumfang zu ermitteln. Das sich daraus ergebende Konfidenzintervall kann dann sehr rasch und einfach mit einem Stichprobenrechner berechnet werden, zum Beispiel jenem vom Raosoft.
Hinweise
- Tipp: Angemeldete Nutzer finden zur Festlegung des Stichprobenumfangs im KE-Learning-Kurs Planung eines Marktforschungsprojekts weiterführende Informationen.
- Veröffentlicht am 13. 1. 2025.
Datenkontrolle/-bereinigung DIY-CAWI-Datensatz
Kennen Sie die Versuchung, einfach mal schnell einen Blick in die Daten zu werfen - insbesondere dann, wenn die Umfrageergebnisse die Grundlage für eine schon dringend zu treffende Entscheidung bilden sollen?
„Garbage in, garbage out“ (GIGO)
Ein großer Vorteil der Do-it-yourself-Marktforschung (DIY-Marktforschung) ist, dass Ihnen die Rohdaten einer Online-Befragung (CAWI - computer assisted web interview) sofort nach dem Abschluss der Datenerhebung - oder auch schon zwischendurch - zur Verfügung stehen. Die meisten Online-Umfrageprogramme bieten einfach handzuhabende Möglichkeiten des Datenexports, erlauben einen Blick auf die einzelnen ausgefüllten Fragebögen oder zeigen sogar Online-Dashboards mit den aktuell vorliegenden aggregierten, deskriptiven Ergebnissen. Da ist die Versuchung groß, sich nicht lange mit der zeitintensiven (!) Datenkontrolle sowie Datenbereinigung aufzuhalten und rasch mit ersten Ergebnissen aufzuwarten. Das ist aber keine gute Idee! Was, wenn jemandem beim Ausfüllen des Fragebogens ein offensichtlicher Fehler unterlaufen ist? Oder wenn der Datensatz gar komplette Fake- oder von künstlicher Intelligenz produzierte Fragebögen enthält (ja, das gibt es!)? Oder wenn beim Programmieren des Fragebogens etwas schiefgegangen ist? Oder wenn das Umfrageprogramm unterschiedliche Werte für fehlende Angaben abspeichert und natürlich auch mitexportiert?
Datenkontrolle und Datenbereinigung
An einer konzentrierten Datenkontrolle und -bereinigung führt also kein Weg vorbei. Nicht umsonst nennt man die Daten vor diesem Bearbeitungsschritt „Rohdaten“. Auf der Ebene der einzelnen erhobenen Informationen (Variablen) bekommen Sie mit Häufigkeitsauszählungen einen ersten Überblick über die Datenqualität. So sehen Sie gleich, ob hier eigentlich „unmögliche“ Einträge vorliegen. Diese können Sie dann als fehlende Werte (user-defined missing value) kennzeichnen oder aus dem Datensatz löschen (system missing value), damit sie bei der Analyse unberücksichtigt bleiben. Durch ein geschicktes Sortieren des Datensatzes und/oder durch entsprechende Analysen (zum Beispiel Kreuztabellen) können Fehler in der Programmierung (wenn zum Beispiel Einträge von Personen enthalten sind, die diese Frage gar nicht hätten bekommen sollen) oder unplausible Angaben sichtbar gemacht werden. Auch in diesen Fällen sollten die fehlerhaften Einträge aus der Analyse ausgeschlossen werden - im Extremfall sogar, indem ganze Fragebögen gelöscht werden.
Einfach zum Nachdenken
Was könnte eine Ursache für das folgende, bei der Ergebnissen der Datenanalyse einer DIY-Marktforschung zu beobachtende „Phänomen“ sein?
Ein Einzelhändler befragt 800 zufällig ausgewählte Kundinnen und Kunden online (CAWI) dazu, ob sie auch nach dem Auslaufen der Corona-Maßnahmen Interesse an seinem Click & Collect - Angebot haben. Eine Analyse zeigt, dass diejenigen, die angeben „Ja, das Angebot ist interessant für mich“, signifikant älter sind (77 Jahre) als jene, die ankreuzen „Nein, das Angebot ist für mich nicht interessant“ (49 Jahre). Das passt einerseits zu einer der für das Projekt zentralen Hypothesen des Einzelhändlers, dass die Interessenten älter sein könnten. Andererseits erscheint das Durchschnittsalter der Interessierten doch sehr hoch - es gibt ja auch die Hypothese, dass das Interesse mit der Internetkompetenz zusammenhängen könnte.
Nach einigem Überlegen, wie dieses auffällige Ergebnis in der Gestaltung des Click & Collect - Angebotes berücksichtigt werden könnte, werden doch noch weitere Analysen durchgeführt. Hier ist dann zu sehen, dass die Männer deutlich älter sind als die Frauen, dass eine Bildungsgruppe (die Maturanten) signifikant älter ist als die anderen, dass die Kunden der Filiale D signifikant älter sind als die der anderen Filialen usw.
Hinweise
- Hinweise zum „Einfach zum Nachdenken“ finden Sie im Download-Bereich.
- Tipp: Angemeldete Nutzer finden zur Datenkontrolle und -bereinigung im KE-Learning-Kurs Deskriptive Statistik weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema beim LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 10. 7. 2023.
Signifikanz, Effektstärke und Teststärke
Was es mit dem p-Wert auf sich hat
(Mit Video)
Statistische Signifikanztests spielen eine zentrale Rolle in der Datenanalyse, insbesondere wenn es darum geht, Entscheidungen auf der Basis von Hypothesen zu treffen. Doch wie interpretiert man einen p-Wert korrekt? Und wie hängen Effektstärke und Teststärke (Power) mit der Qualität von Entscheidungen zusammen?
Dieser Beitrag erklärt die Konzepte verständlich und zeigt anhand eines praktischen Beispiels aus der Automobilbranche, wie falsch interpretierte Testergebnisse zu suboptimalen Entscheidungen führen können.
Was ist ein Signifikanztest und wie funktioniert der p-Wert?
Ein Signifikanztest ist ein Verfahren, mit dem geprüft wird, ob ein beobachtetes Ergebnis durch Zufall zustande gekommen sein könnte oder ob es tatsächlich einen systematischen Effekt gibt. Die Grundlage dafür bildet das Hypothesenpaar:
- Nullhypothese (H₀): Es gibt keinen Effekt, keinen Zusammenhang oder Unterschied.
- Alternativhypothese (H₁): Es gibt einen Effekt, einen Zusammenhang oder Unterschied.
Der p-Wert ist ein zentraler Bestandteil des Signifikanztests. Er gibt an, wie wahrscheinlich es ist, unter der Annahme der Nullhypothese, das beobachtete Ergebnis zu erhalten. Ein niedriger p-Wert (z. B. p < 0,05) wird oft als Hinweis darauf genommen, dass die Nullhypothese verworfen werden kann. Wichtig: Der p-Wert ist keine direkte Wahrscheinlichkeit dafür, dass die Nullhypothese wahr oder falsch ist!
Ein häufiges Problem: Die strikte Grenze von p < 0,05
Viele Entscheider verwenden die Grenze von p < 0,05 als absoluten Maßstab für Signifikanz. Doch diese Praxis kann zu gravierenden Fehlinterpretationen führen, wie das folgende Beispiel zeigt:
Ein KFZ-Händler führt eine Kundenbefragung durch, um zu überprüfen, ob eine neu eingeführte Serviceleistung die Zufriedenheit der Kunden signifikant erhöht. Die Nullhypothese lautet: „Die neue Serviceleistung hat keinen Einfluss auf die Zufriedenheit.“
Die Analyse der erhobenen Daten ergibt einen p-Wert von 0,06 – knapp oberhalb der gängigen Signifikanzschwelle von 0,05. Der Unternehmer verwirft daraufhin die Alternativhypothese, dass die neue Serviceleistung einen Einfluss hat, und stoppt weitere Investitionen in diesen Service. Aber war das wirklich die richtige Entscheidung?
Warum der p-Wert allein nicht ausreicht
Der p-Wert ist nur ein Teil der Entscheidungsgrundlagen. Folgende Aspekte müssen ebenfalls berücksichtigt werden:
Die Effektstärke: Der p-Wert sagt nichts über die Größe des Effekts aus, sondern nur darüber, ob er statistisch nachweisbar ist. Es könnte sein, dass die neue Serviceleistung tatsächlich einen relevanten, aber kleinen Effekt hat, der aufgrund der Stichprobengröße nicht signifikant wurde.
Die Teststärke (Power): Die Power eines Tests gibt an, wie wahrscheinlich es ist, einen Effekt zu entdecken, wenn er tatsächlich existiert. Eine geringe Stichprobengröße reduziert die Power, was dazu führt, dass auch relevante Effekte übersehen werden können.
Der Kontext: Ist das Ergebnis im Lichte der den Hypothesen zugrundeliegenden Hypothesen überhaupt relevant?
Das praktische Beispiel aus der Automobilbranche
Stellen wir uns vor, der KFZ-Händler hat 50 Kunden befragt. Die Datenanalyse zeigt, dass die Kundenzufriedenheit durch die neue Serviceleistung gestiegen ist, mit einem p-Wert von 0,06. Die Effektstärke (z. B. Cohens d) wird als mittel eingeschätzt – der Effekt ist also potenziell praktisch relevant.
Hätte der Unternehmer anstelle eines strikten Schwellenwerts (p < 0,05) auch die Effektstärke und die Teststärke berücksichtigt, hätte er möglicherweise anders entschieden. Durch eine Vergrößerung der Stichprobe (z. B. auf 100 Kunden) wäre der p-Wert höchstwahrscheinlich unter die Signifikanzgrenze gefallen, und der Effekt hätte als statistisch signifikant gegolten.
Was bedeutet das für die Praxis, was hätte der Unternehmer besser machen können?
Dieses Beispiel zeigt: Entscheider sollten sich nicht allein auf den p-Wert verlassen. Stattdessen sollten sie ein ganzheitliches Bild betrachten, das folgende Aspekte berücksichtigt:
1. Den p-Wert. Wie gesagt, in der Regel geht man für signifikante Zusammenhänge oder Unterschiede von p < 0,05 aus. Bei der angeführten Kundenbefragung liegt er mit 0,06 knapp darüber.
2. Die Effektstärke: Sie gibt die praktische Bedeutung des Effekts an. Je nach Effektstärkenmaß gibt es verschiedene Grenzwerte für keinen, einen kleinen, mittleren oder großen Effekt. Ein kleiner p-Wert kann auch bei nicht nachweisbaren Effekten auftreten, z. B. bei sehr großen Stichproben. Bei der angeführten Kundenbefragung zeigt sich trotz der relativ geringen Stichprobengröße ein mittlerer Effekt.
2. Die Teststärke oder Power: Eine hohe Power reduziert die Wahrscheinlichkeit, dass echte Effekte übersehen werden (Beta-Fehler oder Fehler 2. Art). Mit einer größeren Stichprobe hätte der KFZ-Händler auch die Power seiner Analyse erhöhen können..
3. Der Kontext: Statistische Signifikanz ist nicht gleich praktische Relevanz. Ein Effekt kann für die Geschäftsziele relevant sein, auch wenn er knapp nicht signifikant ist. Statt nur auf den p-Wert zu achten, hätte der Unternehmer die praktische Relevanz der Steigerung der Zufriedenheit seiner Kunden in den Entscheidungsprozess einfließen lassen können.
Fazit
Der p-Wert ist ein nützliches Werkzeug, aber nur ein Teil der statistischen Analyse. Eine ganzheitliche Betrachtung, die Effektstärke, Power und den Kontext miteinbezieht, führt zu fundierteren Entscheidungen. In unserem Beispiel hätte der KFZ-Händler durch die Berücksichtigung dieser Aspekte den potenziell wertvollen Einfluss der neuen Serviceleistung erkannt und möglicherweise eine langfristige Verbesserung der Kundenzufriedenheit erzielt.
Hinweise
- Tipp: Angemeldete Nutzer finden zur Signifikanz, zur Effekt- und zur Teststärke im KE-Learning-Kurs Testen bivariater Hypothesen weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema beim LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 29. 12. 2024.
Einfache lineare Regression (Mit Podcast-Beitrag)
NotebookLM, die Podcast-KI von Google, hat aus dem Kapitel „Einfache lineare Regression“ des Marktforschungskurses Testen bivariater Hypothesen - das sind rund 1,5 Seiten in deutscher Sprache - den obenstehenden (Klick auf das Bild), etwas mehr als achtminütigen, englischsprachigen Podcast-Beitrag gemacht. Dabei wurden Inhalte ergänzt: Gelungene Beispiele, aber auch eine eigentlich nicht gewollte Erweiterung in Richtung der multiplen Regression. Und die Erklärungen zur Autokorrelation sowie zur grafischen Überprüfung der Homoskedastizität sind nicht ganz korrekt. Aber alles in allem: Hineinhören lohnt sich!
Hinweise
- Tipp: Angemeldete Nutzer finden zur einfachen linearen Regression im KE-Learning-Kurs Testen bivariater Hypothesen weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie auf LinkedIn mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 10. 10. 2024.
Simpsons Paradoxon Teil- vs. Gesamtergebnisse
Ist es Ihnen bei der Do-it-yourself-Marktforschung (DIY-Marktforschung) auch schon „passiert“, dass die Ergebnisse von Teilstichproben nicht zur Gesamtanalyse passen? Im Extremfall, dass sich die daraus zu ziehenden Schlussfolgerungen sogar widersprechen? Und haben Sie dann stundenlang - vergebens - nach dem Fehler in der Datenanalyse oder in den Daten gesucht?
Zum besseren Verständnis ein konkretes Beispiel dazu
Ein Autohersteller verkauft im Bundesland Salzburg und in den angrenzenden Regionen in Oberösterreich und Bayern einen elektrisch betriebenen Pick-up mit entweder geschlossener oder offener Ladefläche. Zu beiden Modellen gibt es gegen Aufpreis ein Zusatzpaket zur Ladegutsicherung und -überwachung. Bei den Analysen der Verkaufszahlen wird aus nachvollziehbaren Gründen zwischen Außergebirg und Innergebirg unterschieden (s. dazu die obige Tabelle).
Bei einer internen Schulung der Vertriebsmitarbeiter präsentiert die Leiterin der Abteilung Marketing und Vertrieb aktuelle Zahlen. Im Außergebirg und im Innergebirg wurden jeweils 5.000 Exemplare des Pick-ups verkauft (so ein Zufall, der uns das Kopfrechnen erleichtert!). Zur großen Überraschung der Marketingverantwortlichen hat im Innergebirg mit 68% ein deutlich größerer Anteil das Zusatzpaket gekauft als im Außergebirg mit nur 45%. Daher wurde für die Vertriebsmitarbeiter ein Gesprächsleitfaden entwickelt, der vorrangig Argumente für das Zusatzpaket im Einsatz des Pick-ups im städtischen bzw. im flacheren ländlichen Gebiet, also im Außergebirg, aufgreift.
Dann meldet sich der Produktmanager zu Wort und unterstellt der Abteilung Marketing und Vertrieb, einen Fehler bei der Datenanalyse gemacht zu haben. Seine Daten zeigen, dass zum geschlossenen Modell im Innergebirg nur 20% das Zusatzpaket gekauft haben, im Außergebirg aber 40%. Und zum offenen Modell haben im Innergebirg 80% das Zusatzpaket gekauft, im Außergebirg aber 90%. Bei beiden Modellen liegt der Anteil derjenigen mit gekauftem Zusatzpaket im Innergebirg also unter dem Anteil im Außergebirg; und nicht, wie von der Marketingverantwortlichen behauptet darüber! Dann kann sich seiner Meinung nach bei einer Gesamtbetrachtung das Verhältnis der Anteile doch nicht umdrehen. Daher machen für ihn die präsentierten Argumente für die Verkaufsgespräche keinen Sinn.
Des Rätsels Lösung: Simpsons Paradoxon
Simpsons Paradoxon ist ein bekanntes Phänomen in der Statistik, benannt nach dem britischen Statistiker Edward Hugh Simpson. Dabei kehrt sich ein in getrennten Gruppen zu beobachtender Trend um, wenn die Gruppen kombiniert werden. Dieses Paradoxon tritt relativ häufig auf und kann zu gravierenden Fehlinterpretationen führen, wenn es nicht erkannt wird.
Beim obigen Beispiel zeigen sich zwischen den Zielgruppen Außergebirg und Innergebirg stark unterschiedliche Modellpräferenzen: Im Außergebirg wird eher das geschlossene Modell gekauft, im Innergebirg eher das offene. Gleichzeitig gibt es je nach Modell eine stark unterschiedliche Bereitschaft, das Zusatzpaket zu kaufen: Beim Modell mit offener Ladefläche ist sie verständlicherweise stärker ausgeprägt. Daraus ergibt sich im Innergebirg ein großer Anteil des offenen Modells mit Zusatzpaket. Und damit kommt es zum beschriebenen Effekt, der dazu führt, dass sowohl die Marketingverantwortliche als auch der Produktmanager korrekte Zahlen präsentiert haben - auch, wenn sich dabei das Verhältnis der relativen Anteile in gegenteiliger Richtung darstellt. Als Konsequenz daraus wurde das Argumentarium für die Vertriebsmitarbeiter in der Folge zielgruppenspezifisch nach Modellen und nach Regionen gestaltet (Anm.: Bei einer 2x2-Matrix geht das noch ...).
Das Wissen um Simpsons Paradoxon unterstreicht die Wichtigkeit, die Daten immer im richtigen Kontext zu betrachten und zu analysieren. Durch das Aggregieren bzw. Disaggregieren von Daten ohne fachliche (hypothesengestützte) Begründung können irreführende Ergebnisse entstehen. Dass die Schlussfolgerungen dann nicht optimal passen, ist häufig eine Folge einer unzulässigen Spezifikation; also einer Übertragung von Gesamtergebnissen auf eine bestimmte Teilgruppe (Zielgruppe) davon - für die sie aber nicht unbedingt passen müssen. Genauso problematisch ist der gegenteilige Effekt der unzulässigen Verallgemeinerung (in diesem Fall bei der Ergebnisinterpretation); also einer Übertragung von Ergebnissen zu einer bestimmten Teilgruppe (Zielgruppe) auf die Gesamtmenge (zum Beispiel aller Kunden etc.) - für die sie aber auch in diesem Fall nicht unbedingt passen müssen.
Es ist daher unabdingbar, auch bei der DIY-Marktforschung mit den Grundlagen der Datenanalyse bzw. der Statistik vertraut zu sein, um solche Fallstricke und damit suboptimale Schlussfolgerungen zu vermeiden.
Einfach zum Nachdenken
Welche Entscheidung würden Sie in der im Folgenden beschriebenen Situation (ein klassisches Dilemma) treffen?
Ein Tourismusunternehmen steht vor der Entscheidung darüber, in welchen Herkunftsländern die zwei definierten Zielgruppen (Wanderer und Mountainbiker) angesprochen werden sollen. Ein zentrales Kriterium dafür bildet die Höhe der Ausgaben vor Ort. Dafür werden sowohl die Ausgaben der Wanderer nach Ländern absteigend sortiert als auch die Ausgaben der Mountainbiker und darüber hinaus die Ausgaben beider Gruppen gemeinsam. Durch das verfügbare Marketingbudget limitiert sollen so die Top-5-Herkunftsländer identifiziert und in der Folge bearbeitet werden.
Wie es der Zufall so will, steht sowohl bei den Wanderern als auch bei den Mountainbikern die Schweiz an fünfter Stelle, noch vor Italien, das bei beiden Gruppen den sechsten Platz einnimmt. Nach dieser getrennten Betrachtung der Zielgruppen sollte die Schweiz in die Marketingaktivitäten aufgenommen werden.
Aber: Fasst man beide Gruppen zusammen, dann liegt bei den durchschnittlichen Ausgaben der Wanderer und der Mountainbiker die Schweiz an sechster Stelle und Italien rückt an die fünfte Stelle vor. Damit würde Italien ein zu bearbeitender Markt sein und die Schweiz nicht.
Dieses Beispiel von Simsons Paradoxon führt unweigerlich zu der Frage: Was tun?
Mathematik
Und wenn Sie sich weniger aus der Sicht des Marketings und mehr aus der Sicht der Mathematik für dieses Beispiel interessieren: Entwickeln Sie (mit fiktiven, aber zueinander passenden Zahlen) eine Tabelle, die genau dieses Paradoxon zum Ausdruck bringt.
Hinweise
- Hinweise zum „Einfach zum Nachdenken“ finden Sie im Download-Bereich.
- Den Fehler der unzulässigen Verallgemeinerung gibt es auch bei der Datenerhebung (s. dazu den Beitrag „Auswahl der Befragten. Offene Befragung“) und bei der Ergebniskommunikation (s. dazu den Beitrag „Ergebniskommunikation. Unzulässige Verallgemeinerung“).
- Tipp: Angemeldete Nutzer finden zum Umgang mit Daten im KE-Learning-Kurs Deskriptive Statistik weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema beim LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 16. 9. 2023.
Ergebniskommunikation
Titel als Aufmerksamkeitserreger
(Mit Video)
Vielleicht haben Sie den folgenden Titel einer Presseaussendung eines App-Anbieters so oder so ähnlich vor kurzem auch gelesen: „80% der Pilgernden verwenden die App 概括“. Stark verwundert, aber interessiert (hier könnte sich ja ein potentieller Partner in der Erforschung der Pilgerströme anbieten) habe ich in der Aussendung weitergelesen. Und dabei hat sich sehr schnell Ernüchterung eingestellt.
Zitiert wird eine Umfrage, der zufolge 56% der Pilgernden aus Deutschland als Hilfe bei der Orientierung am Pilgerweg auf Apps zurückgreifen. Und 80% von ihnen nutzen die angesprochene App. Also müsste der Titel der Presseaussendung eigentlich lauten: „45% der deutschen Pilgernden verwenden die App 概括“. Und selbst das ist noch nicht korrekt, stellt der als Quelle herangezogene Bericht doch klar, dass die Stichprobe nicht repräsentativ ist: Geantwortet haben überdurchschnittlich viele sehr erfahrene Pilger (es liegt also eine Stichprobenverzerrung, ein Auswahlbias vor).
Unzulässige Verallgemeinerung
Der Fehler der unzulässigen Verallgemeinerung tritt in diesem Fall gleich doppelt auf. Erstens werden Ergebnisse einer Teilstichprobe (der sehr erfahrenen Pilger, die eine App verwenden) auf die Gesamtstichprobe (alle sehr erfahrenen Pilger) übertragen. Und zweitens werden Ergebnisse einer Stichprobe, die nur einen Teil der Grundgesamtheit abbildet (sehr erfahrene Pilger), für die Grundgesamtheit aller Pilger behauptet.
Tipp
Widerstehen Sie der Versuchung, im Bemühen um einen kurzen und möglichst spektakulären Titel seine inhaltliche Richtigkeit zu opfern.
Hinweise
- Weitere Beispiele der unzulässigen Verallgemeinerung finden Sie in den Beiträgen „Auswahl der Befragten. Offene Befragung“ und „Simpsons Paradoxon“ (Ergebnisinterpretation). Zur Stichprobenverzerrung im Allgemeinen und zum Unit-Non-Response-Bias im Speziellen siehe auch die Beiträge „Auswahl der Befragten. Einladung über verfügbare E-Mail-Adressen“ sowie „Auswahl der Befragten. Offene Befragung“.
- Tipp: Angemeldete Nutzer finden zur Ergebnisaufbereitung und Gestaltung von Berichten im KE-Learning-Kurs Berichtsgestaltung weiterführende Informationen.
- Interaktion: Ich freue mich sehr, wenn Sie zu diesem Thema beim LinkedIn-Beitrag mitdiskutieren und/oder wenn Sie den Podcast auf YouTube abonnieren!
- Veröffentlicht am 29. 8. 2023.