Ako analyzovať údaje prieskumu Pew Research Center v R

Pew Research Center zverejňuje údaje prieskumu verejne ako súbory IBM SPSS s príponou .sav. Ak však nemáte prístup k SPSS, sú k dispozícii bezplatné nástroje s otvoreným zdrojovým kódom na analýzu a využívanie údajov.

Aj pri základnom prístupe SPSS vyžaduje práca s údajmi z prieskumu ďalšie nástroje alebo techniky na správne zaobchádzanie s váhami prieskumu alebo inými zložitými prvkami návrhu prieskumu. Analýzy, ktoré nezohľadňujú tieto konštrukčné prvky, môžu viesť k skresleným výsledkom a nadhodnotiť presnosť odhadov alebo štatistických testov. Našťastie nástroje na správne vykonávanie týchto analýz sú na štatistickej softvérovej platforme R voľne k dispozícii.

Tento príspevok poskytuje rýchly návod, ako správne analyzovať údaje prieskumu Centra pomocou R. Toto je prvý z príležitostných sérií príspevkov zameraných na pomoc pri analýze súborov údajov prieskumu pomocou R.

Čo je R?

R je jazyk a prostredie pre štatistické výpočty a grafiku. R je k dispozícii ako slobodný softvér vo forme zdrojového kódu za podmienok GNU General Public License GNU General Public License. Kompiluje a beží na najrôznejších platformách UNIX a podobných systémoch (vrátane FreeBSD a Linux), Windows a MacOS. Ak sa chcete dozvedieť viac o R a ako ho stiahnuť, navštívte stránku r-project.org.

Analýza v tomto príspevku sa bude opierať o:
 - R
 - R Studio (editor s otvoreným zdrojovým kódom a rozhranie pracujúce v jazyku R)
 - Nasledujúce voľne dostupné balíčky R:
· Cudzí
· Prieskum
· Pletenec

Na inštaláciu týchto balíkov použite nasledujúci kód:

install.packages (c („cudzí“, „prieskum“, „pletený“))

Prístup k údajom výskumného centra Pew

Mnoho súborov prieskumov Pew Research Center je k dispozícii na stiahnutie na karte „Datasets“ na webovej stránke centra. Ak chcete získať ďalšie informácie o druhoch údajov, ktoré stredisko zverejňuje, ao tom, ako k nim získať prístup, prečítajte si tento blogový príspevok.

Takmer všetky údaje, ktoré sú k dispozícii na stiahnutie z centra, sú uložené ako súbory .sav SPSS. Súbory SPSS často obsahujú hodnoty aj štítky hodnôt - napríklad 1 pre republikána, 2 pre demokrata.

V tomto návode sa použijú údaje z politického prieskumu centra z apríla 2017, ktorý bol zameraný na témy vrátane názorov Američanov na národné inštitúcie a ich dôvery vo vládu.

Načítanie údajov z prieskumu do R

Prvým krokom k analýze údajov prieskumu v R je načítanie dátového súboru do vášho R prostredia. Keďže sa údaje ukladajú ako súbor .sav, budete chcieť použiť funkciu read.spss () z „cudzieho“ balíka R. Nižšie najprv načítame knižnice balíkov a potom načítame údaje do dátového rámca, ktorý budeme nazývať „apríl 17“. V predvolenom nastavení si read.spss () zachováva všetky štítky premenných a hodnôt pre údaje prieskumu, ale automaticky nevytvára dátový rámec, takže musíme parameter explicitne nastaviť. Tu použijeme to.data.frame = TRUE na načítanie súboru do nášho R prostredia ako data.frame.

 knižnica (cudzí)
 library (prieskum)
 knižnica (knitr)
 17. apríl <- read.spss ("Apr17 public.sav", #file cesta k množine údajov
                    to.data.frame = TRUE) # nastaví objekt na dátový rámec
## prekódovanie z CP1252

Ak spustíte tento kód, dostanete varovanie pre premenné, ktoré nemajú štítky pre každú kategóriu - napríklad vek. V týchto prípadoch read.spss () predvolene pridá tieto štítky. Ak hľadáte iné správanie, vyskúšajte možnosť add.undeclared.levels ().
 
 Väčšina premenných v súboroch údajov centra - napríklad pohlavie, rasa atď. - je kategorická. V R sa tieto druhy premenných nazývajú faktory. Pomocou funkcie table () môžete zistiť, ako sa distribuuje faktorová premenná takto:

tabuľka (Apr17 $ strana)
 ##
 ## Republikánsky demokrat
 ## 375 466
 ## Nezávislý Žiadna preferencia (VOL.)
 ## 616 28
 ## Iná strana (VOL.) Neviem / Odmietla (VOL.)
 ## 9 7

Nastavenie návrhu prieskumu

Ďalším krokom pri analýze údajov prieskumu je použitie funkcie svydesign z balíka „R“ prieskumu spoločnosti R na vytvorenie objektu návrhu prieskumu. Tento krok je dôležitý v tom, že sa v ňom výslovne uvádza návrh prieskumu, aby sa na odhad správne použili váhy prieskumu a ďalšie konštrukčné komponenty. Funkcia svydesign akceptuje mnoho rôznych foriem zložitých prieskumov. Ak sa chcete dozvedieť viac podrobností o funkcii, kliknite sem.

Vo väčšine prieskumov Pew Research Center, vrátane súboru údajov z apríla 2017 použitého v tomto návode, používatelia musia pri deklarovaní návrhu prieskumu uviesť tri položky:
 
 1. Identifikátory klastra s identifikátormi =. Takmer všetky prieskumy z centra zamerané na USA nemajú identifikátory klastrov. Pomocou vzorca ~ 0 označte, že tento prieskum nemá klastre.
 2. Súbor údajov prieskumu s údajmi
 3. Závažia prieskumu s váhami

Apr17_design = svydesign (
         ids = ~ 0, #formula označujúca, že neexistujú žiadne zoskupenia
         data = 17. apríl, # toto je súbor údajov
         weights = ~ weight) #this je premenná 'weight'
                            #od súboru údajov Apr17

Odhad frekvencií s váhami prieskumu

Po deklarovaní návrhu prieskumu môžete získať vážené odhady pomocou funkcie svymean (). Kľúčovými argumentmi svymean () sú vzorce identifikujúce premennú, o ktorú sa zaujímate, a objekt návrhu prieskumu.

Funkcia svymean () sa môže použiť na výpočet vážených prostriedkov, rozptylov, pomerov, súčtov a ďalších. Vrátená štatistika závisí od triedy premennej, na ktorú sa volá. Napríklad na odhad schválenia práce prezidenta Donalda Trumpa (q1 - faktorová premenná) použite nasledujúci kód:

svymean (~ q1, #variable odhadnúť
         design = Apr17_design #survey design object
                                #created with svydesign ()
         )
 ## znamená SE
 ## q1Schváliť 0,394008 0,0114
 ## q1Zamietnuť 0,542368 0,0147
 ## q1 Neviem / Odmietnuté (VOL.) 0,063624 0,0078

Ak sa chcete pozrieť na schválenie úlohy Trumpom medzi rôznymi podskupinami, môžete použiť funkciu svyby (), ktorá počíta štatistiku pre podskupiny množiny údajov. Funkciu svymean () možno použiť v spojení s funkciou svyby () na výpočet vážených odhadov na podmnožiny údajov určených inými premennými faktora. Funkcia kable () z balíka pletr zobrazuje štatistiku v tabuľkovej forme.

Napríklad na odhad prezidentského súhlasu medzi mužmi a ženami môžete použiť tento kód:

q1_by_sex = svyby (~ q1, #variable odhad)
                   ~ sex, #subgroup premenná
                   design = Apr17_design,
                   FUN = svymean, #function na použitie v každej podskupine
                   keep.names = FALSE # nezahŕňa riadkové mená
                                       # pre premennú podskupiny
      )
 
 knitr :: kable (q1_by_sex, číslice = 2)

Tento príspevok iba poškriaba povrch druhov analýz, ktoré môžete vykonať v R pomocou balíka prieskumu, ale dúfam, že vám stačí začať. V budúcnosti máme v pláne napísať ďalšie príspevky týkajúce sa analýzy a vizualizácie údajov z prieskumu s R. Ak máte otázky týkajúce sa tohto príspevku alebo ak existujú ďalšie veci s údajmi z prieskumu a R, ktoré chcete vedieť, ako to urobiť, dajte nám vedieť vedieť na adrese info@pewresearch.org.

Nick Hatley je výskumný analytik v Pew Research Center.