R로 데이터 분석하기-02
by EunHye Jung
library(dplyr)
: 데이터를 원하는 형태로 가공할때 사용하는 라이브러리
변수명 바꾸기
df <- renmae(df, v = var) # var을 v로 수정
파생변수 만들기
파생변수 : 기존의 변수를 변형해 만든변수
df <- data.frame(var1 = c(4,3, 8),
var2 = c(2, 6, 1))
df$var_sum <- df$var1 + df$var2 # var_sum 파생변수 생성
df$var_mean <- (df$var1 + df$var2)/2 # var_mean 파생변수 생성
분석 실습
ggplot2
패키지에서 미국 동북중부 437개 지역의 인구통계 정보를 담은 midwest
라는 데이터가 있음.
1) ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러옴.
library(ggplot2)
library(dplyr)
midwest_raw <- as.data.frame(ggplot2::midwest)
midwest <- midwest_raw
2) poptotal(전체인구) 변수를 total로, popasian(아시아 인구) 변수를 asian으로 수정
midwest <- rename(midwest, total = poptotal)
midwest <- rename(midwest, asian = popasian)
3) total, asian 변수를 이용해 ‘전체 인구 대비 아시아 인구 백분율’ 파생변수를 만들고,
히스토그램을 만들어 도시들이 어떻게 분포하는지 파악.
midwest$ratio <- (midwest$asian / midwest$total) * 100
hist(midwest$ratio)
4) 아시아 인구 백분율 전체 평균을 구하고 평균을 초과하면 “large”, 그외에는 “small”을 부여하는 파생변수 생성
mean(midwest$ratio)
midwest$group < ifelse(midwest$ratio > 0.4872462, "large", "samll")
5) “large”와 “small”에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대 그래프 만들어서 확인.
```
table(miwest$group)
qplot(midwest$group)
```
Subscribe via RSS