R로 데이터 분석하기-02

library(dplyr) : 데이터를 원하는 형태로 가공할때 사용하는 라이브러리

변수명 바꾸기

df <- renmae(df, v = var) # var을 v로 수정

파생변수 만들기
파생변수 : 기존의 변수를 변형해 만든변수

df <- data.frame(var1 = c(4,3, 8),
               var2 = c(2, 6, 1))

df$var_sum <- df$var1 + df$var2  # var_sum 파생변수 생성
df$var_mean <- (df$var1 + df$var2)/2 # var_mean 파생변수 생성

분석 실습

ggplot2 패키지에서 미국 동북중부 437개 지역의 인구통계 정보를 담은 midwest라는 데이터가 있음.

1) ggplot2의 midwest 데이터를 데이터 프레임 형태로 불러옴.

   library(ggplot2)
   library(dplyr)
   midwest_raw <- as.data.frame(ggplot2::midwest)
   midwest <- midwest_raw

2) poptotal(전체인구) 변수를 total로, popasian(아시아 인구) 변수를 asian으로 수정

   midwest <- rename(midwest, total = poptotal)
   midwest <- rename(midwest, asian = popasian)

3) total, asian 변수를 이용해 ‘전체 인구 대비 아시아 인구 백분율’ 파생변수를 만들고,
히스토그램을 만들어 도시들이 어떻게 분포하는지 파악.

   midwest$ratio <- (midwest$asian / midwest$total) * 100
   hist(midwest$ratio)

4) 아시아 인구 백분율 전체 평균을 구하고 평균을 초과하면 “large”, 그외에는 “small”을 부여하는 파생변수 생성

   mean(midwest$ratio)
   midwest$group < ifelse(midwest$ratio > 0.4872462, "large", "samll")

5) “large”와 “small”에 해당하는 지역이 얼마나 되는지 빈도표와 빈도 막대 그래프 만들어서 확인.

```    
table(miwest$group)
qplot(midwest$group)
```  

참조