lab2/main.r


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74

#!/usr/bin/env Rscript

zip_income <- read.table("zipIncome.txt", header = TRUE, sep = "|")

names(zip_income) <- c("zipCode", "income")

head(zip_income)
tail(zip_income)

overall_mean <- mean(zip_income$income)
overall_median <- median(zip_income$income)

summary(zip_income)

cat("Mean income:", overall_mean, "\n")
cat("Median income:", overall_median, "\n")


dim(zip_income)
names(zip_income)

unique(zip_income$zipCode)

colSums(is.na(zip_income))

zip_income_clean <- na.omit(zip_income)

colSums(is.na(zip_income_clean))

zip_income$income[is.na(zip_income$income)] <- -100
zip_income$zipCode[is.na(zip_income$zipCode)] <- 99
write.table(zip_income,
     file = "zip_income_clean.txt", # output filename
     sep = "|", 
     row.names = FALSE
)

s1 <- c(seq(1, 10, by=1), seq(16, 25, by=1))

df <- data.frame(x = seq(1, 20), y = s1)

print(df)
plot(df)

model <- lm(y ~ x, data = df)
summary(model)

plot(df$x, df$y)
abline(model, col = "red")

plot(density(zip_income$income))

hist(zip_income$income)

library(lattice)
densityplot(zip_income$income)
densityplot(log(zip_income$income))

x <- rnorm(10)
y <- rnorm(10,2)

t.test(x, y)

# ----------------------------------

zip_income <- read.table("zipIncome.txt", header = TRUE, sep = "|")

names(zip_income) <- c("zipCode", "income")

model <- lm(income ~ factor(zipCode), data = zip_income)
summary(model)

plot(zip_income$zipCode, zip_income$income)
abline(model, col = "red")