Быстрый анализ в R

Анализ можно ограничить подмножеством субъектов, используя формат var[subset], например:

# Where var is your variable and subGroup is another variable.
mean(var[subGroup == 1])

Это находит среднее значение переменной 'var' для тех объектов, у которых переменная 'subGroup' равна 1. При указании условия включения ('subGroup==1') два знака равенства '==', меньше чем (‹ ) и аргументы больше (›).

Функцию tapply() также можно использовать для сводного анализа подмножеств данных. Он выводит средние значения, стандартные отклонения и n:

# tapply(dataframe, group, function)
# For example:
tapply(yourData, yourVar, mean)
tapply(yourData, yourVar, sd)
tapply(yourData, yourVar, length)

Другая функция, которая на этот раз создает фрейм данных, который затем позволяет проводить дальнейший анализ, — это subset().

newDataFrame <- subset(yourData, Group==2)
length(newDataFrame)
mean(newDataFrame$someVar)

Гистограмму можно развернуть довольно просто, используя

hist(yourData)

Чтобы выбрать конкретный столбец ваших данных, вы можете сделать следующее

hist(yourData$yourCol)
" For more control over your histogram (xlim limits the x axis to the specified values, las=1 rotates the values printed on y-axis by 90degrees and breaks=3 makes the bin-width 3:"
hist(yourData, 
     main="Title of the Histogram", 
     xlab="x-label", 
     border="red", 
     col="green",
     xlim=c(100,700),
     las=1, 
     breaks=3)
"To draw a normal curve and represent the standard deviation on your histogram you can use the following:"
m<-mean(data$var)
std<-sqrt(var(data$var))
hist(data$var, density=20, prob=TRUE,
main="Histogram with normal curve")
curve(dnorm(x, mean=m, sd=std), add=TRUE)

Быстрый анализ в R

Похожие вопросы