如果出现了极大或极小的异常值,将会被排除在中心数据50%以外
因此使用迷你距可以剔除数据中异常值。全距,四分位距
箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度
但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢
我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定
各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大
方差和标准差就是这么一对儿用于表征数据变异程度的概念
方差方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值
标准差标准差为方差的开方标准分——表征了距离均值的标准差的个数
通过方差和标准差我们现在可以表征一组数据的数值的变异程度
那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢
标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时
我们可以把这些数值视为来自同一个标准的数据集,然后进行比较
标准分将把每一个数据集转化为通用的分布形态,进行比较
标准分还有个重要的作用它可以把正态分布变为标准正态分布
分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分