平均值,众数,中值和标准差

最近在使用Metrics测试服务器性能的时候,Histogram类型会统计下面的数据:

1
2
3
4
5
6
7
8
9
10
11
12
Message latency for eb810c24-8565-43ea-bc27-9a0b2c910ca4
count = 693831
min = 627
max = 735
mean = 633.06
stddev = 9.61
median = 631.00
75% <= 633.00
95% <= 640.00
98% <= 651.00
99% <= 670.00
99.9% <= 735.00

特地整理一下几个统计指标(平均值,众数,中值和标准差)的含义。

平均值 Mean

一般代表算术平均值。也就是:

比如

众数 mode

mode代表密度函数最大的点。
维基百科上的说明:Mode (statistics)。众数是一组数据中出现次数最多的那个数。

中值,median,也叫中位数

在一组排好序数据中,数据数量为奇数,则中值为中间的那个数。 如果数据数量为偶数,则中值为中间的那两个数值的平均值。
中值能揭示平均值掩盖的真相。 比如在某个国企中,如果最高领导层的工资极高,大部分职工工资比较低的情况下,中值则比较低。

看一组数据,比较一下均值,众数和中值的不同。

类型 描述 例子 结果
算术均值Arithmetic mean 数据和除以数据的数量: (1+2+2+3+4+7+9) / 7 4
中值Median 中间的那个值,把数据分成大小两半 1, 2, 2, 3, 4, 7, 9 3
众数Mode 频度最大的那个数 1, 2, 2, 3, 4, 7, 9 2

看一下下面的两种对数正态分布中三个值的情况。

标准差 stddev, Standard Deviation

也叫标准偏差,计算公式为:

其中均值为

在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。

标准计算公式:
假设有一组数值X1,X2,X3,......XN(皆为实数),其平均值(算术平均值)为μ,
标准差也被称为标准偏差,或者实验标准差,公式为

参考资料

  1. http://en.wikipedia.org/wiki/Mean
  2. http://en.wikipedia.org/wiki/Median
  3. http://en.wikipedia.org/wiki/Mode_%28statistics%29
  4. http://en.wikipedia.org/wiki/Standard_deviation
  5. https://www.ltcconline.net/greenl/courses/201/descstat/mean.htm