如何统计描述三个样本量(数据分布特征的三个统计描述维度)

数据分布特征的三个统计描述维度

现在生活中到处都有数据，我们接触到的数据可以分为连续数据或离散数据。

连续型数据的取值范围是一个区间，可以在该区间中连续取值，即连续型数值可以是区间中的任一值，并且一般有度量单位。而离散型数据取值范围是有限个值或者一个数列构成的。

使用适当的数据集描述指标可以帮助我们探索隐藏在混乱数据背后的事实规律。描述数据集的三个维度是指数据的集中趋势描述、数据的离散程度描述和数据的分布形式描述。

1.算术平均数ArithmeticMean：如何统计和描述三个样本量？

所有值和除以值的数量。用于描述一组数据的平均数量。

计算公式：如何统计和描述三个样本量？

优缺点：如何统计和描述三个样本量？

算术平均值是能够充分利用现有信息的代表值，每个值尺寸的变化都会导致其变化。因此，它很容易受到极端值的影响，并掩盖数据的差异。

示例:2022年深圳在职员工月平均工资最近更新，达到9309元。这是算术平均值的实际应用。还是要保持进步，，努力成为先锋，而不是起重机的后部。

2.几何平均数GeometricMean：对每个值的连乘积开项数次方根。一般用于各阶段(环节)总成果的连乘积。

优缺点：受极端值影响的几何平均值小于平均值。但仅适用于具有等比或近似等比关系的数据。

示例:连续作业车间要求产品的平均次品率。产品的生产由三个环节组成。每个环节都会产生一定的次品。次品率依次为5%、2%、6%，寻求本产品的平均次品率。

由于每个环节依次发生，进入下一个环节需要完成上一个环节的合格产品，因此每个环节的次品率之间存在乘积关系。

根据上述结果，整个产品生产环节的平均次品率为3.91%。

3.中位数Median：数值从小到大依次排列，中间值为中位数。如果数值为奇数，则为中间位置的数值；如果数值为偶数，则为中间两个数的算术平均值。

优缺点：不受极端值的影响，通过部分信息的损失换取指标的稳定性。但对极值缺乏敏感性，当样本量为小时时时，中位数不稳定。

例子:毕业生少于两个offer，分别是A、B两个公司。A该部门的工资为A400元，B500元，C600元，丁20000元，B本部门工资1500元，自己1500元，庚2000元，辛8000元。A、B平均月薪为5375元，2675元。A、B公司月薪中位数550元，1750元可代表更多数据。

4.众数Mode：数据中最常见的值。如果两个或两个以上的值并列最多，则这些值是数据集的数量。如果所有值都出现相同的数量，则该数据集没有数量。

优缺点：可用于数值数据，也可用于非数值数据。数据量越性越强，不受极值影响。

示例:一家卖鞋的店铺，根据以往的消费数据，得出女鞋销售尺寸为37码，男鞋销售尺寸为42码，所以在店铺备货时，需要安排更多的女鞋37码和男鞋42码备货。

5.截尾均数TrimmedMean：数据排序后，按一定比例删除两端数据，只使用中间数据寻求平均值。如果截尾平均与原平均差异不大，则表示数据没有极端值，或者两端极端值的影响正好被抵消；如果截尾平均与原平均差异较大，则表示数据具有极端值，截尾平均可以更好地反映数据的集中趋势。

优缺点：算术平均容易受到极端值的影响，而截止平均是其改进，在一定程度上降低了极端值对平均值的影响。

例子：10名艺术比赛评委给出如下评分:47、56、74、42、83、75、69、71、76、69。如果去掉最高分83和最低分42，平均分为:

1.全距Range(极差):最大值和最小值的差异。对于同类型、同数量单位的数据，全距离越大，离散程度越大，反之亦然。

优缺点：全距易于理解，使用范围广泛，但不稳定，仅与最值有关，对全部数据的离散程度没有代表性。

例子：如果有两组数据，第一组数据的全距离R1=31-18=13，第二组数据的全距离R2=25-19=6。通过两组数据的全距离，我们可以观察到第二组数据的离散程度更大。

2.平均差MeanAbsoluteDeviation：是指每个数值与全体数值均值的差之和的平均数。以均值为标准，衡量数据的离散程度。

优缺点：相对于平均值的正负偏差将相互抵消。

例子：一组身高数据：170cm、172cm、168cm、165cm、178cm、175cm、180cm、176cm，求平均差：

3.方差Variance：是指每个数值与全体数值均值的差的平方之和除以数值个数。

解释：统计学中样本的平均差大多除以自由度（n-1），这意味着样本可以自由选择。当样本只剩下一个时，它不能自由选择，所以自由是n-1。

优缺点：克服了正负平均差的影响，但由于结果较差，数据的离散程度也被夸大，不利于数据的解释。例如，一组身高数据的方差是23.25平方米。

示例：同上身高数据示例，求方差：

4.标准差StandardDeviation：算术方根方差。反映数据集的偏差。当标准差较大时，表示大多数值与平均值之间存在较大差异，反之，表示这些值接近平均值。

优缺点：克服了方差夸大离散程度的问题。

示例：同上身高数据示例，标准差：

5.离散系数CoefficientOfVariation：标准差与平均值之比。值越大，离散度越大，反之亦然。

优缺点：分子的标准差和分母的平均差，在单位和原始数据单位一致，可以预约。因此，离散系数是一个无名数，没有单位，你可以跳过类似的东西来比较这个限制，并比较两组不同类似事物的数据。

示例:第一组身高数据均值170cm，标准差为5cm。第二组体重数据平均值50kg，标准差为2kg。问哪组数据更稳定。

根据现实意义，身高和体重是无法比拟的，但离散系数通过约定单位变为无名数，使两种数据的相对离散程度具有可比性。从上面的公式可以看出，身高数据的离散系数较小，因此身高数据更稳定。

6.百分位数Percentile：是位置指标，用Px表示。百分位数Px理论上，一组观察值分为两部分x%的观察值比他小，有（100-x）比他大%的观察值，经常使用四分位数:P25\\P50\\P75，样本值正好四等分，P25和P75中间观察值为50%。

优缺点：四分位间距排除了两侧极端值的影响，可以反映更多数据的离散程度。然而，它需要大量的样本才能稳定使用，尤其是两端的百分位数，大约20例会有价值。

例子：需要大量的数据，只说方法。从小到大排序数据，并计算相应的累计百分位。根据所需的百分位数。

1.偏度系数Skewness：是描述变量值分布形式对称性的统计量。

数学定义为：

当分布对称时，正负总偏差相等，偏差值为0；当分布不对称时，正负总偏差不相等，偏差值大于0或小于0。当偏差值大于0时，正偏差值大，正偏差或右偏差，长尾在右边；当偏差值小于0时，负偏差值大，负偏差或左偏差，长尾在左边。偏差绝对值表示数据分布形式的偏差程度。当偏差绝对值越大时，数据分布形式的偏差程度越大，反之亦然。

2.峰度系数CoefficientOfKurtosis：它是反映频数分布曲线顶部陡峭或扁平度的指标。

当数据分布与标准正态分布的陡度和缓度相同时，峰值等于0。峰值大于0表示数据分布形式比标准正态分布更陡，为峰值分布；峰值小于0表示数据分布形式比标准正态分布更慢，为平缓分布。如何统计和描述设计图片，包括图片、材料、海报、证书背景、源文件下的三个样本量PSD、PNG、JPG、AI、CDR等格式素材！

你可能还喜欢下面这些文章

西南政法大学毕业证图样本容量计算公式(西南政法大学毕业证照片)

描述样本的统计量(描述性分析基本统计量介绍)

清华大学毕业证图片样品标准差(清华大学证书照)

筛查人群验证样本量计算.

西南科技大学毕业证图样品标准差计算公式(西南技术学院毕业证)

毕业证样本网创作《如何统计描述三个样本量(数据分布特征的三个统计描述维度)》发布不易，请尊重! 转转请注明出处：https://www.czyyhgd.com/176902.html