如何分析偏态分布资料用什么表示特征

我在论文表格中对正态分布的數据使用的均数±标准差,非正态数据使用的中位数和四分位数间距。但是导师说这样写很难看。(非正态数据的标准差都很大,如果使用…

对于成功的数据分析而言把握數据整体的性质是至关重要的,使用统计量来检查数据特征主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识別数据集整体上的一些重要性质对后续的数据分析,有很大的参考作用

用于描述数据的基本统计量主要分为三类,分别是中心趋势统計量、散布程度统计量和分布形状统计量

中心趋势统计量是指表示位置的统计量,直观地说给定一个属性,它的值大部分落在何处

均值(mean)又称算数平均数,描述数据去指导额平均位置数学表达式:均值 =  ∑x  /  n;

有时,一组数据中的每个值可以和一个权重Wi相关联权重反映的的是依附值的重要性或出现的频率,这种均值称作加权均值 =  ∑xw  /  n;

尽管均值是描述数据集中心趋势的最有用的统计量但是,它并非總是度量数据中心的最佳方法这是因为,均值对极端值(离群点)很敏感为了抵消少数极端值的影响,我们可以使用截尾均值截尾均值是指丢弃极端值后的均值。

对于倾斜(非对称)的数据能够更好地描述数据中心的统计量是中位数(median),中位数是有序数据值的中間值中位数可避免极端数据,代表这数据总体的中等情况例如:从小到大排序,总数是奇数取中间的数,总数是偶数取中间两个數的平均数。

众数(mode)是变量中出现频率最大的值通常用于对定性数据确定众数,例如:用户状态(正常欠费停机,申请停机拆机、消号),该变量的众数是“正常”这种情况是正常的。

2表示数据离散程度的统计量

度量数据离散程度的统计量主要是标准差和四分位极差。

(1)标准差(或方差)

标准差用于度量数据分布的离散程度低标准差意味着数据观测趋向于靠近均值,高标准差表示数据散步茬一个大的值域中

极差(range),也称作值域是一组数据中的最大值和最小值的差, range = Max - Min

百分位数(quantile)是把数据值按照从小到大的顺序排列,把数据分成100份中位数是数据的中间位置上的数据,第一个四分位数记作Q1是指第25个百分位上的数据,第三个四分位数记作(Q3)是指苐75个百分位上的数据。

四分位极差(IQR)= Q3 - Q1 IQR是指第一个四分位和第三个四分位之间的距离,它给出被数据的中间一半所覆盖的范围是表示數据离散程度的一个简单度量。

3表示分布形状的统计量

分布形状使用偏度系数和峰度系数来度量,

偏度是用于衡量数据分布对称性的统計量:通过对偏度系数的测量我们能够判定数据分布的不对称程度以及方向。

  • 对于正态分布(或严格对称分布)偏度等于0
  • 若偏度为负 则x均徝左侧的离散度比右侧强;
  • 若偏度为正, 则x均值左侧的离散度比右侧弱;

峰度是用于衡量数据分布陡峭或平滑的统计量通过对峰度系数嘚测量,我们能够判定数据分布相对于正态分布而言是更陡峭还是平缓

  • 当时间序列的曲线峰值比正态分布的高时,峰度大于3;
  • 当比正态汾布的低时峰度小于3。

偏度系数反映数据分布偏移中心位置的程度记为SK,则有 SK= (均值一中位数)/标准差偏度系数是描述分布偏离对称性程度的一个特征数。

正态分布的偏度为0偏度<0称分布具有负偏离(左偏态分布资料用什么表示),此时数据位于均值左边的位于右边的多有个尾巴拖到左边,说明左边有极端值偏度>0称分布具有正偏离(右偏态分布资料用什么表示)。偏度接近如于0 可认为分布对称。例洳:知道分布有可能在偏度上偏离正态分布则可用偏度来检验分布的正态性。偏度的绝对值数值越大表示其分布形态的偏斜程度越大

峰度系数(Kurtosis)用来度量数据在中心聚集程度,记为K描述总体中所有取值分布形态陡缓程度的统计量(与正态分布比较,,就是正态分布的峰頂)

例如:正态分布的峰度系数值是3,K>3的峰度系数说明观察量更集中有比正态分布更短的尾部;K<3的峰度系数说明观测量不那么集中,有仳正态分布更长的尾部

示例,本文使用vcd包中的Arthritis数据集来演示如何进行统计量分析:

其中变量Improved和Sex是因子类型ID和Age是数值类型。

集中趋势通過均值、中位数和众数来度量

均值是所有数据的平均值,使用mean()函数来计算向量的均值:

有时为了反映在均值中不同成分所占的权重,為数据中的每个元素X赋予一个权重Wi这样就得到了加权平均值,使用weighted.mean(x,w)来计算加权平均值

x为数据向量,w为权重向量x中每一个元素都对应wΦ的一个权重值。

根据Sex来设置权重(weight)男性的Age的权重为95%,女性的Age的权重为105%那么得到的加权平均值是:

如果数据中存在极端值或者数据昰偏态分布资料用什么表示分布的,那么均值就不能很好地度量数据的集中趋势为了消除少数极端值的影响,可以使用截断均值或者中位数来度量数据的集中趋势截断均值是指去掉极端值之后的平均值。

中位数是把一组观察值从小到大按顺序排列位于中间的那个数据。使用median(x)计算中位数

众数是指数据集中出现最频繁的值,众数常用于定性数据R没有标准的内置函数来计算众数,因此我们将创建一个鼡户自定义函数来计算数据集的众数。

该函数以向量作为输入以众数值作为输出。

衡量离中趋势的四个度量值:

  • 标准差:度量数据偏离均值的程度
  • 变异系数(CV):变异系数度量标准差相对于均值的离中趋势计算公式是:CV=标准差/均值
  • 四分位数间距(IQR)是上四分位数QU和下四汾位数QL之差,其间包含全部观察值的一般其值越大,说明数据的变异程度越大离中趋势越明显。

基础安装包中没有提供计算偏度和峰喥的函数用户可以自行添加:

为大家推荐一篇文章:,引用该文中的峰度影响实验的结论:

尾部或离群点对峰度影响为正向且影响程喥最大。而高概率区对峰度影响也为正向但是比较少;而山腰位置,中等概率区域则影响为负向

我要回帖

更多关于 偏态分布资料用什么表示 的文章

 

随机推荐