您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

管理数量方法与分析第一章_数据分析2Appt

发布时间:2019-08-04 19:14 来源:未知 编辑:admin

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  139 2. 矩偏度系数 矩偏态系数---利用变量的矩来确定的测度变量分布偏斜程度的指标. 变量的矩有原点矩与中心矩. 原点矩 变量值的m次方的算术平均数称为变量的m阶原点矩,记为 中心矩 变量值与变量算术平均数的离差的m次方的算术平均数称为变量的m阶中心矩,记为 矩的计算方法 简单平均法 原点矩 中心矩 加权平均法 简单平均法 加权平均法 由中心矩的计算公式知 偶数阶中心矩非负,一阶中心矩=0,其余奇数阶的中心矩随变量分布的偏斜程度不同而不同.故用奇数阶的中心矩作为偏斜程度指标. 当变量分布右偏时,其三阶及以上的奇数阶的中心矩均大于0; 当变量分布左偏时,其三阶及以上的奇数阶的中心矩均小于0. 为了得到一个纯粹的反映变量分布偏斜程度的指标,常用三阶中心矩除以标准差的三次方,此时此量无量纲. 矩偏态系数的计算公式 当S3=0 ,即SKm =0时,变量分布呈对称分布; 当S30,即SKm 0时,变量分布呈右偏分布; 当S30,即SKb 0时,变量分布呈左偏分布; 矩偏态系数的绝对值越小,说明变量分布的偏斜程度就越小; 1.4.3 峰态的测度 峰度描述数据分布的扁平程度,是以标准状态分布为标准,描述数据分布曲线的顶端相对于正态分布顶端而言是平坦还是尖削的程度; 峰态是统计学家Pearson于1905年首次提出;用峰度系数的大小来衡量,用Ku表示. 统计中借助于四阶中心矩来测度峰度,此量是绝对量,无可比性.为了得到一个纯粹的反映变量分布陡峭程度的指标,常用四阶中心矩除以标准差的四次方,此时此量无量纲. 峰度系数的计算公式 可以证明 当Ku=3 时,变量分布为正态分布,故通常以峰度系数Ku=3为比较的标准; 当Ku3时,变量分布密度曲线比较尖峭; 当Ku3时,变量分布密度曲线 利用表中资料计算偏态系数与峰态系数,并指出电脑销售量分布偏斜程度与陡峭程度. 某电脑公司销售量偏态及峰度计算表 按销售量份组(台) 组中值(Mi) 频数 fi 140 ~ 150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~190 190 ~200 200 ~210 210 ~220 220 ~ 230 230 ~ 240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 4 5 -256000 -243000 -128000 -27000 0 17000 80000 216000 256000 625000 10240000 7290000 2560000 270000 0 170000 1600000 6480000 10240000 31250000 合计 — 120 540000 70100000 解 结论 偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数 结论 偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布. 按销售量分组(台) 结论:1. 为右偏分布 2. 峰态适中 140 150 210 某电脑公司销售量分布的直方图 190 200 180 160 170 频 数 (天) 25 20 15 10 5 30 220 230 240 例1.4.2 书P41 习题7 1.5 两个变量的相互关系 1.5.1 两变量间的关系 1.5.2 测度两变量相关程度的指标 (1) 函数关系 是一一对应的确定关系;设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称自变量,y 称为因变量.各观测点落在一条线上 ? ? ? ? ? ? ? ? ? x y 1.5.1 两变量间的关系 1. 两变量之间的关系 (2) 相关关系 变量间关系不能用函数关系精确表达;一个变量的取值不能由另一个变量唯一确定当变量 x 取某个值时,变量 y 的取值可能有几个各观测点分布在直线周围 . ? ? ? ? ? ? ? ? ? x y ? 相关关系的例子 父亲身高y与子女身高x之间的关系 收入水平y与受教育程度x之间的关系 粮食亩产量y与施肥量x1,降雨量x2,温度x3之间的关系 商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系 相关关系(类型) 散点图 ? ? ? ? ? ? ? ? ? ? ? ? 不相关 ? ? ? ? ? ? ? ? ? 负线性相关 ? ? ? ? ? ? ? ? ? 正线性相关 ? ? ? ? ? ? ? ? ? ? ? ? 非线性相关 ? ? ? ? ? ? ? 完全负线性相关 完全正线性相关 ? ? ? ? ? ? ? ? ? 两变量若是相关的,那么他们的相关程度如何度量?常用的度量指标主要是协方差与相关系数. 1.5.2 测度两变量相关程度的指标 1.协方差 协方差是两变量的所有取值与其算术平均数. 离差乘积的算术平均数.用来测定两变量之间相关关系的方向与密切程度. 根据所掌握的资料计算协方差可采将的算术平均法与加权算术平均法. 若变量(X,Y)的观测值为(xi,yi),出现次数fi,则具体计算公式 简单算术平均法 加权算术平均法 可以证明 协方差为正值,说明变量X与Y正相关,值越大,相关程度越高;协方差为负值,说明变量X与Y负相关,负值越大,相关程度越高. 说明 变量X与Y的协方差确实可以描述两变量之间的相关程度,但它与X、Y的计量单位有关,为了剔除 X、Y的计量单位的不同对度量相关程度的影响,引入相关系数. 2.相关系数 相关系数是两变量的协方差与它们标准差之积的比. 用来测定两变量之间相关关系的方向与密切程度的常用指标. 说明 对两个变量之间线性相关程度的度量称为简单相关系数; 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为?; 若是根据样本数据计算的,则称为样本相关系数,记为 r. 样本相关系数的计算公式 变形为 总体相关系数的计算公式 相关系数的取值及其意义 r 的取值范围是 [-1,1] r=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关 r = 0,不存在线,为正相关 r越趋于1表示关系越密切;r越趋于0表示关系越不密切 -1.0 +1.0 0 -0.5 +0.5 完全负相关 无线性相关 完全正相关 负相关程度增加 r 正相关程度增加 例4.3 书P39 例题1.19 谢谢 Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 管理数量方法与分析 第一章 数据分析的基础 1.1 数据分组与变量数列 1.2 分布中心的测度 1.3 离散程度的测度 1.4 偏度与峰度 1.5 两个变量之间的相关关系 1.3 离散程度的测度 1.3.1 离散程度测度的概念 1.3.2 离散程度的测度指标与计算方法 1.3.1 离散程度测度的概念 离散程度测度是变量次数分布的另一个重要特征,反映各变量值远离其分布中心的程度(离散程度). 从另一个侧面说明了分布中心测度值的代表程度. 说明 离散程度测度值越小,说明分布中心测度值对各变量值的代表程度就越高;即分布中心值与各个变量值的之间的差异就小 . 说明 离散程度的测度值,也可以用来描述变量分布曲线的形状;测度值越小,其分布取线越陡峭;反之,越平缓.密度曲线下方,横轴上方面积等于1. 测度变量值的离散程度的指标主要有极差、四份位差、平均差、方差、标准差、变异系数。 1.3.2 离散程度的测度指标 1. 极差 也称全距,变量所有取值中最大值和最小值的差,用来表示变量的变动范围. 用R表示. 既有 R = max - min (1) 单项式数列 R=最大一组变量值-最小一组变量值 (2) 组距数列 R=最大一组上限-最小一组下限 说明 是测度离散程度最简单、最粗略的测度指标,非常容易受极端值的影响,与中间变量值无关。 2. 四分位极差 也称内距,将变量值从小到大排序,再将其四等分,三个分点称为四分位点,分位点处相应的变量值称为四分位数,依次称为第一、第二、第三分位数,记为 Q1, Q2, Q3,称第一分位数与第三分位数差的绝对值为四分位极差,记为IQR= Q1- Q3 。 说明 不受极端值的影响,与中间50%的变量值有关,与左侧25%,右侧25%的变量值无关;但仍然存在不能完整地、准确地描述数据的分散程度。 Q1 Q2 Q3 25% 25% 25% 25% 例1.3.1 见书P27 例题1.16 3. 平均差 以平均数为标准,讨论各个变量值与平均数的离散程度. 平均差 各变量值与其算术平均值离差绝对值的算术平均数,记为AD 或Md. 平均差反映了变量各个取值离其算术平均数的平均距离. 平均差的意义非常明确,但由于计算时牵涉到绝对值.数学性质不好,故不常用. (1) 未分组数据 (2) 组距分组数据 平均差的计算公式 其中 xi —第i组的组中值 fi —第i组的频数 例1.3.2 见书P29 例题1.17 例1.3.3 续例1.3 利用电脑公司120天销售数据编制的分布数列.计算每天的平均销售量与平均差. 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140~150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~ 190 190 ~ 200 200 ~ 210 210 ~ 220 220 ~ 230 230 ~ 240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 4 5 40 30 20 10 0 10 20 30 40 50 160 270 320 270 0 170 200 240 160 250 合计 — 120 — 2040 平均销售量 含义 平均每天销售185台电脑,每一天的 销售量平均数相比,平均相差17台. 平均差 3. 方差与标准差 仍以平均数为标准,讨论各个变量值与平均数的离散程度.避免平均差中的绝对值引出. 方差 各变量值与其算术平均值离差平方的算术平均数,记为σ2. 最常用离散程度的测度指标. 标准差 各变量值与其算术平均值离差平方的算术平均数的算术平方根,记为σ. 最常用的离散程度的测度指标. 方差与标准差均是反映了各变量值与均值的平均差异. 根据所掌握资料的不同其计算公式不同,有简单平均法,加权平均法 未分组数据 组距分组数据 未分组数据 组距分组数据 方差的计算公式 标准差的计算公式 例1.3.4 计算下列两组学生成绩的方差与标准差: (1) 50,80,95,100,100;(2) 75,82,85,88,95; 解 计算两组学生的平均成绩 例1.3.5 见书P30 例题1.18 4. 变异系数 极差、四分位极差、平均差、方差、标准差用来比较同一属性(单位相同)的两组数据的离散程度,尤其是平均数相同的情况下,用方差、标准差说明数据的离散程度;但当平均数不相同,或不同单位不同属性的两组数据的离散程度可借变异系数来说明数据的离散程度. 平均差、方差与标准差均是衡量变量各个取值之间的绝对差异程度的指标,都具有一定的量纲.其大小即与变量值的差异程度有关,还与变量取值的水平即数量级有关. 变异系数 是衡量变量各个取值之间的相对差异程度的指标,不具有量纲. 变异系数消除了数据水平高低和计量单位的影响,用绝对差异指标除以算术平均数获得. 变异系数 各个衡量变量取值之间的绝对差异指标与算术平均数的比率. 变异系数主要有极差变异系数、平均差变异系数、标准差变异系数,具体计算公式 例1.3.6 某管理局抽查了所属的8家企业,其产品销售数据如表.试比较产品销售额与销售利润的离散程度. 某管理局所属8家企业的产品销售数据 企业编号 产品销售额(万元)x1 销售利润(万元)x2 1 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0 解 结论 计算结果表明,V1V2,说明产品销售额 的离散程度小于销售利润的离散程度 1.4 偏度与峰度 1.4.1 偏度与峰度的概念 1.4.2 偏度的测度 1.4.3 峰度的测度 偏态与峰态分布的形状 扁平分布 尖峰分布 偏态 峰态 左偏分布 右偏分布 与标准正态分布比较! 1.4.1偏度与峰度的概念 分布中心的测度值描述变量分布的中心“位置”;离散程度的测度值描述变量分布相对于中心位置的分散程度;然而变量分布是否关于中心位置的对称,偏斜的程度如何度量?变量分布图的平缓与陡峭程度如何度量? 描述变量分布的偏斜程度,即变量取值分布非对称的程度的指标—偏度;描述变量分布密度曲线顶部的平缓与陡峭程度的指标—峰度. 1.4.2 偏态的测度 偏态是指变量分布偏斜程度的,是统计学Pearson于1895年首次提出 ,用偏态系数来衡量偏斜程度,用SKp表示. 其方法主要有直观偏度系数测度法与矩偏度系数测度法. 当偏态系数SKp =0为对称分布;偏态系数SKp 0为右偏分布;偏态系数SKp 0为左偏分布. 1. 直观偏度系数 (1) 皮尔逊偏度系数 直观偏态系数---利用描述变量分布中心的不同指标之间的直观关系而确定的测度变量分布偏斜程度的指标.主要有皮尔逊偏度系数与鲍莱偏度系数. 皮尔逊测度法是利用算术平均数与众数的关系来测度变量分布的偏斜程度的方法.当算术平均数与众数的距离越远,说明变量分布偏斜的程度越大. 即用算术平均数与众数的离差来反映变量偏斜的程度,为了得到一个纯粹的反映变量分布偏斜程度的指标,除以标准差,此时此量无量纲. 皮尔逊偏态系数的计算公式 在偏斜程度适度的情况下, -3≦SKp≦3. 当均值等于众数,即SKp =0时,变量分布呈对称分布; 当均值大于众数,即SKp 0时,变量分布呈右偏分布; 当均值小于众数,即SKp 0时,变量分布呈左偏分布; 皮尔逊偏态系数的绝对值越小,说明变量分布的偏斜程度就越小。 (2) 鲍莱偏度系数 鲍莱测度法是利用中位数与四分位数的关系来测度变量分布的偏斜程度的方法.用中位数与第一(下)分位数Q1、第三(上)分位数Q3之间的距离来判断变量分布的偏斜程度. 即用Me- Q1= Me- Q1与Me- Q3= Q3-Me的大小来判断. 为了得到一个纯粹的反映变量分布偏斜程度的指标,除以Q3-Q1,此时此量无量纲. 鲍莱偏态系数的计算公式 在偏斜程度适度的情况下, -1≦SKb≦1. 当Me- Q1=Q3-Me,即SKb =0时,变量分布呈对称分布; 当(Me- Q1)(Q3-Me),即SKb 0时,变量分布呈右偏分布; 当(Me- Q1)(Q3-Me), 即SKb 0时,变量分布呈左偏分布; 皮尔逊偏态系数的绝对值越小,说明变量分布的偏斜程度就越小;皮尔逊偏态系数的绝对值越接近于1,偏斜程度越大. Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 139

  航空发动机燃气轮机总体性能仿真软件GasTurb Smooth C 8.3用户手册.pdf

  航空发动机燃气轮机总体性能仿真软件GasTurb Names手册.pdf

  航空发动机燃气轮机总体性能仿真软件GasTurb Details 6用户手册.pdf

  南开19春学期(1709、1803、1809、1903)《再保险》在线答案.doc

http://istighcomputing.com/shujupianxie/650.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有