第一章·导论(摘自南财MOOC)
1.统计数据及其分类
1.1数据类型一
分类数据(变量):男女,国家等。以定类尺度衡量。
顺序数据(变量):优良及格,ABCD等。以定序尺度衡量。
数值型数据(变量):产品产量,零件尺寸等。有两种尺度衡量:定距尺度和定比尺度。区别是定距尺度有零点,而定比尺度中零点则意义不大。
(注:分类数据与顺序数据也被统称为品质数据或定性数据)
1.2数据类型二
- 时间序列数据:下表纵列
- 截面数据:下表横列
- 面板数据:下表纵横交错
年份 | 国民总收入 | 国内生产总值 |
---|---|---|
1952 | 67900 | 67900 |
1953 | 82400 | 82400 |
1954 | 85900 | 85900 |
1.3数据类型三
- 绝对数
- 相对数:绝对数一定有单位,相对数可能没有单位,常用相对数包括:结构相对数(以总体的总量作为比较标准),动态相对数(不同时期同类事物的水平作为比较标准),比较相对数(不同单位的同类现象对比得到的相对数),计划完成相对数(将计划完成数作为比较标准)。
- 平均数
1.4数据类型四(变量)
分类一:
- 离散型变量:企业数,产品数量等
- 连续型变量:年龄,温度,零件的尺寸误差等
分类二:
- 确定性变量:由确定性因素影响
- 随机变量:受各种不确定,偶然因素影响
2.总体,样本,参数与统计量
总体:包含所研究的全部个体(数据)的集合
样本:从总体中抽取的一部分元素的集合,抽取原则分为随机与非随机。
参数:描述总体特征的概括性数字度量,例如:总体平均数,总体标准差,总体比例等等。
统计量:描述样本特征的概括性数字度量,例如:样本平均数,样本标准差,样本比例等等。
详细关系见图1-2:
第二章·数据的搜集
1.数据的来源
1.1间接来源(二手数据)
概念:与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。(如各类统计年鉴,专业期刊,报纸等提供的资料,图书馆查询到的资料。)
特点:
- 搜集容易,采集成本低。
- 所用广泛。
- 搜集二手资料在研究中应优先考虑。
- 局限性:资料相关性不够,口径不一致,数据不准确,时效性不同。
1.2直接来源(一手资料)
- 调查数据:通过调查方法获得的数据,通常对社会现象而言,通常取自有限总体。
- 实验数据:通过实验方法获得的数据,通常对于自然现象而言,也被广泛运用到心理学,教育学,社会学,经济学,管理学等领域。
2.数据调查
2.1概率抽样与非概率抽样
概率抽样
概念:也称之为随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
特点:
- 抽样时是按照一定的概率以随机原则抽取样本。
- 每个单位被抽中的概率是已知的,或是可以被计算出。
- 当用样本对总体目标量进行估计的时候,要考虑到每个样本单位被抽中的概率。也就是说估计量不仅与样本单位的观测值有关,也与其入样概率有关。(例如研究彩票能能否中奖的概率)。
类型:
1.简单随机抽样:从包括总体N个单位的抽样框中随机地一个一个的抽取n个单位作为样本,每个单位的入样概率是相等。(例如:调查南京市家庭的收入情况)
优点:简单,直观,计量方便
局限性:①要求将包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易。
②抽出的单位很分散,给实施调查增加了困难。
③没有利用其他辅助信息以提高估计的效率。
2.分层抽样:将抽样单位按照某种特征或某种规则划分为不同的层,然后从不同的层中独立,随机地抽取样本。(例如:调查某学校大学生的身高,按不同年级进行分层,再各自抽样)
优点:①保证了样本中包括有各种特征的抽样单位,样本结构与总体结构比较相近,有效提高估计的精度。
②在一定条件下为组织实施调查提供了方便。
③既可以对总体参数进行估计,也可以对各层的目标量进行估计。
3.整群抽样:将总体中若干单位合并为组,这样的组称为群,抽样时直接抽取群,然后对选中群中的所有单位全部实施调查。(例如:调查南京市大学生的身高,理论上应该以南京全体大学生作为总体,但这会调查起来会很麻烦,这个时候采用整群抽样就会比较简单:在南京地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查)
优点:①抽样时只需要群的抽样框,而不必要求具有所有单位的抽样框,大大简化了编制抽样框的工作量。
②调查地点相对集中,节省调查费用,方便调查实施。
局限性:估计的精度较差,要得到与简单随机抽样相同的精度,需要增加基本调查单位。
4.等距抽样(系统抽样):将总体中的所有单位按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按照事先规定好的规则确定其他样本单位。
优点:操作简单,若有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
局限性:对估计量的方差的估计比较困难(了解即可)。
5.多阶段抽样:采用类似整群抽样的方法,首先抽取群,然后再进一步抽样,从选中的群中取若干个单位进行调查,即二阶段调查,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多。
优点:①保证样本相对集中,节约调查费用。
②不需要包含所有低阶段抽样单位的抽样框,同时由于实行了再抽样,使调查单位在更广泛的范围内展开。
③在较大规模的抽样调查中是经常被采用的方法。
非概率抽样
概念:指抽取样本是不是依据随机原则,二是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
类型:
1.方便抽样:由调查员依据方便原则,自行确定入抽样本的单位。(例如:厂家在出售产品的柜台前对路过的顾客进行调查,这个时候如果选择在养老院进行调查,就显得可笑了。)
优点:容易实施,调查成本低。
局限性:样本单位的确定带有随意性。
2.判断抽样:研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有:重点抽样,典型抽样,代表抽样等方式。
- 重点抽样:从调查对象的全部单位中选择少数重点单位,对其实施调查
- 典型抽样:从整体中选择若干个典型的单位进行深入调研,目的是通过典型单位来描述或解释所研究问题的本质。
- 代表抽样:通过分析选择具有代表性的单位作为样本,在某种程度上也具有典型抽样的含义。
(上面三种其实差不多,判断题中出现“选xx作为重点/典型/代表”,会判断属于判断抽样就行就行)
优点:成本较低,容易操作
局限性:主观性强,样本的好坏取决于调研者的判断、经验、专业程度和创造性,且调查结果不能用于对总体有关参数的估计
3.自愿抽样:被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息,可反映某类人群的一般看法(例如一些书籍的末页,一般都会有相关的小问卷)
4.滚雪球抽样:往往用于对稀少的群体的调查,适合对特定群体进行研究的资源调查。在滚雪球调研中,首先选择一组调查对象,对其实施调查之后,在请他们提供另外一些属于研究总体的调查对象,掉哈人员根据所提供的线索,进行此后的调查,这个过程持续下去,就会形成滚雪球效应。
优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。
5.配额抽样:类似概率抽样中的分层抽样,首先将总体中所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式(非概率抽样)选取样本单位。
优点:操作简单,而且可以保证总体中不同类别的单位都能包括在所抽样本之中,使得样本结构和总体结构类似。
小结(概率抽样与非概率抽样的比较):
①概率抽样遵循随机原则,对估计的精度要求较高。非概率则不遵循随机原则,无法使用样本的结果对总体相应的参数进行推断。
②概率抽样技术含量较高,要求有较高统计学专业知识,非概率抽样则不需要。
③概率抽样用来进行参数及区间估计,非概率抽样用于探索性研究,为更深入的数量分析提供准备
④概率抽样比非概率抽样成本高。
2.2搜集数据的基本方法
1.自填式:指在没有调查员协助的情况下由被调查者自己填写完成的问卷
优点:管理相对简单;成本低;可以进行大范围的调查;作答时间方便;同时可以避免被调查者回答敏感性问题的压力。
局限性:问卷回收率比较低,不适合结构复杂的问卷。调查周期比较长;数据搜集过程中出现的问题难于及时采取调改措施。
2.面访式:指现场调查员与被调查者面对面,调查员提问。被调查者回答这种调查方式。
优点:调查的回答率高;调查数据质量高;能对数据搜集进展的速度进行调节。
弱点:是对调查的成本较高;在对调查过程的质量控制方面有一定难度;敏感性问题回答的可能性较小
3.电话式:是指调查人员通过打电话的方式向被调查者实施调查。
优点:速度快,数据收集成本小,适合于样本单位十分分散的情况。
局限性:如果被调查者没有电话,调查将无法实施(相对较少);访问时间不能太长(电话费也是钱啊);使用的问卷需要比较简单;被访者不愿意接受调查时难以说服。
4.观察式:调查人员通过直接观察的方法获取信息。
以上三种主要搜集数据方法的特点比较如下图:
2.3实验数据
实验数据指在实验中控制实验对象而搜集到的数据。
2.4数据的误差
抽样误差
概念:由抽样的随机性引起,要注意抽样误差不是针对某个具体样本检测结果与总体真实结果的差异,抽样误差描述的是所有样本可能的结果与总体针织之间的平均差异。(比如你在一批零件中挑一个,看有没有达标,这不叫抽样误差,抽样误差是指比如你在一批零件中每次挑100个零件,每组的100个零件中的达标率与所有零件的达标率都会有差异,这些差异的平均差异才是由抽样误差引起的)
影响因素:
- 样本量大小:样本量越大,误差越小;样本量大到等于总体单位时,抽样调查变为普查,抽样误差为零。
- 总体变异性:总体变异性越大(即各单位之间的差异越大),抽样误差越大;如果所有单位完全一样,调查一个就可以精确无误的推断总体,抽样误差就不存在。
- 抽样方法:一般而言不重复抽样的误差小于重复抽样的误差。
- 抽样的组织方式:一般而言分层抽样误差最小,整群抽样误差最大。(不是方便抽样,因为方便抽样是非概率抽样,不属于抽样误差考虑的范围)
非抽样误差
相对于抽样误差而言,是除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
主要类型:
1.抽样框误差:由于抽样框不完善造成(例如统计小区人员姓名,假设这个小区在建成的时候有一份业主名单,现在10年过去了,因为种种原因导致业主的变动,此时的这份名单作为抽样框就是不完善的)
2.回答误差:被调查者在接受调查时给出的回答与真实情况不符,具体包括:
理解误差
记忆误差
有意识误差
3.无回答误差:被调查者拒绝接受调查。无回答误差可以是随机性的也可以是系统性的。
- 当无回答误差是随机性的时候,可以通过增大样本量的方式解决(你不想接受统计调查我们可以多问问别人嘛)
- 当无回答误差是系统性的时候,一方面是预防,即在调查之前做好各方面的准备工作。另一方面,当无回答误差出现后,分析原因,采取补救措施。(例如考虑问卷的题目设置是否得当,事先通知被访问者,加强与被访问者的沟通,给予适当的物质奖励,多次访问等)
(注:抽样误差只存在于概率抽样中,但是非抽样误差不只存在于非概率抽样中)
4.调查员误差
5.测量误差
误差的控制
- 抽样误差:由抽样的随机性带来,只要采用概率抽样,抽样误差就不可避免。但抽样误差是可以计算的。主要的控制方法是增加样本量。
- 非抽样误差:与样本的随机性无关,引起的原因比较多,控制起来也比较困难。主要的控制方法有:加强调查员的挑选与培训,对调查结果进行检验评估等。
3.本章知识框架
第三章:数据的图表展示
1.数据的预处理
包括以下内容
1.数据审查:检查数据中的错误
2.数据筛选:找出符合条件的数据
3.数据排序:
- 升序和降序
- 寻找数据的基本特征
- 排序之后的数据称之为:顺序统计量
- (还有助于数据检查纠错)
4.数据透视:按需要汇总
2.品质数据的整理与显示
2.1分类数据的整理和图示
几个常见概念如下:
- 频数:落在某一特定类别或组中的数据个数。
- 比例:也称构成比,是一个样本或总体中各个部分的数据与全部数据之比,通常用于反映样本或总体的构成或结构。
- 百分比:将比例乘以100得到的数值,用%表示。
- 比率:样本或总体中不同类别的数据之间的比值,该比值可能大于1。
几种常见图示如下:
1.条形图(柱形图/柱状图):
比较常见,直接上图。
2.帕累托图:
左侧纵轴给出频数,右侧纵轴给出累计百分比。
3.饼图:
圆心角的计算按各部分百分比乘以360°决定
还有一种复式饼图,需要与环形图进行区分:
4.环形图:
与饼图类似,但饼图只能显示一个总体各部分所占比例,环形图则可以同时绘制多个样本或总体的数据系列为一个环,用于展示分类和顺序数据。
2.2顺序数据的整理和图示
几个常见概念如下:
- 累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
- 向上累积:从类别顺序的开始一方向类别顺序的最后一方累加频数;数值型分组数据则是从变量值小的一方向变量值大的一方累加频数。
- 向下累积:向上累积的反向操作
几种常见图示如下:
1.频数分布表
2.累积分布图
3.数值型数据的整理与显示
3.1数据分组
单变量值分组
把每个变量值作为一组,该方法只适用于变量值较少的离散型变量。
组距分组
- 将变量值划分成一个个区间作为一组
- 适合于连续变量
- 适用于变量值较多的情况
- 需要遵循“不重不漏”的原则(上限不在内)
- 可采取等距,也可采取不等距分组
具体操作:
第一步:确定组数(一般来说组数不少于5组且不多于15组)
第二步:确定各组组距(组距=(最大值-最小值)/组数)
第三步:根据分组数据整理成频数分布表(如下图)
几个概念:
- 下限:一个组的最小值
- 上限:一个组的最大值
- 组距:上限与下限之差
- 组中值:下限与上限之间的中点值
3.2分组数据的图表
直方图
注意:直方图中的横轴与纵轴均有数值意义,因此直方图中面积表示频数分布,而上文提到的条形图则用长度表示频数分布(因为其横轴没有数值意义)。直方图虽然能很好的显示数据的分布,但不能保留原始的数值
3.3未分组数据的图表
1.茎叶图
通过茎叶图可以看出数据的分布形状及数据的离散情况,同时保留了原始数据的信息
2.箱线图
由一组数据的最大值,最小值,中位数,两个四分位数这五个特征值绘制而成。
通过箱线图的形状可以看出数据分布的特征:
下面给出例子:
上图的○4表示这是4号学生在计算机应用基础课程中的最高分,属于离群点,一般不计入箱线图中
上图的●经济数学表示这是11号学生8门课程成绩的考试最低分,属于离群点,一般不计入箱线图中
3.4时间序列数据:线图
3.5多变量数据的图表
1.散点图
用于表示两个变量之间的关系,横坐标代表变量x,纵坐标代表变量y。
2.气泡图
用于表示三个变量之间的关系,横坐标代表变量x,纵坐标代表变量y,气泡面积代表变量z。
3.雷达图(蜘蛛图)
用于表示多个变量之间的关系。
3.6本节主要图表
4.合理使用图表
4.1鉴别图形优劣的准则
好图表的基本特征:(背一下)
- 显示数据
- 让读者的注意力集中到图表而不是制作图形的程序上
- 避免歪曲
- 强调数据之间的比较
- 服务于一个明确的目的
- 有对图形的统计描述和文字说明
鉴别图表优劣的准则:
- 应当精心设计,有助于洞察问题的实质
- 是复杂的观点得到简介,确切,高效的阐述
- 在最短的时间以最少的笔墨给读者提供最大量的信息
- 应当是多维的
- 应当表述数据的真实情况
统计表的组成部分:
表头,行标题,列标题,数据资料
设计和使用统计表时要注意:
- 合理安排统计表的结构,比如行标题、列标题、数据资料的位置应合理安排。
- 表头应包括标号、总标题和表中数据的单位等内容。总标题应简明确切的概括出统计表的内容,一般需要说明统计数据的时间(When)、地点(Where)、以及何种数据(What),即标题内容满足3W要求。
例:2002~2003年|城镇居民家庭|抽样调查资料
好表分享:
5.本章知识框架
第四章·数据的概括性度量
1.集中趋势的度量
集中趋势:一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在。
1.1分类数据:众数(M0)
概念:
一组数据中出现次数最多的变量值,用 M0 表示(注意:众数不是一个数字,而是一个变量值,例如在统计消费者喜欢的饮料这一调查中,选择“碳酸饮料”的人最多,为15人,那么众数应该是“碳酸饮料,即M0=碳酸饮料,而不是15)。主要用于分类数据,也适用于顺序数据和数值型数据。在数据量较大的情况下,众数才有意义。
性质:
众数不受数据中极端值的影响,可能不存在,也可能有两个(双众数)或多个众数。
1.2顺序数据:中位数(Me)和分位数(QL/QU)
中位数
概念:
一组数据排序后处于中间位置上的变量值用 Me表示。中位数主要用于测度顺序数据的集中趋势,也适用于数值型数据,不适用于分类数据。
性质:
中位数不受数据中极端值的影响,中位数位置的确定公式为:
中位数位置=(n+1)/2
在分组数据中,中位数有以下计算公式,理解了这个以后,下面在分组数据的情况下计算四分位数的公式也就不再给出(将总次数的分母换为4即可):
分位数
四分位数:一组数据排序后处于25%(下四分位数(QL))和75%(上四分位数(QU))
计算例题:
1.3数值型数据:平均数(X)
概念:
也被称为均值,主要适用于数值型数据,不适用于分类和顺序数据。
简单平均数:
总和除以总数即可。
加权平均数:
根据分组数据计算的平均数称之为加权平均数。频数乘以各组中值,相加,除以总数即可。
例如:
几何平均数:
对于比率数据(例如增长率等),采用几何平均比算术平均要合理。主要用于计算平均增长率。
公式如下:
1.5三数的关系
数据是对称分布:M0 = Me = x
数据是左偏分布(存在害群之马把曲线整体向左拉):M0 > Me > x
数据是右偏分布(存在强者把曲线整体向右拉):M0 < Me < x
小结:中位数永远在中间,众数永远在顶点,偏态决定三数大小。
2.离散程度的度量
2.1分类数据:异众比率(Vr)
概念:
非众数组的频数占总频数的比率,用 Vr 表示。异众比率适合测度分类数据的离散程度,也可以计算顺序数据以及数值型数据的异众比率。
性质:
异众比率越大,众数的代表性越差。
异众比率越小,众数的代表性越好。
2.2顺序数据:四分位差(Qd)
概念:
上四分位数与下四分位数之差,用 Qd 表示。主要用于测度顺序数据的离散程度,也可以计算数值型数据的离散程度,但不适合分类数据。
公式为:Qd=QU-QL
性质:
反映了中间50%的数据的离散程度。
四分位差越小,说明中间的数据越集中。
四分位差越大,说明中间的数据越分散。
2.3数值型数据:方差和标准差
1.极差:
数据中最大值与最小值的差,用R表示。
2.平均差:
概念
各变量值与其平均数离差绝对值的平均数,用 Md 表示。
未分组数据计算平均差的公式为:
(Mi 为组中值,fi 为频数)
性质:
平均差越大,说明数据的离散程度越大
平均差越小,说明数据的离散程度越小。
3.方差(S2)和标准差(S):
概念:
方差:各变量值与其平均数离差平方的平均数,没有量纲。
标准差:方差的算术平方根,有量纲,与变量值的计量单位相同。
同样的,对于分组数据和未分组数据,都有对应的公式:
其中的 n-1
被称之为自由度。
(自由度就是变量中可以自由变动的个数,我们可以看到在方差和标准差的计算中引入了平均值这个量,平均值既然是确定的,那么当前 n-1
个变量自由确定了以后,最后一个变量为了满足平均值的限制将无法自由确定,因此方差和标准差的自由度为 n-1
。例如:样本中有4个数,平均数是5,其中3个数已经给出是:2,3,5,那最后一个数只能是10。也就是自由度为n-1=4-1=3)
2.4相对位置的度量
标准分数(Z分数)
概念:
变量值与其平均数的离差除以标准差后的值,也被称为Z分数。通过它可以测度每个数据在样本中的相对位置,也可以判断样本中是否有离群数据。
性质:
标准分数的平均数为0,标准差为1。
简单举例如下:
经验法则
当一组数据对称分布的时候,经验法则表明:
- 约有68%的数据在平均数±1个标准差的范围之内。
- 约有95%的数据在平均数±2个标准差的范围之内。
- 约有99%的数据在平均数±3个标准差的范围之内。
- 在±3个标准差之外的数据,称之为离群点。
再次强调:标准差有单位
切比雪夫不等式
对于任何分布形状都适用,它提供的是“下界”,也就是“所占比例至少是多少”。
根据切比雪夫不等式,至少有(1-1/k2) 的数据落在±k个标准差之内(其中k是大于1的任意值,不一定是整数)
对于k=2,3,4,该不等式的含义是:
- 至少有75%的数据在平均数±2个标准差的范围之内。
- 至少有89%的数据在平均数±3个标准差的范围之内。
- 至少有94%的数据在平均数±4个标准差的范围之内。
2.5相对离散程度:离散系数(VS)
概念:
标准差与其平均数之比,用 VS 表示。主要用于比较不同样本数据的离散程度。
公式:
VS = s/x
性质:
离散系数越大,说明数据的离散程度越大。
离散系数越小,说明数据的离散程度越小。
例题如下:
这说明该产品的在这8加企业的销售额更稳定,而利润相对不稳定。
2.6本节知识归纳
集中趋势 | 离散程度 | |
---|---|---|
分类数据 | 众数(M0) | 异众比率(Vr) |
顺序数据 | 分位数(Me、QL、QU) | 四分位差(Qd) |
数值型数据 | 平均数(X) | 极差(R)、平均差(Md)、方差(S2)、标准差(S)、标准系数(Z分数)与离散系数(Vs) |
3.偏态和峰态的度量
3.1偏态及其测度
偏态
概念:
对数据分布对称性的测度,测度偏态的统计量是偏态系数,记为SK。
从幅度的角度分析:
SK=0:对称分布
|SK|>1:高度偏态分布
0.5<|SK|<1:中等偏态分布
SK越接近0,偏斜程度就越低
SK越大,偏斜程度越大
从正负的角度分析:
SK>0:正偏,或称之为右偏
SK<0:负偏,或称之为左偏
未分组计算公式:
分组计算公式:
峰态
概念:
对数据分布平峰或尖峰程度的测度,测度峰态的统计量是峰态系数,记为K。
性质:
K=0:标准正态分布
K>0:尖峰分布
K<0:扁平分布
未分组计算公式:
分组计算公式:
第十三章·时间序列分析及预测
1.时间序列及其分解原理
1.1概念
时间序列:同一现象在不同时间上的相继观察值排列而成的数列。通常用t表示所观察的时间,Y表示观察值。
1.2分类
平稳序列
基本不存在趋势的序列,各观察值基本在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的。
非平稳序列
包含趋势,季节性或周期性的序列,可能只含有一种成分,也可能是几种成分的组合。可分为:有趋势的序列,有趋势和季节性的序列,几种成分混合而成的复合型序列。
1.3时间序列的成分
趋势(T)
时间序列在长期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势。时间序列中的趋势可以是线性的也可以是非线性的(例如指数型)。
季节性(S)
也称季节变动,是时间序列在一年内反复出现的周期性波动。比如商业活动中的”销售旺季“或”销售淡季“这类术语。
含有集结成分的序列有可能含有趋势,也可能不含趋势
例如下图是含有季节成分和趋势的序列:
周期性(C)
也称循环波动,是时间序列中呈现出围绕长期趋势的一种波浪形或振荡式变动,通常由经济环境引起。
随机性(I)
也称不规则波动,时间序列中除去趋势,周期性和季节性之后的偶然性波动。
如果一个数据含有上述所有趋势,我们可以用乘法表达:
Yt=Tt*St*Ct*It
2.时间序列的描述性分析
2.1图形描述
通常使用线图,用过观察确定其特征。
2.2增长率分析
概念:
增长率:也称增长速度。报告期观察值与基期观察值之比减一,也用百分比(%)表示。
由于对比基期的不同,增长率可以分为环比增长率和定基增长率。
环比增长率:拿当期和上一期比(3->2 2->1 ……)
定基增长:那当期和定期比(3->1 2->1 ……)
由于计算方法的不同,有一般增长率,平均增长率
一般增长率:算出来是多少就多少
平均增长率:也叫平均增长速度,是时间序列中朱琪换壁纸的几何平均数减一后的结果:
通过平均增长率可以预测未来几期的情况:
当期数值*(1+平均增长率)n
注意点:
- 当观察值中出现了0或负数时,不宜计算增长率
- 要注意增长率和绝对水平结合分析
关于其中的第二点,为了更好地描述模型,我们使用增长1%的绝对值。
增长1%的绝对值:表示增长率每增加一个百分点而增加的绝对数量,用于克服增长率分析中的局限性。(前期数量/100)
3.时间序列中的预测程序
步骤:
- 确定时间序列的成分,也就是确定时间序列的类型
- 找出适合此类时间序列的预测方法
- 对可能的预测方法进行评估,以确定最佳预测方案
- 利用最佳预测方法进行预测
下面开始逐步分析:
3.1确定时间序列的成分
确定趋势成分
判断其实是否存在:
- 绘制时间序列的线图
- 利用回归分析拟合一条趋势线,对回归系数进行显著性检验。
这里放一下一元线性回归方程的拟合公式:
对应回归方程为:
其余形式的拟合曲线方程也可以通过最小二乘法推导得出。关于最小二乘法用于拟合曲线的形象理解请点击此处。
确定季节成分
至少需要两年的数据。
确定季节成分需要绘制年度折叠时间序列图
图例如下:
本图可以看出啤酒的销量数据中既含有季节成分,也含有上升趋势。
3.2选择预测方法
文字版:
有趋势无季节:趋势预测法
有季节无趋势:季节预测法
有季节有趋势:季节预测法
无趋势无季节:平滑预测法
(注:指数型的趋势实际上是一种趋势,因此不能用指数平滑法,而应该用趋势预测法中的方法)
3.3预测方法的评估
需要遵循误差最小原则。
平均误差(ME)
概念:观测值与预测值的差值的平均数
缺点:数值中存在负数时,求和的结果可能会正负抵消
公式:
平均绝对误差(MAD)
概念:观测值与预测值的差值的绝对值的平均数
好处:可以避免误差互相抵消的问题
公式:
均方误差(MSE)
概念:观测值与预测值的差值的平方的平均数
公式:
平均百分比误差(MPE)和平均绝对百分比(MAPE)误差
上述三种误差只有在比较不同模型的对同一数据的预测才有意义,而MPE和MAPE消除了时间序列数据的水平和计量单位的影响。
MPE:
MAPE:
4.平稳序列的预测
通过上文我们可以知道,对于平稳序列(不存在趋势成分和季节成分),我们应该使用平滑预测法。
4.1简单平均法
概念:
根据过去已有的t期观察值来预测下一期的数值。设时间序列已有的t期观察值为Y1、Y2……,则第t+1期的预测值Ft+1为:
那么第t+1期的误差et+1也容易算出来:
et+1=Yt+1-Ft+1
同样的,第t+n期的预测值也可以类推往下……
小结:
- 简单平均法适合比较平稳的时间序列
- 简单平均法将远期和近期的数值看的对未来同等重要,但实际上近期的数据更重要,因此简单平均法不够准确
4.2移动平均法
概念:
将最近k期数据的平均作为下一期的预计值。设移动间隔为k(1<k<t),则t期的移动平均值为:
小结:
- 移动平均法只使用最近k期的数据,在每次计算移动平均值是,移动的间隔都为k
- 对于同一个时间序列,采用不同的移动间隔预测的准确性是不同的,可以通过实验的方法,选择一个是均方误差达到最小的移动间隔。
4.3指数平滑法
概念:
通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
是加权平均的一种特殊形式,观察到时间越远,其权重也跟着呈现指数下降;有一次指数平滑、二次指数平滑、三次指数平滑等。
一次指数平滑
对于指数平滑法的预测精度,用误差均方来衡量。
同时,不同的α对预测结果会产生不同的影响。
- 时间序列有较大的随机波动时,宜选较大的α,以便尽快跟上近期的变化
- 时间序列较平稳时,宜选较小的α
5.趋势型序列的预测
5.1线性趋势预测
用线性回归方程进行拟合:
5.2非线性趋势预测
指数曲线
两边取对数后,可以将原本的乘法运算变为加法,这样就可以使用最小二乘法计算lgb0和lgb1了(从而也就知道了b0和b1)。
多阶曲线
不记了,考到算我输,这分不要也罢。
6.复合型序列的分解预测
6.1复合型序列及其分解
复合型序列是指含有趋势,季节,周期和随机成分的序列。
我们一般把各部分分解后再进行乘积,例如:
Yt=Tt*St*Ct*It
分解预测步骤:
- 确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分;然后将季节成分从时间序列中分离出去,即用每一个观测值除以相应的季节指数,以消除季节性
- 建立预测模型并进行预测。对消除季节成分的序列建立适当的预测模型,并根据这一模型进行预测。
- 计算出最后的预测值。用预测值乘以相应的的季节指数,得到最终的预测值。
(简单来说就是一开始先把季节成分剥离出去,最后再把它乘回来)
6.2确定并分离季节指数
1.计算季节指数
季节指数:刻画了序列在一年度内各月或季的典型季节特征
通常使用平均趋势剔除法:
具体例子见书P.310页
关于CMA的计算举例:假设2000年有四个季度某商品其销售量为25、32、37、26。2001年分别为30、38、42、30。则其中心化移动平均值(CMA)=前四个季度的平均值(25+32+37+26)/4加上接下来的四个季度的平均值(32+37+26+30)/4最后再将以上求出的值求平均值即可,其余季度的中心化平均值求法与之一致。对于求四季度开始的一年的前两个季度是没有CMA的,最后一年的后两个季度也是没有CMA的。
2.分离季节成分
Y/S
第十四章·指数(本章大多直接引用PPT内容)
1.指数的基本问题
1.1概念
- 指数最早起源于测量物价的变动
- 指数是测定多项内容数量综合变动的相对数
1.2分类
按照不同的分类方法可以分成不同的类型:
- 按照考察对象的范围不同:
- 个体指数:反映单一项目的变量变动
如一种商品的价格或销售量的变动 - 总指数:反映多个项目变量的综合变动
如多种商品的价格或销售量的综合变动
- 个体指数:反映单一项目的变量变动
- 按照反应指标的性质不同:
- 数量指标指数:反映物量变动水平
如产品产量指数、商品销售量指数等 - 质量指标指数:反映事物内含数量的变动水平
如价格指数、产品成本指数等
- 数量指标指数:反映物量变动水平
- 按照计算形式不同:
- 简单指数:计入指数的各个项目的重要性视为相同
- 加权指数:计入指数的项目依据重要程度赋予不同的权数
1.3指数编制中的问题
- 选择项目
- 选择代表规格品
- 确定权数
- 利用已有的信息构造权数 (零售价格指数等等)
- 主观权数(幸福感指数等等)
- 计算方法
- 确定适当的方法(简单来说就是具体问题具体分析)
2.总指数编制方法
2.1简单指数
简单指数分为:简单综合指数和简单平均指数。
简单综合指数
优点:操作简单,对数据要求少
缺点:以价格指数为例,在参与计算的商品价格水平有较大差异时,价格低的商品的价格波动会被价格高的商品掩盖
简单平均指数
注意和简单综合指数比较分号的位置,不要写错了
2.2加权综合指数
概念:
通过加权来测定一组项目的综合变动
分类:
因权数不同,有不同的计算公式
有拉氏价格指数(Laspeyres index)和帕氏价格指数(Paasche Laspeyres index)
拉式指数
两种拉式指数的分母都是q0p0,也就是都是基期的指标。在分子上,拉氏数量指标将选择数量的报告期(q1),拉式质量指标选择质量的报告期(p1)
帕氏指数
帕氏指数的分子都是q1p1,也就是都是报告期的指标。在分子上,帕氏数量指标将选择数量的基期(q0),帕式质量指标选择质量的基期(p0)
记忆方法:拉式分母相同都为基期0,另一方是什么指标就选用该指标的报告期1;帕式分子相同都为报告期1,另一方是什么指标就选用该指标的基期0。
2.3加权平均指数
加权平均指数分为算术平均和调和平均:
根据权期的不同,会产生不同的结果,与之前的拉氏和帕式也有呼应的地方:
3.指数体系
3.1总量指数体系分析
一个总量往往可以分解为若干个构成因素(例如销售额指数=销售量指数*销售价格指数)
该指数体系可以表示为:
3.2平均数变动因素分析
概念有点难懂,但是做题比较好理解,建议直接看书P.330开始的内容
4.综合评价指数
这一部分也建议直接看书orz(因为实在是难以和实例结合起来划分,就算考研也不是重点,而且PPT上也没有这一部分的内容讲解)
写在后面
这份笔记是按照考研的要求记录的,可能和老师的要求与重点不同,如果有重点和老师不同的地方,请以老师的标准为主,再到PPT与教材的相应位置上寻找。
总算是把描统和微经欠下的债补完了,睡觉睡觉 zzz