1.统计学是关于收集、整理、分析数据、从数据中得出结论的科学。
2.统计学两个分支:描述统计和推断统计,描述统计是研究数据收集、整理、描述的统计科学,例如利用统计图形展示CPI的变化,利用增长率计算CPI的基本走势。推断统计是研究利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
3.参数估计:利用样本信息推断总体特征;假设检验:利用样本信息判断对总体的假设是否成立。例如:公司评测顾客满意度,由于条件限制不可能对所有客户进行满意度调查,随机抽取一部分顾客调查他们对公司的满意度,再对公司顾客满意度进行估计,这就需要参数估计方法,然后验证满意度高的客户更倾向忠诚客户,这就是假设检验要解决的问题。
4.变量是研究对象的属性或特性。
定量变量:变量的取值是数量,例如企业销售额。
分类变量:变量的取值表现为类别,例如企业所属的行业。
顺序变量:变量的取值表现为类别且具有一定顺序时,例如员工受教育水平。分类变量和顺序变量统称为定性变量。
5.数据是对变量进行测量、观测的结果。
数值型数据:对定量变量的观测结果,如企业销售额10万
分类数据:分类变量的观测结果,表现为类别,一般用文字也可以用数字描述。如用1表示男性、2表示女性。
顺序数据:顺序变量的观测结果,表现为类别,一般用文字也可以用数字描述。如用1表示硕士、2表示本科、3表示专科。
6.观测数据:通过直接调查或测量而收集到的数据。(在没有对事务施加任何人为控制因素的条件下得到的)如:GDP、CPI、房价等。
7.实验数据:通过实验收集到的数据,如:一种新产品使用寿命数据、一种新药疗效的数据。
8.一手数据(直接数据):直接的调查和科学实验得到的数据。
9.二手数据(间接数据):别人的调查或实验的数据。
10.按调查对象的范围不同,分为全面调查和非全面调查。全面调查例如全面统计报表、普查。非全面调查例如抽样调查、重点调查、典型调查。
11.按调查登记的时间是否连续,分为连续调查和不连续调查。连续调查为了观察总体现象在一定时期内的数量变化,对调查对象连续地进行调查登记。例如:工厂的产品生产、原材料投入、能源消耗、人口的出生、死亡等,必须在调查期内连续登记,然后再进行加总。
不连续调查是间隔一年以上所作的调查,一般是为了对总体现象在一定时点上的状态进行研究。例如:生产设备拥有量、耕地面积等。
12.统计调查的方式:统计报表、普查、抽样调查、重点调查、典型调查。
13.统计报表:自上而下统一布置、自下而上逐级提供基本统计数据的调查方式。
14.普查:为某一特定而专门组织的一次性全面调查,如人口普查、经济普查、农业普查等。普查是适合特定目的、特定对象的一种调查方式,主要用于了解处于某一时点状态上的社会经济现象的基本全貌。普查特点:①一次性或周期性,普查涉及面广、调查单位多、耗费大量人力物力财力,经济普查10年两次,每逢尾数3、8年份实施;人口普查逢0年份进行,农业普查逢6年份进行,每10年一次。②普查一般需要规定统一的标准调查时间,保证普查结果的准确性,标准时间一般定为调查对象比较集中、相对变动较小的时间③普查数据一般比较准确,规范化程度比较高④普查使用的范围比较窄,只能调查一些最基本的现象。
15.抽样调查:从调查对象的总体中抽取一部分单位作为样本进行调查,并根据调查结果推断总体数量特征的非全面调查。抽样调查特点:①最显著特点经济性②时效性强:抽样调查工作量小,提高数据的时效性③适应面广:适用各个领域、各种问题的调查,抽样调查的内容和指标可以更详细、深入、能获得更全面、更广泛、更深入的数据。④准确性高:抽样调查的数据质量有时比全面调查更高,因为全面调查的工作量大,环节多,误差往往很大,而抽样调查由于工作量小,各环节工作更细致,误差往往很小。
16.重点调查:调查的总体中选择一部分重点单位进行调查,虽然只是全部单位的一部分,但是在总体中占绝对的比重。当调查目的只要求了解基本状况和发展趋势,不要求掌握全面数据,而调查少数重点单位就能满足需要时,采用重点调查就比较适宜。例如:国家统计局的全国5000家工业企业联网直报制度。
17.典型调查:对被调查对象进行全面分析的基础上,有意识的选择若干具有典型意义的或代表性的单位进行调查。
运用典型调查的方法,一般来说主要不在于反映现象的总体数量特征,而在于了解与统计数字有关的生动的具体情况。
18.大数据4V特征:数据量大、数据多样化、价值密度低(大数据价值密度高低与数据总量大小成反比)、数据产生和处理速度快。
19.数据挖掘:四层含义(1.数据源必须是真实的、大量的、有噪声的。2.发现的是用户感兴趣的知识。3.发现的知识是可接受、可理解、可运用的。4.并不要求发现放之四海而皆准的知识,仅支持特定的发现问题)
20.数据分布特征的测度主要分为三个方面:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度;三是分布的偏态,反映数据分布的不对称性。两个定量变量之间的相关分析,经常采用描述方法是散点图和相关系数统计量。
21.集中趋势的测度:一组数据向中心值靠拢的程度,反映一组数据中心点的位置所在。
(1)均值:集中趋势最主要的测度值,主要适用数值型数据,不适用分类和顺序数据,均值容易受到极端值的影响(后面只要计算公式含有均值都受到极端值影响)。优点:能够充分利用数据的全部信息,比较稳定。
(2)中位数:一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值。中位数主要用于顺序数据和数值型数据,特别是分布不对称的数据,但不适用分类数据。优点是不受极端值影响,抗干扰强,尤其适于收入这类偏斜分布的数值型数据。稳定性差于均值,优于众数。
(3)众数:一组数据中出现次数最多的变量值。众数适用于描述分类数据和顺序数据的集中趋势,众数不适用描述定量数据的集中位置。分布明显呈偏态时众数的代表性更好,缺点是没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。
(4)总结:假定1是数值型数据,2是顺序数据,3是分类数据,均值适用于1,中位数适用于1、2,众数适用于2、3.这样便于记忆,不容易混。三者只有均值受极端值的影响,而且计算公式包括均值的也容易受影响。
22.离散程度的测度:反映的是数据之间的差异程度,数据的离散程度越大,集中趋势的测度值对该组的数据的代表性就越差,离散程度越小,其代表性越好。
(1)方差:数据组中各数值与其均值离差平方的平均数(会算方差),它能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
(2)标准差:方差是反映数据离散程度的重要测度指标,但是其单位是原数据单位的平方,没有实际意义。标准差是方差平方根。
总结:标准差、方差、均值只适用于数值型数据,都对极端值敏感。
(3)离散系数:也称为变异系数或标准差系数,标准差与均值的比值,主要用于不同类别数据离散程度的比较。
23.分布形态的测度:偏态系数、标准分数。
(1)偏态系数:偏度是数据分布的偏斜方向和程度,描述的是数据分布对称程度。测度数据分布偏度的统计量称为偏态系数。偏态系数=0,说明数据分布是对称的;偏态系数为正值,说明分布右偏,取值在0-0.5之间说明轻度右偏,取值在0.5-1之间说明中度右偏,取值大于1说明严重右偏;偏态系数为负值,说明分布左偏,取值在0-0.5之间说明轻度左偏,取值在0.5-1之间说明中度左偏,取值大于1说明严重左偏。偏态系数的绝对值越大,说明数据分布的偏斜程度越大。
(2)标准分数:也称为Z分数,来比较不同变量的取值,计算方法用数值减去均值所得差除以标准差。数据服从对称的钟形分布时,经验法则:68%的数据与平均数的距离在1个标准差,95%的数据在2个标准差,99%的数据在3个标准差。
24.变量间的相关分析
(1)按相关的程度分为:完全相关、不完全相关、不相关。
(2)按相关的方向可分为:正相关(工人的工资随着劳动生产率的提高而增加)、负相关(商品销售价格随着单价的提高而降低)。
(3)按相关的形式可分为:线性相关呈现为直线关系,非线性相关是两个相关变量之间近似于某种曲线的方程关系。
相关关系并不等于因果关系
24.散点图:两个变量间的关系可以用散点图来展示。
右上↗直线为正相关,右下↘直线为负相关,曲线模式为非线性相关。
25.相关系数:度量两个变量之间相关关系的统计量。常用的Pearson相关系数,度量的是两个变量间的线性相关关系。Pearson相关系数的取值-1≤r≤1,0<r≤1说明变量X和Y之间存在正线性相关关系,-1≤r<0存在负相关关系。
r=1为完全正线性相关,r=-1为完全负线性相关,丨r丨=1,表明变量Y的取值完全依赖于X,r=0,说明Y和X之间不存在线性相关关系,并不说明变量之间没有任何关系。
26.说明两个变量之间的线性关系的强弱:丨r丨≥0.8时,可视为高度相关;0.5≤丨r丨<0.8时,可视为中度相关;0.3≤丨r丨<0.5时,可视为低度相关;丨r丨<0.3时,说明两个变量之间的相关程度极弱,可视为无线性相关关系。
27.抽样调查的基本概念:总体、样本、总体参数、样本统计量、抽样框。
举例说明更容易理解和记忆:在某市随机抽取1000家企业进行问卷调查,并据此调查有贷款意向的企业。
总体:该市所有企业。
样本:抽取出来的1000家企业。
总体参数:该市所有有贷款意向的企业。(调查想要了解的总体指标值)
样本统计量:抽中的1000家企业中有贷款意向的企业。
抽样框:企业名录,抽样框的单位必须是有序的,便于编号的。
28.概率抽样:也称随机抽样,依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的方法。(具体:简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样)
特点:①按一定概率随机原则抽取样本,所谓随机原则就是在抽取样本时排除主观上有意识地抽取调查单元的情况,使每个单元都有一定的机会被抽中。②总体中每个单元被抽中的概率是已知的,或者是可以计算出来的③每个单位被抽入样本的概率相等,被称为等概率抽样。每个单位被抽入样本的概率不同,称为不等概率抽样。无论等概率或不等概率,抽取时都要通过一定的随机化程序来实现。
29.非概率抽样:也称非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法。主要特征是抽取样本时并不是依据随机原则。主要方法:①判断抽样,人为确定样本单元,例如选择“平均型”单元作为样本,选定的样本可以代表所研究变量的平均水平。②方便抽样,例如“拦截式”调查,在居民小区拦住行人进行调查。③自愿样本,不是经过抽取,而是自愿接受调查,典型的是网上调查。④配额抽样,总体中各单元按一定标准分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法没有严格限制,一般采用方便抽样的方法。
总结:判断平均、方便拦截、自愿上网、配额主观。
30.确定调查问题:回答要做什么样的调查研究。
31.抽样调查中的误差:样本估计量和总体参数真值之间的差异称为误差。误差主要分为:抽样误差和非抽样误差。
32.抽样误差产生的根本原因:抽到哪一个样本完全是随机的,而抽到不同样本,对总体的估计就会不同。
33.非抽样误差的原因:抽样框误差、无回答误差(被调查者不在家、因病无法接受调查、被调查者不愿告诉实情)、计量误差(调查员诱导被调查者、记录问题有误、调查人员作弊、理解偏差、受访者记忆不清、提供虚假数字)。
34.简单随机抽样:有放回(误差大,采用少)和不放回(误差小,常采用)。适用条件:抽样框没有更多可以利用的条件、调查对象分布不广阔、个体之间差异不是很大。
35.分层抽样:先总体分为不同层,再在不同层内独立、随机地抽取样本。优点:分层抽样不仅可以估计总体参数,也可以估计各层的参数;便于抽样工作的组织;每层都要抽取一定的样本单位,样本分布比较均匀,可以降低抽样误差。
应用条件:抽样框有足够的辅助信息,能够将总体按照某种标准划分到各层中,实现在同一层内各单位之间的差异尽可能小,不同层之间各单位差异尽可能地大 。
36.系统抽样:先将总体中所有单元按一定顺序排列,在规范范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样。优点:操作简便、对抽样框的要求比较简单。缺点:方法估计比较复杂,给计算抽样误差带来一定困难。排列顺序与调查内容有无关系分为:无关标识排列、有关标识排列。按汽车价格排列,价格与尾气排放量有相关性,属于有关标识排列,这种可以有效降低抽样误差。
37.整群抽样:先将总体所有基本单位按照一定规则分为互不重叠的群,再直接抽取群,对抽中的群调查其全部基本单位,没抽中的群则不进行调查。优点:实施调查方便,可以节省费用和时间;抽样框编制得以简化。缺点:群内各单位存在相似性,群与群之间差异往往比较大,使得整群抽样误差比较大。如果群内各单位存在较大差异,群与群之间结构相似,整群抽样反而降低误差。整群抽样特别适合对某些特殊群结构进行调查。
38.多阶段抽样:先总体中采用随机方法抽取若干小总体,再在选中的单元中抽取若干单位,经过两个以上抽样阶段的抽样方法。
39.估计量的性质(一无所有):估计量的无偏性(对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值)、估计量的有效性(更密集、方差小、误差小)、估计量的一致性(随着样本量的增大,估计量的值稳定于总体参数的真值)。
40.抽样误差的估计:抽样误差无法避免,但可以计算。
41.估计量方差的估计公式为(1-n/N)*(总体方差S2/n)
不放回简单随机抽样样本。(注意教材224页例题)
42.抽样误差的影响因素:总体分布(单位值差异越大,方差越大,误差越大)、样本量(样本量越多,误差越小)、抽样方式、估计量的选择。
43.回归分析:根据相关关系的具体形态,选择一个合适的数字模型,来近似表达变量间的依赖关系。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。进行回归分析时,首先需要确定因变量和自变量。
回归分析的一个重要应用就是预测,利用估计的回归模型预估因变量数值。
44.回归方程:描述因变量Y的期望E(Y)如何依赖自变量X的方程。
45.一元线性回归方程:E(Y)=β0 β1*X
一元线性回归方程的图示是一条直线,β0是回归直线的截距,β1是回归直线的斜率,表示X每变动一个单位时,E(Y)的变动量。
46.估计的回归方程:
看清楚是平均变动量。
47.最小二乘法:模型的β0和β1都是未知的,需要利用样本数据来估计,采用的估计方法是最小二乘法。最小二乘法就是使得因变量的观测值与估计量之间的离差平方和最小来估计的。
48.回归模型的拟合效果分析:拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。
49.决定系数R²,决定系数R²也称为拟合优度或判定系数,可以测度回归模型对样本数据的拟合程度。R²最大值为1。R²的值越接近1,说明回归直线对观测值的拟合程度越好,模型解释因变量的能力越强;反之,R²的值越小,说明回归直线对观测值的拟合程度越差。如果所有观测点都落在回归直线上,R²=1说明回归直线可以解释因变量的所有变化。R²=0说明回归直线无法解释因变量的变化,因变量的变化与自变量无关。
50.回归系数的显著性检验:用t检验方法验证自变量X对因变量Y是否有显著影响。t检验的原理是反证法。