-
第一章商务统计基本概念
本章介绍统计学中的一些基本概念,及数据的分类
-
●1.1统计中的几个基本概念
统计学的一些起最基本的概念
-
第二章常见统计图形
本章主要介绍统计中的一些常用的的图形。
-
●2.1直方图与累积分布曲线
直方图,累积分布曲线,茎叶图等构造要点
-
第三章描述性统计
全面把握数据分布的特征,需要找到反映数据分布特征的各个代表值。数据分布的特征可以从以下几方面进行测试和描述:数据的集中程度、数据的离散程度及分布的形态
-
●3.1中心趋势指标
中心趋势(集中趋势)是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
-
●3.2中位数的计算
中位数是一组数据排序后处于中间位置上的变量值。中位数可以测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。
-
●3.3四分位数与百分位数
中位数是从中间点将全部数据分成相等的两部分。把这一思想推广,可以将数据分成相等的四部分甚至100份,这就是四分位数或百分位数的想法。
-
●3.4离散指标
数据的离散程度是数据分布的另一个重要指标,它反映的是各变量值远离中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。
-
●3.5标准分数与箱索图
标准分数给出了一组数据中各数据的相对位置。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。
箱索图是一种常见的探索性数据分析的方法,可以对数据从整体上进行认识。
-
第四章概率论
统计数据中隐含着非常丰富的信息,要有效地充分利用统计数据,需要运用推断统计的方法。推断统计就是在搜集、整理观测样本数据的基础上,对有关总体作出推断,其特点是根据观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断。本章主要是后续章节将要用到的概率论方面的相关概念进行梳理与归纳。
-
●4.1二项分布与超几何分布
二项分布是统计学中最重要的分布之一。它描述的实际上是一个返回式抽样问题。超几何分布描述的是一个不返回抽样问题。两者之间有区别又有密切的联系。
-
●4.2二项分布的正态近似
当n比较大时,二项分布的计算量比较大,它可以利用正态分布近似。
-
●4.3正态分布及其分位点
正态分布是统计学的核心,熟练的掌握正态分布,并学会相应的查表、临界点等相关概念,是学习统计学的基本功。
-
●4.4卡方分布及其分位数
卡方分布在后续的卡方拟合优度检验、独立性检验中起着核心作用。必须熟练地掌握卡方分布的临界点、分布形态。
-
●4.5t分布及其分位数
t-分布在总体标准差未知时起着相当关键的作用,在区间估计、假设检验、回归分析中都起着关键作用。
-
●4.6F分布及其分位数
F分布与卡方分布、t-分布一样在统计学中都是非常重要的常用分布。在双样本的方差检验、回归分布中将会有非常重要的应用。
-
第五章参数估计
参数估计是推断统计的重要内容之一。它是在抽样分布的基础上,根据样本特征来推断我们所关心的总体特征。
-
●5.1估计量的评价标准
点估计就是用估计量(样本统计量)的值直接作为总体参数的估计值。评价点估计优劣的标准有:无偏性、有效性、一致性。
-
●5.2样本均值的抽样分布
总体的分布并不总是正态分布或近似正态分布,此时样本均值的分布将取决于总体分布的情况。庆幸的是,当样本容量n比较大时,样本均值的抽样分布总是近似服从正态分布,而无须考虑总体的分布形态,这也就是中心极限定理。中心极限定理在统计学中起着非常重要的作用。
-
●5.3样本比例的抽样分布
与均值的抽样分布类似,当样本容量足够大时,样本比较的抽样分布可以用正态分布来近似。
-
●5.4区间估计的构造原理
区间估计是在点估计的基础上,给出总体参数的一个区间范围。评价区间估计的优劣有两个标准:精度与可靠度。
-
●5.5单总体均值的区间估计
在对总体均值进行区间估计时,需要考虑总体是否为正态分布,总体方差是否已知,用于构造估计量的样本是大样本还是小样本等几种情况。
-
●5.6单总体方差的区间估计
方差也是描述数据分布形态的一个重要指标。样本方差服从自由度n-1的卡方分布。因此用卡方分布构造总体方差的置信区间。
-
●5.7两个总体均值之差的区间估计(独立样本)
如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。在考虑两个独立样本均值之差的区间估计问题时,需要考虑大样本还是小样本。
-
●5.8两个总体均值之差的区间估计(配对样本)
在考虑两个总体均值之差的检验问题中,配对(匹配)样本一般会比独立样本的检验效果更好一些。这是因为匹配样本可以消除由于样本指定的不公平造成的随机误差,具有更好的统计性质。
-
●5.9两个总体方差比的区间估计
在实际问题中经常需要比较两个总体的方差。比如,比较用两种不同方法生产的产品性能的稳定性,比较不同测量工具的精度等等。这些都涉及到两个总体方差的比较问题。
-
●5.10样本容量的确定
在进行参数估计之前,首先应该确定一个适当的样本量,也就是应该抽取一个多大的样本来估计总体参数。样本量的确定与可以容忍的置信区间的宽度以及对比此区间设置的置信水平有关联。如何确定一个合适的样本量,是抽样估计中需要考虑的问题。
-
第六章假设检验
假设检验是推断统计的另一个重要内容。它是在抽样及抽样分布的基础上,根据样本特征来检验我们所假设的总体特征是否成立。
-
●6.1假设检验的三种基本形式
假设检验有左尾检验、右尾检验、双尾检验三种形式。在实际问题中,需要明确检验的目标来确定相应的检验形式。
-
●6.2假设检验中的两类错误
假设检验是根据样本提供的信息对总体参数进行判断,也就是由部分来推断总体。因而判断有可能 正确,也可能不正确,也就是说,我们面临着犯错误的可能。有可能犯的错误有两种类型,第I类错误及第II类错误。
-
●6.3假设检验的基本过程
假设检验中首先要明确原假设与备择假设,即确定检验的目标。确定一个显著性水平,明确检验统计量的分布,再计算具体的检验统计量的值,然后进行比较、决策。
-
●6.4P值检验法(一)
P值本质是在原假设成立时,观测到的实际数据与原假设之间一一致的程度的一种度量。P值越小,越有证明拒绝原假设。
-
●6.5P值检验法(二)
P值本质是在原假设成立时,观测到的实际数据与原假设之间一一致的程度的一种度量。P值越小,越有证明拒绝原假设。
-
●6.6两个总体方差的假设检验
在实际问题中经常需要比较两个总体的方差。比如,比较用两种不同方法生产的产品性能的稳定性,比较不同测量工具的精度等等。这些都涉及到两个总体方差的比较问题。
-
第七章卡方检验
本章讨论的方法主要用于分类数据的分析。卡方检验的应用主要表现在两个方面:拟合优度检验和独立性检验。
-
●7.1卡方独立性检验
在实际中我们会遇到两个分类变量的问题,看这两个分类变量之间是否存在联系,称之为独立性检验。在具体分析过程中可以通过列联表的方式呈现,所以也称为列联分析。
-
●7.2卡方拟合优度检验(一)
拟合优度检验是卡方检验的就要内容之一。这是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数之间是否有显著差异,从而达到对分类变量进行分析的目的。
-
●7.3卡方拟合优度检验(二)
拟合优度检验是卡方检验的就要内容之一。这是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数之间是否有显著差异,从而达到对分类变量进行分析的目的。
-
第八章方差分析
方差分析是比较多个总体的均值是否相等。本质上它所研究的是分类型自变量对数值型因变量的影响。与双样本的检验检验相比,方差分析不仅可以提高检验的效率,同时由于它将所有的样本信息结合在一起,加些增加了分析的可靠性。
-
●8.1单因素方差分析(一)
根据所分析的分类型自变量的多少,方差分析可以分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。
-
●8.2单因素方差分析(二)
根据所分析的分类型自变量的多少,方差分析可以分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。
-
●8.3单因素方差分析(三)
根据所分析的分类型自变量的多少,方差分析可以分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。
-
●8.4方差分析的假定条件以及多重比较
方差分析中有三个基本假定:每个总体都应服从正态分布;每个总体 的方差必须相同;观测值是相互独立的。
如果经过检验各个总体均值之间存在差异,则需要进一步判断哪些均值之间存在差异。 -
●8.5双因素方差分析
根据所分析的分类型自变量的多少,方差分析可以分为单因素方差分析和双因素方差分析。当方差分析中涉及两个分类型自变量时,称为双因素方差分析。
-
第九章回归分析
回归分析是研究现象的相互关系、测定它们联系的密切程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行经济分析、政策评价、预测和控制的重要工具。
-
●9.1协方差与相关系数
相关分析是对两个变量之间线性关系强弱的描述和度量。可以通过协方差和相关系数进行度量。
-
●9.2相关系数的显著性检验
一般情况下,总体相关系数是未知的,通常将样本相关系数r作为总体相关系数的近似估计值。但由于样本相关系数是根据样本数据计算出来的,因此会受到抽样波动的影响。需要对样本相关系数的可靠性进行检验。
-
●9.3一元线性回归的计算
本节主要介绍一元回归分析的具体计算过程,最小二乘法的原理。
-
●9.4判定系数
判定系数是对估计的回归方程拟合优度的度量。判定系数越接近1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,拟合的效果就越好。
-
●9.5估计标准误差
估计标准误差是度量各实际观测点回归直线周围的散布状况的一个统计量。估计标准误差越小,回归直线对各观测点的代表飞得更高不越好,根据估计的回归方程进行预测也就越准确。
-
●9.6残差分析
在回归分析中,假定误差项ε是期望为0、方差相等且服从正态分布的一个随机变量。如果关于ε的假定不成立,那么所做的检验以及估计和预测也许站不住脚。确定有关ε的假定是否成立的方法之一就是进行残差分析。
-
●9.7回归分析中的一个反例
在回归分析中残差图与散点图是相当重要的,但也容易被很多人忽略掉,本节就通过一个经典的反例来说明残差图与散点图的重要性。
-
●9.8自相关检验
在回归分析中,假定误差项ε是相互独立的,但是在实际问题中并不一定满足,所以需要对些进行检验。如果不独立,则需要作出进一步的处理。
-
●9.9多元线性回归入门
在许多实际问题中,影响因变量的因素往往有多个,这种一个因变量与多个自变量的回归问题就是多元回归分析,当因变量与各自变量之间的关系为线性关系时,称为多元线性回归。
-
●9.10多元线性回归的F总检验与回归系数的t检验
在多元回归分析中,F总体是对回归模型整体的检验,t-检验是对每个变量的具体检验,检验每个自变量对因变量的影响是否显著。
-
●9.11多重共线性
当回归模型中使用两个或两个以上的自变量时,这些自变量往往会提供多余的信息;也就是说,这些自变量之间彼此相关。在实际问题中,自变量之间相关是一个很平常的事情,但是在回归分析中存在多重共线性会导致某些严重的问题。
-
●9.12调整的多重可决系数
在多元回归分析中,调整的多重可决系数比可决系数更多的使用。
-
●9.13强影响点与库克距离
杠杆值大的样本点称为强影响点。强影响点不一定是y值的异常点,因此强影响点并不总会对回归方程造成不良影响。但是强影响点对回归效果通常有较强的影响,我们对强影响点应该有足够的重视。
库克距离用来判断强影响点是否为y的异常点。 -
●9.14异常点的检测
在回归分析的应用中,数据时常包含一些异常的或极端的观测值,这些观测值与其他数据远远分开,可能引起较大的残差,极大地影响回归拟合的效果。
异常值分为两种情况:一种是关于因变量y异常;另一种是关于自变量x异常。 -
●9.15变量选择与逐步回归
根据多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,带来的问题往往让人无所适从,或者是对所建立的模型不能进行有效的解释。所以在建立回归模型时,总是希望用最少的变量来建立模型,这就涉及到对变量的选择与筛选。