论文的统计显著性检验(围绕对立假设)
显著性检验是推论统计中的一个重要概念,是数据分析的必要环节。管理领域的实证研究大部分采用样本研究,从研究对象的总体中抽样收集数据。然而,研究者抽取样本的着眼点并非局限于研究样本,最终目的是要从样本来推论样本所在总体的特性。对样本的研究成为推论总体的基础,从样本中找到的统计特征是否真正能代表研究者所关心的总体特征,有待判断从统计角度来看,样本与总体之间存在的差异是否显著,这是推论统计所关注和力图解决的问题。
1.研究假设和对立假设
管理实证研究中,推论统计从统计数据出发,去推论研究假设是真或是假。推论的思路有个特点,它不是直接论证研究假设( research hypothesis 或alternativehypothesis,有的译为检测假设)的真假,而是先去论证对立假设(nullhypothesis,有的译为虚无假设、无效假设、零假设或原假设)是假还是真。对立假设是研究假设的逻辑对立面。例如,研究假设为“样本均值和所属总体均值之间无差异”,对立假设则为“样本均值和所属总体均值之间存在差异”。推论统计中,先判断对立假设是真还是假,然后再来评判研究假设是假还是真。
研究生很可能提出问题,为什么不直接评判研究假设的真假,而要绕个弯先去评判对立假设?这是因为推论统计不可能直接证实研究假设,而相反,一旦判定对立假设是假以后,研究假设便可能成立。下面举例来说明这个道理。
设定研究假设:“骰子无偏差”。即是说,每次掷骰子,六个数字出现的概率都是1/6。实证意味着通过多次掷骰子来检验此假设,假定掷了18次,统计下来,骰子每面都出现3次,这符合无差异的判断。那么,这是否就证实了研究假设呢?并没有,也许掷18次以后会出现差异。于是,再掷下去,一直掷了540次,而且每个面都出现90次,仍符合无差异的判断,这时,是否能得出证实的结论呢?还是不行,差异也许在此后掷的次数中出现,进一步说,就是掷的次数再多也不能证实无差异的研究假设。这么多次掷骰子的事实,虽不足以提供无差异的证据,倒是有充分的理由拒绝其对立假设,即“骰子存在差异” ,因为从论证逻辑来说,只要出现一次证伪的事例即有拒绝假设的理由,何况是上述这么多次出现不支持“骰子存在差异”的事例。拒绝对立假设就是间接支持了研究假役。推论统计中就是按照这样的逻辑行事,以对立假设为操作对象,如统计证据拒绝对立假设,则支持相应的研究假设,它可能为真。
不论计算方法如何多种多样,所有的推论统计得出的结果,都是指对立假设为真的概率是多少。以上述掷骰子为例,也许掷到660次出现差异,或者990次的时候又出现一次差异,说明尽管否定对立假设的论据甚多,也会出现少量的肯定对立假设的证据,但从统计观点来看,不能因为出现一两次肯定证据,就无视千百次否定证据。这时,研究者就要作出判断,最多能允许对立假设为真的证据出现多少次,小于这些次数时,则仍然拒绝对立假设并支持研究假设。为了回答这个问题,表达研究假设的可信任程度,推理统计引人一个重要概念,即统计显著性。
2.统计显著性
由于样本与总体之间的统计特征值必然会有差异,研究者就需要从统计上来判断所存在的差异,是显著还是不显著。具有统计显著性的差异,指的是有足够理由相信这种差异并非抽样的随机误差,而是某种因素引起的偏差。例如,某种牌号的饮料,全市商店的平均价格为15元,如随机抽样五家商店的该饮料价格,平均为16元。这是否说明两者之间存在显著的统计差异?此时,应用统计学有套规则来判断这一元的差异 是否具有统计显著性。与统计显著性并存的概念是实务显著性,它取决于消费者的主观判断,有人认为贵一元钱无所谓 ,实务显著性就低,有人却在意一元钱,意味着实务显著性高。数据分析主要考虑统计显著性,但实务显著性的概念还是不能忘记,如果有种差异,众人都认为实务显著性很低,就没必要花精力去判断它的统计显著性,因为即使判断出来也没有多大实用价值。
统计显著性检验围绕对立假设做文章,如拒绝对立假设,则接受研究假设。不论是接受还是拒绝对立假设,都有可能作出错误的判断,或者是“拒绝了一个正确的对立假设”,或者是“接受了一个错误的对立假设”。这就引出了推论统计中的两种误差,甲种和乙种误差,或称I类误差和II类误差。
甲种(I类)误差指对立假设正确而被错误地拒绝的概率,用显著度a(levelofsignificance)来表示。其含义可以通过上述对立假设“样本均值和所属总体均值之间无差异”来解释。现从总体中抽出一个样本来检验,可能接受该对立假设,也可能拒绝。假定抽取检验的样本中,虽有95%接受该对立假设,还有5%的样本拒绝该对立假设(即p=0.05),这时到底是接受还是拒绝对立假设?推论统计不能直接给出肯定答案,而要看研究者容许的甲种误差,即显著度a。如选择显著度a=0.05,则表明研究人员认定,即使有5%样本拒绝对立假设,结论还是接受对立假设。a=0.05的情况下,只要样本数据出现的甲种误差p<0.05,都表示统计检验结果接受对立假设。
这样的话,上述约有5%的样本实际支持对立假设,却被抹杀。这些样本可说受到“冤枉”的待遇。甲种误差越大,受“冤枉”的样本就越多。为了减少这种“冤枉良民”的情况,可以将显著度选得很小,例如a=0.001,只容许一千个样本出现一次冤情,这种情况下被拒绝的“对立假设”应是“口服心服”了,但这样又可能引起另一种推论误差,乙种(II类)误差。
甲种误差是对立假设正确,研究人员最后拒绝。而乙种误差即馕蟛?,则是研究人员接受了实际为错误的对立假设。如将显著度a选定为0.001,要求很高,一千次才会出现一次冤情,但易将异类样本视为同类。以上述例子来说,甲种误差减少后,要求样本与总体的平均值之间,具有更大的差异幅度。例如, 在a=0.05的情况下,样本与总体的平均值之间的差异值为13,已表明差异具有统计显著性。
如为了减少甲种误差,选择更小的显著度a=0.001,这时,样本与总体的平均值的差异幅度须增加到20(a=13/Z=13/1.96=6.6,6.6x3.05=20),这样才能使样本落到+3.05a范围之外的概率小于或等于0.001。设实际的两者差异值为15,尽管此差异值在a=0.05条件下,已足以属于显著差异,但按a=0.001的要求,仍然认为是随机误差,并接受对立假设,这就是接受了实际为错误的对立假设。
若把甲种误差比喻为“冤枉良民”,乙种误差则是“坏人漏网”,本来具有统计显著性差异,却仍接受对立假设,把明明是异类的样本,却误判成同类样本。
假设检验时,拒绝对立假设,可能产生甲种误差,而接受一项对立假设,可能产生乙种误差。检验的对象是对立假设,起关键作用的是否决的样本,即拒绝对立假设的样本,所以,假设检验过程中,通常注重甲种误差的控制,选择合理的显著度a。
要权衡甲种误差和乙种误差才能合理选择显著度a值。好在已有a合理值的约定,一般社会科学研究中,显著度a取值为0.05 0.01或0. 001。研究论文也经常选用这几个a值。当然,这并非是不可改变的标准,研究者要根据研究目的和风险性质而定,例如在医药研发中,研究新药或处方的疗效,事关人身安全,要求非常严格,容许的甲种误差要很小。设检验的对立假设为“新药X不安全”,便要严加控制不安全的样本,a值取得很小,如0.001 ,表示一千个样本中只要有一个样本为真,就不能拒绝此对立假设,否则,便可能有人服用不安全的药物。而有些对立假设,如“餐馆提醒电话会减少已预订而不来的顾客”,a误差可选择较低水平如0.10,拒绝10%的事件实际为真的对立假设,后果并不严重。
3.统计显著性检验的类型
不同的数据集合都有相应的显著性检验方法。显著性检验一般可分 为参数检验和非参数检验两类。参数检验运用得较多,适用于定距和定比尺度的数据,非参数检验则适用于定类和定序尺度的数据。参数检验的观察值必须独立,即观察值的出现不受抽样前后观察值的影响;同时,观察值须来自正态分布的总体,或至少知道分布形式。
独立性条件可通过散点图及一些统计方法去检查。数据是否呈正态分布,可用概率分布图和专门的统计方法加以判断,管理研究遇到的变量,其数据分布一般都符合正态分布,能满足这个条件。
非参数检验不强调总体的分布情况,但须符合观察值独立性的要求。其最大特点是,能处理定类和定序尺度的数据。
选用显著性检验方法须考虑以下三点:①检验涉及的是单组样本、两组样本还是k组样本。②如是两组样本和k组样本,还要问样本数据是独立的(来自不同总体)还是相关的(配对样本)。③数据是定类、定序、定距还是定比尺度。根据这三点,可以将各种显著性检验方法归类(表5-1)。从表中可以看出,对于不同尺度类型,样本数和样本性质都有相应的检验方法。下面只讨论表中常用到的一些方法。