论文调查问卷怎么设计(问项和量表)
设计问卷犹如设计测量仪器。测量仪器设计是大学工科专业好几]课程的内容,而作为管理研究测量工具的问卷,虽然没有仪器设计那么多复杂的技术原理,但也同样有许多专业要求,没有任何知识准备就设计出合格的问卷是绝无可能的。
问卷以问答形式出现,通过被测者回答问题,收集个人信息。管理类的学术期刊刊登的论文,多数都靠问卷调查的数据进行论证。最早的大规模问卷调查要追溯到1907年美国匹兹堡进行的一项需求调查,考察工业化过程带来的诸多问题,如贫困者的生活条件和工业事故等。
问卷主要包含问项和量表(答案)两项内容。访谈法则由访谈人向被访者提出问题并记录答案,访谈或问卷都要提出问题和收集答案,都涉及问项构造和量表设计。.
1.问项构造
问项构造须考虑两件事:一是回收率高;二是数据效率高。为了回收率高,问卷要简明且有吸引力,便于回答。篇幅过长的问卷令人望而生畏;繁琐的问卷令人讨厌;草率的语句或凌乱的问题次序令人失去耐心。数据效率高,是指问卷的答案信息确切地符合验证研究假设的需要。如果问卷信息在数据分析阶段用不上,就徒然浪费了研究者和被测者的时间,或者数据分析时才发现有些变量还欠缺数据,补救已来不及。因此,要求问卷提供论证所必要的全部信息,而且所收集到的信息都能在数据分析中用上。
为了设计好问卷,-定要在提出假设和变量设计之后再设计问卷,从假设所含的变量出发,按每个待测变量衍生出一套问项,而不是先设计问项,或利用现有问项,然后去凑合所研究的问题和变量。先变量设计后问卷设计,这个次序不能颠倒,有的研究生忽视这个次序,在假设和变量还不清楚甚至研究问题尚未确定的情况下,便去设计问卷,这种问卷必然大而全,问项很多,杂乱无章。待到数据分析阶段还会发现应该收集的数据尚未收集,而收集到的数据却有很多没有用上,收集数据和变量设计脱节,论证工作的逻辑顺序也就中断。
不遵守先有变量后设计问卷的原则,往往导致生搬硬套文献上的问卷,如“满意度”和“工作倦怠”等都有现成的英文问卷,若翻译过来就用,不仅有文化差异引起的偏差,而且,原问卷设计者与自己的研究背景和目的不同,问卷的有效性也成问题。类似的情况还有,设计一个口径很大的问卷,企图涵盖所研究领域的全部方面,以为数据多多益善,一次收集数据能为多项研究或多篇论文所用。其实,这样脱离了研究假设而设计的问题导向不明的问卷,一定效率不高。
问卷调查的目的不外乎两类。第一类是调查被测者本人的特征,如被测者的智商、高层管理者的风险态度;第二类是调查被测者对某种事件的评价。以企业的市场调查为例,如果着眼于客户分类,所设计的问卷要用来辨识时尚型、大众型等不同特点的客户,便属于第一类。如果要调查客户对产品功能和质量的看法,那就要关注被测者对产品功能和质量的意见,属于对事件的评价,被测者特征的差异便较为次要。
第一类问题涉及自我评价的内容,一般不能直接提问,如不能够提问“你认为自己的智商属于高、中、低的哪一种” ,或者要管理者自已回答风险意识高低能力强弱、自己的薪酬偏高或偏低等,因为这些牵涉到自身利益和心理因素,自我直接判断的精度很差。
2.量表设计
问卷调查的结果是被测者对于问项的答案。为了便于将答案的主观判断结果转换为定量数据,问卷要包含量表。“量表”( scale)指由一组符号或一组数字 ,按照一定规则和格式建构的答案表。被测者按此量表给出符号或数字答案,据此可转换出变量属性的定量值。量表犹如测量仪器的指示仪表,用数字表示测量的结果。量表和问项构成问卷的主体,但不是全部,问卷还有封面信、指导语等部分。
量表设计中,答案要和问项综合考虑,遵循的原则是有利于信度的提高。量表的答案形式,大体可分为两类:一是“是否型”,被测变量属性只能是“有”或“无”两种;二是“分级型”,答案能反映被测变量属性差异的程度。
(1)“是否型”答案。
对于“是否型”答案,其问项的相应表达形式如表4-1 ,这是一份测度员工对公司态度的量表,包括四个问项。答案是在“是否栏”中选一项。
“是否型”答案的量表分两种情况,表4-1所示的量表各问项之间无包容关系。问项后的数字表示该问项的得分值,得分值可以在量表设计时用层次分析法(AHP)之类的权重估算法来确定。还有一种量表存在包容关系,如表4-2所示,表中第4问项包容性最大,同意第4问项的被调查者,也必然同意3、2、1问项,同意第3项的也必然会同意2.1项,以此类推。
(2)“分级型”答案
“分级型”答案的量表如较常用的李克特量表( Likert scale) ,较之“是否型”答案的量表应用更广泛。它具有不少优点,答案不只是“是”或“否”,可以有多种选择,表达支持或不支持的程度。从“是否型”答案的0,1变量,转换成有五种或七种属性的变量,计量尺度则由定类尺度换成定比尺度,能应用统计工具进行较多的运算。例如管理者要弄清员工对一项改革措施的态度或后果就可用这种量表。表4-3是调查工作满意度的量表,答案分五级。
“分级型”答案的量表,答案也可由成对的两极形容词构成。如调查年轻人、老年人或某个群体的特征,可用表4-4形式的问卷。
(3)计分办法
量表的答案格式不同,计分办法也不同。“是否型”答案,可以赋予每一问项分数值,然后根据被测者选“是”的问项,算出分数均值。被测者如选择表4-1的问项1到4项为“是”,则该问卷的计分为(10.4+8.5+5.1)/3=8。如系包容性顺序,则包容性级别越大的问项,其分值越大,如选择表4-2第4项答案为“是”,则其他三项必然为“是”,得分为4;第3项为“是”,则得分为3。
“分级型”答案的李克特量表如表4-3所示,问卷答案一般分五级——很赞成(5分)赞成(4分)、无所谓(3分)、反对(2分)、强烈反对(1分),将各问项分数加总即得该被测者所给分值。
“两极分级型”的问卷,可以用作图形式来汇总各问卷的测度结果,如问卷用于评估人员对每位应聘人员评分,加总后平均所得数据有表4-5的形式,可表示应聘人员每项指标分值之差异,也可算出均值或加权平均值。
表4-5表示评估人员对每位应聘人员评分,加总后平均所得数据。统计分数时,表中各答案的左端都是高分,右端是低分,不再是测试时的混杂顺序。
3.问项和量表的语言表述
问卷中,问项和量表所涉及的概念名词要清晰,以免引起不同的理解。例如问项:“你每天接待本单位职工要花费的时间”,答案:很多、较多、一般、较少、少。这种答案的表述就不清晰。有的管理者可能认为一个小时已经很多了,有的则认为3小时才算很多,不如具体说明时间:“你每天接待本单位职工要花费的时间:2小时以上,1 ~2小时,半小时到1小时,少于半小时,0小时”。或者找出一个参照点,不是问你花费多少时间,而是“与制度实施前比较起来”或“与规定的接待职工时间比较”,你的接待职工时间是较多还是较少等。
问项构建要注意以下各点:
①避免引导性问题和敏感性问题。例如:“不论在职人员工资怎样提高,老人退休金都不增加,你赞成吗?”这种表述多少会使被测者感受到,提问者意欲得到某种预期的答案,可能会选择反对答案。又如问一位管理者“你对工作是高标准要求吗?”,这犹如问一位母亲“你爱你的小孩吗?”“你考试作弊了吗?”这种问题本身褒贬含义明显,选择性很差。
②避免不可靠的前提设定。例如:“你对去年工资增加情况满意吗?”前提是去年工资增加,如果被测者没有加工资,就无法回答。这种情况下,最好事先附加提问“去年你的工资增加了吗”。又如问项“你一周喝酒几次?”言下之意,被测者一定喝酒。不如问:“下面的几种描述,哪一种适合于你喝酒的情况?不喝酒?每周1~2次?每周3~5次?每周5次以上?”。
③避免一个问项包含两个或更多的问题。例如:“你支持教育经费和科技经费增加吗?”就应该将教育和科技经费分成两个问项。有的是隐含多个问题,如“你对本市的城市建设满意吗?”城市建设包含的内容很多,这样笼统的提问,往往得不到确切的信息。
④避免用否定式提问。如“校长不应该直接指定系主任吗?是?否?”,容易引起误解,不如改成“校长应该直接指定系主任吗?是?否?”。又如问“你是否赞成不进行年终考核?”,这种绕了个弯的提问,容易引起误解,被测者往往不愿费时仔细推敲问项的原意,很可能赞成年终考核的人,看过此问项后凭大概的印象就投了“赞成”的票,选择的答案正好和实际意图相反,不如直接问“你是否赞成年终考核?”。
⑤每一个问项的答案都应该属于同一个层次。如不这样做,会出现逻辑混乱,如问:“人们沉闷时,最常发生的是哪一类举动?消极行为?破坏性行为?亢奋行为?喝酒?发脾气?”,该量表中,“喝酒”和“发脾气”与“亢奋行为”或“消极行为”不属于同一层次,犯了逻辑层次紊乱的毛病。“喝酒”和“发脾气”应属“亢奋行为”的下一层次的概念,同时,“亢奋行为”“消极行为”这种分类准则不清晰,被测者对其内涵的理解可能有交叉,同样不适当。
⑥不可忽视问项的次序安排。不当的问项次序,可导致回收率降低和答案偏差。一般来说,排在前面的问项更重要,被测者如对所提问题感兴趣就会回答下去,如枯燥无味或难以回答,便搁置一旁。同时,一般来说开始回答问题时比较认真,误差较小。此外,意见型问项与事实型问项相比,意见型问项放在前面为宜,涉及被测者个人信息如年龄、性别、收人等事实问项,则应避免放在前面,因为被测者经常要回答这类问项,易感厌烦而失去继续回答的兴趣。
⑦防止答案模式雷同。每个量表常设5级或7级答案,设计时要防止答案模式雷同。例如“强烈赞成”始终表示被测者对问项的正面支持态度,被测者有时会厌烦给出雷同的回答,便改变选项,这种改变不是出于被测者真实的判断,而是出于对答案模式雷同厌烦的心理,这就影响量表的有效度。所以量表的各个问项,强烈赞成或强烈反对的答案都有可能表示被测者持正面或负面的态度。
4.问卷设计的程序
研究生学位论文工作中,问卷设计常出现一种不良倾向:只凭自己的设想或只是几个人讨论一下,写出一些问项,设计出相应的量表就算完事,把第一次拟出的问卷当成最后使用的问卷。事实上,有效的问卷要运用一些规范的程序多次修改,才能设计出来,就像自然科学研究中的测量仪器需要精心制作。
确定好问项表达形式和答案的格式以后,便可着手设计问卷。首先是拟订和收集问项,其数量约三倍于最后问卷的问项。然后进行问项筛选和聚类,对于分级型答案的量表,要求问项能反映被测者态度的差异,不希望所有被测者的答案都集中在一个或两个选项上面,如问:“互联网与传统图书馆相比,所提供的研究工作条件更为优越”,答案如果都集中在“强烈赞成”或“赞成”,那就发现不了被测者的态度差异或不同的社会心理特征,说明大家已形成共识,成为一种常识,用不着调查。所以,问项筛选中采用“差异值”( DP, discriminatory power score) 来辨析和删除无差异问项。现举例说明。
问卷研发者邀请40~50名相关人员作为被测者,对初步拟订出的问卷给出答案。被测者的量表答案计分后,将各问项得到的40 ~50个分数(Q,) ,按高低排序。
从中划出四分位值以上的人群(≥Q3,分数最高的那25%),即高分群,和低于四分位值(Q1)的人群(≤Q1 ,分数最低的那25% ) ,即低分群。然后,计算该两组人群给分的差异值(DP)。
表4-6说明量表中某个问项差异值DP的计算,被测者40名,高、低分群各占10人。高分群中,对该问项给出5分的有3人,给出4分的有4人,3分的2人,2分的1人,无人给0分。于是,高分群的总分为(1x0)+(2x1)+(3x2)+(4>4)+(5x3)= 39。低分群的总分相应为(1x2)+(8x2)+(3+4+5)x(0)= 18。平均分值各为3.90和1.80,差异值即两组均值之差为DP=3.9-1.8=2.1。所有预选问项的DP值都计算出来以后,DP值最大的问项即是最合理的问项,表示高分群和低分群的差异显著,一般选择DP≥1作为筛选准则。表4-6的例子DP=2.1,表明该问项符合要求。
经过问项筛选和聚类,问卷设计初稿完成以后,须先进行一次试调查,以发现问卷的缺陷和遗漏之处,不要急于正式调查。试用的方式有两种。一种是客观检验法,在正式调查的总体中选择一个小样本,试用问卷初稿。试用结果可以从回收率和答案来分析。回收率是对问卷的总体评价,如回收率低于60%,说明问卷设计有较大问题,,需要作修改。同时,还要注意有效回收率,即除去废卷后的回收率,有些问卷回收率并不低,但乱填漏填之处甚多,仍说明问卷设计有问题。问卷中如有些问项普遍未给出答案,便需要找出原因,是太难还是太费时;如某些问项答案错误甚多,那很可能是问项的语句表述不够清晰等。另一种是主观检验法,请一些本研究领域的专家、同行或被调查者,对问卷初稿进行评论,提出修改意见。在实际研究工作中,客观检验法是主要方式,主观检验法可以辅助。