陈仲
教材出版业的市场调查、评估和预测方法 摘要 本题是一个设计型题目,题目有数据量大,信息多的特点。 首先,我们分析数据库中数据,按一定规则将各大学排序,采用系统随机抽样的方法,外加地域性修正,把市场调查的范围从205所高校缩小到26所 。针对此26所学校进行问卷调查。我们分析调查所得数据,对于某出版社的市场份额,用与该出版社相关的问卷数与总问卷数的比值来衡量,从而得到三年各出版社市场份额的数据表格,并利用拟合的方法进行预测。 其次,我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况,即:抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决,传统方法和贝叶斯方法,并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。 再次,我们还提出了对按需印刷理论的新理解,从而大大减少了出版社的成本投入。在数据的验证中,我们将通过抽样调查得出的市场份额与分析总体得到的市场份额进行比较,求出相对误差。发现绝大多数数据误差不超过0.1,效果较好。在模型改进中,也提出了改进模型的新思路。 最后,我们还对题目进行了更加完备的讨论和使用说明,并在此题的基础上对出版社提出了意见和建议。 关键词: 系统随机抽样 地域性修正 补救无回答 二级抽样调查方法 按需印刷理论 一、问题背景 随着党中央国务院“十一五”发展规划的提出,我国的文化产业也受到了前所未有的重视,同时,“十一五”也宣告了出版产业面临着前所未有的挑战。 “十一五”期间,出版发行业将面临因特网、手机短信、数字出版等科技发展引发的对出版环境的影响,不少出版社和发行单位已经或者正在开始着手对自身未来发展的思考和规划,这种现象本身也是出版业理性回归的一个重要标志。对于出版发行单位而言,战略规划的最大价值在于它的过程,在于培养一种在市场经济环境中的系统思考与应变能力,而不仅仅是规划的结果。根据加入WTO的承诺,2006年是我国出版分销行业全面放开的最后一年,深化体制改革以应对入世,正在成为出版发行行业的重中之重。行业对竞争力的关注前所未有的重视,任何研究报告、市场调查、行业排名都会触动出版社敏感的神经。教育出版对出版社的竞争力影响大,经营成为最主要的提高竞争力的手段,形成了相对稳定的竞争力优势。因此,占据出版业优势地位的教材出版业更注重对市场的调查研究,对市场作出科学的评估和预测,我们需要的就是一种科学的调查、评估和预测方法。 二、问题重述 某出版社出版多类高等教育和职业教育的教材。从出版社的战略发展、投资策略、生产安排、销售方式、和产品策划等业务考虑,需要对出版社的市场占有率(市场份额)及其逐年变化进行调查。请你设计有效而可行的调查方法,并且建立调查数据的分析模型,以及对市场作出科学评估和预测的方法。 本题的附录中给出的基础数据是问卷式普查数据,由于抽样成本的限制,普查是不可取的,而且抽样数应该在调查目的的基础上尽量少。 题目说明 1. 由于抽样成本,普查不可取,但是抽样方法的样本数和调查效益之间有平衡关系,确定你的抽样数时应该考虑这种平衡关系。 2. 完整地描述你的调查方法,并且清楚地给出你的模拟数据。如果使用问卷式抽样调查(不限于问卷式),请给出问卷格式。 3. 给出基于调查数据的市场评估和预测模型,并用数据说明你的方法的有效性和科学性。 4. 在附录1中给出了一个参考的问卷格式,也给出与该问卷相关的一个数据库(附录4)。这个数据库是包含十个省,全部学生(为了减少数据量,假定全班学生填表相同,因此每个专业只有一个学生填写问卷)的模拟答卷(包括三年的),作为本竞赛题的背景数据 5. 附录2中给出供本题提供的数据库的29类教材名称以及分类号,附录3给出某出版社各类教材的三年销售量,可供查询。 6. 在附录4中也给出十个省所有学校名称以及其专业名称,你可以用在这些检索词确定你对数据库的取样查询。 7. 如果你自行选用数据,请给出调查数据的可靠性和合理性的检验方法和数据来源。 三、基本假设 为了便于我们从题目的整体理解,从出版社的战略发展、投资策略、生产安排、销售方式和产品策划等业务考虑,对出版社的市场占有率(市场份额)及其逐年变化进行调查。从而设计有效而可行的调查方法,并且建立调查数据的分析模型,以及对市场作出科学评估和预测的方法。我们在此做出合理的基本假设: (1)在相当长的一段时期内教材出版业的市场是基本稳定的; (2)社会环境稳定,社会政策关于出版业方面无较大调整; (3)教育部门对教材的应用无较大变化; (4)学校各专业无较大的变化,学校的人数不会有大幅度的增加或减少; (5)教材出版社的数量基本稳定,经营状况起伏不大; (6)出版社的经营情况良好,无意外事件发生; (7)教材出版社出版的教材质量有保证,无质量问题; 四、问题的分析与模型的准备 一、问题的分析 鉴于本题的附录中所给出的数据较多,有: (1)在附录1中给出了一个参考的问卷格式; (2)在附录2中给出供本题提供的数据库的29类教材名称以及分类号; (3)在附录3给出某出版社各类教材的三年销售量,可供查询; (4)在附录4中给出十个省三年的原始数据以及相对应的学校专业名录; (5)还可自行选用数据。 而且,题目中要求基础数据是问卷式普查数据,由于抽样成本的限制,普查不可取,抽样数应该在调查目的的基础上尽量少,所以,我们从以下方面考虑,处理数据,解决问题: 首先,我们分析数据库中数据,按一定规则将各大学排序,采用系统随机抽样的方法,外加地域性修正,把市场调查的范围从205所高校缩小到26所 。针对此26所学校进行问卷调查。我们分析调查所得数据,对于某出版社的市场份额,用与该出版社相关的问卷数与总问卷数的比值来衡量,从而得到三年各出版社市场份额的数据表格,并利用拟合的方法进行预测。 其次,我们还考虑到了问卷抽样调查过程中有可能出现的特殊情况,即:抽样无回答情况。我们利用两种补救无回答的二级抽样调查方法对此问题进行了解决,传统方法和贝叶斯方法,并对它们之间的异同作简略的概括和比较。此两种方法均是为降低非抽样误差、提高数据质量服务的。可以说在模型的应用一个非常好的补救方案,使我们的模型更加完整,更具有有效性和科学性。 再次,我们还提出了对按需印刷理论的新理解,从而大大减少了出版社的成本投入。在灵敏度分析中,我们还利用某出版社的数据对模型进行了验证,将模型推广到一般。 最后,我们还对题目进行了更加完备的讨论和使用说明,并在此题的基础上对出版社提出了意见和建议。 二、模型的准备(名词解释) 1、数据压缩 数据压缩是以信息损失最小为前提,简化或压缩数据以提高其传输、存储和处理效率的一种技术。考虑到数据量相当庞大,需要获取和处理的数据量较多,数据压缩是减少工作量、节省计算机时间的有效方法。可通过去掉间隔、空白段、冗余项目或不必要数据,只保留反映特征的数据等手段实现,达到在给定空间内增加所能存储的数据量,减少数据量所占的空间。数据压缩方法通常有:①削减。用外延或内插方法推算冗余数据并将其去掉;②参数抽出。即仅保留特征数据和参数;③等时间采样。按等时间间隔对连续输入的数据进行采样;④编码变换。将数据变成简化代码,或对每个数据块进行编码变换,其效率用每个像元的比特数来衡量;⑤函数应用。根据由等间隔或不等间隔采样得到必要的采样点,用函数算法推算出削减的数据。 2、无回答 所谓无回答是指出于某些原因,不能从所有的样本单位或问卷的所有问题中获得所需的信息。它可以是样本单位没有提供或者没有完全提供所需的信息,可以是所提供的信息中有一部分无法使用。无回答的调查者与回答的调查者通常具有不同的特征,因此如果对无回答不进行纠正的话,将会降低样本的有效性和代表性,使调查估计值产生偏差,从而降低调查的精度,甚至导致整个调查的失败。 3、二级抽样方法 二级抽样方法是人们常用的一种处理无回答问题的方法,它的基本思想是:对最初的无回答进行再一次的随机抽样,然后用最初样本的回答数据和子样本数据对总体进行估计,以消除无回答的偏差影响,提高估计量的精度。这种方法常用于邮寄调查中。下面我们将介绍两种补救无回答的二级抽样调查方法:传统方法和贝叶斯方法,并对它们之间的异同作简略的概括。 4、按需印刷 按需印刷(Print On Demand,简称POD)的本意是指按照不同时间、地点、数量、内容的需求,通过数码及超高速挽印技术实现出版行业整个流程的全新改造来适应个性化、短版化、高效率的现代市场需求。它尤其适用于一些定向较窄、专业性强、可变性强、批昼较小的印刷业务。按需印刷是先进的数据库技术和数字印刷技术相结合的产物。其操作过程是先将图书内容数字化,然后用电子文件在专门的激光打印机上高速印制书页,并完成折页、配页、装订等工序。它具有印刷时间上的即时性,印刷数量、印刷内容的可变性和个性化等特点。 在此,我们利用它的引申意,按照市场所需的教材的数目进行印制。由于各高校对于教材的需求种类不同,所以,很需要这么一种模式来满足客户的需求,因此,我们在此提出按需印刷模式。 同时,按需印刷采用即时供货结账的方式,使出版社节省了图书储存空间。实现“零库存”,而且还能解决图书绝版及印数问题。通过按需印刷,出版社可摆脱图书印刷、库存、运输、投资所带来的资金风险和发行量的压力,节省成本。 五、模型的建立与预测 (一)、抽样调查方法的陈述 我们的抽样调查可分前期、中期、后期三个工作阶段,即“样本-数据-分析”。前期工作是进行抽样设计获得调查单位名单,解决向谁搜集统计资料的问题(样本);中期工作是对抽选的调查单位进行统计调查,获得统计数据并对数据进行必要整理,提供准确的、可供统计分析的数据,解决数据获取和数据格式问题;后期工作是利用统计软件对调查和整理得到的数据进行统计分析,得出科学的分析结论,达到统计工作的最终目的(分析)。三者相辅相成,缺一不可。 抽样调查所考虑的问题在实际抽样调查中无外乎包括以下三个方面: 调查指标估计的精度;调查成本的高低;样本的容量。在抽样调查方案设计中以上三个方面是相互矛盾的。因此,在抽样调查方案设计中应当根据实际对以上三个方面问题进行重要性排序,一般情况下,调查指标估计的精度是最重要的,其次应当考虑调查成本,最后再考虑样本容量。 所以, 抽样调查方案设计中三个问题的优先级: ( I 是优先级) 以下是我们归纳的抽样调查的步骤: 5.1、抽样的目的 抽样的目的是从已有的普查数据库中选取有代表性的数据,即数据压缩。通过数据压缩,得到误差允许范围内的数据,从而对市场进行科学的评估和预测。 5.2、抽样的基本原则 为了掌握市场的情况,所抽得的数据应该具有全面性和代表性,这是抽样的基本原则。 5.3、常用的抽样方法(简述) 抽样方法可分为概率抽样和非概率抽样两大类。由于非概率抽样结果的可能性不能准确地计量,一般都使用概率抽样方法,简单随机抽样、分层随机抽样和系统随机抽样均属概率抽样方法。 1. 简单随机抽样 简单随机抽样是指“从含有N 个个体的总体中抽取n 个个体,使包含有n 个个体的所有可能的组合被抽取的可能性都相等”。采用此方法抽样时,数据库中的每个数据被抽入样本的机会均等,它是完全不带主观限制条件的随机抽样法。它是一个基本的随机抽样方法,也是其他随机抽样方法的基础。 2. 分层随机抽样 有时产品可分为若干层,各层产品质量存在明显的差异,为了取得有代表性的样本,把整批产品分为若干层,使同一层内产品质量尽可能均匀整齐,在各层内分别随机抽取一些产品,合在一起组成一个样本,这样的抽样方法叫分层随机抽样。在正确分层的前提下,分层抽样的代表性比简单随机抽样好,但是如果对批质量的分布不了解或分层不正确,则分层抽样的效果会适得其反。 3. 系统随机抽样 如果一个批的产品可按一定的顺序排列,并可将其分为数量相当的n 个部分,从每个部分按简单随机抽样方法确定的相同位置,各抽取一个单位产品构成一个样本,这样的抽样方法称为系统随机抽样。它的代表性在一般情况下比简单随机抽样要好些,但在产品质量波动周期与抽样间隔相当时,抽到的样本单位可能都是质量好的或都是质量差的产品,此时代表性就较差。 5.4、抽样方法的正确选择 为了更好的评估和预测市场,选择合适的抽样方法是非常重要的。 1. 当数据比较稳定,数据并不多时,选择简单随机抽样,在对总体质量一无所知的情况下,也应选择简单随机抽样。 2. 当不同的数据来自不同的地域时,为了取得有代表性的样本, 可以采用分层随机抽样。 3. 当数据不稳定,中间相差较大时,应采用系统随机抽样。 根据实际情况, 选择正确合理的抽样方法,提高样本的代表性和随机性, 从而提高抽样的有效性, 是十分重要的。只有科学、合理、有效地实施抽样,才能使我们的要求得以实现。 为此,我们针对此题数据多,地域性广,各类书籍需求量相差很大等特点,综合考虑三种抽样方法,采取以系统抽样为主,其它抽样为辅的方法,利用数据压缩解决抽样问题。 同时,我们还应用了Excel软件,Excel软件在统计分析方面的功能虽不及专业统计软件(如SPSS、SAS等),但它那强大的、灵活易用的数据管理和整理功能是专业统计软件所不能及的。因此,我们在处理数据方面较多的利用了Excel软件,使我们的处理数据的速度大大加快。 抽样调查问卷采用题中给出格式。 (二)、模型的建立 首先,我们从数据库中查询出一些有用数据,先写在下面。 1.学科类别 29类 2.出版社数目 25个 3.大学数量 205所 ,各个省市对应的大学数量见下(表一): 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南 49 30 26 24 24 14 13 12 9 4 (表一) 4.基于数据库中全部数据,每一年收回问卷数中与该出版社有关的问卷数目,见(表二): 出版社 第一年与出版社有关的问卷数目 第二年与出版社有关的问卷数目 第三年与出版社有关的问卷数目 p196 325 323 327 p559 328 336 346 p106 353 352 351 p199 380 379 393 p307 406 411 418 p102 444 451 452 p131 476 475 472 p511 490 495 503 p030 497 503 512 p063 506 508 515 p416 640 637 635 p304 654 661 666 p110 747 754 764 p246 773 778 781 p432 871 870 868 p091 910 913 913 p118 1002 1015 1031 p210 1308 1311 1308 p044 1606 1604 1602 p390 2041 2035 2025 p405 3098 3162 3227 p534 4021 4001 3983 p293 5095 4947 4767 p115 18267 18116 17967 p357 20490 20646 20812 (表二) 分析:题目说明4中,说明了一份问卷的意义。在一份问卷上出现一个出版社的名字,说明填写该问卷的学生所在的整个专业,使用该出版社的教材。我们可以假设,总体上说,专业平均的人数相同,则某一年与某出版社对应的问卷数目越大,在该出版社购书的人越多,说明该出版社的市场占有率越大。 5. 基于数据库中全部数据,可以考察每一年各个大学的购书情况。我们可以统计出各个大学的学生填写问卷的数目。根据我们的假设,问卷数越大,学校对书的需求量越大。 我们按不同大学对应的问卷数目降序排列。同时,经分析发现,各大学三年的问卷数目并没有发生变化,因此各大学的排名也不会发生变化,因此,三年的问卷数目都可以按第一年的情况考虑。 由于大学数目有205所,我们分析得到的各大学排名数据仍然很多,在这里我们省略。 下面我们来分析每一个问卷数目段中的大学数量:见(表三) 某大学的填写问卷数目 大学的数量 700~799 1 600~699 7 500~599 34 400~499 34 300~399 39 200~299 38 100~199 20 0~99 32 (表三) 据此,我们采取系统随机抽样,对于按填写问卷数目降序排列的205大学,将其分为数量相当的26个部分(按照排名,每8个学校为一个部分,前25部分满额,第26部分有空缺)。对于每个部分,采用简单随机抽样确定相同的位置(本题选用每一部分的第一个位置)。 下面我们来考察我们现在确定的方案是否符合数据的“全面性、地域性和代表性” 见(表四) 省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南 共有大学数量 49 30 26 24 24 14 13 12 9 4 选取大学数量 7 4 3 5 1 3 0 1 1 1 (表四) 从表格中我们看出,个别数据并不能很好的体现地域性和代表性。我们需要对系统随机抽样的结果作出人为的微调。举例来说,我们可以把某一所安徽省的学校换为和它排名相差较小的广西省的学校。 最后,我们确定的学校数量如下(表五): 省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南 共有大学数量 49 30 26 24 24 14 13 12 9 4 调整后选取大学数量 6 4 3 3 3 2 2 1 1 1 (表五) 最终我们所选出来具体的大学,结果见下(表六): 郑州大学 福州大学 广西民族学院 北京理工大学 中国农业大学 贵州工业大学 河北农业大学 北京联合大学 河南省 福建省 广西 北京市 北京市 贵州省 河北省 北京市 744 597 552 542 519 507 470 451 续上表 海南大学 广西师范大学 茂名学院 郑州航空工业管理学院 北京广播学院 商丘师范学院 湛江师范学院 北京机械工业学院 海南省 广西 广东省 河南省 北京市 河南省 广东省 北京市 414 405 385 369 342 305 301 276 续上表 唐山师范学院 河西学院 仲恺农业技术学院 巢湖学院 福建医科大学 北京电子科技学院 安徽医科大学 安徽中医学院 河北省 甘肃省 广东省 安徽省 福建省 北京市 安徽省 安徽省 253 239 208 204 138 103 77 68 续上表 中国人民武装警察部队学院 广州体育学院 河北省 广东省 35 32 (表六) 总结我们的调查方法,是:在205所学校中,选取部分学校作为代表,接受问卷调查。学校的选取方法为:总体采用系统随机抽样的方法,但为了保证“全面性、地域性和代表性”,也对抽样方法作了一些修正。我们选取了如上26所高校作为发放调查问卷的对象。 下面,我们根据上述调查方法,从数据库中分别找出第一年26所大学对应每个出版社的问卷数目。我们采用Excel软件进行处理,得出第一年每个出版社对应26所大学的问卷数目的和。 对应表格如下(表七): 出版社 P559 P199 P102 P106 P196 P307 P304 P030 P131 P511 P063 P416 问卷数目 38 45 47 47 49 55 59 64 67 68 72 85 续上表 P110 P246 P091 P118 P432 P210 P044 P390 P405 P534 P293 P115 P357 88 99 118 119 119 160 204 266 378 515 631 2507 2657 (表七) 我们利用Matlab软件,也表示出了第一年每一个出版社对应的问卷数目与总问卷数目的比值如下(表八): 出版社 P559 P199 P102 P106 P196 P307 P304 P030 P131 P511 P063 P416 问卷比例 0.0044 0.0053 0.0055 0.0055 0.0057 0.0064 0.0069 0.0075 0.0078 0.0079 0.0084 0.0099 续上表 P110 P246 P091 P118 P432 P210 P044 P390 P405 P534 P293 P115 P357 0.0103 0.0116 0.0138 0.0139 0.0139 0.0187 0.0238 0.0311 0.0442 0.0602 0.0737 0.2930 0.3105 (表八) 基于原来的假设和说明,我们可以用它来考察市场占有率。相应的,也可以求出第二年,第三年每一个出版社对应的问卷数目与总问卷数目的比值。 下面给出第二年的结果,见(表九) 出版社 P559 P199 P106 P102 P196 P307 P304 P131 P030 P511 P416 P110 问卷比例 0.0044 0.0051 0.0055 0.0058 0.0061 0.0065 0.0069 0.0072 0.0076 0.0083 0.0098 0.0105 续上表 P063 P246 P432 P118 p091 P210 p044 P390 P405 P534 P293 P115 P357 0.0107 0.0118 0.0138 0.0141 0.0139 0.0185 0.0259 0.031 0.0447 0.0595 0.0711 0.2886 0.3123 (表九) 六、模型的误差分析 运用Matlab软件,可以求出基于数据库全部数据时,每一年每一个出版社对应的问卷数目与总问卷数目的比值。 对于我们的采样方法,以第一年为例,我们可以计算两个比值之间的相对误差,以此来检验我们的方法。 表格见(表十) P196 p559 p106 P199 p307 p102 p131 p511 p030 p063 p416 p304 标准 0.0049 0.0050 0.0054 0.0058 0.0062 0.0068 0.0072 0.0075 0.0076 0.0077 0.0097 0.0100 测量 0.0057 0.0044 0.0055 0.0053 0.0064 0.0055 0.0078 0.0079 0.0075 0.0084 0.0099 0.0069 误差 16.3% 12.0% 1.8% 8.6% 3.2% 19.1% 8.3% 5.3% 1.3% 9.1% 2.1% 31% 续上表 P110 p246 p432 p091 p118 p210 p044 p390 p405 p534 p293 p115 p357 0.0114 0.0118 0.0133 0.0138 0.0152 0.0199 0.0244 0.0311 0.0471 0.0612 0.0775 0.2779 0.3117 0.0103 0.0116 0.0139 0.0138 0.0139 0.0187 0.0238 0.0311 0.0442 0.0602 0.0737 0.2930 0.3105 9.6% 1.7% 4.5% 0 8.6% 6% 2.5% 0 6.2% 1.6% 4.9% 5.4% 0.4% (表十) 由上面表格可以看出,除个别组外,其余各组的相对误差均小于0.1。可见我们的方法在精度要求范围内较好。 七、模型的验证及改进 从出版社的角度考虑,在印刷方面,我们提出按需印刷理论。为了验证模型的有效性和科学性,我们按地区划分,将10个省市三年的售书情况进行了统计,然后我们利用Excel软件对数据进行了处理,并作出直观的图表,借以26所大学的选取进行验证。 某出版社三年内在10个省市的售书情况: 1. 表格见(表十一): 北京市 广东省 河南省 河北省 安徽省 福建省 甘肃省 广西省 贵州省 海南省 合计 第一年 3934 2837 2544 2374 1998 1400 1136 1017 844 290 18374 第二年 3902 2809 2533 2354 1980 1396 1133 1017 838 282 18244 第三年 3870 2773 2504 2315 1963 1378 1122 1009 830 283 18047 合计 11706 8419 7581 7043 5941 4174 3391 3043 2512 855 54655 平均值 3902 2807 2527 2348 1981 1932 1131 1015 838 285 18222 排名 1 2 3 4 5 6 7 8 9 10 (表十一) 由表格我们可以看出: (1)10个省市,每个省市三年中书的销售数量基本相同,每年数量相差不大; (2)在三年中,每一年,10个省市书的总销售量基本相同,平均每年销售18222册; (3)通过三年的比较,可以得出10个省市每年的售书情况及其排名。 2.作图如下: (图一)为三年10各省市的售书情况的自然条形图 (图一) (图二)为三年10各省市的售书情况的比例圆饼图 (图二) 通过作图,我们可以看出: (1)北京市三年内售书最多,达到了21.4%;广东省其次,达到了15.4%;河南省紧跟其后,达到了13.9%;它们三个省市的售书量已达到50.7%,超过了一半。 (2)北京市、广东省、河南省、河北省、安徽省、福建省五省的售书量均超过 10%,其五省的总销售量达到了74.5%。 我们根据(附录),可以求出基于我们的模型,P115出版社各个省份所占的百分比,如下(表十二) 省份 北京 广东 河北 安徽 河南 福建 广西 甘肃 贵州 海南 百分比 25.4% 10.2% 10.2% 4.7% 18.1% 7.9% 10.4% 3.3% 4.5% 5.4% (表十二) 可以看出,和圆饼图相比,一些省份的数据有所出入。 据此,我们找到了模型的改进方向。在选取大学的时候,不仅做到系统随机抽样和地域性修正,还要做到各个省份学校分布相对均衡。这样所得结果必定效果更好。 八、模型的补救方案 在这里,我们将介绍两种补救无回答的二级抽样调查方法:传统方法和贝叶斯方法,并对它们之间的异同作简略的概括。 一、传统的二级抽样方法 传统的二级抽样方法最早由Hansen和Hurwitz提出来的。它以传统的统计推论为基础,用简单随机的抽样的方法对总体进行第一次抽样,取得回答单位的观测值及回答单位权重的估计,然后在无回答单位中再随机抽出一个子样本进行调查,取得无回答单位的信息,最后把这两部分调查结果结合起来,对总体作出推断估计。这种方法实际上是一种分层的二级抽样,总体被分为两层,即回答层和无回答层。 设总体容量为N,其中有 个回答者和 个无回答者, ,随机抽取最初样本,样本容量为 ,其中有 个回答者,样本均值为 ;有 个无回答者, 。然后从 中随机抽取一个子样本 ,其抽样比 ,样本均值为 。总体回答率 ,总体无回答率为 , 。则二级抽样总体均值的估计量为: (1) 根据二级抽样的抽样方差公式可得: (2) 其中, 是样本方差, 是无回答层的方差。 可以看出,总体方差的第一项受最初样本 大小的影响,而第二项不仅受 的影响还受无回答者子样本抽样比 的影响。当 时,方差第二项为零,就是说所有调查者都进行了回答,收集到了全部的数据,它相当于样本量为 的简单随机抽样。 由于考虑上面方差公式中 项与样本的分配无关,所以改写成: (3) 如果考虑二级抽样中两次调查的费用差异,则总费用函数可记为: (4) 其中 为最初样本每单位的调查费用, 为