第2章数据从哪儿来

第2章测验

1、单选题:
‏下列调查中,适合用普查方法的是‍
选项:
A: 电视机厂要了解一批显像管的使用寿命
B: 要了解我市居民的环保意识
C: 要了解我市“阳山水蜜桃”的甜度和含水量
D: 要了解某高中数学教师的年龄状况
答案: 【 要了解某高中数学教师的年龄状况

2、单选题:
‎下列调查中,调查方式选择正确的是‌
选项:
A: 为了了解某品牌手机的屏幕是否耐摔,选择全面调查
B: 为了了解玉兔号月球车的零部件质量,选择抽样调查
C: 为了了解南开步行街平均每天的人流量,选择抽样调查
D: 为了了解中秋节期间重庆市场的月饼质量,选择全面调查
答案: 【 为了了解南开步行街平均每天的人流量,选择抽样调查

3、单选题:
‍从使用者角度看,从( )中取得的统计数据是第二手统计数据。‍
选项:
A: 经济普查报表
B: 农产量抽样调查报表
C: 《中国人口统计年鉴》
D: 固定资产投资月度统计报表
答案: 【 《中国人口统计年鉴》

4、单选题:
​下列抽样方法中,属于概率抽样的是​
选项:
A: 判断抽样
B: 配额抽样
C: 方便抽样
D: 整群抽样
答案: 【 整群抽样

5、单选题:
‍由专家有目的地选择他们认为“有代表性”的样本属于‎
选项:
A: 自愿抽样
B: 随意抽样
C: 判断抽样
D: 简单随机抽样
答案: 【 判断抽样

6、单选题:
‌简单随机抽样的适用条件有‌
选项:
A: 调查对象分布的范围广阔
B: 个体之间的差异很大
C: 个体之间的差异不是很大
D: 抽样框中有更多可以利用的辅助信息
答案: 【 个体之间的差异不是很大

7、单选题:
‌系统抽样的优点有‌
选项:
A: 操作简便,只需要随机确定起始单位
B: 实施调查方便,可以节省费用和时间
C: 方差估计比较简单
D: 可简化抽样框的编制
答案: 【 操作简便,只需要随机确定起始单位

8、单选题:
‏事先将总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做​
选项:
A: 分层抽样
B: 简单随机抽样
C: 整群抽样
D: 等距抽样
答案: 【 等距抽样

9、单选题:
‍整群抽样是对被抽中的群作全面调查,所以整群抽样是‌
选项:
A: 全面调查
B: 非全面调查
C: 一次性调查
D: 经常性调查
答案: 【 非全面调查

10、单选题:
‌关于分层抽样的优点,下列说法错误的是‍
选项:
A: 分层抽样不仅可以估计总体参数,同时也可以估计各层的参数
B: 抽样方法最简单
C: 降低抽样误差
D: 便于抽样工作的组织
答案: 【 抽样方法最简单

11、单选题:
‎样本量的影响因素不包括​
选项:
A: 调查的精度
B: 总体的离散程度 
C: 总体的规模
D: 系统录入误差
答案: 【 系统录入误差

12、单选题:
‌将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法没有严格限制,这种抽样方法称为‏
选项:
A: 判断抽样
B: 方便抽样
C: 自愿样本
D: 配额抽样
答案: 【 配额抽样

13、单选题:
​网络数据采集的优势不是​
选项:
A: 灵活性
B: 随意性
C: 自主性
D: 综合性
答案: 【 随意性

14、单选题:
‏Python的哪些模块不可用于网络数据获取‌
选项:
A: Scrapy
B: Selenium
C: BeautifulSoup
D: Scipy
答案: 【 Scipy

15、单选题:
‌哪些软件不适合网络数据抓取‌
选项:
A: Python
B: R
C: Java
D: Matlab
答案: 【 Matlab

16、单选题:
​网络数据抓取哪些方面是错误的‍
选项:
A: 避免抓取过程中影响正常的服务器运行
B: 不应该对有隐私设置的网站抓取
C: 应该在遵守相关法律的前提下抓取
D: 可以抓取任何网站的任何数据
答案: 【 可以抓取任何网站的任何数据

17、多选题:
‍以下哪些步骤是网络数据抓取必须的‍
选项:
A: 分析目标网站的HTML代码
B: 解析HTML代码
C: 使用软件提取网站信息
D: 对获得的数据分类
答案: 【 分析目标网站的HTML代码;
解析HTML代码;
使用软件提取网站信息

18、多选题:
​以下哪些步骤可以提高网页数据抓取的效率‏
选项:
A: 使用合适的软件模块
B: 避免重复抓取
C: 使用软件自动部署抓取
D: 正确分析网站结构
答案: 【 使用合适的软件模块;
避免重复抓取;
使用软件自动部署抓取;
正确分析网站结构

19、多选题:
‏网络数据抓取广泛应用于下列哪些企业​
选项:
A: Google
B: 中国移动
C: Yahoo!
D: 腾讯
答案: 【 Google;
Yahoo!;
腾讯

20、多选题:
‎网络数据抓取主要涉及到哪些计算机概念‍
选项:
A: HTML语言
B: 正则表达式
C: 分布式计算
D: Internet技术
答案: 【 HTML语言;
正则表达式;
Internet技术

21、判断题:
‌抽样误差是抽样调查中无法避免的误差。‎
选项:
A: 正确
B: 错误
答案: 【 正确

22、判断题:
‌抽样调查所遵循的基本原则是可靠性原则。‎
选项:
A: 正确
B: 错误
答案: 【 错误

23、判断题:
‎普查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。​
选项:
A: 正确
B: 错误
答案: 【 错误

24、判断题:
​抽样平均误差就是抽样平均数的标准差。‏
选项:
A: 正确
B: 错误
答案: 【 错误

25、判断题:
‌网络数据抓取和统计学的关系是没有关系‌
选项:
A: 正确
B: 错误
答案: 【 错误

26、判断题:
‏网络数据抓取是新时期统计学数据获取的关节技术​
选项:
A: 正确
B: 错误
答案: 【 正确

27、判断题:
‏统计学为网络数据分析提供了必要的技术‍
选项:
A: 正确
B: 错误
答案: 【 正确

28、判断题:
​网络数据抓取和传统的调查抽样一样重要‏
选项:
A: 正确
B: 错误
答案: 【 正确

第3章描述分析

第3章测验

1、单选题:
‎将学生的考试成绩分成优、良、中、及格和不及格,这里所得到的数据属于‎
选项:
A: 定类数据
B: 定序数据
C: 定距数据
D: 定比数据
答案: 【 定序数据

2、单选题:
‎关于定序数据,以下说法正确的是‌
选项:
A: 不能取负值
B: “0”表示不存在或没有
C: 可以计算中位数
D: 可以计算算术平均数
答案: 【 可以计算中位数

3、单选题:
‍在使用定距数据描述某种现象时,零点的选定是为了‎
选项:
A: 表示该现象不存在
B: 该现象没有研究的价值
C: 方便或惯例
D: 表示该现象没有
答案: 【 方便或惯例

4、单选题:
​定距数据中,两个数据的差值‏
选项:
A: 有意义
B: 没有意义
C: 有时有意义,有时没有意义
D: 无法判断是否有意义
答案: 【 有意义

5、单选题:
​在常用的集中趋势测量指标中,不易受极端值影响的是‌
选项:
A: 算术平均数 
B: 加权平均数
C: 算术平均数和加权平均数
D: 众数和中位数
答案: 【 众数和中位数

6、单选题:
下面是抽样调查的10个家庭住房面积(单位:平方米):​55,75,75,90,90,90,90,105,120,150​‍这10个家庭住房面积的众数为​
选项:
A: 90
B: 75
C: 55
D: 150
答案: 【 90

7、单选题:
‌一组数据的偏度系数接近为0,峰度系数为3.5,则该数据的统计分布应具有如下特征‍
选项:
A: 扁平分布
B: 尖峰分布
C: 左偏分布
D: 右偏分布
答案: 【 尖峰分布

8、单选题:
‎调查了一个企业10名员工上个月的缺勤天数:有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。那么,关于缺勤天数的说法,正确的是‍
选项:
A: 中位数为2
B: 中位数为2.5
C: 中位数为3
D: 众数为4
答案: 【 中位数为2.5

9、单选题:
‌在某份问卷中,设置了如下问题:‌请问您的年龄是:‌(1)18岁以下,(2)18~25岁,(3)26~35岁,(4)35岁以上‌‌现获得了100名被调查者的回答数据。在以下统计图、统计表中,最不适宜描述这组数据的是‌
选项:
A: 饼图
B: 柱形图
C: 频数分布表
D: 箱线图
答案: 【 箱线图

10、单选题:
​要描述我国国内生产总值的三次产业构成,最恰当的图形是‌
选项:
A: 线图
B: 直方图
C: 柱形图
D: 饼图
答案: 【 饼图

11、单选题:
‍一名研究人员希望用统计图来说明5月份以来我国每天新增甲型流感确诊病例数的变化趋势,你认为适合的图形是‎
选项:
A: 饼图
B: 箱线图
C: 线图
D: 散点图
答案: 【 线图

12、单选题:
‎如果要描述5月份以来我国每天新增甲型流感确诊病例数的统计分布情况,则最不恰当的统计表或统计图是‌
选项:
A: 直方图
B: 散点图
C: 箱线图
D: 频数分布表
答案: 【 散点图

13、单选题:
​一名研究人员希望通过统计图来说明4月份以来北京地区二手房租金每天的变化,以下最合适的统计图是‎
选项:
A: 直方图
B: 散点图
C: 线图
D: 箱线图
答案: 【 线图

14、单选题:
小张收集了1957-2007年中国GDP的数据,如果要反映我国这50年生产发展的趋势,用什么图形最为合适?‎
选项:
A: 直方图
B: 散点图
C: 饼图
D: 线图
答案: 【 线图

15、单选题:
‏某车间三个班生产同种产品,6月份劳动生产率为2、3、4(件/工日),产量分别为400、500、600件,则该车间平均劳动生产率计算式应为‎
选项:
A:                                                         
B:
C:

D:
答案: 【 

16、单选题:
‏某班5名同学的某门课的成绩分别为60、70、75、80、85,这5个数是​
选项:
A: 指标
B: 标志
C: 变量
D: 观测值
答案: 【 观测值

17、单选题:
‍一组样本的数据为3、3、1、5、13、12、11、9、7。这组数据的中位数是‏
选项:
A: 3
B: 13
C: 7.1
D: 7
答案: 【 7

18、单选题:
‍算术平均数、中位数、众数之间的数量关系取决于整体频次的分布状况,在对称的钟形分布中‍
选项:
A: 算术平均数=中位数=众数
B: 算术平均数>中位数>众数
C: 算术平均数<中位数<众数
D: 中位数>算术平均数>众数
答案: 【 算术平均数=中位数=众数

19、单选题:
​下列数据,属于定类数据的是​
选项:
A: 专业:工商管理、工程管理
B: 出生年:1986年、1987年
C: 学生人数:20人、30人
D: 年龄:20岁、21岁
答案: 【 专业:工商管理、工程管理

20、单选题:
​下列数据,属于定序数据的是‎
选项:
A: 专业:工商管理、工程管理
B: 出生年:甲子年、乙丑年
C: 学生人数:20人、30人
D: 年龄:20岁、21岁
答案: 【 出生年:甲子年、乙丑年

21、单选题:
‎某项管理措施在实施前对职工进行了抽样调查,共抽取100名职工,其中69人赞成,22人中立、9人反对,则这些数据的中位数是​
选项:
A: 中立
B: 赞成
C: 69
D: 22
答案: 【 赞成

22、单选题:
‏下列关于众数的叙述错误的是‌
选项:
A: 一组数据可能存在多组众数
B: 众数一般不受极端数据的影响
C: 一组数据的众数肯定是唯一的
D: 众数一般用于测度数据的集中趋势
答案: 【 一组数据的众数肯定是唯一的

23、单选题:
‏下列数值特征中,不受极端值影响的是‌
选项:
A: 算术平均数
B: 加权平均数
C: 极差
D: 中位数
答案: 【 中位数

24、单选题:
‍条形图是利用宽度相同的条形的(  )来表述数据多少的图形​
选项:
A: 面积
B: 高度或长度
C: 频数
D: 类别
答案: 【 高度或长度

25、单选题:
‌某项管理措施在实施前对职工进行了抽样调查,共抽取100名职工,其中69人赞成,22人中立、9人反对,则这些数据的众数是‌
选项:
A: 中立
B: 赞成
C: 69
D: 22
答案: 【 赞成

26、单选题:
‌可用来描述定性数据的统计图形是‍
选项:
A: 饼图
B: 直方图
C: 线图
D: 散点图
答案: 【 饼图

27、单选题:
​关于平均数、中位数、众数的描述,错误的是‌
选项:
A: 三者都是用来反映数据的集中趋势
B: 平均数易被多数人理解和接受,实际中用的也较多
C: 众数容易受到极端值的影响
D: 当数据为偏态分布时,中位数和众数的代表性更好
答案: 【 众数容易受到极端值的影响

28、单选题:
‏下列说法错误的是‍
选项:
A: 极差容易受到数据中极端值的影响,不能准确地反映数据的离散程度
B: 标准差的大小会受到数据本身数值的影响
C: 一组数据的离散系数除以均值即为标准差
D: 标准差相同的两组数据的差异程度可能不同
答案: 【 一组数据的离散系数除以均值即为标准差

29、单选题:
‌下列关于定量数据的图形表示方法,错误的是‌
选项:
A: 直方图横坐标代表变量分组
B: 线图利用线段的升降来说明数据变动方向
C: 散点图可以用来反映两个变量之间的关系
D: 定量数据的直方图和定性数据的条形图实际上是相同的
答案: 【 定量数据的直方图和定性数据的条形图实际上是相同的

30、单选题:
‍对于定量数据和定性数据都能测量统计的是‎
选项:
A: 平均数
B: 标准差
C: 方差
D: 众数
答案: 【 众数

31、单选题:
‏描述GDP与消费的关系适宜的图形是‌
选项:
A: 饼图
B: 散点图
C: 直方图
D: 条形图
答案: 【 散点图

32、单选题:
‏某运动中心有20个篮球场、30个羽毛球场、40个排球场、15个手球场。在上面的描述中,运动场的众数是‎
选项:
A: 40
B: 30
C: 排球场
D: 手球场
答案: 【 排球场

33、单选题:
‍有下列甲、乙两部门职员工资数据:甲部门职员工资4000,3000,2500,2000。乙部门职员工资1800,4750,2750,5500。若要比较这两部门职员平均工资差异程度大小,应选用的方法是‎
选项:
A: 极差
B: 标准差
C: 变异系数
D: 平均数
答案: 【 变异系数

34、单选题:
‎在下列选项中,属于反映各观测值离散程度是‎
选项:
A: 算术平均数
B: 调和平均数
C: 加权算术平均数
D: 标准差
答案: 【 标准差

35、单选题:

在加权算术平均数公式中,若各个观测值都扩大3倍,而频数都减少为原来的 ,则平均数

‎选项:
A: 不变
B: 减少3倍
C: 扩大3倍
D: 扩大9倍
答案: 【 扩大3倍

36、单选题:
‏计算标准差时,若每个数据都减去常数a,则计算结果与原标准差相比‎
选项:
A: 变大
B: 不变
C: 变小
D: 无法确定
答案: 【 不变

37、多选题:
​在一次问卷调查中,被调查者需要填写出个人的民族、婚姻状况、居住地的邮政编码、年龄和收入。以下说法正确的有‏
选项:
A: 民族是定性变量
B: 邮政编码是定量变量
C: 年龄是定序变量
D: 婚姻状况是定类变量
E: 收入是定量变量
答案: 【 民族是定性变量;
婚姻状况是定类变量;
收入是定量变量

38、多选题:
‏以下关于四分位距的说法,正确的是‌
选项:
A: 主要用于对定序数据离散程度的测度,也可用于定量数据
B: 四分位距反映了中间50%数据的离散程度
C: 数值越小,说明中间的数据越分散
D: 可用于衡量中位数的代表性
E: 不受极端值的影响
答案: 【 四分位距反映了中间50%数据的离散程度;
不受极端值的影响

39、多选题:
‍2010年,我国以2010年11月1日零时为标准时点进行了第六次全国人口普查。调查项目包括姓名、与户主关系、性别、出生年月、是否识字、受教育程度等。普查表明,登记的大陆31个省、自治区、直辖市和现役军人的人口共1339724852人。以下说法正确的有:‏
选项:
A: “全国人口数”是定量变量
B: 要显示我国居民的民族构成可以使用直方图
C: 要显示我国居民的年龄分布可以使用直方图
D: 要显示我国居民的城乡构成可以使用线图
答案: 【 “全国人口数”是定量变量;
要显示我国居民的年龄分布可以使用直方图

40、多选题:
‏10家化妆品公司在电视广告上的花费如下(单位:百万美元):‎‏72, 63.1, 54.7, 54.3, 29, 26.9, 25, 23.9, 23, 20。‎‏下列统计图、统计表中,不宜用于描述这组数据的是‎
选项:
A: 线图
B: 饼图
C: 直方图
D: 箱线图
E: 散点图
答案: 【 线图;
饼图;
散点图

41、多选题:
‎加权算术平均数的大小​
选项:
A: 受各组观测值大小的影响
B: 受各组频次多少的影响
C: 随观测值的增大而增大
D: 随观测值的减少而减少
E: 与频次多少成反比关系
答案: 【 受各组观测值大小的影响;
受各组频次多少的影响;
随观测值的增大而增大;
随观测值的减少而减少

42、多选题:
‏易受极端值影响的平均指标有‎
选项:
A: 算术平均数
B: 加权平均数
C: 中位数
D: 众数
答案: 【 算术平均数;
加权平均数

43、多选题:
​定量数据的图形表示方法一般有‌
选项:
A: 直方图
B: 线图
C: 散点图
D: 箱线图
答案: 【 直方图;
线图;
散点图;
箱线图

44、多选题:
‎对于定量数据,反映其集中趋势的数字特征是​
选项:
A: 平均数
B: 中位数
C: 标准差
D: 方差
E: 众数
答案: 【 平均数;
中位数;
众数

45、多选题:
‌下列选项中,可以用来考查一组数据分布特征的是​
选项:
A: 集中趋势
B: 分布规律
C: 离散程度
D: 数字特征
E: 准确程度
答案: 【 集中趋势;
离散程度

46、多选题:
​对于定量数据,反映其离散程度的数字特征是‍
选项:
A: 方差
B: 标准差
C: 平均数
D: 分位数
E: 极差
答案: 【 方差;
标准差;
极差

47、多选题:
‏下列关于标准差和方差说法正确的是​
选项:
A: 标准差越大,表明各个观测值分布得越分散
B: 标准差越大,表明各个观测值的离散程度越大
C: 方差是标准差的平方根
D: 方差和标准差均有量纲
E: 标准差与离散系数的量纲相同
答案: 【 标准差越大,表明各个观测值分布得越分散;
标准差越大,表明各个观测值的离散程度越大;
方差和标准差均有量纲

48、多选题:
‌下面几个关于集中趋势测量方法的陈述中,正确的是​
选项:
A: 中位数可以用来反映分类数据的集中趋势
B: 均值适用于任何类型的数据
C: 中位数和众数具有统计上的稳健性
D: 均值提供的信息比中位数和众数多
E: 众数是数据中出现频次最多的数值
答案: 【 中位数和众数具有统计上的稳健性;
均值提供的信息比中位数和众数多;
众数是数据中出现频次最多的数值

49、多选题:
‏关于极差,下列说法正确的是‏
选项:
A: 只能说明观测值变异的范围
B: 不能准确地描述数据的分散程度
C: 反映数据的分配状况
D: 最大的缺点是受极端值影响
E: 最大的优点是不受极端值影响
答案: 【 只能说明观测值变异的范围;
不能准确地描述数据的分散程度;
最大的缺点是受极端值影响

50、多选题:
‎下列指标中,不可能出现负值的是‏
选项:
A: 众数
B: 全距
C: 标准差
D: 方差
E: 中位数
答案: 【 全距;
标准差;
方差

51、判断题:
‏定序变量不能计算中位数。‏
选项:
A: 正确
B: 错误
答案: 【 错误

52、判断题:
​通过观察直方图,可以初步了解定量数据的分布形态。‌
选项:
A: 正确
B: 错误
答案: 【 正确

53、判断题:
​电话号码是定量数据​
选项:
A: 正确
B: 错误
答案: 【 错误

54、判断题:
‏一组数据的众数肯定是不唯一的‏
选项:
A: 正确
B: 错误
答案: 【 错误

55、判断题:
‏一组数据的平均指标是衡量该组数据集中趋势的重要指标‍
选项:
A: 正确
B: 错误
答案: 【 正确

56、判断题:
​一组数据的平均指标越大,说明该组数据的集中趋势越明显。‎
选项:
A: 正确
B: 错误
答案: 【 错误

57、判断题:
‍离散程度指标反映了一组数据观测值之间的差异程度。‎
选项:
A: 正确
B: 错误
答案: 【 正确

58、判断题:
‍平均指标值就是“观测值”与“单位数”的商。‍
选项:
A: 正确
B: 错误
答案: 【 错误

59、判断题:
‏加权算术平均数的大小,仅取决于各单位标志值的大小。‏
选项:
A: 正确
B: 错误
答案: 【 错误

60、判断题:
‏中位数就是一系列数值中出现最多的那个数值。‌
选项:
A: 正确
B: 错误
答案: 【 错误

61、判断题:
‍众数是一系列数值中出现最多的频次‌
选项:
A: 正确
B: 错误
答案: 【 错误

62、判断题:
‌离散系数越大,平均数对一组数据的代表性越强。‍
选项:
A: 正确
B: 错误
答案: 【 错误

63、判断题:
‎分类数据和数值型数据的图形展示方法基本相同。‌
选项:
A: 正确
B: 错误
答案: 【 错误

64、判断题:
‍一个数列不可能没有众数,也不可能没有中位数‎
选项:
A: 正确
B: 错误
答案: 【 错误

65、判断题:
‌偏态和峰度可以用来测度数据分布的形状。‏
选项:
A: 正确
B: 错误
答案: 【 正确

第4章统计推断

第4章测验

1、单选题:
‌为调查某市成年男子的饮酒率p,现派出10名调查员做街头随机调查,要求每位调查员调查50名成年男子,则该项调查的总体是‌
选项:
A: 该市所有成年男子
B: 派出的10名调查员
C: 10名调查员调查到的500名成年男子
D: 某调查员调查到的50名成年男子
答案: 【 该市所有成年男子

2、单选题:
‍为了解某校全体学生的身体健康情况,调查员在大一至大四的每个年级中各随机抽取了100名学生,测得其身高和体重,则该问题的样本是​
选项:
A: 该校全体学生
B: 被抽取到的400名学生
C: 某年级被抽取到的100名学生
D: 该名调查员
答案: 【 被抽取到的400名学生

3、单选题:

现有一个均值为0的正态总体X,已知是来自该总体X的简单随机样本,则服从的分布为

​选项:
A: N(0, 5/n) 
B: N(0, 5) 
C: 近似服从N(0, 5/n)
D: 无法判断
答案: 【 N(0, 5/n) 

4、单选题:

若X~t(n),则服从的分布为

‎选项:
A: F(1, n)
B: F(n, 1)
C:
D: t(n)
答案: 【 F(1, n)

5、单选题:

已知一均匀分布总体,参数未知,为来自该总体的简单随机样本,则的矩估计为

‏选项:
A: 不存在
B:
C:
D:
答案: 【 

6、单选题:

设总体X服从均匀分布,未知参数为来自X的简单随机样本,则的极大似然估计为

‎选项:
A: 不存在
B:
C:
D:
答案: 【 

7、单选题:

对正态总体的均值作区间估计,得到置信度为99%的置信区间,其意义是指该区间

‎选项:
A: 平均含总体99%的值
B: 平均含样本99%的值
C: 有99%的机会含样本的值
D: 有99%的机会含的值
答案: 【 有99%的机会含的值

8、单选题:

利用枢轴量法对正态总体的均值作区间估计,为来自X的简单随机样本,若参数未知,则选用的枢轴量服从的分布为

‌选项:
A: N(0,1)
B: t(n-1)
C:
D: F(1,n-1)
答案: 【 t(n-1)

9、单选题:

对正态总体

剩余75%内容付费后可查看

发表评论

电子邮件地址不会被公开。 必填项已用*标注