ict 大数据模拟试题及答案
一、单选题(共 62 题,每题 1 分,共 62 分)
的副本放置策略中,同一机架不同的服务器之间的距离是:( )。
A、3
B、2
C、1
D、4
正确答案:B
2.(____)的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更
加方便快捷地创建智能应用程序。
A、Mahout
B、Flume
C、Sqoop
D、HBase
正确答案:A
的推进和分配在( )管理。
A、GTM
B、CN
C、DN
D、CM_SERVER
正确答案:A
4.以下( )工具可以实现大量数据的快速导入和导出。
A、gsql
B、GDS
C、Data Studio
D、DSC
正确答案:B
5.下列对图数据库描述正确的是?
A、数据仓库的一种
B、存储图片的数据库
C、以“图”数据结构存储和查询数据的数据库
D、与关系型数据库类似的数据库
正确答案:C
6.一个租户中最多可包含()级 VDC。
A、2
B、3
C、4
D、5
正确答案:D
7.在表/文件迁移的任务中,CDM 支持定时执行作业,重复周期单位不能按:( )
。
A、秒
B、小时
C、天
D、月
正确答案:A
自带的资源管理框架是:( )。
A、Stand alone
B、Mesos
C、YARN
D、Docker
正确答案:B
9.用来清理残留事务的工具是:( )。
A、gs_ctrl
B、gs_guc
C、gs_dump
D、gs_clean
正确答案:D
的底层以( )形式存在。
A、实时存储
B、行存储
C、keyvalue
D、列存储
正确答案:C
11.以下两种描述分别对应:( )两种分类算法的评价标准。
A、Precision,Recall
B、Precision,Roc
C、Recall,Precision
D、Recall,Roc
正确答案:A
12.以下( )文件格式为纯行式存储。
A、ORC File
B、Parquet File
C、Sequence File
D、RC File
正确答案:C
13.云硬盘扩容时,下列哪项是不正确的()?
A、在线扩容磁盘时,磁盘所挂载的实例状态必须为“运行中”或者“关机”
B、磁盘所在后端存储类型为异构存储时,支持在线扩容
C、磁盘状态为“预留”或“维护”时不支持扩容
D、配置了容灾服务(CSHA/CSDR/VHA)的磁盘不支持扩容
正确答案:B
14.元数据采集任务的启动方式不包括:( )。
A、循环执行
B、手动执行
C、定时执行
D、定时立即执行
正确答案:A
15.考虑以下场景,Hbase 中有列簇 CF1,列 C1,C2。当读取 Hbase 表时,只要求
返回 C1 的列值,使用下列那个选项可以实现该功能?
A、ColumeFilter
B、QualifierFliter
C、ValueFilter
D、RowFilter
正确答案:C
事务使用的锁模式是:( )。
A、AccessShareLock
B、RowExclusiveLock
C、ShareUpdateExclusiveLock
D、ExclusiveLock
正确答案:B
17.下面( )不是属性选择度量。
A、ID3 使用的信息增益
B、 使用的增益率
C、CART 使用的基尼指数
D、NNM 使用的梯度下降
正确答案:D
中创建、调度、管理的最小单元是什么?
A、Node
B、Pod
C、Service
D、deployment
正确答案:B
19.当 zookeeper 集群节点数为 5 时,请问集群的容灾能力和( )节点时等价的。
A、3
B、4
C、5
D、以上全不正确
正确答案:B
支持以下( )字符码的数据。
A、UTF-8
B、ASCII
C、GB2312
D、Base64
正确答案:A
表设计为什么一般不超过两个列簇?
A、过多的列簇不适合读写分离
B、过多的列簇会导致 memstoreflush 时 I0 压力过大
C、过多的列簇 I0 开销大
D、过多的列簇 StoreFil1e 过多,Coapaction 压力大
正确答案:C
22.申请 CCE 服务后 master 集群默认有多少个节点?
A、2
B、3
C、4
D、5
正确答案:B
23.在 FusionInsight HD 中,以下( )不属于 Hive 的流控特性。
A、支持对已建立的总连接数做阈值控制
B、支持对每个用户已经建立的连接数做阈值控制
C、支持对某个特定用户已建立的连接数做阈值控制
D、支持对单位时间内所建立的连接数做阈值控制
正确答案:C
24.以下关于 Flink 关键特性描述不正确的是:( )。
A、Spark Streaming 与 Flink 相比, 时延更低
B、Flink 流式处理引擎能够同时提供支持流处理和批处理应用的功能
C、checkpoint 实现了 Flink 的容错
D、与 FusionInght HD 中的 Streaming 相比, Flink 具有更高的吞吐量
正确答案:A
25.以下哪个框架可以同时满足实时分析、离线分析、实时检索的功能
A、ApacheHadoop
B、FusionInsightHD
C、ApacheHBase
D、以上全都正确
正确答案:B
26.下面()组件可以了解物理资源的关键性能指标时,管理员可查看资源的性能详情
,及时监控物理资源的性能状态,帮助运维人员发现隐患、定位问题、支撑分析与
决策。
A、物理资源监控
B、云资源监控
C、CCE 集群数据
D、apm 监控
正确答案:A
的 Checkpoint 机制绘制的流应用快照不能被保存在以下哪个位置?
A、TaskManager 的内存
B、Local
C、HDFS
D、JobManager 的内存
正确答案:A
28.在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中
的异常,( )方法处理这种过分拟合数据问题。
A、回归
B、小波
C、剪枝
D、调和
正确答案:C
29.下面哪项云产品属于数据安全类型()。
A、HID(主机入侵检测)
B、HVD(主机漏洞检测)
C、KMS(密钥管理服务)
D、SCS(证书管理服务)
正确答案:C
30.以下关于 Hive 内置函效描述正确的是?
A、to_data():获取当前日期
B、trim():去除空字符
C、descfunctionsupper:查看系统自带的函效
D、substr():求字符串长度
正确答案:B
HD HBase 默认使用( )作为其底层文件存储系统。
A、HDFS
B、Hadoop
C、Memory
D、MapReduce
正确答案:A
32.多维分析报表的访问位置是:()。
A、运维面“可视化 > 我的报表”
B、运维面“云资源监控 > 我的报表”
C、运维面“物理监控 > 我的报表”
D、ManageOne 运营面
正确答案:A
33.在 Fusioninsight HD 的客户端,执行 kinit{账号}命令是为了得到 KDC 的( )
内容。
A、
B、TGT
C、ST
D、
正确答案:B
34.若采用留出法将数据集 D 划分为训练集 S 和测试集 T,其中 D 包含 1300 个样本
,S 包含 700 个样本,模型在 T 上有 60 个样本分类错误,那么该模型的精度为
(____)。
A、%
B、90%
C、10%
D、%
正确答案:B
属于云计算的什么领域?
A、IASS
B、PASS
C、SASS
正确答案:B
36.自动作业(AutoOps)不支持哪种操作系统
A、Windows Server 2012
B、AIX
C、Centos
D、Suse 12 SP3
正确答案:B
37.关于备份和容灾的理解,以下哪项是正确的()。
A、只要发生数据传输,数据存储和数据交换,就有可能产生数据故障,进而影响
业务的使用,所以需要有数据备份保证数据的安全性
B、数据备份需要将生产存储和备份存储放在同一机房
C、容灾或者备份都可以保证数据不会丢失
D、数据存放在不同的地域就可以实现容灾
正确答案:A
38.以下哪种机制使 Flink 能够实现窗口中无序数据的有序处理?
A、事件时间
B、检查点
C、有状态处
D、窗口
正确答案:A
39.以下关于 Kafka 消息消费者 Consumer 读取消息描述错误的是:( )。
A、consumer 使用 offset 来记录读取位置
B、Kafka 的一个 Topic 可以理解为一个队列,即一个消息
C、生产者产生的消息逐条放到 Topic 尾部
D、消费者从右至左读取消息
正确答案:D
中 List 列表是什么数据结构实现的?
A、平衡二又
B、循环链表
C、红黑树
D、双向链表
正确答案:D
41.数据库实例状态为“规格变更中”,表示实例正在()。
A、正在修改数据库实例的数据库端口
B、数据库实例的 CPU 和内存规格变更中
C、数据库代理的 CPU 和内存规格变更中
D、数据库实例的磁盘空间扩容中
正确答案:B
的主 HMaster 是:( )选举的。
A、由 Region Server 进行裁决
B、HMaster 为双主模式,不需要进行裁决
C、通过 ZooKeeper 进行裁决
D、随机选举
正确答案:C
43.安装 FusionInsight HD 的 Streaming 组件是,Nimbus 角色要求安装( )个节点
。
A、4
B、3
C、2
D、1
正确答案:C
不能检测以下哪种威胁()。
A、垃圾邮件
B、蠕虫
C、DOS
D、病毒
正确答案:A
45.哪种负载均衡模式不支持按域名和 URL 转发能力?
A、经典型
B、都一样
C、独享型
D、共享型
正确答案:A
生态系统中,(____)主要解决的是日志类数据的收集和处理问题。
A、Mahout
B、Flume
C、Sqoop
D、HBase
正确答案:B
47.机器学习算法在学习过程中对某种类型假设的偏好,称为(____)。
A、归纳偏好
B、训练偏好
C、假设偏好
D、分析偏好
正确答案:A
48.虚拟机镜像默认会安装如下组件,其中()组件可对虚拟机进行时间同步。
A、VMTool
B、Cloud-Init
C、NTP
D、SSH
正确答案:C
49.在进行整库迁移时源端数据源类型为 Oracle,目的端数据类型不支持:( )。
A、RDS for MySQL
B、MRS(Hiv e)
C、CSS
D、DWS
正确答案:C
50.自动作业(AutoOps)操作不支持哪种脚本语言?
A、Python
B、Shell
C、C++
D、Batch
正确答案:C
51.以下不属于事务上层系统状态的是:( )。
A、inprogress
B、begin
C、started
D、commit
正确答案:D
系统中,( )不属于集群节点的磁盘分区。
A、OS 分区
B、数据分区
C、元数据分区
D、管理分区
正确答案:D
53.关于 TF-IDF 模型,以下描述错误的是(____)。
A、TF 意思是词频
B、IDF 是逆文本频率
C、该模型是一种统计方法
D、该模型基于聚类方法
正确答案:D
54.下列选项中,哪种攻击是基于 TCP 协议制造的畸形报文攻击()。
A、Land 攻击
B、Ping of Death 攻击
C、Teardrop 攻击
D、IP Spoofing 攻击
正确答案:A
55.如果线性回归模型中的随机误差存在异方差性,那么参数的 OLS 估计量是
(____)。
A、有偏的,非有效的
B、无偏的,有效的
C、无偏的,非有效的
D、有偏的,有效的
正确答案:C
56.交叉验证的目的是(____)。
A、得到更稳定的模型
B、验证结果的准确性
C、增大分类的误差
D、提高分类准确率
正确答案:A
57.下列关于 Python 全局变量和局部变量描述不正确的是(____)。
A、local 关键字用于定义局部变量,global 关键字用于定义全局变量
B、关键字 global 定义全局变量时必须自成一行
C、关键字 local 定义的变量仅在该函数内可见
D、nonlocal 变量不可以在内嵌函数中使用
正确答案:D
58.当用户希望将自己的私有镜像共享给其它用户使用时,应该使用()。
A、公共镜像
B、私有镜像
C、市场镜像
D、共享镜像
正确答案:D
代码中 ['-serif'] = ['SimHei']的作用是(____)。
A、设置图表标题的颜色
B、设置图表标题的位置
C、设置图表图例的位置
D、设置图表中文显示的字体
正确答案:D
60.弹性伸缩告警策略不支持以下()类型的告警信息监控。
A、CPU 利用率
B、内存利用率
C、网络流入速率
D、磁盘容量使用率
正确答案:D
是基于 Hadoop 的数据仓库软件,最大可以查询有管理()级别的分布式数据。
A、PB
B、GB
C、MB
D、TB
正确答案:A
62.关于应用改造上云,以下说法正确的是:
A、不涉及应用代码改造,只涉及系统应用配置与接口调整。
B、将应用接入层(Web 服务器),应用逻辑层(即应用中间件层,包括 JAVA 环境、
中间件、应用程序包)打包在容器中,通过云平台进行自动化部署和发布。
C、将支撑业务应用的 IT 子系统(计算、存储、网络、负载均衡等),从现有的物理
机或虚拟机环境迁移到云平台的虚拟化环境。
D、主要针对新建业务应用或新建模块,利用云平台进行微服务开发,单个微服务
是处理某一特定业务逻辑的最小单元,单个微服务是高内聚的,微服务之间是松耦
合的。
正确答案:D
二、多选题(共 27 题,每题 1 分,共 27 分)
HD 中,在使用 Streaming 的 ACK 机制时,说法正确的是:( )。
A、启用了 Acker 之后,Streaming 会识别发送失败的 Tuple 并自动重发,无需人为
干预。
B、Acker 会标识处理超时或者处理失败的消息为 faiL
C、从 spout 开始,形成的 Tuple 树中任何一个环节失败都会标记整棵树失败。
D、应用需要在 spout 的 fail ( )接口方法中实现消息重发逻辑。
正确答案:BCD
2.在 ApacheHadoop 中,关于 HDFS 的回收站机制,描述正确的是?
A、回收站里的文件可以快速恢复。
B、删除文件时,不会真正的删除,其实是放入回收站。
C、可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被
清空时,文件才会被彻底删除,并且释放占用的数据块。
D、回收站默认是关闭的。
正确答案:ABCD
3.以下关于 FusionInsight 多租户管理的描述正确的有:( )。
A、可视化的多租户管理,与企业组织结构相匹配,简化系统资源分配与管理
B、一站式管理租户资源,计算资源、存储资源、服务资源
C、与企业组织结构相匹配的多级的租户模型,不同部门对用不同的租户,按需动
态增删租户
D、基于容器机制的租户资源隔离,为租户 SLA 保驾护航
正确答案:ABCD
家族包含:( )子产品。
A、GaussDB 200
B、FusionInsight Miner
C、FusionInsight HD
D、FusionInsight Farmer
正确答案:ABCD
5.可以在云管平台的()界面直接申请创建 Redis 实例。
A、弹性伸缩管理界面
B、eSight 管理界面
C、分布式缓存 DCS 服务界面
D、ServiceStage 管理界面
正确答案:CD
6.云计算的服务模式( )。
A、QaaS
B、PaaS
C、SaaS
D、IaaS
正确答案:BCD
7.默认情况下,一个云服务器或扩展网卡能被添加到()个安全组中。
A、1
B、6
C、5
D、2
正确答案:ACD
8.下列关于数据的说法,错误的是(____)。
A、数据的类别是多种多样的
B、一组数据的方差不会受异常值影响
C、数据出现缺失值的现象无法用插值法补充
D、数据库中的一列代表一个特征
正确答案:BC
9.关于 VDC 下面说法正确的是:()。
A、一级 VDC 管理员默认自动关联所属一级 VDC 及其下级 VDC 的所有项目。
B、一个 VDC 可以包含多个项目,一个项目只能属于一个 VDC。
C、项目是对所使用资源的分组,在实际中相当于项目组,各个项目之间资源相互
隔离。
D、如果用户需要申请或管理资源,则至少关联一个项目。
正确答案:ABCD
10.下列关于 Worker、Executor、Task 说法正确的是:( )。
A、每个 Executor 可以运行不同组件的 Task
B、每个 Worker 可以运行多个 Executor
C、每个 Executor 可以运行多个 Task
D、每个 Worker 只能为一个拓扑运行 Executor
正确答案:ABC
11.下面( )事数据归约的策略。
A、维归约
B、数据压缩
C、数量归约
D、螺旋式方法
正确答案:ABC
12.关于 python 中函数调用的目的,下列说法正确的是(____)。
A、提高程序的执行效率
B、提高程序的可读性
C、提高程序的开发效率
D、减少程序文件所占用的内存
正确答案:ABC
HD 支持通过:( )方式提交 Oozie 作业。
A、Sheell 命令
B、Java API
C、Java API
D、Rest API
正确答案:ABCD
14.在 FusionInsght 产品中,关于 Kafka 组件说法正确的是:( )。
A、在创建 Topic 时,副本数不得大于当前存活的 Broker 实例个数,否侧创建
Topic 将会失败
B、Kafka 的 Producer 发送消息时,可以指定该消息被哪个 Comsumer 消费
C、Kafka 会将元数据信息存放在 Zookeeper 上
D、Kafka 安装完成后就不能再配置数据存放目录
正确答案:ABCD
15.负载均衡采用的算法是:(),用来分配用户访问流量,提升负载均衡能力。
A、轮询算法
B、源 ip 算法
C、应用程序 cookie
D、最少连接
正确答案:ABD
是一种易用、稳定、高效、用于()的云服务。
A、数据库在线迁移
B、数据库实时同步
C、数据库备份
D、数据库恢复
正确答案:AB
17.下列说法错误的是(____)。
A、数值和数据是不同的概念,数值在信道上传输之后,转换为信号形式的数据
B、信息是与材料、能源一个层次的概念,不属于客观存在
C、聚类算法要求数据集无量纲化
D、特征编码是将非数值型特征转换成数值型特征的方法
正确答案:AB
18.以下关于 Kafka Prtition 说法正确的是:( )。
A、Partition 数量绝对了每个 consumer group 中并发消费者的最大数量
B、每个 Partition 都是:有:序且不可变的消息队列
C、引入 Partition 机制,保证了 Kafka 的高吞吐能力
D、每个 Partition 在存储层面对应一个 log 文件
正确答案:ABCD
Streaming 在 OutPut 阶段可以定义不同的数据写入方式,包括:以下(
)方式。
A、General Mode
B、Append Mode
C、Complete Mode
D、Update Mode
正确答案:BCD
HD 中系统使用 Streaming 客户端 shell 命令查看拓扑或者提交拓扑
失败,以下( )定为手段是:正确的。
A、查看 Supervisor 运行日志,判断是:否 Supervisor 异常
B、查看 worker 运行日志
C、查看 Niimbus 的运行日志,判断是:否 Nimbus 服务异常
D、查看客户端异常堆栈,判断是:否是:客户端使用问题
正确答案:ABCD
21.下列关于 python 中变量的使用,正确的是(____)。
A、变量无须指定类型
B、可以使用 del 释放资源
C、变量不必事先声明
D、变量无须先创建和赋值而直接使用
正确答案:ABC
22.云计算平台的特点( )。
A、按需使用
B、虚拟化
C、大型的集中计算
D、基于互联网
正确答案:ABCD
作业调度的方式有:( )。
A、单次调度
B、周期调度
C、事件驱动调度
D、自定义调度
正确答案:ABC
24.下列描述角色正确选项为:()。
A、系统管理员同时属于“Administrators”和“安全管理员组”两个角色。系统提供的
预置用户“admin”为系统管理员。可管理所有的管理对象并具有所有的操作权限。
B、管理员所属 Administrators, 拥有除“用户管理”、“查询安全日志”、“查看在线
用户”和“查询个人安全日志”之外的所有权限。
C、安全管理员所属安全管理员组,拥有“用户管理”、“License 管理”、“查看在线
用户”和“查询安全日志”的权限。
D、属于角色“Administrators”和“安全管理员组”的用户具有对整个系统所有资源的
最高权限
正确答案:ABCD
HD 系统中,Hive 支持的接口类型有:( )。
A、JDBC 接口
B、ODBC 接 口
C、Python 接口
D、Ruby 接口
正确答案:ABC
26.和弹性 IP 相关的操作有:()。
A、绑定
B、解绑
C、延期
D、释放
正确答案:ABCD
27.对资产搜索结果,可以基于条件进行筛选,下列筛选条件中支持类别有:( )。
A、数据连接
B、密级
C、类型
D、大小
正确答案:ABC
三、判断题(共 16 题,每题 1 分,共 16 分)
采用的是“一次写入、多次读取''的文件访问模型。所以推荐一个文件经过
创建、写入和关 闭之后,就不要再去修改。
A、正确
B、错误
正确答案:A
Consumer 写数据的总体流程是,Consumer 连接指定的 Topic Partition 所在
的 LeaderBroker,用主动的方式从 Kafka 中获取消息。
A、正确
B、错误
正确答案:A
3.仅空间管理员可审计用户权限,包含查看用户列表、回收用户权限、对用户进行
授权。
A、正确
B、错误
正确答案:A
架构中,一个 source 可以连接多个 Channel。
A、正确
B、错误
正确答案:A
中 OpenScanner 的过程,会创建两种不同的 Scanner 来读取 Hfile 和
MetaStore 的数据,Hfile 对应的 scanner 为 StoreFileScanner,MetaStore 对应的
Scanner 为 MetaStoreScanner。
A、正确
B、错误
正确答案:A
Producer 读数据流程是,Producer 连接任意存活的 Broker,请求指定的
Topic、Partition 的 Lader 元数据信息,然后直接与对应的 Broker 直接连接,发布数
据。
A、正确
B、错误
正确答案:B
中 union all 操作符用于合并两个或多个 select 语句的结果集,结果集中,不
允许有重复值。
A、正确
B、错误
正确答案:B
On Yarn 模式下的 driver 只能运行在客户端。
A、正确
B、错误
正确答案:B
HD 的 Hive 中,用户自定义的 UDF 可以和 Hive 内置的 UDF 重名,
这种情况下, 将使用用户自定义的 UDF。
A、正确
B、错误
正确答案:B
Streaming 可以从 Kafka 接收数据并进行计算,计算结果只能存入 HDFS,
不能再写回 Kafka。
A、正确
B、错误
正确答案:B
11.实时检查询只能查询结构化数据。
A、正确
B、错误
正确答案:B
12.数据核验可以通过自动和手动执行核验过程,可以选择 sql 或存储过程。
A、正确
B、错误
正确答案:A
过滤器能将列名或列值设置为过滤条件,同时支持多个过滤器配合使用
。
A、正确
B、错误
正确答案:A
过程中,默认情况下一个分片就是一个块,也是一个 mapTask。
A、正确
B、错误
正确答案:A
传输数据的过程中,Sink 取走数据并写入目的地后,会将 events 从
channel 中删除。
A、正确
B、错误
正确答案:A
是 Apache 社区孵化的项目
A、正确
B、错误
正确答案:A