ict 大数据模拟试题
一、单选题(共 62 题,每题 1 分,共 62 分)
1.机器学习算法在学习过程中对某种类型假设的偏好,称为(____)。
A、分析偏好
B、假设偏好
C、训练偏好
D、归纳偏好
正确答案:D
2.在线迁移新建任务配置时,在“场景选择”页面,不属于源数据库来源的是:( )
。
A、本地自建库
B、本云云数据库
C、本云 ECS 自建库
D、本地云上数据库
正确答案:D
3.如果虚拟机要和其他虚拟机通讯,下列哪个选项的操作是必须的?
A、需要在物理服务器上配置端口绑定
B、需要将虚拟机所在的物理服务器联网
C、需要为虚拟机添加至少一块网卡
D、需要在物理交换机上配置端口绑定
正确答案:C
4.以下哪项不属于 Apacha 顶级项目?
A、Flink
B、Storm
C、Bclipse
D、Spark
正确答案:C
5.用来清理残留事务的工具是:( )。
A、gs_dump
B、gs_clean
C、gs_guc
D、gs_ctrl
正确答案:B
6.()将自动检查其后端云服务器的运行状况。如果发现某台云服务器运行不正常,
则会停止向该云服务器发送流量,并重新将流量发送至正常运行的云服务器。
A、后端接口
B、前端接口
C、负载均衡器
D、监听器
正确答案:D
7.应用架构变迁己经发展到了什么阶段?
A、单体架构
B、SOA 架构
C、微服务架构
D、雾技术架构
正确答案:C
8.负载均衡服务 IP 错误的是。
A、服务 IP 是 ELB 地址信息
B、可以自动分配服务 IP
C、可以手动分配服务 IP
D、不是必须的
正确答案:D
创建()时,会将数据移动到数据仓库指向的路径,创建(),仅记录数据所在的路径
,不对数据的位置做任何改交
A、外表、托管表
B、内部表、元数据
C、原元数据、外部表
D、内部表、外部表
正确答案:D
10.以下不属于 CCE 集群弹性扩容策略的是()
A、告警策略
B、定时策略
C、手动策略
D、周期策略
正确答案:C
11.关于虚拟网关的描述,以下错误的是?
A、删除虚拟网关时无需删除与其绑定的虚拟接口
B、虚拟网关绑定与用户本地数据中心连接的 VPC
C、配置虚拟网关时,只可以配置与虚拟网关直连的 VPC
D、虚拟网关是物理专线的接入路由器
正确答案:D
中 Namenode 的主备仲裁,是由:( )组件控制的。
A、HDFS Client
B、Node Manager
C、ResourceManager
D、ZooKeeper FailoverController
正确答案:D
13.为了允许支持向量机在一些样本上出错,引入(____)的概念。
A、误差
B、间隔
C、软间隔
D、硬间隔
正确答案:C
14.业务中台方面,以业务为导向,优先建设(____)。
A、统一数据业务中台和客户服务业务中台
B、统一数据业务中台和账务结算业务中台
C、电网资源业务中台和客户服务业务中台
D、电网资源业务中台和账务结算业务中台
正确答案:C
15.哪种负载均衡模式提供了更丰富的 HTTP 和 HTTPS 转发能力?
A、经典型
B、轮询型
C、都一样
D、共享型
正确答案:D
16.大数据技木的 4V 特征不包含以下哪项:
A、Volume
B、Variety
C、Virtual
D、Velocity
正确答案:C
17.在 FusionInsight LibrA 中,下面对 analyze 使用的描述错误的是:( )。
A、analyze 语句可收集与数据库中表内容相关的统计信息,统计结果存储在系统
表 PG_STATISTIC 中
B、建议对一个刚执行过大批量插入操作的表执行 analyze 语句,以便使 LibrA 内
的优化器模块根据这些统计数据获得更优的输出,进而影响业务性能
C、执行计划生成器会使用 PG_STATISTIC 表中的统计数据,以生成最有效的查询
执行计划
D、analyze 语句中使用-pop 选项,可避免当数据库中数据量过大时内存紧张
正确答案:D
18.在 Python 中,令 s='',下列选项描述错误的是(____)。
A、float(s)的结果是
B、bool(s)的结果是√
C、bool(None)的结果是√
D、int(s)的结果是 3
正确答案:C
Manager 对服务的配置功能说法不正确的是:( )。
A、服务级别的配置可对所有实例生效
B、实例级别的配置只针对本实例生效
C、实例级别的配置对其他实例也生效
D、配置保存后需要重启服务才能生效
正确答案:C
20.以下哪种技术或设备不能隔离广播
A、路由器
B、VLAN
C、Hub
D、防火墙
正确答案:C
21.不属于日常监控告警的级别的选项是:()。
A、次重要告警
B、重要告警
C、普通告警
D、紧急告警
正确答案:C
22.关于虚拟接口的描述,以下错误的是?
A、删除虚拟接口时,需要先删除与之绑定的虚拟网关和物理专线
B、目前虚拟接口支持动态路由协议(BGP)
C、虚拟接口将用户网关和虚拟网关关联,实现本地数据中心访问 VPC 的功能
D、虚拟接口是用户本地数据中心访问 VPC 的入口
正确答案:A
TABLE AS 创建表,后面需要添加查询语句类型是:( )。
A、INSERT
B、UPDATE
C、SELECT
D、DELETE
正确答案:C
中数据排序的性能优化不包含以下哪个选项?
A、如果要排序的数据数量很大,尽可能使用 store 参数将结果缓存
B、使用 limit 参败只获取需要的数据
C、增加集群中 Master 节点
D、减少待排序链中元素的数量
正确答案:C
25.以下哪个选项不是容器引擎的底层关键技术?
A、Cgroup
B、KVM
C、Namespace
D、Union File System
正确答案:B
26.以下关于 DWS 数据库透明加密的特点,错误的是:( )。
A、支持行存表数据加密,不支持列存表加密
B、支持集群级别配置
C、使用 KMS 服务加密
D、加密密钥层次结构有三层
正确答案:A
27.关于创建 api,以下描述正确的是:( )。
A、创建 api 只能通过脚本模式创建
B、创建 api 只能通过向导模式创建
C、创建 api 可以通过脚本模式和向导模式两种方式创建
D、以上说法均不正确
正确答案:C
28.以下不属于微服务治理策略的是()
A、负载均衡
B、重试
C、流控
D、事务
正确答案:D
任务最终是在下列( )中被执行的。
A、NodeManager
B、container
C、ResourceManager
D、AppMaster
正确答案:B
HD 系统中 HBase 的最小处理单元是 Region,User Region 和
RegionServer 之间的路由信息是保存在( )。
A、ZooKeeper
B、HDFS
C、Master
D、meta 表
正确答案:D
31.以下( )不属于开源数据湖解决方案。
A、DLI
B、Iceberg
C、Hudi
D、Open Delta
正确答案:A
的 Checkpoint 机制绘制的流应用快照不能被保存在以下哪个位置?
A、TaskManager 的内存
B、Local
C、HDFS
D、JobManager 的内存
正确答案:A
33.当前传统关系型数据库主要面临的挑战是()?
A、数据量爆炸式增长,要求数据处理平台具各弹性扩展能力。
B、数据处理时效性需求提高。要求数据处理平台速度够快。
C、多类型数据融合,要求数据处理平台功能更加强大。
D、以上全都正确。
正确答案:D
使用于哪种业务场景?
A、可用于缓存、事件发布或订阅、高速队列等典型应用场景。
B、企业内部系统解耦、企业能力开放、拥抱 API 经济、函数工作流服务开放等场
景。
C、可用于业务解耦、最终一致性、错峰流控、日志同步等业务场景。
D、访问控制场景:对于网络互通、安全性高的业务系统,可将 APIG 与虚拟私有
云搭配使用,实现 WEB 服务器和数据库服务器划分在不同的虚拟私有云子网中。
正确答案:A
35.以下关于信息安全培训的描述中,哪项是错误的()。
A、对于基层员工,应该着重进行一些安全技术类的培训。
B、在培训方式上,对于大部分员工来说,仅仅一次入职培训是无法引起足够的重
视,还需要经常进行邮件宣传来提升对信息安全的关注度。
C、即使是安全培训,对于不同的部门,侧重点也会不同。
D、在培训内容方面,对于企业高管而言,主要需要进行信息安全战略和信息安全
法律法规的相关培训。
正确答案:A
36.当用户希望将自己的私有镜像共享给其它用户使用时,应该使用()。
A、市场镜像
B、公共镜像
C、私有镜像
D、共享镜像
正确答案:D
属于云计算的什么领域?
A、IASS
B、PASS
C、SASS
正确答案:B
38.在概率图模型中,(____)模型是结构最简单的动态贝叶斯网,主要用于时序数据
建模。
A、逆误差传播
B、条件随机场
C、马尔可夫随机场
D、隐马尔可夫模型
正确答案:D
39.数据应用按照“谁经手,谁使用,谁负责”的原则,规范使用过程,切实防范
(____)风险。
A、数据录入不及时
B、业务数据失泄
C、业务数据不一致
D、数据变更记录缺失
正确答案:B
的哪种机制可以保证 task 运行失败时,其状态能够恢复?
A、有状态处理
B、窗口
C、检查点
D、时间时间
正确答案:C
41.以下语言中,(____)不是 Spark API 设计语言。
A、Scala
B、Java
C、Python
D、C++
正确答案:D
42.下列哪项设备一般不会部署在网络边界处()。
A、ASG
B、Anti-DDoS
C、CIS
D、防火墙
正确答案:C
43.在 FusionInsight 产品中,关于 Kafka Tpoic,一下描述不正确的有:( )。
A、每个 Topic 只能被分成一个 partition(分区)
B、Topic 的 partition 数量可以在创建时配置
C、每个 partition 的存储层对应一个 log 文件,log 文件中记录了所有的信息数据
D、每条发布到 Kafka 的信息都有一个类别,这个类别被称为 Topic,也可以理解
为一个存储消息的队列
正确答案:A
44.在对象存储中()是作为存储对象的容器。
A、vdc
B、桶
C、对象
D、云硬盘
正确答案:B
的设计是以(____)为主要应用场景。
A、一次写入、一次读取
B、多次写入、多次读取
C、一次写入、多次读取
D、多次写入、一次读取
正确答案:C
重跑作业实例时,不属于重跑开始位置是:( )。
A、从错误节点开始重跑
B、从指定的节点开始重跑
C、从第一个节点开始重跑
D、从上一个实例的节点开始跑
正确答案:D
47.当前算法为最小连接数,权重可填(),流量最小。
A、-1
B、100
C、0
D、1
正确答案:C
生态系统中,(____)的主要设计目的是在 Hadoop 与传统数据库之间进行
数据的 ETL 操作。
A、HDFS
B、Flume
C、Hive
D、Sqoop
正确答案:D
49.以下哪个选项不是 ECS 实例的类型?
A、计算密集型
B、弹性伸缩型
C、内存密集型
D、通用型
正确答案:B
50.关于 Hive 与 Hadoop 其他组件的关系,以下描述错误的是:( )。
A、Hive 最终将数据存储在 HDFS 中
B、Hive 是 Hadoop 平台的数据仓库工具
C、HQL 可以通过 Map Reduce 执行任务
D、Hive 对 HBase 有强依赖
正确答案:D
中创建、调度、管理的最小单元是什么?
A、Node
B、Pod
C、deployment
D、Service
正确答案:B
52.大数据最显著的特征是:( )。
A、数据处理速度快
B、数据规模大
C、数据价值密度高
D、数据类型多样
正确答案:B
53.查询集合操作中,表示交集的是:( )。
A、INTERSECT
B、MINUS
C、EXECPT
D、UNION
正确答案:A
54.下列关于 EVS 硬盘,哪项不正确()?
A、EVS 磁盘可以挂载到单个实例
B、EVS 磁盘始终不受实例运行时间的影响
C、将 EVS 磁盘挂载到实例后,可以像使用其他物理硬盘一样使用它
D、可以将 EVS 磁盘从实例中卸载,不能将其挂载到另一个实例
正确答案:D
中基于 WAL(预写式日志 Write-AheadLog)实现 Channel 持久化的是?
A、JDBCChannel
B、KafkaChannel
C、MemoryChannel
D、FileChannel
正确答案:D
56.关于虚拟负载均衡,正确的?
A、只支持硬件虚拟负载均衡
B、只支持软件虚拟负载均衡
C、支持软硬件虚拟负载均衡
D、无法虚拟
正确答案:A
57.关于垃圾邮件过滤黑白名单描述错误的是()。
A、黑名单优先级高于白名单。
B、在“白名单”文本框中输入要加入白名单 SMTP Server 的 IP 地址和掩码,可以输
入多个 IP 地址,一个 IP 地址一行。
C、在“黑名单”文本框中输入要加入黑名单 SMTP Server 的 IP 地址和掩码,可以输
入多个 IP 地址,一个 IP 地址一行。
D、配置本地黑名单/白名单:可以同时配置黑名单和白名单,也可以只配置其中的
一项。
正确答案:A
58.下列对大数据 4V 特征理解错误的是(____)。
A、数量大,随着信息技术的高速发展,数据开始爆发性增长,存储单位从过去的
GB 到 TB,直至 PB
B、广泛的数据来源,决定了大数据形式的多样性
C、大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信
息交换和传播速度快捷
D、现实世界所产生的数据中,有价值的数据所占比例很高,体现了大数据的价值
性
正确答案:D
59.假如某存储设备配置有 8 张 1Gb/s 的 iSCSI 存储网卡,约 15%的网络带宽损耗,
以下哪种方式可以计算出存储设备的有效带宽(Mb/s ) ?
A、8x1024x ( )
B、8x1024x1024x ( )
C、
D、
正确答案:A
60.用户可以通过表的数据预览模块,预览当前表的业务数据;根据列的分类信息
,支持 对预览的数据进行实时脱敏。下列选项中不属于数据预览支持的数据源类
型为:( )。
A、DWS
B、DLI
C、Oracle
D、Mysql
正确答案:C
算法是常用的估计(____)的利器。
A、显变量
B、自变量
C、观测变量
D、隐变量
正确答案:D
62.在 Spark 中,假设 lines 是一个 DStream 对象,filter 语句可以过滤掉 80%的数据
,针对以下两个 语句说法正确的是:( )。 X: (... ) .groupByKey (...) Y:
(...) .filter (...)
A、X 比 Y 的性能更高
B、X 比 Y 的性能更低
C、X 和 Y 和性能一样
D、无法确性 X 和 Y 的性能差异
正确答案:A
二、多选题(共 27 题,每题 1 分,共 27 分)
1.关于 VDC 下面说法正确的是:()。
A、一级 VDC 管理员默认自动关联所属一级 VDC 及其下级 VDC 的所有项目。
B、一个 VDC 可以包含多个项目,一个项目只能属于一个 VDC。
C、项目是对所使用资源的分组,在实际中相当于项目组,各个项目之间资源相互
隔离。
D、如果用户需要申请或管理资源,则至少关联一个项目。
正确答案:ABCD
提供了业内领先的微服务应用解决方案,具有的优势是:()。
A、支持 ServiceComb、Spring Cloud 和 Service Mesh 多种框架的微服务运行环境。
B、API First,支持基于 Swagger 的 API 管理。
C、支持多语言微服务,如 JAVA、GO、.NET、、PHP、Python 等。
D、提供服务中心、配置中心、仪表盘、灰度发布等功能。
正确答案:ABCD
3.以下()是裸金属服务器具备的功能。
A、可以使用云硬盘
B、支持自动化发放
C、无性能损失
D、使用镜像,免操作系统安装
正确答案:ABCD
4.在公安领域的大数据批量高线处理平台中,以下描述准确的是()
A、经过整理后的原始数据可以根据业务主题,分为基本信息、交往圈信息,轨迹
信息,行为信息等存储。
B、数据来源包括公安系统、社会系统。互联网系统、其他如运营商系统等
C、数据来源可以按照结构或类型分为:视频/图像数据,文本数据数据库中数据等
D、不同的数据来源可以整理后划分实时微据、增量文件、全量文件数据库等。
正确答案:ABCD
5.( )属于 CLOG 日志记录的状态。
A、Committed
B、Aborted
C、Sub-Committed
D、Inprogress
正确答案:ABCD
6.云计算平台的特点( )。
A、虚拟化
B、基于互联网
C、按需使用
D、大型的集中计算
正确答案:ABCD
中 Key 的生存时间 expire 适合用于以下哪些应用场景?
A、存特定用户所有历史信息
B、限时的优惠活动信息
C、网站积分排行榜
D、限制网站访客访问频率
正确答案:BCD
容量调度器的主要特性有:( )。
A、容量保证
B、动态更新配置文件
C、灵活性
D、多重租赁
正确答案:ABCD
LibrA 支持( )操作系统。
A、SUSE Linux Enterprise Server 11 SP1
B、REDHAT Enterprise Edition
C、Windows Server 2012 R2
D、SUSE Linux Enterprise Server 11 SP4
正确答案:ABD
Streaming 在 OutPut 阶段可以定义不同的数据写入方式,包括:以下(
)方式。
A、General Mode
B、Append Mode
C、Complete Mode
D、Update Mode
正确答案:BCD
适用于以下( )场景。
A、交互式查询
B、批处理
C、图计算
D、实时流处理
正确答案:ABCD
12.行存表相比于列存表的区别是?
A、行存表按行存储数据,列存表按列存储数据
B、同样的数据,采用行存表存储比列存储所耗的时间更少。
C、行存表面向百方级以下数据量,列存表面向千万级以上数据量
D、行存表适合数据更新,列存表合做数据聚台。
正确答案:AD
13.在 FusionInsght 产品中,关于 Kafka 组件说法正确的是:( )。
A、在创建 Topic 时,副本数不得大于当前存活的 Broker 实例个数,否侧创建
Topic 将会失败
B、Kafka 的 Producer 发送消息时,可以指定该消息被哪个 Comsumer 消费
C、Kafka 会将元数据信息存放在 Zookeeper 上
D、Kafka 安装完成后就不能再配置数据存放目录
正确答案:ABCD
14.以下哪些数据可以转化为 Dataset 或 DataFrame?
A、JAVA String
B、JPG
C、JSON
D、MySql Table
正确答案:CD
15.以下关于 Flink 与其他组件交互说法正确的是:( )。
A、Flink 任务的运行依赖 Yarn 来进行资源调度
B、Flink 的 checkpoint 的实现依赖于 Zookeeper
C、Flink 可以将接受的组件发给 Kafka
D、Flink 在 HDFS 文件系统中读写数据
正确答案:ABCD
HD 系统中使用 Streaming 客户端 shell 命令提交拓扑之后,使用
Storm UI 查看发现该拓扑长时间没有:处理数据,可能原因有:( )。
A、拓扑业务逻辑错误,提交之后无法正常运行
B、Supervisor 是:在 Topology 中接收数据然后执行处理的组件
C、拓扑过于复杂或者并发太大,导致 worker 启动时间过长,超过 supervisor 的等
待时间
D、Supervisor 的 slots 资源被消耗尽,拓扑提交上去后分不到 slot 去启动 worker 进
程
正确答案:ABCD
17.弹性云服务器实现 HA 需要满足的条件是:()。
A、全局 HA 功能开关开启
B、云服务器所在的主机组 HA 开关开启或处于未配置状态
C、云服务器的 HA 开关开启
D、云服务器所在的主机组 HA 开关关闭
正确答案:ABC
18.在数据同步管理中,创建同步任务的流程为场景选择、同步实例、( )、( )、预
检查、任务确认六步。
A、实例创建
B、源库及目 标库
C、源库设置
D、设置同步
正确答案:BD
的 LIST 数据结构,适用于:( )场景。
A、构建队列系统,例如消息队列
B、uniq 操作,例如获取某段时间所有:数据的排重值
C、取最新 N 个数据操作:例如对某条微博,获取最新的 10 个评论
D、模拟栈操作
正确答案:ACD
每个 Partition 在物理上对应的文件夹存储哪些文件?
A、用户文件
B、消息文件
C、配置文件
D、索引文件
正确答案:BD
创建环境时可供选择的基础资源包括:()。
A、云容器引擎 CCE
B、弹性云服务器 ECS
C、云容器引擎 CCE
D、对象存储服务 OBS
正确答案:AB
22.下列关于随机森林说法正确的是(____)。
A、随机森林是 Bagging 的一个扩展变体
B、随机森林在决策树的训练过程中引入了随机属性选择
C、随机森林简单且容易实现
D、随机森林计算开销大
正确答案:ABC
23.下列说法正确的是()?
A、关联字的数据类型应该保持一致
B、表之间的关联字段应该尽量少。
C、视图定义中尽量避免聚合操作
D、视图定义中尽量避免排序操作。
正确答案:ABD
HD 中,Streaming 适用于:( )场景。
A、流数据监控
B、网站的实时访问统计
C、离线日志分析
D、交通流量分析
正确答案:ABD
25.数据质量定义模块包括:( )。
A、检验类别管理
B、质量维度定义
C、检核方法管理
D、度量规则管理
正确答案:ABCD
26.弹性 ip 的价值是:()。
A、用户可以将弹性 IP 绑定到 ECS 或 BMS 上,绑定后的 ECS 或 BMS 即可连接外
网。
B、用户可以为虚拟 IP 地址绑定一个弹性 IP,从外网可以访问后端绑定了同一个
虚拟 IP 地址的多个主备部署的弹性云服务器,增强容灾性能。
C、用户可以为管理后台虚拟机绑定弹性 ip,可以接收来自外网的数据交互。
D、用户可以为负载均衡器绑定弹性 IP,可以接收来自外网的访问请求并将请求自
动分发到添加的多台弹性云服务器。
正确答案:ABD
27.以下( )是 Kafka 实际的应用场景。
A、网络活性跟踪
B、资源管理
C、聚合统计系统运营数据
D、日志收集
正确答案:ACD
三、判断题(共 16 题,每题 1 分,共 16 分)
1.在一个 MapReduce 应用程序中,map 函数的输出经由 MapReduce 框架处理后,
发送到 reduce 函数。这个处理过程是基于键值对进行排序和分组的。
A、正确
B、错误
正确答案:A
Producer 读数据流程是,Producer 连接任意存活的 Broker,请求指定的
Topic、Partition 的 Lader 元数据信息,然后直接与对应的 Broker 直接连接,发布数
据。
A、正确
B、错误
正确答案:B
3.如果该安全组的入站规则是放通的,那无论出站规则如何,都将允许入站请求的
响应流量可以出站。
A、正确
B、错误
正确答案:A
中 Hive 包含了两个角色 HiveServer 和 MetaStore。
A、正确
B、错误
正确答案:A
所采用的排序方式,是通过 Value 找 Key,而在全文搜索中 Value 就
是我们要搜索的关键词,通过 Value 找到对应的文档。
A、正确
B、错误
正确答案:A
6.数据中台主要覆盖数据接入、存储计算、数据分析、数据资产管理、数据运营管
理以及数据服务等方面能力。
A、正确
B、错误
正确答案:A
默认是先把索引存放到内存中,当内存满了时再久化到本地硬盘。
A、正确
B、错误
正确答案:A
8.共享云硬盘不支持在线扩容,即共享云硬盘必须在“可用”状态下进行扩容。
A、正确
B、错误
正确答案:A
9.在 IAM 控制台创建用户组时,不应当授予数据复制服务管理员权限“DRS
Administrator”权限。
A、正确
B、错误
正确答案:B
10.告警模块可以设置不同的颜色来对应不同的告警级别。
A、正确
B、错误
正确答案:A
11.在 Spark 中,SparkSQL 是独立的模块,可以不依赖于 SparkCore 独立完成 SQL
语句的解析、优化和执行等操作。
A、正确
B、错误
正确答案:B
12.伸缩组在冷却时间内,会拒绝由告警策略触发的伸缩活动。
A、正确
B、错误
正确答案:A
13.在 Flume 级联传输过程中,可以使用 fail over 模式传输,这样如果下一跳的
Flume 节点故障或 者数据接受异常时,可以自动切换到另外一路上继续传输。
A、正确
B、错误
正确答案:A
14.大数据技术的解决方案思路是聚焦在单台机器上,思考如何是升单机的性能,寻找
更贵更好的服务器。
A、正确
B、错误
正确答案:B
Streaming 可以从 Kafka 接收数据并进行计算,计算结果只能存入 HDFS,
不能再写回 Kafka。
A、正确
B、错误
正确答案:B
16.执行引擎的主要功能是解析用户输入的 SQL 查询,生成执行计划。
A、正确
B、错误
正确答案:B