国家中小学课程资源
数据可视化之词云(第二十六课时)
年 级:高一 学 科:信息技术(人教/中图版)
学 校某省市第三十五中学
复习:数据可视化之图表
AQI历年平均值
年份 AQI平均值
2014 110
2015 112
2016 102
2017 87
2018 82
2019 71
2020 68
高某著名企业
息技术
问题:文本数据如何可视化?
高某著名企业
息技术
北京空气污染调查报告
某省市预警中心某省市空气重污染应急指挥部办公室11月26日
发布了“空气重污染蓝色预警”称,受不利扩散条件影响,北京空
气质量已达“5级重度污染”水平,建议公众做好健康防护,减少户
外运动等。这也是北京今年(2016年)入冬以来第二次发布空气重
污染预警。
于是,北京的空气质量以及对人体健康影响再度引发公众的热议。
空气中微生物和重金属会致病吗 ?
对拉森团队的研究成果某省市卫计委表示,细菌的耐药性和致
病性是完全不同的概念,耐药性的增加不意味着致病性的增强。
...............................................
...............................................
文本可视化的方式:词云
高某著名企业
息技术
词云应用举例
国
际
互
联
网
大
会
词
云
图
高某著名企业
息技术
时代背景:大数据时代
奥地利科学家维克托·迈尔-舍
恩伯格是最早洞见大数据时代
发展趋势的数据科学家之一,
2012年他在《大数据时代》中前
瞻性地指出,大数据带来的信
息风暴正在变革我们的生活、
工作和思维方式。
高某著名企业
息技术
时代背景:大数据时代
根据国际互联网数据中心预测:
2025年全球每年产生的数据将
达到175ZB。
如果把175ZB全部存在D V D光
盘中,那么D V D叠加起来的高
度可以绕地球222圈。
高某著名企业
息技术
现实问题:数据量大幅度增加
高某著名企业
息技术
数据挖掘
•数据挖掘是指从大量
的数据中通过算法获
取隐藏于其某著名企
业息的 过程。
•数据挖掘通过统计学、
机器学习、专家系统
和模式识别等诸多方
法来实现上述目标。
高某著名企业
息技术
文本数据挖掘
高某著名企业
息技术
数据挖掘的一个分支,叫做文本数据挖掘,顾名思义,
文本数据挖掘,就是从文本中进行数据挖掘,以快速
获得文本中的重要信息。
文本数据挖掘的主要步骤:
文本获取、文本处理、文本可视化
文本可视化最常用的方法就是词云。
词云的概念
你发现
了词云
的哪些
特点?
高某著名企业
息技术
词云的概念
特点:
图片
词汇
颜色
大小
高某著名企业
息技术
词云是一种可
视化描绘词语
出现在文本数
据中的频率的
方式。
词云的概念
高某著名企业
息技术
客户满意度
高某著名企业
息技术
文本
高某著名企业
息技术
词云
客户满意度
1、词汇区分(分词)
2、统计词频
3、图形显示
高某著名企业
息技术
词云的制作步骤
鸡蛋 牛奶 面包 豆浆 油条 鸡蛋
鸡蛋 牛奶 包子 鸡蛋 牛奶 面包
体验词云:人工制作词云
早餐统计单:
高某著名企业
息技术
鸡 蛋
牛 奶
面 包
豆 浆
油 条
包子
体验词云:人工制作词云
步骤一:
词汇区分
鸡蛋 牛奶 面包 豆
浆油条 鸡蛋 鸡蛋 牛
奶包子 鸡蛋 牛奶 面
包
高某著名企业
息技术
体验词云:人工制作词云
步骤二:
词频统计
食物名称 出现频率
鸡蛋 4
牛奶 3
面包 2
豆浆 1
油条 1
包子 1
鸡蛋 牛奶 面包 豆
浆油条 鸡蛋 鸡蛋牛奶
包子 鸡蛋 牛奶 面
包
高某著名企业
息技术
体验词云:人工制作词云
步骤三:
绘制图形
鸡蛋 牛奶 面包 豆
浆油条 鸡蛋 鸡蛋牛奶
包子 鸡蛋 牛奶 面
包
高某著名企业
息技术
活动一:人工制作词云
请大家暂停视频,按照前面的操作步骤,人工制作
早餐食物的词云图,把制作的词云图拍照或者截图
粘贴在任务单中。
鸡蛋 牛奶 面包 豆
浆油条 鸡蛋 鸡蛋 牛
奶包子 鸡蛋 牛奶 面
包
早餐统计单:
任务单
高某著名企业
息技术
在线制作词云
高某著名企业
息技术
在线制作词云
步骤一:打开网站
打开浏览器并在地址栏输入art/create
高某著名企业
息技术
在线制作词云
步骤2:导入文本
点击 “WORDS”菜单下方的“import” 按钮。
高某著名企业
息技术
在线制作词云
步骤2:导入文本
在弹出的对话框中输入文本。然后点击“import words”
按钮
高某著名企业
息技术
在线制作词云
步骤2:导入文本
系 统 自 动 显 示
分 词 结 果 和 词
频统计。
高某著名企业
息技术
在线制作词云
步骤2:导入文本
点击右侧的“Options”按钮,设置文字重复次数。
高某著名企业
息技术
在线制作词云
步骤2:导入文本
在弹出的对话框中的“Repeat”选项中选择“None”。
高某著名企业
息技术
在线制作词云
步骤3:选择图形:
点击“SHAPES”
菜 单 , 选 择 一 个
词 云 的 图 形 , 选
中 的 图 形 背 景 显
示为蓝色。
高某著名企业
息技术
在线制作词云
步骤4:导入字体
打开“FONTS”菜单,然后点击下方的“Add font”按
钮添加字体。
高某著名企业
息技术
在线制作词云
步骤4:导入字体
在对话框中定位到素
材文件夹中的宋体字
体文件“”。
添加完成后,该字体会出现在
系统的字体列表中,点击选中
该字体。选中后背景为蓝色。
高某著名企业
息技术
在线制作词云
步骤5:生成词云图
点击上方红
色的
“Visualize”
按钮,即可
生成词云图。
高某著名企业
息技术
活动二:在线实现词云
活动任务:素材文件夹
中的“”文档
内容为《北京空气污染
调查报告》,请应用此
文档在wordart网站在
线生成词云,将生成的
词云图截图并填写活动
任务单。
任务单
高某著名企业
息技术
Python语言实现词云
高某著名企业
息技术
Python语言实现词云
高某著名企业
息技术
工具包介绍:
jieba,中文分词工具包。
根据汉字之间的关联概率形成分词结果。
wordcloud,词云生成工具包。
可以图形化的展示文本文字及其出现的频率。
imageio,image类型图片工具包。
提供image类型图片相关操作工具。
Python语言实现词云
任务介绍:
右图为某招聘网站的
招聘信息文档截图,
制作这个的词云图以
快速了解应聘所需的
关键技术。
高某著名企业
息技术
Python语言实现词云
材料准备:
文本文件(必备)
字体文件(可选)
图像文件(可选)
程序文件(参考)
高某著名企业
息技术
Python语言实现词云
运行命令行工具:A nacondaProm pt
在窗口依次输入以下命令:
pip install imageio
pip install jieba
pip install wordcloud
步骤1:
安装工具包
高某著名企业
息技术
步骤2:运行
Spyder软件。
Python语言实现词云
高某著名企业
息技术
步骤3:
编辑代码。
Python语言实现词云
在左侧编
辑区输入
程序代码
(详细代
码在后文)
高某著名企业
息技术
详细代码-1
#1、导入需要用到的库
from imageio import imread
import as plt
from wordcloud import WordCloud
import jieba
text_jieba = " ".join((text))
bg_pic = imread(“")
代码对应解释
导入imageio工具包
导入matplotlib工具包
导入w ordcloud工具包
导入jieba工具包
高某著名企业
息技术
#2、读取文本并分词
text = open(“","rb").read() 读取文档
区分词汇加空格
读取图片文件
详细代码-2
# 3、配置词云参数,生成词云
wc = WordCloud(
font_path = "",
background_color = "white",
max_words = 200,
mask = bg_pic,
max_font_size = 100
)
(text_jieba)
代 码 对 应 解 释
定 义 词 云 对 象
读 取 字 体 文 件
设置背景颜色
设置最大词汇数量
设置词云应用图片
设置最大字体尺寸
用文本生成词云对象
高某著名企业
息技术
详细代码-3
# 4、生成图片并显示
()
(wc)
("off")
()
_file("")
代码对应解释
生成图形实例
实现词云图形绘制
关闭坐标轴
显示词云图形
生成词云图片文件
高某著名企业
息技术
步骤4:运行程序。
Python语言实现词云
在右侧的Console
面板中会显示生
成的词云图片。
高某著名企业
息技术
活动三:Python语言实现词云
活 动 任 务 :
“”文档内
容为某招聘网站的招聘
信息,请使用Python语
言生成此文档的词云图,
将生成的词云图截图,
从图中找出五个关键词,
完成后填写活动任务单。
任务单
高某著名企业
息技术
总结
1 词云的概念
词云的时代背景、概念、用途。
2 词云的制作
制作词云的三种方式:人工方式、在线方式、编程方式
高某著名企业
息技术
作业
任务内容:“”文
档为《新一代人工智能
发展规划》,请以此文
档在线生成词云,找出
5个高频率关键词,进
而判断人工智能未来发
展的关键技术,完成后
填写作业任务单。
任务单
高某著名企业
息技术