信息技术与人工智能基础
项目10 自然语言处理
01 项目概述
02 思维导图
03 思政聚焦
04 项目知识准备
05 项目任务
目录
CONTENTS
06 项目小结与展望
01
项目概述
• 人机交流的关键--自然语言处理
你有没有用过百度翻译来进行不同语言的翻译?它将一段文字用一种语言翻译成另一种语言的容易程度
是相当惊人的。
你有没有用过百度搜索对某件事或某个物体的信息进行搜索,而搜索引擎除了给你一系列相关的网页以
外,还会直接给出一个具体的答案。
你有没有用过淘宝网站的自动回复客服小蜜,通过回复许多常见的问题,节约时间、提高效率。
自然语言处理(Natural Language Processing,简称NLP)就是其中的关键。
02
思维导图
• 项目七思维导图
03
思政聚焦
• 自然语言处理与传统文化的结合
百度旗下人工智能硬件品牌小度凭借自身过硬的人工智能实力,
与故宫文化“跨界联名”,推出了故宫主题智能音箱—小度在家
1S故宫文化限定版,这一轮国内顶尖科技与中国传统文化的相
互融合,将故宫联名热潮推至顶峰。让传统文化插上AI的翅膀,
活化经典。
小度与故宫文化的“跨界联名”
04
项目知识准备项目知识准备
• 自然语言处理概念
自然语言处理(NLP)是用计算机来处理、理解以及运用人类语言(如中文、英文等),其技术目标就
是使机器能够“听懂”人类的语言,并进行翻译,实现人和机器的相互交流。
目标:让机器用人类语言做一些聪明的事情和利用人类语言进行自我表达。
NLP被誉为“人工智能皇冠上的珍珠”。
• 自然语言处理的发展历程
自然语言处理(NLP)的历史几乎跟计算机和人工智能(AI)一样长,自计算机出现后就
有了人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。自然
语言处理的发展大致经历了以下三个阶段:
• 自然语言处理的两大流程
自然语言处理机制涉及两个流程,包括自然语言理解(NLU , Language Understanding)和自然语
言生成(NLG,Natural Language Generation)。
NLU是指使计算机理解自然语言(人类语言文字)等,重在理解。具体来说,就是理解语言、文本等,
提取出有用的信息。
NLG是指提供结构化的数据、文本、图表、音频、视频等,生成人类可以理解的自然语言形式的文本。
NLP在解决具体问题的时候,通常既需要NLU,也需要NLG。比如常见的语音助手、智能音箱等产品
• 自然语言处理的层次理解
自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次,可以更好
地体现语言本身的构成,五个层次分别是语音分析、词法分析、句法分析、语义分析和语用分析。
(1)语音分析:要根据音位规则,从语音流中区分出一个个独立的音素,再
根据音位形态规则找出音节及其对应的词素或词。
(2)词法分析:找出词汇的各个词素,从中获得语言学的信息。词是汉语中
能够独立的最小语言单位,正确的单词切分取决于对文本语义的正确理解,
而单词切分又是理解语言的最初的一道工序。
例如“我们研究所有东西”这句话进行分词后可能会得到 “我们/研究/所有/
东西”,或“我们/研究所/有/东西”
• 自然语言处理的层次理解
(3)句法分析:对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以
及各自在句中的作用。
例如:“反对│的│是│少数人”,“咬死了|猎人|的|狗”
(4)语义分析:找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或
概念。
例如“你约我吃饭”和“我约你吃饭”,意思完全不同
(5)语用分析:研究语言所存在的外界环境对语言使用者所产生的影响。
例如“我要一个汉堡包”,在不同的上下文中会有不同的含义。
04
项目任务
• 任务1:智能文本分析
1、任务描述
智能文本分析是输入一段待分析的文本内容,通过文本分句、分词、
命令实体识别这三个重要步骤,从该文本范围中提取出时间、地点、人
物、事件等关键信息。这些关键信息能形成反映出中心内容的文本摘要,
实现对文本的分类、情感分析,最终生成文本分析报告。
• 任务1:智能文本分析
2、技术分析
文本分析处理流程如图所示。
(1)获取原始文本
原始文本的获取主要有两种方式:资料整理、网上下载、抓取文本。
(2)文本预处理
主要包括数据清洗、分句、分词、词性标注这四个重要步骤。
(3)特征提取
两种常用的表示模型分别是词袋模型和词向量。
• 任务1:智能文本分析
2、技术分析
文本分析处理流程如图所示。
(4)模型训练
传统的有监督和无监督等机器学习模型,如K NN、SVM、Naive Bayes、
决策树、GBDT、K-means等模型;深度学习模型比如CNN、RNN、
LSTM、Seq2Seq、FastText、TextCNN等。。
(5)输出结果
输入待分析的文本数据,调用训练好的算法模型处理,提取关键信息,
对文本进行分类、情感分析,输出智能文本分析报告。
• 任务1:智能文本分析
3、任务实现---请大家扫二维码根据步骤测试实现
• 任务2:机器人写诗
1、任务描述
机器人写诗是输入诗的标题、类型,通过模型训练,自动生成符合格式要求的诗词。
• 任务2:机器人写诗
2、技术分析
在写诗之前需要学习各种不同类型的风格或不同主题的诗,获得诗的一些基本特征规律,然后基于
这些知识进行诗生成,这是人工智能写诗的基本过程。
目前主流的诗歌生成技术方法有:采用基于深度学习。
长短期记忆网络LSTM(Long Short-Term Memory)是常用到的深度学习方法。
• 任务2:机器人写诗
2、技术分析
基于LSTM的诗生成过程如下:
① 首先需要获取足够的训练诗集
② 搭建长短期记忆网络
③ 确定好层数后,设置定输出维度、激活函数等信息。
④ 进行模型训练,生成对应的LTSM模型,保存模型。
⑤ 调用训练好的模型,自动生成五言律诗、五言绝句等诗歌数据。
• 任务2:机器人写诗
3、任务实现---请大家扫二维码根据步骤测试实现
04
项目小结
与展望
• 项目小结
本项目首先介绍了自然语言处理的定义、发展历史、两大流程等相关概念
内容,然后介绍了智能文本分析、机器人写诗这两个自然语言处理项目任务具体
实践过程。
智能文本分析实现过程主要包括文本分句、分词、命名实体识别、关键信
息提取、文本分类、情感分析等重要步骤。
机器人写诗则主要是通过输入诗的标题和类型,自动生成诗歌。
• 项目展望
人工智能自然语言处理将是信息科学技术中长期发展的一个新的战略新高度,自然
语言处理技术会让大家的生活越来越方便。与此同时,技术的进步也会给我们的生活
带来一些冲击。比如就业方面,机器取代人工会造成一些人失业。但新技术的应用让
一些职业消失的同时,又创造出大量新的就业机会。
展望未来,我们正面临着新的的机遇和挑战,作为个人应该主动积极地想办法去适
应这种变化,而不是消极等待和抱怨。自然语言处理作为一门高度交叉的新兴学科,
在未来将会有令人期待的惊喜和非常快速的发展。
感谢您的观看