本科毕业论文
广州有线数字电视客服中心热线服务质量研究
学 院 经济管理学院
专 业 信息管理与信息系统
年级班级 2004级6班
学 号 3104004672
学生姓名 廖得渊
指导教师 莫赞老师
2008 年 3 月 22 日
摘 要
数据挖掘是一门新兴的数据处理技术,是当前热门的一个研究领域。通过介绍数据挖掘的概念、过程及数据挖掘系统的体系结构,论述了数据挖掘的主要方法,应用CRISP-DM方法论,使用聚类分析方法进行数据的挖掘。随着有线数字电视行业的发展,客服中心作为有线数字电视业一个很重要的对外窗口,在处理日常业务中发挥着越来越重要的作用。特别是对有线数字电视的客户发展趋势的预测的应用以及对数字电视的内容的改进。采取对应优惠措施来改善与客户的关系、增强其产品的竞争力。
本研究利用数据挖掘工具模型对影响客户价值和电视内容的因素进行了定性化和定量化的分析,这对于广州有线数字电视业通过客户的特征和数字电视内容的供应,提高客户量营销决策行动具有一定的参考和指导意义。
关键词:有线 数字电视 客户服务 数据挖掘 聚类分析 判别分析
ABSTRACT
Data Mining is an emerging data-processing technology, is currently a hot research field. By introducing the concept of data mining, data mining process and system architecture, discusses the primary means of data mining, application CRISP-DM methodology, the use of cluster analysis methods of data mining. With Digital Cable TV industry's development, call center as a digital cable television industry is a very important external window, in dealing with day-to-day business is playing an increasingly important role. Especially on digital cable TV customers forecast trends in the development and application of digital TV content improvements. Offers to take corresponding measures to improve customer relationship and enhance the competitiveness of their products.
The use of data mining tools to model customer value and impact of television content of the qualitative factors and quantitative analysis, the Guangzhou Digital Cable TV industry through the customer's digital television content and features of the supply, improve customer marketing decision-making in action Has a reference and guidance.
Keywords:Cable Digital TV Customer Service Data Mining
Cluster Analysis Discriminant Analysi
目 录
5第一章.绪论
研究背景
有线数字电视的简述
有线数字电视发展状况
有线数据电视发展趋势
本文的主要研究目的和框架
研究项目来源
8第二章.研究方法及模型的概述
数据挖掘的产生背景
数据分析的实际需求
理论应用实践
数据挖掘概念和作用
数据挖掘的处理过程
数据处理的软件和应用的方法
数据挖掘流程方法论CRISP-DM
15第三章.基于聚类分析对热线中心的质量分析
聚类分析的简述
聚类分析算法简介
聚类分析模型建模
理解问题
理解数据
准备数据
建立模型
方案评估
方案实施
结果分析与建议
本章小结
18第四章.基于判别分析对热线中心影响因素分析
判别分析概述
判别分析算法简介
判别分析模型建模
结果分析与建议
本章小结
19第五章.总结及展望
全文总结
研究展望
19参考文献
20致谢
第一章.绪论
研究背景
随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。有线数字电视是世界通信与信息技术迅猛发展在媒介领域的表征,诱发了整个广播电视产业链条的深刻变革,各个城市也在加快了有线数字电视发展的进程,各项硬件措施都达到了国家的要求水平,目前来说一个关键是实施怎样的策略来推广这个市场使客户更加满意,也使有线电视的内容更加充实。那么有线数字电视怎么有效的进行推广适应变化,满足用户的需求,提高客户的满意度和忠诚度,使用数据挖掘技术在数据分析中的优势,有利于客观的分析客户和客商等信息为有线数字电视的推广有相当成效的预测作用。
有线数字电视的简述
有线数字电视是数字电视的一种,而数字电视(Digital TV,DTV)系指节目信号的摄取、记录、处理、传播、接收和显示均采用数字技术的电视系统,包括了节目采集、节目制作、节目传播到用户端接收的全过程。数字电视包括卫星数字电视、有线数字电视、和地面无线电视。目前在我国推行的电视数字化主要是有线数字电视化。
与目前普遍使用的模拟电视相比,数字电视不仅可以让观众接收到更高质量的电视信号,还可以使观众由被动收看转为主动点播,不再受到节目播出时间的限制。数字电视大大增加了可传送的节目容量,可从原来模拟电视的几十套增加到几百套。随着有线数字电视的推广,中国目前的几亿台电视机将成为一个集公共传播、信息服务、文化娱乐、交流互动于一体的多媒体信息终端,而相关的文化产业、高技术产业、电子产品制造业、软件业等信息产业和民族工业的发展,会形成上万亿元的产值,同时为社会提供大量就业机会。因此,在目前模拟电视资源渐趋饱和的情况下,电视数字化对电子产商、广播电视从业者来说无疑是一个难得的机遇。
有线数字电视发展状况
数字电视的发展有着广阔的前景,纵观全球,在过去的一年中全球各国都在大力发展数字电视及相关产业,并取得了很大进展。由于客观情况、标准、制式等不同,各国的数字电视发展状况也不尽相同,但一些数字电视发展比较迅速的国家,特别美国、日本、欧洲等国数字电视发展模式、发展趋势、技术标准的选择对我国有一定的指导和借鉴意义。根据我国的基本国情,我国的数字电视事业采取与其他国家不尽相同的发展策略——从有线切入,全面实施有线数字电视试验工程。由于我国不同于西方发达国家的客观条件,城市有线用户集中且生活水平较高为发展有线数字电视创造了条件;有线数字电视标准的颁布实施,为有线数字电视试验提供了良好的技术标准支持;全国广电干线网的开通,为全国开展有线数字电视试验创造了硬件基础。
一直是改革试点的广东省在数字电视方面也是首当其冲,广东的深圳、广州更是全国数字电视试验、播出的急先锋。早在1997年,广东就已建立了数字电视试验系统,进行了包括视频点播在内的一系列技术试验。在其后的几年,广东省先后有7个市、县不同程度的开始了数字电视试验工作,积累了不少珍贵的技术素材和一定的市场经验。随着国家广电总局积极推进数字电视应用与发展,加快数字电视试验的步伐,广东省率先出台在卫星和有线电视网络中推进数字电视的政策。目前,广东数字电视网提供数字电视信号频道40余个,已有18个市县先后加入到数字电视试验平台之中,全省有线数字电视试验用户已有2万多户。
有线数据电视发展趋势
数字节目的紧缺是阻碍数字电视进展的一个重要原因。数字电视节目内容决定着用户市场的开发与拓展,是数字电视发展中的王中之王。实现数字电视可持续发展,一个重要的前提是必须具备大量优秀的节目和信息源。在几年的试验探索中,大家充分认识到了数字电视内容的重要性,并为解决这一瓶颈分别制定了相应的对策和策略。
本文的主要研究目的和框架
本文是基于数据挖掘技术的基础上来对广州有线电视客户服务中心热线质量的研究,主要从客户资料和对数字电视内容的调查来进行数据的分析,对客户的价值和满意度来研究,以便能在有线数字电视的内容上能够有所帮助。
本文基本分为四个部分来对进行了解和研究的:
介绍有线数字电视的状况
介绍数据挖掘的方法和应用情况
应用聚类分析的来建模分类,及应用判别分析来建模预测
进行总结数据挖掘的结果,对广州有线数字电视的发展提供意见
图本文研究框架
研究项目
本文的选题来源于本人导师莫赞教授主持的项目“广州有线数字电视客户服务中心质量研究项目”。
第二章.研究方法及模型的概述
数据挖掘的产生背景
数据挖掘的产生和兴起是以计算机网络为代表的信息技术时代下,数据分析的实际需求和理论应用发展的必然结果。
数据分析的实际需求
80年代以来,随着数据库技术和产品的日益成熟以及计算机应用的普及深化,企事业单位的数据采集能力得到了极大的提高。组织通过内部的业务处理系统,管理信息系统以及外部的网络系统,获得了并积累了浩如烟海的数据。例如,美国著名连锁超市沃尔玛的数据库中,已经积累了TB级以上的顾客购买行为数据和其他销售数据。据美国IBM Almaden研究实验室估计,世界一天产生的在线数据就高达EB级。(注:1T=1000G,1P=1000T,1E=1000P.)这样的情况在严酷的市场压力下,企业为了客观地把握市场和企业自身状况,面对这样海量的数据更需要很好的分析数据,及时得到有效的信息。可看出对大规模数据整合处理并进行深层次分析的实际需求,直接培育了20世纪90年代初期两项重要的信息技术的形成,这就是数据仓库和数据挖掘技术,两者的发展使得当今计算机网络应用体系从业务管理层逐步跃升到决策层。
理论应用实践
实际需求对理论研究和应用的牵引力是巨大的,没有实际背景的理论研究是没有价值的,在数据分析应用的呼声不断的同时,相关理论研究和应用实践的脚步也未曾停止。数据库与数据仓库、人工智能与机器学习、统计学的理论应用发展是数据挖掘诞生的基础。
数据库与数据仓库,数据库理论实践对计算机应用到数据管理起到巨大的推波助澜的作用。从最初的文件系统研究,到后来的层次模型、网状模型,直到1969年提出关系数据模型,可以说数据库理论开创了数据管理的时代。数据库以其卓越的数据存储能力和数据管理能力,得到了极为广泛的应用。但随着更多的数据量的增多,数据仓库和数据挖掘出现更好的解决了数据库应用的问题。
人工智能和机器学习,人工智能带有浓厚的应用色彩,如如何利用计算机模拟人脑的部分思维,如何利用计算机进行实际问题的求解等,但随着数据事实和抽象经验的增多,表示并存储在计算机中的难度是极大的。于是,人工智能的应用重心开始从博弈、自然语言理解、专家系统等向更有意义的机器学习转移。机器学习方法,如决策树、神经网络等,能够模拟人类的学习方式,向数据、案例和经验学习,并通过不断学习实现对新事物的识别和判断。
统计学,统计学发展至今已有了几百年的历史,它为人们进行数据收集、数据整理、数据展现和数据分析提供了理论框架和实践依据。然而在信息技术迅猛发展,如数据量高速膨胀、数据类型日益丰富、数据管理和数据分析不断提升的今天,统计学的理论研究和应用实践也面临了诸多挑战。
统计学和数据挖掘有着共同的目标:发现数据中的模式。事实上,由于它们的目标相似,许多学者认为数据挖掘是统计学的分支。这是不全面的,因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。
表 2 1 统计分析与数据挖掘比较。
传统统计分析
数据挖掘
统计分析需要先有假设
数据挖掘不依赖于任何假设
统计分析需要根据假设列出方程
数据挖掘算法能够自动列出方程
统计分析仅能分析数字
数据挖掘能够处理多种数据,包括声音、文本等
统计分析结果可以直接表述
数据挖掘的结果需要经过统计分析后才能形成直观的可表述的内容,比如图表
统计分析相对样本量需求较小
善于处理一个大数据集
表2-1概括性总结了统计分析与数据挖掘技术两者间的联系与区别。
总之,数据分析需要一种以计算机和网络技术为依托的,能够实现海量数据的收集、存储管理以及分析的综合系统。数据挖掘正是在这样的背景下孕育而生的。
数据挖掘概念和作用
综合了当前有关学者对数据挖掘的研究,对数据挖掘(Data Mining—DM)的总体定义,就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘的目标是从大量数据中发现隐藏于其背后的规律获数据间的关系,服务于决策。数据挖掘一般便能完成以下的主要任务:
●数据总结
●数据分类
●数据预测
●数据关联
●数据聚类
数据挖掘的处理过程
目前数据挖掘过程的划分虽然有一些不同之处,但总体来说都需要这几个关键的过程,其一般流程主要包括三个阶段:数据准备(有一些学者把准备阶段分的更细为数据清洗、集成、转换等阶段)、数据挖掘、结果解释和评价。
①数据准备数据准备又可以分为2个子步骤:数据选取、数据预处理。数据选取
的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续型数据转换为离散型数据,以便于符号归纳;或是把离散性数据转换为连续型数据,以便于神经网络计算)以及对数据降维(即从初始特征中找出真正有用的特征以减少数据挖掘要考虑的变量个数)。
②数据挖掘 首先要确定数据挖掘的目标和挖掘的知识类型;确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法;最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。
③结果的解释和评价数据挖掘阶段发现的知识,经过评估,可能存在冗余或无关的知识,这时需要将其剔除;也有可能知识不满足用户的要求,需要重复上述挖掘过程重新进行挖掘。另外,由于数据挖掘是最终要面临用户的,因此,还需要对所挖掘的知识进行解释,以一种用户易于理解的方式(如可视化方式)供用户所用。可以看出,以上整个数据挖掘过程是不断地循环和反复的,因而可以对所挖掘出来的知识不断求精和深化,最终达到用户所满意的结果。
数据处理的软件和应用的方法
下面介绍几款挖掘处理一般会使用到的软件,本文主要是使用SPSS软件中的聚类分析的方法来研究数据的。
1. 问卷设计及数据输入软件:Epidata [35]
EpiData软件是由丹麦学者于1999年开发,专为调查而设计的一款数据录入与管理软件。EpiData软件是在Dos版的Epi Info 6软件基础上开发研制的Windows版软件,可在Windows 95/98/NT/2000/XP等环境下使用,它一方面吸收了Epi Info软件的长处,同时又极具自身特色,与Epi Info软件相比,占用空间小,更加简单易学,可以很方便的对数据进行储存、核对和管理等, EpiData软件设计的出发点是将在现场调查获得的调查表数据生成通用的原始数据库供分析使用,因此,EpiData软件的主要功能集中在调查表的设计、数据核查、数据的录入和管理等方面。软件可直接从EpiData网站(