Chap1 数据挖掘概述.ppt
第一章 数据挖掘概述,,第一章 数据挖掘概述,1.1 数据挖掘产生的背景 1.2 什么是数据挖掘 1.3 CRIMP-DM方法论介绍 1.4 在何种数据上进行数据挖掘 1.5 数据挖掘功能---可以挖掘什么类型的模式 1.6 定义数据挖掘任务 1.7 数据挖掘的社会影响 1.8 数据挖掘的发展趋势,什么激发了数据挖掘,为什么它是重要的,需要是发明之母。存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。 数据挖掘是信息技术自然演化的结果:数据收集和数据库创建,数据管理,以及数据分析和理解 数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。 快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在大型数据库中的数据变成了“数据坟墓”------难得再访问的数据档案。,1.2 什么是数据挖掘,数据挖掘:是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣的知识的过程。,数据挖掘不同于传统上的统计学,数据挖掘: 发现驱动 (数据驱动)数据研究统计学: 假设驱动 (人为驱动)研究数据,通过样本推断总体特征,经典推断统计具有极高的应用价值。但是在数据采集能力极强的今天,有时摆在人们面前的不再是样本,而是海量的高维总体。 此时推断不再有意义,原本较小的参数差异在大样本条件下都表现出了“显著”。,1.3 CRIMP-DM方法论,为了使数据挖掘过程更加标准化,产生了很多指导数据挖掘过程的方法论,CRISP-DM是其中的优秀代表 CRISP-DM(Cross Industry Standard Process for Data Mining)认为数据挖掘是循环反复的探索过程,6个步骤在实践中并不是按照直线进行,而是在实际项目中经常会回到前面的步骤。,业务理解:主要完成对业务问题的界定 确定业务目标。包括业务背景、业务目标,成功标准等 形式评估。包括企业拥有资源、需求、假定和限制、风险偶然性、专业术语、成本收益等 确定数据挖掘目标:包括数据挖掘目标、数据挖掘成功标准等 制定项目计划。 数据理解:主要完成对企业数据资源的初步认识和清理 收集原始数据,产生数据收集报告 数据描述,产生数据描述报告 数据探索性分析,产生探索性分析报告 数据质量描述,产生数据质量报告 数据准备:主要完成在建立数据挖掘模型之前对数据的最后准备工作 选择数据,不是所有数据都适合适合数据挖掘,在数据准备阶段要确定数据挖掘应该包含几剔除的数据 数据清理,对不符合实际情况的数据进行调整或剔除 数据重构,生成新的字段和记录 数据整合,对相关的数据进行合并处理 格式化数据,使之适合数据挖掘的需要,建构模型 选择建模技术,模型的假定和要求以及对模型技术进行评估 产生检验设计,从技术角度分析如何对模型效果进行检验 建立模型,完成对模型参数的设定,建立模型并对模型做适用性概述 模型检验,对模型使用的评价以及对各参数做调整 模型评价,分为两个方面的评价:技术方面,主要由建模人员从技术角度对模型效果进行评价;业务方面,由业务人员对模型在现实业务环境中的适用性进行评估 结果评估,评估产生的数据挖掘模型,从中筛选出被认可的数据挖掘模型 挖掘过程的回顾,查找是否存在疏忽和遗漏之处 确定下一步的工作内容,列出所有可能的行动方案,以进行决策 部署结果,运用数据挖掘结果解决现实问题的过程 结果分布计划 检测和维护模型计划 生成最终的数据挖掘报告 项目回顾,1.4 在何种数据上进行数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库应用 面向对象的数据库 对象-关系数据库 空间数据库 时间数据库和时间序列数据库 文本数据库和多媒体数据库 异种数据库和遗产数据库 WWW,1.5 数据挖掘功能---可以挖掘什么类型的模式,数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前任务数据上进行推断,以进行预测。 概念/类描述:特征化和区分 关联分析 分类和预测 聚类分析 孤立点分析 演变分析,1.6 定义数据挖掘任务,关于数据挖掘,一个流行的错误观点是:期望数据挖掘系统能够自动地挖掘出埋藏在给定数据库中的所有有价值的知识,而不需要人的干预和指导。让数据挖掘系统“放纵”地去发现模式,而不提供用户希望探查数据库的哪些部分,什么样的模式用户感兴趣,就是放纵数据挖掘“怪物”。 所发现的大部分模式与用户的分析任务无关。此外,尽管有些模式与分析任务有关,但是它们可能太难理解,或缺乏有效性、新颖性或实用性---使得它们不令人感兴趣。这样,产生、存放或提供由给定的数据库可能发现的所有模式既不现实,又不是所希望的。,每个用户脑袋里都有一个数据挖掘任务,即他想要进行的数据分析形式,,,背景知识:概念分层,背景知识是关于挖掘领域的知识,它们在发现过程中是非常有用的。概念分层是一种有用的背景知识形式,它使得原始数据可以在较高的、一般化的抽象层上进行处理。 模式分层:是数据库模式属性间的全序或偏序。模式分层可以形式地表示属性间的语义联系。 Streetcityprovince_or_statecountry 集合分组分层:将给定属性或维的值组织成常量或区间值。组之间可以定义全序或偏序。当两种类型的分层结构结合时,集合分组分层可以用于精炼或丰富模式定义的分层。 {young, middle_aged, senior}⊂all(age) {20…39}⊂young {40…59}⊂middle_aged {60…89}⊂senior 操作导出的分层:根据用户、专家或数据挖掘系统说明的操作分层。例如:E-mail地址dmbook@cs.sfu.ca给出偏序 “login-name”departmentuniversitycountry”,形成了e-mail地址的一个概念分层,背景知识:概念分层(续.),基于规则的分层:整个概念分层或它的一部分由一组规则定义,并且根据当前数据库数据和规则定义动态地计算。 例如,下面的规则可以用于将商品分类为: low_profit_margin medium_profit_margin high_profit_margin。 其中,商品X的价格差定义为销售价格和实际价格的差。 价格差小于$50的商品定义为low_profit_margin, 获利$50和$250之间的商品定义为medium_profit_margin商品, 获利多于$250的商品定义为high_profit_margin商品。 low_profit_margin=$50)∧((P1-P2)=$250),兴趣度度量,数据挖掘过程可能产生大量模式,这些模式中只有一小部分是特定用户感兴趣的,用户需要限制挖掘过程产生的不感兴趣的模式数量。 简洁性:可以看作模式结构的函数,用模式的二进位位数,或属性数,或模式中出现的操作符数来定义。例如,规则长度是一种间接性的度量。 确定性:每个发现的模式都应当有一个表示其有效性或“值得依赖性”的确定性度量。例如:一个置信度为85%的关联规则, buys(X,“computer”)=buys(X,“software”),意味买计算机的顾客85%也买软件。 实用性:它可以用一个实用性函数(如支持度)来评估。例如:一个支持度为35%的关联规则:buys(X,“computer”)=buys(X,“software”),意味35%的顾客同时购买了计算机和软件。 新颖性:新颖的模式是那些提供新信息或提高给定模式集性能的模式。检测新颖性的另一个策略是删除冗余模式。 使用概念分层挖掘可能导致大量冗余规则。例如,location(X,”Canada”)=buys(X,”SONY_TV”)[8%,70%]location(X,”Montreal”)=buys(X,”SONY_TV”)[2%,71%],发现模式的表示和可视化,数据挖掘系统要变得有效,就应当能够以多种形式显示所发现的模式,如规则、表、交叉表、饼图或条图、判定树、数据立方体或其他可视表示。 允许发现的模式以多种形式表示可以帮助不同背景的用户识别有趣的模式,并与系统交互或指导进一步的发现。用户应当能够指定用于显示发现模式的表示形式。,,,1.7 数据挖掘的社会影响,随着社会的计算机化,数据挖掘的社会影响不可低估。 数据挖掘是宣传出来的还是持久稳定增长的商业 数据挖掘只是经理的事还是每个人的事 数据挖掘对隐私或数据安全构成威胁吗,1.8 数据挖掘的发展趋势,应用的探索:通用数据挖掘系统在处理特定应用问题时有其局限性,因此目前的一种趋势是开发针对特定应用的数据挖掘系统。 可伸缩的数据挖掘方法:由于数据量是在不断地激增,因此针对单独的和集成的数据挖掘功能的可伸缩算法显得十分重要。 数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成 数据挖掘语言的标准化 可视化数据挖掘 复杂数据类型挖掘的新方法 Web挖掘 数据挖掘中的隐私保护与信息安全,讨论题一,讨论下列每项活动是否是数据挖掘任务 根据性别划分公司的顾客 根据可盈利性划分公司的顾客 计算公司的总销售额 按学生的标识号对学生数据库排序 预测掷一对骰子的结果 使用历史记录预测某公司未来的股票价格 监视病人心率的异常变化 监视地震活动的地震波 提取声波的频率,讨论题二,在商业企业中,经常会出现降价或免费商品。请从数据挖掘角度分析这种方式的可行性,商家应该如何策划这种活动,如何对活动的效果进行度量。 假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则和异常检测技术,让数据挖掘为公司提供帮助。,