北京秦藤供应链研究所
孙前进物流研究室
010-6543-6703 cnjpetr2009@126.com
浅析数据挖掘技术及其在电子商务中的应用

 

随着网络技术和数据库技术的成熟,传统商务正经历一次重大变革,向电子商务全速挺进这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具

 

1.数据挖掘的基本理论涵义

 

1.1    数据挖掘

 

数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量的不完全的有噪声的模糊的和随机的数据中,提取隐含在其中的人们事先不知道的,但又是潜在有用的信息和知识的过程数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库人工智能数理统计可视化并行计算等方面的知识数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观中观乃至宏观的统计分析综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测数据挖掘技术在金融保险电信大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析风险分析欺诈检验用户聚类分析消费者习惯分析等

 

1.2    数据挖掘过程

 

挖掘数据过程可以分为3 个步骤:数据预处理模式发现模式分析

 

1.2.1数据预处理

 

实际系统中的数据一般都具有不完全性冗余性和模糊性因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确简洁的数据预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗过滤,剔除一些无关记录,将文件图形图像及多媒体等文件转换成可便于数据挖掘的格式等

 

1.2.2模式发现

 

模式发现阶段就是利用挖掘算法挖掘出有效的新颖的潜在的有用的以及最终可以理解的信息和知识可用于Web 的挖掘技术有路径选择关联分析分类规则聚类分析序列分析依赖性建模等等

 

1.2.3模式分析

 

模式分析是从模式发现阶段获得的模式规则中过滤掉不感兴趣的规则和模式通过技术手段,对得到的模式进行数据分析,得出有意义的结论常用的技术手段有:关联规则分类聚类序列模式等

 

2.何谓数据挖掘及方法

 

比较典型的数据挖掘方法有关联分析序列模式分析分类分析聚类分析等它们可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段

 

2.1 关联分析关联分析,即利用关联规则进

 

行数据挖掘关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如90的顾客在一次购买活动中购买商品A的同时购买商品B之类的知识

 

2.2 序列模式分析序列模式分析和关联分析

 

相似,但侧重点在于分析数据间的前后序列关系它能发现数据库中形如在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列ABC出现的频度较高之类的知识,序列模式分析描述的问题是: 在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持

S

 

2.3 分类分析

 

设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类#p#分页标题#e#

 

2.4 聚类分析

 

聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别它所采用的分类规则是由聚类分析工具决定的采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,数据挖掘可以直接跟踪数据并辅助用户快速做出商业决策,用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中

 

3.数据挖掘与电子商务的关系

 

在电子商务企业中,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:a.可以发现客户和访问者的爱好生活模式b.可以争取新顾客,怎样使产品适销对路怎样给产品定价怎样吸引单个客户怎样优化Web 网站c.可以用相应的信息确定顾客的消费周期,针对不同的产品制定相应的营销策略d.可以确定客户细分,为每一个客户的独特需求设计量身定制的产品

 

4.据据挖掘在电子商务中的应用

 

数据挖掘能发现电子商务客户的的共性和个性的知识必然和偶然的知识独立和关联的知识现实和预测的知识等,所有这些知识经过分析,能对客户的消费行为如心理能力动机需求潜能等做出统计和正确地分析,为管理者提供决策依据具体应用如下:

 

4.1 分类与预测方法在电子商务中的应用

 

在电子商务活动中,分类是一项非常重要的任务,也是应用最多的技术分类的目的是构造一个分类函数或分类模型,通常称作分类器分类器的构造方法通常由统计方法机器学习方法神经网络方法等这些方法能把数据库中的数据映射到给定类别中某一个,以便用于预测,也就是利用历史数据记录,自动推导出给定数据的推广描述,从而对未来数据进行预测

 

4.2 聚类方法在电子商务中的应用

 

聚类是把一组个体按照相似性原则归成若干类别对电子商务来说,客户聚类可以对市场细分理论提供有力的支持市场细分的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体之间的距离尽可能大,通过对聚类的客户特征的提取,电子商务网站可以为客户提供个性化的服务

 

4.3 数据抽取方法在电子商务中的应用

 

数据抽取的目的是对数据进行浓缩,给出它的紧凑描述,如求和值平均值方差值等统计值或者用直方图饼状图等图形方式表示,更主要的是他从数据泛化的角度来讨论数据总结数据泛化是一种把最原始最基本的信息数据从低层次抽象到高层次上的过程可采用多维数据分析方法和面向属性的归纳方法在电子商务活动中,采用维数据分析方法进行数据抽取,他针对的是电子商务活动中的客户数据仓库在数据分析中经常要用到诸如求和总计平均最大最小等汇集操作,这类操作的计算量特别大,可把汇集操作结果预先计算并存储起来,以便用于决策支持系统使用

 

4.4 关联规则在电子商务中的应用

 

管理部门可以收集存储大量的售货数据和客户资料,对这些历史数据进行分析并发现关联规则如分析网上顾客的购买行为,帮助管理者规划市场,确定商品的种类价格质量等通常关联规则有两种:有意义的关联规则和泛化关联规则,有意义的关联规则,即满足最小支持度和最小可信度的规则最小支持度,它表示一组对象在统计意义上的需满足的最低程度,如电子商务活动中的客户数量客户消费能力消费方式等后者即用户规定的关联规则的最低可靠度第二是泛化规则,这种规则更实用,因为研究对象存在一种层次关系,如面包蛋糕属西点类,而西点又属于食品类,有了层次关系后,可以帮助发现更多的有意义的规则电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择利用数据挖掘技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在在电子商务的潮流中立于不败之地随着数据挖掘算法的不断发展和成熟,数据挖掘一定会有更加广阔的应用前景

 

责任编辑:叶子

中日物流合作联盟
  • 联盟简介
  • 组织机构
  • 专业委员会
  • 专家委员会
  • 秘书处
  • 中日物流研究联盟
  • 联盟简介
  • 组织机构
  • 专业委员会
  • 专家委员会
  • 秘书处