信息化软件 企业管理 营销管理 业界消息 标签索引
信息化软件目录
OA 办公自动化 CRM 客户关系管理 PM 项目管理 CC 协同商务 BPM 业务流程管理 KM/KBS 知识管理 CMS 内容管理 SCM 供应链管理 BI 商务智能 ERP 企业资源计划 HRM 人力资源管理 EAM 企业资产管理 电子商务系统 IT综合

构建基于Web数据挖掘的信息服务系统

2010-03-26

计算机和网络技术的发展,为信息传播提供了技术支持,使得信息的发布与访问不再受到时间和空间的限制,为用户提供了极大的方便。然而,网络在快捷、方便地带来大量信息的同时,也带来了很多问题:诸如信息过量难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理等等。解决这些问题可通过利用个性化技术,将传统的数据挖掘(Date Mining)同Web结合起来,进行Web挖掘,即从Web文档和Web活动中抽取用户感兴趣的潜在的有用模式和隐藏的信息,为用户提供具备自适应性和智能的信息服务。

  1 Web挖掘概念

Web数据挖掘(Web Date Mining),简称Web挖掘,是数据挖掘技术在Web环境下的应用,是从数据挖掘、计算机技术、信息科学等多个领域进行的一项技术。Web挖掘是指从大量的Web文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式(Pattern)。它所处理的对象包括:静态网页(文字、多媒体信息等)、Web数据库、Web页面的内部结构、Web结构、用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。

构建基于Web数据挖掘的信息服务系统: 2 Web挖掘的种类

2.1 Web内容挖掘(Web Content Mining)

Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在、有价值的知识或模式的过程。它对Web上大量文档集合的“内容”进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等。Web内容挖掘不仅能够在万维网中进行知识发现,还能够提供在较高层次上组织Web上的一些半结构化数据(Semiconsturucted date)的功能。

其中基于Agent的系统有ISA(Intelligent Search Agent)、IF/IC(Information Filtering/Categorization)、PWA(Personal Web Agents);基于数据库系统的有多级数据库系统和Web查询系统,这类系统主要研究如何将Web上的半结构化数据组织成结构化的形式,并使用标准的查询机制和数据挖掘技术进行分析。

2.2 Web结构挖掘(Structure Mining)

Web结构挖掘是从WWW的组织结构的链接关系中推导知识,主要是通过对Web站点的结构进行归纳、分析和变形将Web页面进行分类,以利于信息的搜索。Web站点的结构信息可以分为两类:第一类是链接文档间信息,包括链接的起始文档,终止文档等;第二类信息是文档间链接结构的信息,如form、image、table、frame等。Web结构挖掘不仅可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索性能,同时还可以用来指导网页采集工作,提高采集效率。

2.3 Web用户使用记录挖掘

Web用户使用记录挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,挖掘对象是在服务器上的日志信息,也称为Web日志挖掘。每当有获取资源的请求到来时,Web都将记录和积累这些关于用户交互工作用的数据,分析这些日志数据可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化服务。这方面的研究主要有两个方向:一般用户访问模式跟踪(General Access pattern Tracking)和个性化的使用记录跟踪(Gustomized Usage Trac King)。

  3 Web数据挖掘的过程

用户在访问Web页面时,用户的浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中。对这些日志数据通过各种模型化算法和其它信息处理技术手段进行分析加工,从中可以得到用户中特定兴趣群体或个体决策信息,同时可以有效地对这些Web日志进行定量分析,揭示其中的关联关系,时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等。不但可为优化Web站点拓扑结构提供参考,而且还可为网络资源服务者提供更为有效的目标市场和改进决策提供帮助。

构建基于Web数据挖掘的信息服务系统:4 Web数据挖掘的方法

4.1 Web内容挖掘的方法

Web页面的重要信息主要集中在Web的文档中,因此,Web的文本挖掘是内容挖掘的主要研究方面。Web的文本挖掘主要由构造文本集合、文本分析、特征修剪和文本挖掘4个步骤构成。

4.2 Web使用挖掘的方法

Web日志数据预处理:Web日志数据预处理主要由两部分构成:数据清洗(Data cleaning)和事务识别(Transaction Identification),包括对Web日志进行清洗过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取有用的数据,并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的域名、用户,服务器状态作为数据Cube的维数变量。

再将对模块、页面和文件请求次数、来自不同域请求次数、事件、会话、带宽、错误次数,不同浏览器种类、用户所在组织作为度量变量建立Data Cube。将文件、图像脚本及多媒体等其它文件转换成可用于Web使用挖掘的数据格式。

用户模式分析:在经过数据予处理阶段后,即可利用可视化技术,数据知识查询技术等,将得到的模式解释为人们可以理解的知识,并剔除无用知识,从而方便地为用户提供个性化服务。

构建基于Web数据挖掘的信息服务系统:5 基于Web数据挖掘的智能信息服务系统

通过以上数据挖掘技术用于信息机构信息服务的分析,可以建立一个基于数据库和智能代理的Web数据挖掘系统结构,如图1。

图1 基于数据库和智能代理的系统结构

该系统结构以数据挖掘模块为中心,对不同数据源的数据进行识别、分析、抽象和综合利用,可实现改善Internet搜索引擎,优化站点结构、发现读者浏览模式和需求、提供个性化智能信息服务和决策功能。具体分为:

统计分析(Statistical Analysis):可用于系统性能分析,发现安全漏洞,为网站信息修改、信息服务决策提供支持。

关联规则(Association Rules):可用于优化网站信息组织网络代理中的预取功能。

分类(Clustering):可把具有相似浏览模式的用户分成组,为用户提供个性化服务。

网页分类(Page Clusters):可用于搜索引擎和Web浏览助手(Web assistance providers)为用户提供推荐链接。

归类(Classification):即根据用户的个人资料,将其归入某一特定的类。可使用决策树、naive Bayesian classifiers、k-最近邻居Support Vector Ma-chines等算法。

序列模式(Sequential Patterns):即发现一个Session内部的网页间的时间相关性,可用于预测用户的访问,从而提供建议。

依赖关系建模(Denpendency Modeling):即建立一个能描述Web领域中各种变量间具有的显著依赖关系,可使用Hidden Markov Midels和Bayesian Belief New Words。

模式分析(Pattern Analysis):即找到那些有意义的模型或规则。

  6 结 语

网络下的数据挖掘和个性化智能服务都还处于发展初期,还没有形成比较成熟的理论,尤其是在Web挖掘的实际应用方面所做的工作较少。对于某一特定领域的研究人员来说,由于他们的研究领域相对固定,挖掘其信息需求相对容易,但对普通用户来说,由于其本身的动态性与不确定性,对其兴趣模型进行挖掘还是一个难题。随着信息科学技术的发展,作为一种获取知识的有效手段,Web挖掘的方法和应用将得到更深更广的研究,这对信息服务机构提高信息服务水平有着深远的意义。

相关链接
BI让信息转化为能量2010-03-24 一个通用的OLAP体系结构2010-03-29
MySQL被并购 开源数据库将倒退十年2010-03-17 动态数据仓库设计与应用浅谈2010-03-16
面向商业OLAP的并行数据抽取接口设计2010-03-15 QlikView助安吉天地汽车物流高效运营2010-04-08
Informatica第二季度营收1.173亿美元2010-03-06 基于DW、OLAP和DM的商业智能2010-04-16
BI走下神坛 中小企业如何迎娶其过门?2010-04-27 面向对象技术在构建数据仓库中的应用...2010-02-22
返回首页 信息化软件 企业管理 营销管理 业界消息 文档查询
Copyright © 2005-2010   http://www.ourdoc.cn, 知识文档中心