信息化软件 企业管理 营销管理 业界消息 标签索引
信息化软件目录
OA 办公自动化 CRM 客户关系管理 PM 项目管理 CC 协同商务 BPM 业务流程管理 KM/KBS 知识管理 CMS 内容管理 SCM 供应链管理 BI 商务智能 ERP 企业资源计划 HRM 人力资源管理 EAM 企业资产管理 电子商务系统 IT综合

基于SQL Server商业智能的统计决策分析系统

2009-09-02

现代社会人们对统计数据和信息的需求量越来越大,大量的管理决策已无法离开统计信息的支持。传统的统计信息系统使得统计效率大为提高,然而,在统计数据的开发和利用上还比较欠缺,统计的功能得不到有效发挥。这就要求统计部门利用各种分析技术对统计数据和信息进行深层次挖掘,从而为政府部门宏观调控提供有力的决策支持。本文试图利用数据仓库与数据挖掘等相关技术,借助于SQL Server2005及更高版本的商业智能组件,来构建面向统计决策的模型系统。

基于SQL Server商业智能的统计决策分析系统: 1 基于数据仓库的决策分析技术

数据仓库技术发端于20世纪80年代中期,其中的许多相关技术与统计学有着密切的联系。统计学科长期积淀的理论经典与信息技术的最新应用成果的结合,必然给统计理论和统计工作带来极大的好处。

1.1 统计教据库

从统计分析的角度看,统计分析的对象是统计数据。对统计数据的有效组织与管理是进行大型统计分析的前提,也是进行长期深入分析的保障。统计数据经过长期的不断积累,庞大的数据量对统计数据的组织和管理提出了新的挑战,而仅采用数据文件这种形式存储和管理统计指标必然会出现很多问题。随着数据库技术的出现,利用数据库管理系统(DBMS)组织和管理统计数据无疑是一种比数据文件更加科学和符合统计分析工作实际要求的选择。

目前,建设统计数据库的重要性已被人们所认识,不少部门和行业都纷纷建立了自己的统计数据库。然而,存在的一个普遍问题就是在建设统计数据库上偏重于信息技术层面,而对于统计数据和统计业务本身的特点却没有给予足够的重视。统计数据库系统设计与一般数据库系统设计的根本区别在于,统计数据库系统始终是以统计指标、统计表的结构与关系为出发点进行数据表的设计,始终是以统计业务和统计分析的需求来确定数据库系统的处理功能。

1.2 数据仓库(DW)

近几年,随着计算机数据处理技术在统计行业的广泛应用,产生了大量分散在各统计单位的数据,而且数据存储的方式也没有统一性,有的存储在不同类型的数据库系统中,有的保存在其他在不同格式的数据文件中,还有的是以HTML网贞形式存在等。面对大量繁杂而分散的数据资源,如何安全有效地管理和重组数据,提炼出统计信息,供政府部门和社会各界使用,成为目前统计部门所面临的一个难以解决而又急需解决的问题。数据仓库技术的产生和发展为这个问题的解决提供了有效的理论和方法指导。

数据仓库本身是一个非常大的数据库,它存储着由组织作业数据库及其他一些外部数据源经过整合而来的数据,经过整合的数据能够更好地为面向决策分析提供数据支持。数据的整合一般要经过“提取一转换一加载”的过程,也称ETL过程。经过ETL处理后,数据仓库中存储的是“无噪音”的数据。数据仓库除了具有传统数据库管理系统的共享性、完整性和数据独立性以外,还具有自己不同与一般数据库的特征:面向主题、集成性、历史性和稳定性以及随时间变化。由此可见,数据仓库所存储的数据是分析性数据,主要用于支持企业或组织的决策分析处理。

1.3 数据仓库的分析工具:OLAP与DM

联机分析处理(OLAP)和数据挖掘(DM)是数据仓库之上的增值技术,它们均是数据仓库的分析工具,在实际应用中各有侧重。OLAP从数据仓库中的集成数据出发,构建面向分析的多维数据模型,用户可以通过切片、切块、钻取及旋转等操作,从各个角度对数据进行分析:数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础进行预测。前者是验证型的,后者是挖掘型的,二者互相补充。简单来说,OLAP是由使用者所主导,使用者先有一些假设,然后利用OLAP来查证假设是否成立;而DM则是用来帮助使用者产生假设。

由此可见,尽管数据仓库、OLAP和DM是三种独立的信息处理技术(数据仓库用于数据的存储和组织,OLAP集中于数据的分析,DM则致力于知识的发现),但是这三种技术确实存在这一定的联系和互补,如果把他们结合起来,就可以更大程度的发挥它们的功能。于是,把它们应用在统计领域,便形成了新的统计决策分析解决方案的框架,即:DW+OLAP+DM。

基于SQL Server商业智能的统计决策分析系统: 2 利用SQL Server构建统计决策分析系统

2.1 SQL Server的商业智能体系

商业智能BI是Business Intelligence的缩写,最早由Gartner Group于1996年提出。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策,主要涉及数据仓库、联机分析处理和数据挖掘三大核心技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用,把它看成是一种解决方案更为合适。

Microsoft SQL server相关知识综合起来有两大体系,一是关于数据库管理的。另一个是关于商业智能应用的。前者是由SQL Server Management Studio工具来完成.后者由Business Intelligence Development Studio工具来完成。在商业智能方面,SQL Server 2005提供的三大服务都整合在BI Studio。三大服务分别是SQL Server Integration Services(SSIS)、SQL Server Analysis Seryices(SSRS)、SQL Server Reporting Services(SSRS)。

其中,SSIS能从各种异构数据源抽取整合所需要的数据。这项功能通过娜服务实现:SSAS提供OLAP分析和数据挖掘功能。是产生智能和知识的关键;SSRS主要是提供报表服务,为不同层次的人提供不同特点的报表,解决各种分析模型的可视化问题。

2.2 构建统计决策分析系统框架

2.2.1 SQL Server的多维数据建模思想

OLAP是一种通过多维结构访问数据源并对数据进行聚合和组织的过程。在SQL Server中,Analysis Services是建立和管理多维数据集并且对Cube进行分析的工具,通过这一工具,除了可以使用传统的自下而上的方法设计外,还支持自上而下的设计方法。

自上而下的设计方法强调应用决定数据,有什么应用就获取什么数据。Analysis Services使用统一维度模型(UDM)的数据组织方法来保证0LAP服务程序满足这种设计方法的技术需求。统一维度模型的作用就是在用户和数据源之间搭建一座桥梁,通过使用统一维度模型。所有的数据都集成在了一起,最终用户可以更容易创建多维数据模型并进行OLAP分析。

2.2.2 SQL Server的数据挖掘建模

(1)SQL Server数据挖掘算法

SQL Server针对可生成的每种模型包含一种不同的算法,并且可以通过对参数的相关设置来调整每种算法。与SQL Server 2000只提供决策树和聚类两种算法相比,SQL Server 2005及以上版本引入了许多新的数据挖掘算法。其中,SQL Server 2005共提供了10种数据挖掘算法,分别是决策树算法、聚类算法、Naive Baves算法、关联算法、序列聚类算法、时序算法、神经网络算法、逻辑回归算法、线性回归算法以及文本挖掘算法。

而且,考虑到不断有新的数据挖掘算法会出现,Analysis Services提供了丰富的扩展能力,支持算法插入,以扩展数据挖掘功能,并允许第三方或内部开发人员添加新的数据挖掘算法。

另外,SQL Server能将OLAP和DM进行无缝的集成,可以实现联机分析挖掘(OLAM),使得数据挖掘功能更加强大。

(2)SQL Server的数据挖掘建模过程

SQL Server数据挖掘建模过程可以按照CRISP-DM(跨行业数据挖掘标准流程)模型来进行。CRISP-DM数据挖掘方法论最初有SPSS、NCR和DaimlerChrysler三个公司在1996年提出。后来得到欧洲共同体研究基金的资助。CRISP-DM不是一种描述特定数据挖掘的技术,而是描述数据挖掘项目生命周期的流程。图1描述了在SQL Server中对统计数据实施数据挖掘的主要阶段以及每一步使用的工具。

图1 SQL Server数据挖掘过程模型

该过程模型与CRISP-DM模型类似,都定义了六个阶段,分别是:定义问题(question defining)、数据理解(Data understanding)、数据准备(Data preparation)、建立模型(Modeling)、模型评估(Evaluation)、结果发布(Deployment)。这6个阶段不是有序的,在数据挖掘项目中,经常需要在不同阶段之间来回移动。比如,测览完数据后,可能发现满足该定义问题的数据不足,无法创建合适的挖掘模型,此时需要查询更多的数据;生成模型后,也可能发现该模型并不能回答定义的问题,这是需要对模型进行调整,或重新定义问题,等等。

2.2.3 利用BI Development Studio构建统计决策分析系统

本文在前面提出了新的统计决策分析解决方案的框架。即:DW+OLAP+DM。那么,利用SQL Server的BI Development Studio工具可以实现这种框架的集成,如图2所示。在该系统框架图中,从底层依次向上看,主要分为三层:首先是利用SSIS实现各种统计数据的抽取和整合,从而建立统计数据仓库;然后,在数据仓库的基础上,利用SSAS创建各种分析和挖掘模型,包括多维数据模型、数据挖掘模型和联机分析挖掘模型等;最后,利用SSRS或Excel 2007等前端展示工具对模型的分析结果提供类型多样、美观且适合不同需求的图表和报表。

决策分析人员可以从这些图表或报表中提炼出有价值的面向决策的信息和知识。这样就实现了对基本统计数据和信息的深层次挖掘,从而为各级党政领导和宏观调控提供有力的决策信息。

图2 基于SQL Server 2005的商业智能统计决策分析系统框架图

2.3 使用SQL Server Management Studio工具管理模型

对许多数据库管理员来说,SQL Server 2005及以上版本中的Management Studio是进行事务处理的T具。实际上,Management Sludio工具还可对OLAP立方体、数据挖掘模型、Reporting Serverices等进行管理。而且,SQL Server Management Studio还有一个形式自由的查询编辑器,这个编辑器有一个查询模板库,可以利用这个模板库来创建MDX查询和DMX查询,这样各种决策分析模型与应用程序的集成变得相对容易。

基于SQL Server商业智能的统计决策分析系统: 3 小 结

本文在介绍我国统计信息化的基础上,提出了基于SQL Server商业智能架构的统计决策分析系统的框架,为统计数据的开发提出了新思路。决策是提供统计信息的最终目的,在当前信息化建设的背景下,对统计信息资源的开发应借鉴信息技术的最新应用成果,从而产生出大量的面向决策的再生信息。

相关链接
商务智能的对企业运营的支持与其架构2009-09-06 国内外数据仓库系统应用研究2009-09-10
基于数据仓库的企业绩效评价指标体系2009-08-31 如何建立商务智能2009-08-25
SAP鲁百年:BI成桌面系统2009-09-27 商务智能中元数据管理模型研究2009-08-13
商业智能在企业中的运用及发展趋势初探2009-10-13 基于ERP的商务智能系统的设计2009-07-30
光大证券借助Informatica大幅提升数据...2009-10-22 商业智能在现阶段HIS系统中的应用2009-07-20
返回首页 信息化软件 企业管理 营销管理 业界消息 文档查询
Copyright © 2005-2010   http://www.ourdoc.cn, 知识文档中心