云时代的企业应用数据挖掘
文/ 顾茜 赵鹏本文主要分析了企业面对云时代的SaaS服务时,如何有效地对应用数据进行数据挖掘。首先分析了企业面对海量增长的数据时数据挖掘面临的挑战,其次提出了一种适合云应用环境的数据挖掘模式,最后对该方法进行了总结。随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同...
·
文/ 顾茜 赵鹏
本文主要分析了企业面对云时代的SaaS服务时,如何有效地对应用数据进行数据挖掘。首先分析了企业面对海量增长的数据时数据挖掘面临的挑战,其次提出了一种适合云应用环境的数据挖掘模式,最后对该方法进行了总结。 随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。
如何从海量应用挖掘出合理的数据 对于企业而言,如何将各种SaaS应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。 云时代企业数据挖掘也面临如下挑战。
- 挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。
- 多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。 如图1所示。
- 异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。
- ETL(数据提取转化加载)类的应用:从多个不同的源读取日志信息;分析以及清理日志数据;执行复杂的变换,比如“会话转换”;决定存储什么样的属性以及把信息装载到DBMS或者其他存储引擎中。
- 复杂分析应用:这种挖掘类型的应用需要对数据进行多步骤的计算和处理,通常一个程序的输出会是另外一个程序的输入,因此很难用单个SQL语句来表示,这种应用场合下,MapReduce是很好的候选方案。
- 半结构化数据:因为不需要对数据的存储进行格式定义,所以MapReduce比较适合处理半结构化数据,这些数据通常都是一些键值对。这些场合下,MapReduce非常适合做ETL的事情。
- 快速实施的系统:完善和健壮的低成本开源解决方案是MapReduce最大的优点。
- 企业数据层:企业数据来源于各类应用,如 SaaS应用、企业内部应用数据和专有云应用。
- 数据仓库层:主要引入HDFS分布存储系统和Hive体系架构,通过MapReduce算法对数据梳理和提取。
- 数据挖掘层:引入基于XML数据分析中间件,实现统计查询和数据挖掘功能。
- 数据分析与BI应用层:将BI以SaaS服务的模式提供给企业使用。
更多推荐
已为社区贡献1642条内容
所有评论(0)