概述
数据仓库为企业提供了分析和报表功能,是商务智能的中流砥柱。不过,随着大数据时代的来临,网站日志、用户行为数据、社交媒体、传感器等等在云端产生了海量非结构化数据,为了分析海量数据,与云端数据交互获取更强的竞争力,给传统数据仓库带来了巨大挑战。
伴随着Hadoop/Spark大数据平台的成熟,越来越多的企业开始采用Hadoop/Spark作为企业数据中心来弥补传统数据仓库,对弱结构化或者非结构化数据进行分析,或者作为ETL功能为数据仓库提供结构化数据。
为了帮助企业在大数据时代更好地获得竞争优势,百度智能云提供了云端的数据仓储解决方案,介绍如何在数据仓库和Hadoop/Spark大数据平台中选型,以及如何运用云计算带来的收益,为企业搭建现代数据仓库平台提供指南。
背景
数据分析是通过收集原始数据、处理后得到有用信息、然后进行分析以获取洞察力的一个过程,最终目的是辅助决策。数据分析的例子有很多,比如网站通过分析用户的行为数据来了解客户的倾向以推荐产品、供电局通过分析电表的数据来提高能源效率等。
为了更好地支持数据分析,数据技术慢慢演化成面向日常事务处理的OLTP和针对统计分析决策的OLAP。
MPP架构的数据仓库是典型的OLAP应用,通过ETL过程把数据仓储在统一的平台,并提供交互式查询帮助企业做出决策,是商务智能(Business Intelligence)的中流砥柱。
随着Hadoop和Spark技术的崛起,普通技术人员都能够通过廉价硬件组建集群,存放大量原始数据并通过大规模并行框架处理数据,并且在上层慢慢演化出Hive、Spark SQL这样的OLAP功能,也能完成数据仓储的任务。
那么问题来了:
数据仓库和Hadoop/Spark大数据平台如何选择?
云端的数据仓库服务和Hadoop/Spark托管服务有什么好处?
方案
现代数据仓库
关系数据仓库托管服务Palo和Hadoop/Spark托管服务BMR的有机组合才是数据仓储最佳解决方案:
Palo

其中:
结构化、弱结构化、非结构化存储的原始数据可以复制到BMR集群中。
结构化数据通过ETL载入Palo中。
通过Hive或者Spark SQL交互式查询BMR中的数据,用来做原型测试或者即席查询。这些组件支持运行时定义表模式(Schema on Read),方便处理弱结构化数据。非结构化数据可以通过MapReduce或Spark加工成结构化数据。
变形完成的结构化数据载入Palo,作为企业唯一真实版本(Single Version of the Truth),帮助企业部门之间协作。
通过SQL与Palo通讯,使用BI工具进行即席查询或者交互式分析,或者产生数字面板提供自动报表,以获取洞察力。
大数据时代的数据仓储,应该能够同时处理关系型数据和非关系型数据,小数据与大数据,一个都不能少,而BMR和Palo正是百度智能云大数据平台给出的答案。
传统的数据仓库或者Hadoop集群建设,需要经过采购硬件、部署软件、开发运维等步骤,周期冗长,而且无法随着业务动态伸缩。相比之下,BMR和Palo都是云端的全托管服务,用户在几分钟内便可以创建集群,而无须考虑运维,节省IT人员的成本。同时,托管服务都支持动态伸缩集群,可根据业务大小调节集群,按使用量付费。总之,IT支出下降,凸显云端托管服务的优势。
无缝集成BI工具
秉承开源开放的原则,BMR、Palo可以轻松与业界著名的BI工具的无缝集成,使得自助式分析与报表变得异常简单。
数据服务
百度智能云对数据仓储提供了完整的收集、存储、仓储、应用四个步骤的服务:
收集:方便快捷地把各种类型的数据收集到云端。除了公网上传数据,海量数据可以使用硬盘快递服务,此外还有日志服务和物联网IoT服务可以选择。
存储:把不同类型的数据存储到相应的服务以便进一步处理。比如对象存储BOS是支持HDFS接口的文件存储服务;RDS支持MySQL和SQL Server的关系型数据库服务。
仓储:把数据清理、变形、优化以后存储关系型数据仓库Palo,或者以更直接形式放在以Hadoop/Spark为平台的数据湖上,以便高效地进行数据分析。
应用:使用商务智能工具如Qlik、Tableau等与BMR或者Palo交互,交互式查询、产生报表、或者生成数字面板供企业内分享。
参考架构如下:
Palo

选择我们
我们提供业界领先的数据仓储解决方案:
依托百度技术:百度搜索收录全世界超过万亿网页、承载中国网民每天几十亿次的请求,大数据技术支撑20多个用户过亿产品以及百万企业客户。2013年百度建成全球最大Hadoop集群,2014年百度大数据处理能力BaiduSort获得国际排序大赛冠军。
全托管云服务:托管服务让用户聚焦业务而不是修复缺陷和运营,而按需购买、快速发布、弹性扩容、高可用等特性帮助企业大大降低IT成本。此外,大数据产品在百度内部外部久经考验,适合企业在生产环境部署。
开源开放:百度智能云提供增强的开源产品托管服务(如BMR)或者接口完全兼容产品(如Palo),方便互联网公司和传统企业平滑
点击百度MapReduce以及百度数据仓库Palo开始使用。