转帖 大数据处理过程之核心技术ETL详解

ETL (数据转换)就是对数据的合并、清理和整合。通过转换,可以实现不同的源数据在语义上的一致性。抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论ETL在大数据实际应用中涉及的技术与知识点。

2016-05-24 10:42:06.000
转帖 六大值得关注的Apache大数据项目新星

传统的数据处理程序面对日益庞大而复杂的数据,已无法再进行有效的获取及优化分析。而这正是新一代的大数据应用程序所要解决的问题。近期Apache软件基金会(ASF)又一次将一批有趣的开源大数据项目升级为Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。

2016-05-23 10:40:41.000
转帖 大数据下的中国年:看看“敬业福”到底去哪儿了?

2016年被称为一次“互联网春节”。2月13日,基于支付宝使用数据的首份互联网春节生活方式报告《指尖上的新年》发布,用大数据的形式,速写了一份关于中国人过年方式的猴年新春记忆。

2016-02-16 16:52:04.000
转帖 大数据生态圈与IBM Platform Symphony架构设计

一个企业该如何选择一个适合的平台甚至一个框架?这个问题不太容易回答。本文致力于介绍整个大数据的生态圈以及IBM Platform Symphony产品,希望读者能从中得到这个问题的线索或答案。

2016-02-16 11:26:43.000
转帖 为什么Spark Streaming越来越流行?

Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。Uber、Netflix和Pinterest等家喻户晓的公司赫然在列,那么为什么使用Spark Streaming加速业务发展的公司越来越多呢?我们一起来看看。

2016-01-05 09:49:27.000
原创 HBase基础知识,面向列的实时分布式数据库

Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。

2015-11-17 10:11:18.000
原创 四个最常见的大数据人才工作内容以及薪资比较

随着大数据时代的到来,数据分析与探勘成为科技显学,各行各业对于大数据的浓厚兴趣也直接反映在大数据人才的丰厚薪资中。

2015-06-19 09:36:05.000
原创 你的数据足迹 他的网络商机?

未来阿里巴巴集团要充分运用客户采购数据,将集团从资通科技业,转型为大数据科技公司,这个大数据革命若以正面态度加值运用,确实能造福人类;但我们上网时无形中留下的数据足迹是无法消灭的,这些数据若被不肖的政府与企业所利用,形成数据监控,就容易出现更多的「史诺登事件」。

2015-04-23 13:11:27.000
原创 谈谈新浪微博背后的那些算法

本文对微博中常见的问题的对应算法进行了简单的介绍,在实际应用中的算法比介绍的要复杂的多。当然,本文覆盖的主题并不全,比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”,希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。

2015-04-08 09:39:32.000
原创 社交关系+大数据=?

“大家还没搞清楚PC的时候,移动互联网来了,还没搞清楚移动互联网的时候,大数据来了。”

2015-03-26 09:58:27.000
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP