随着互联网的发展,大数据、云计算等名词也进入我们的生活的方方面面,那么什么是大数据?什么又是云计算?以下是小编为你整理的如何学好大数据分析
大数据是什么?
就字面意思理解就是大量的数据的意思;深入理解大数据是对信息资源和数据的集合,利用这些数据和信息资源分析出有用的资源,这就是大数据。
容量大数据作为信息的集合,它包含了很多潜在的信息,以及各个不同行业的信息,这些信息就是大数据的容量和价值。
大数据的种类有很多,因为它是一个信息的合集,因此它包含多种类别的分析。
[图片0]
大数据不是一成不变的,随着时间和空间的变化,大数据也会跟着变化。
由于大数数量巨大,来源的渠道有很多,因此它表现出很强的复杂性。
利用大数据可以分析和反映一个行业或者一个市场的一些规律,抓住这些规律,就可以产生价值。
学大数据用什么语言
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本,这样能更容易理解和配置大数据集群。
Hadoop:这是现在流行的大数据处理平台,几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算。
大数据技术的具体内容
分布式存储计算架构(强烈推荐:Hadoop)
分布式程序设计(包含:Apache Pig或者Hive)
分布式文件系统(比如:Google GFS)
多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable,Apollo, DynamoDB等)
数据收集架构(比如:Kinesis,Kafla)
集成开发环境(比如:R-Studio)
程序开发辅助工具(比如:大量的第三方开发辅助工具)
调度协调架构工具(比如:Apache Aurora)
机器学习(常用的有Apache Mahout 或 H2O)
托管管理(比如:Apache Hadoop Benchmarking)
安全管理(常用的有Gateway)
大数据系统部署(可以看下Apache Ambari)
[图片1]
搜索引擎架构( 学习或者企业都建议使用Lucene搜索引擎)
多种数据库的演变(MySQL/Memcached)
商业智能(大力推荐:Jaspersoft )
数据可视化(这个工具就很多了,可以根据实际需要来选择)
大数据处理算法(10大经典算法)
掌握基于Spark的核心框架使用
1、掌握基于Spark上的核心框架的使用系列课程1: Spark SQL
Spark SQL原理和实现
使用Spark SQL操作文本文件和DSL
Spark SQL操作JSON和Hive
2、掌握基于Spark上的核心框架的使用系列课程2:Spark的图计算
Spark GraphX原理和实现
Table operator和Graph Operator
Verticies、Edges、Triplets
动手编写GraphX实例
图操作之Property Operator、Structural Operator
图操作之Computing Degree、Computing Neighbors
图操作之Join Operators、Map Reduce Triplets
Pregel API
ShortestPaths
PageRank
TriangleCount
3、掌握基于Spark上的核心框架的使用系列课程3: Spark实时流处理
DStream
transformation
checkpoint
案例实战之一
案例实战之二
案例实战之三
案例实战之四
4、掌握基于Spark上的核心框架的使用系列课程4: Spark的机器学习
LinearRegression
K-Means
Collaborative Filtering
5、掌握基于Spark上的核心框架的使用系列课程5:Spark作为云服务
JobServer的架构设计
JobServer提供的接口
JobServer最佳实践
6、掌握基于Spark上的核心框架的使用系列课程6:Spark on Yarn
Spark on Yarn的架构原理
Spark on Yarn的最佳实践
7、掌握基于Spark上的核心框架的使用系列课程7:Tachyon
Tachyon架构剖析
Tachyon操作详解
Spark下的Tachyon使用解析