hadoop

hadoop-07

数据仓库简介什么是数据仓库数据仓库是一个面向主题的、集成的、随时间变化的,但信息本身相对稳定的数据集合,它用于支持企业或组织的决策分析处理,这里对数据仓库的定义,指出了数据仓库的三个特点。 数据仓库的结构数据仓库的结构是由数据源、数据...

hadoop

hadoop-06

Hadoop2.0改进与提升相比Hadoop1.0版本,Hadoop2.0的优化改良主要体现在两个方面:一方面是Hadoop自身核心组件架构设计的改进,另一方面是Hadoop集群性能的改进,通过这些优化和提升,Hadoop可以支持更多...

hadoop

hadoop-05

Zookeeper分布式协调服务Apache Zookeeper旨在减轻构建健壮的分布式系统的服务。Zookeeper是基于分布式计算的核心概念而设计的,主要目的是给开发人员提供一套容易理解和开发的接口,从而简化分布式系统构建的服务。...

hadoop

hadoop-04

MapReduce概述MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。 NULL 传统并行计算框架 Map...

hadoop

Hadoop-03

分布式数据库HBase概述从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题 建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2 MapRe...

hadoop

Hadoop-02

HDFS分布式文件系统HDFS的简介Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。 HDFS的演变HDFS 源于 Google 在2003年10月份发...

hadoop

Hadoop-01

Hadoop大数据处理技术大数据概述什么是大数据麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低...