标签: Hadoop

hadoop-09

在实际开发中，有时候需要将HDFS或Hive上的数据导出到传统关系型数据库中（如MySQL、Oracle等），或者将传统关系型数据库中的数据导入到HDFS或Hive上，如果通过人工手动进行数据迁移的话，就会显得非常麻烦。为此，可使用A...

Spark简介 Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序 2013年Spark加入Apache孵化...

数据仓库简介什么是数据仓库数据仓库是一个面向主题的、集成的、随时间变化的，但信息本身相对稳定的数据集合，它用于支持企业或组织的决策分析处理，这里对数据仓库的定义，指出了数据仓库的三个特点。数据仓库的结构数据仓库的结构是由数据源...

Hadoop2.0改进与提升相比Hadoop1.0版本，Hadoop2.0的优化改良主要体现在两个方面：一方面是Hadoop自身核心组件架构设计的改进，另一方面是Hadoop集群性能的改进，通过这些优化和提升，Hadoop可以支持更...

Zookeeper分布式协调服务 Apache Zookeeper旨在减轻构建健壮的分布式系统的服务。Zookeeper是基于分布式计算的核心概念而设计的，主要目的是给开发人员提供一套容易理解和开发的接口，从而简化分布式系统构建的服务...

MapReduce概述 MapReduce是Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。 NULL 传统并行计算框架 Map...

分布式数据库HBase 概述从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题建立互联网索引 1 爬虫持续不断地抓取新页面，这些页面每页一行地存储到BigTable里 2...

HDFS分布式文件系统 HDFS的简介 Hadoop的核心是HDFS和MapReduce。其中，HDFS是解决海量大数据文件存储的问题，是目前应用最广泛的分布式文件系统。 HDFS的演变 HDFS 源于 Google 在2003年10...

Hadoop大数据处理技术大数据概述什么是大数据麦肯锡全球研究所给出的大数据定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值...