hadoop

hadoop-04

MapReduce概述MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。 NULL 传统并行计算框架 Map...

数据挖掘

数据挖掘-04-关联规则

关联规则关联规则概述关联规则依据大量数据中存在的特定关系,通过对数据的分析,发现之间的联系。已经在电商、零售、大气物理、生物医学等多个方面有了广泛的应用。 关联规则的概念和定义关联规则概念最早是由Agrawal等人在1993年首先提出...

hadoop

Hadoop-03

分布式数据库HBase概述从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题 建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2 MapRe...

数据挖掘

数据挖掘-03-聚类

聚类聚类概述概述聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。这里的类,也叫簇(cluster),是相似数据的集合。 聚类的过程把相似数据归并到一类的过程,形成同类...