编程札记

hadoop-04

MapReduce概述 MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。 NULL 传统并行计算框架 Map...

编程札记

数据挖掘-04-关联规则

关联规则 关联规则概述 关联规则依据大量数据中存在的特定关系,通过对数据的分析,发现之间的联系。已经在电商、零售、大气物理、生物医学等多个方面有了广泛的应用。 关联规则的概念和定义 关联规则概念最早是由Agrawal等人在1993年首...

编程札记

Hadoop-03

分布式数据库HBase 概述 从BigTable说起 BigTable是一个分布式存储系统 BigTable起初用于解决典型的互联网搜索问题 建立互联网索引 1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里 2...

编程札记

数据挖掘-03-聚类

聚类 聚类概述 概述 聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。 这里的类,也叫簇(cluster),是相似数据的集合。 聚类的过程 把相似数据归并到一类的过程...