数据挖掘

数据挖掘-04-关联规则

关联规则关联规则概述关联规则依据大量数据中存在的特定关系,通过对数据的分析,发现之间的联系。已经在电商、零售、大气物理、生物医学等多个方面有了广泛的应用。 关联规则的概念和定义关联规则概念最早是由Agrawal等人在1993年首先提出...

hadoop

Hadoop-03

分布式数据库HBase概述从BigTable说起BigTable是一个分布式存储系统BigTable起初用于解决典型的互联网搜索问题 建立互联网索引1 爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2 MapRe...

数据挖掘

数据挖掘-03-聚类

聚类聚类概述概述聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。这里的类,也叫簇(cluster),是相似数据的集合。 聚类的过程把相似数据归并到一类的过程,形成同类...

hadoop

Hadoop-02

HDFS分布式文件系统HDFS的简介Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。 HDFS的演变HDFS 源于 Google 在2003年10月份发...