编程札记

数据挖掘-03-聚类

聚类 聚类概述 概述 聚类是一个将数据集划分为若干组或簇的过程,使得同一类的数据对象之间的相似度较高,而不同类的数据对象之间的相似度较低。 这里的类,也叫簇(cluster),是相似数据的集合。 聚类的过程 把相似数据归并到一类的过程...

编程札记

Hadoop-02

HDFS分布式文件系统 HDFS的简介 Hadoop的核心是HDFS和MapReduce。其中,HDFS是解决海量大数据文件存储的问题,是目前应用最广泛的分布式文件系统。 HDFS的演变 HDFS 源于 Google 在2003年10...

编程札记

数据挖掘-02-分类决策树

数据挖掘基础 分类概述 分类的基本概念 分类是一种重要的数据分析形式。 根据重要数据类的特征向量值及其他约束条件,建立分类函数或分类模型。 分类模型可以用于描述性建模和预测性建模。 解决分类问题的一般方法 分类法是一种根据输入数据集建...

编程札记

数据挖掘-01-概念

数据挖掘基础 数据挖掘概述 什么是数据挖掘? 数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘的数据源包括数据...

编程札记

Hadoop-01

Hadoop大数据处理技术 大数据概述 什么是大数据 麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值...