?空间数据挖掘在获取数据后第一件事情就是对数据进行预处理。
?
预处理原因:数据质量差
数据不完整
噪声
不同数据源获取的统一数据不一致
?
而高质量的数据才有高质量的结果,预处理目的有两个,提高数据质量,加快挖掘信息的速率。
?
预处理的主要任务有:
数据清理:填空缺,去噪声(这两个一般用插值),识别或删除离群值(与实际情况偏离较大但是不是噪声的有用点),解决不一致(看数据的可靠性之类的)
数据集成:集成到数据库,数据立方体(逻辑上等同于EXCEL数据透视表),文件
数据归约:数据集简化的表示,理解为小数据集,能得到大数据集相同或相似的结果。主要方法有给出特征子集(就是删多余数据),主成分分析。
数据变换:规范化。
数据离散化:离散化数据,概念分层。各种划分方法:分级,直方图,聚类,决策树~
?
具体处理不说了,一般来说就是常规统计方法和线性平滑。
?
?
新出来的概念大概是数据库、数据仓库和数据立方体。
?
数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。
?
数据库与数据仓库区别
(感觉类似面向流程和面向对象~蜜汁感觉)
?
数据仓库基于多维数据模型,其中数据立方体最为典型。
?
看了一大圈,才发现思想和EXCEL数据透视图一样一样的。就是能把不同的维度抽出来可视化,但实际底层储存应该还是和数据库差不多,都是一张张表。
?
?
事实表对应数据库,维表对应数据仓库,不同的维组成数据立方体。对某一数据立方体能进行上卷、下钻、切片和切块、转轴等操作。
?
?
上卷:某一维度进行合并,比如6个城市归并到两个国家。
下钻:与上卷对应,2个国家拆成6个城市。
切块:只取数据立方体一部分研究,得到立方体一块。
切片:只取数据立方体一个维度里面的一项。如之前研究全国,现在只研究一个城市。
转轴:坐标转换…
?
?
最后,上升到专业——空间数据挖掘预处理。
?
emmm,感觉没啥多的东西,就是把人家数据挖掘的东西套在地理层面上…
?
空间数据仓库:面向主题的、集成的、时变的和非易失性的空间和非空间数据的集合,支持空间数据挖掘和与空间数据相关的决策过程。(真就生搬硬套概念…)
?
实现方面主要多了GIS技术,采用星型/雪花模式。
?
(大的事实表催生各种维度表)
?
空间数据立方体可以有三个基本维:非空间维(非空间数据,如降雨,气温),矢量维(矢量数据)和hldkfd(栅格数据)。以及催生了4种混合维。
?
?
最后讲空间数据挖掘的时候,感觉总体向空间数据仓库偏移,然后有种努力想建立体系但是又很杂反而说不出来很多东西的感觉…(当然,也有可能我太菜了QAQ,反正就是建立不了体系,这章其实读下来,通篇就四个字,数据仓库….)
?
65495133