编辑推荐

  


  
  海报:

内容简介

  数据挖掘技术是当下大数据时代最关键的技术,其应用领域及前景不可估量。R是一款极其优秀的统计分析和数据挖掘软件,《大数据时代的R语言·数据挖掘:R语言实战》侧重使用R进行数据挖掘,重点讲述了R的数据挖掘流程、算法包的使用及相关工具的应用,同时结合大量精选的数据挖掘实例对R软件进行深入潜出和全面的介绍,以便读者能深刻理解R的精髓并能快速、高效和灵活地掌握使用R进行数据挖掘的技巧。
  通过《大数据时代的R语言·数据挖掘:R语言实战》,读者不仅能掌握使用R及相关的算法包来快速解决实际问题的方法,而且能得到从实际问题分析入手,到利用R进行求解,以及对挖掘结果进行分析的全面训练。

作者简介

王正林已出版过如下图书:1、MATLAB/Simulink与控制系统仿真,电子工业出版社2、精通MATLAB7(附光盘)电子工业出版社3、精通MATLAB7科学计算(附光盘)电子工业出版社

目录

第0章致敬,R!
致敬,肩膀!
致敬,时代!
致敬,人才!
致敬,R瑟!
上篇数据预处理
第1章数据挖掘导引
1.1数据挖掘概述
1.1.1数据挖掘的过程
1.1.2数据挖掘的对象
1.1.3数据挖掘的方法
1.1.4数据挖掘的应用
1.2数据挖掘的算法
1.3数据挖掘的工具
1.3.1工具的分类
1.3.2工具的选择
1.3.3商用的工具
1.3.4开源的工具
1.4R在数据挖掘中的优势
数据挖掘:R语言实战
VI
第2章数据概览
2.1n×m数据集
2.2数据的分类
2.2.1一般的数据分类
2.2.2R的数据分类
2.2.3用R简单处理数据
2.3数据抽样及R实现
2.3.1简单随机抽样
2.3.2分层抽样
2.3.3整群抽样
2.4训练集与测试集
2.5本章汇总
第3章用R获取数据
3.1获取内置数据集
3.1.1datasets数据集
3.1.2包的数据集
3.2获取其他格式的数据
3.2.1CSV与TXT格式
3.2.2从Excel直接获取数据
3.2.3从其他统计软件中获取数据
3.3获取数据库数据
3.4获取网页数据
3.5本章汇总
第4章探索性数据分析
4.1数据集
4.2数字化探索
4.2.1变量概况
4.2.2变量详情
4.2.3分布指标
4.2.4稀疏性
4.2.5缺失值
4.2.6相关性
4.3可视化探索
4.3.1直方图
目录
VII
4.3.2累积分布图
4.3.3箱形图
4.3.4条形图
4.3.5点阵图
4.3.6饼图
4.5本章汇总
第5章数据预处理
5.1数据集加载
5.2数据清理
5.2.1缺失值处理
5.2.2噪声数据处理
5.2.3数据不一致的处理
5.3数据集成
5.4数据变换
5.5数据归约
5.6本章汇总
中篇基本算法及应用
第6章关联分析
6.1概述
6.2R中的实现
6.2.1相关软件包
6.2.2核心函数
6.2.3数据集
6.3应用案例
6.3.1数据初探
6.3.2对生成规则进行强度控制
6.3.3一个实际应用
6.3.4改变输出结果形式
6.3.5关联规则的可视化
6.4本章汇总
第7章聚类分析
7.1概述
7.1.1K-均值聚类
数据挖掘:R语言实战
VIII
7.1.2K-中心点聚类
7.1.3系谱聚类
7.1.4密度聚类
7.1.5期望最大化聚类
7.2R中的实现
7.2.1相关软件包
7.2.2核心函数
7.2.3数据集
7.3应用案例
7.3.1K-均值聚类
7.3.2K-中心点聚类
7.3.3系谱聚类
7.3.4密度聚类
7.3.5期望最大化聚类
7.4本章汇总
第8章判别分析
8.1概述
8.1.1费希尔判别
8.1.2贝叶斯判别
8.1.3距离判别
8.2R中的实现
8.2.1相关软件包
8.2.2核心函数
8.2.3数据集
8.3应用案例
8.3.1线性判别分析
8.3.2朴素贝叶斯分类
8.3.3K最近邻
8.3.4有权重的K最近邻算法
8.4推荐系统综合实例
8.4.1kNN与推荐
8.4.2MovieLens数据集说明
8.4.3综合运用
8.5本章汇总
目录
IX
第9章决策树
9.1概述
9.1.1树形结构
9.1.2树的构建
9.1.3常用算法
9.2R中的实现
9.2.1相关软件包
9.2.2核心函数
9.2.3数据集
9.3应用案例
9.3.1CART应用
9.3.2C4.5应用
9.4本章汇总
下篇高级算法及应用
第10章集成学习
10.1概述
10.1.1一个概率论小计算
10.1.2Bagging算法
10.1.3AdaBoost算法
10.2R中的实现
10.2.1相关软件包
10.2.2核心函数
10.2.3数据集
10.3应用案例
10.3.1Bagging算法
10.3.2Adaboost算法
10.4本章汇总
第11章随机森林
11.1概述
11.1.1基本原理
11.1.2重要参数
11.2R中的实现
11.2.1相关软件包
数据挖掘:R语言实战
X
11.2.2核心函数
11.2.3可视化分析
11.3应用案例
11.3.1数据处理
11.3.2建立模型
11.3.3结果分析
11.3.4自变量的重要程度
11.3.5优化建模
11.4本章汇总
第12章支持向量机
12.1概述
12.1.1结构风险最小原理
12.1.2函数间隔与几何间隔
12.1.3核函数
12.2R中的实现
12.2.1相关软件包
12.2.2核心函数
12.2.3数据集
12.3应用案例
12.3.1数据初探
12.3.2建立模型
12.3.3结果分析
12.3.4预测判别
12.3.5综合建模
12.3.6可视化分析
12.3.7优化建模
12.4本章汇总
第13章神经网络
13.1概述
13.2R中的实现
13.2.1相关软件包
13.2.2核心函数
13.3应用案例
13.3.1数据初探
目录
XI
13.3.2数据处理
13.3.3建立模型
13.3.4结果分析
13.3.5预测判别
13.3.6模型差异分析
13.3.7优化建模
13.4本章汇总
第14章模型评估与选择
14.1评估过程概述
14.2安装Rattle包
14.3Rattle功能简介
14.3.1Data――选取数据
14.3.2Explore――数据探究
14.3.3Test――数据相关检验
14.3.4Transform――数据预处理
14.3.5Cluster――数据聚类
14.3.6Model――模型评估
14.3.7Evaluate――模型评估
14.3.8Log――模型评估记录
14.4模型评估相关概念
14.4.1误判率
14.4.2正确/错误的肯定判断、正确/错误的否定判断
14.4.3精确度、敏感度及特异性
14.5Rattle在模型评估中的应用
14.5.1混淆矩阵
14.5.2风险图
14.5.3ROC图及相关图表
14.5.4模型得分数据集
14.6综合实例
14.6.1数据介绍
14.6.2模型建立
14.6.3模型结果分析
数据挖掘:R语言实战

前言/序言

  在大数据时代,数据挖掘无疑将是最炙手可热的技术。数据挖掘的理论和方法正曰新月异地发展,数据挖掘的技术及工具,已经滲透到互联网、金融、电商、管理、生产、决策等各个领域,数据挖掘的软件也是层出不穷,其中R是最引入关注的软件。
  R是一个免费的开源软件,它提供了首屈一指的统计计算和绘图功能,尤其是大量的数据挖掘方面的算法包,使得它成为一款优秀的、不可多得的数据挖掘工具软件。
  《大数据时代的R语言·数据挖掘:R语言实战》的主要目的是向读者介绍如何用R进行数据挖掘,通过大量的精选实例,循序渐进、全面系统地讲述R在数据挖掘领域的应用。
  《大数据时代的R语言·数据挖掘:R语言实战》以数据预处理、基本算法及应用和高级算法及应用这三篇展开。
  (1)上篇:数据预处理’
  由第1—5章组成,首先简要介绍数据挖掘流程、算法和工具,然后介绍R中的数据分类和数据集,以及使用R获取数据的多种灵活的方法。最后讲述对数据进行探索性分析和预处理的方法。这些内容是使用R进行数据挖掘的最基础内容。
  (2)中篇:基本算法及应用
  由第6—9章组成,主要讲述数据挖掘的基本算法及应用,包括关联分析、聚类分析、判别分析和决策树,这些算法也是数据挖掘使用最多最普遍的算法。R中提供了丰富的、功能强大的算法包和实现函数,数据挖掘的初级和中级用户务必掌握。
  (3)下篇:高级算法及应用
  由第10—14章组成,主要讲述数据挖掘的高级算法及应用,包括集成学习、随机森林、支持向量机和神经网络,以及使用R中的工具对数据挖掘的模型进行评估与选择。对于中高级的用户,可以深入学习一下本篇的内容。
  R的特点是入门非常容易,使用也非常简单,因此《大数据时代的R语言·数据挖掘:R语言实战》不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容,快速入门和提高。读者既可以把《大数据时代的R语言·数据挖掘:R语言实战》作为学习如何应用R的一本优秀的教材,也可以作为数据挖掘的工具书。
  《大数据时代的R语言·数据挖掘:R语言实战》以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,根据自己在实际中遇到的问题寻找解决方案。
  《大数据时代的R语言·数据挖掘:R语言实战》所编写的源程序,都通过了反复调试,方便读者使用。
  《大数据时代的R语言·数据挖掘:R语言实战》主要由黄文、王正林编写,其他参与编写的人员有付东旭、王思琪、钟太平、刘拥军、陈菜枚、李灿辉、钟事沅、王晓丽、王龙跃、夏路生、钟颂飞、钟杜清、王殿祜等。在此对所有参与编写的人员表示感谢!对关心、支持我们的读者表示感谢!
  由于时间仓促,作者水平和经验有限,书中错漏之处在所难免,敬请读者指正。
  编者
  2014年4月18日于北京


其他推荐