微信扫码下载

编辑推荐

  

  《计算机科学丛书:数据挖掘与R语言》的支持网站给出了案例研究的所有代码、数据集以及R函数包
  不要求读者具有R、数据挖掘或统计技术的基础知识
  《计算机科学丛书:数据挖掘与R语言》利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术

内容简介

  《计算机科学丛书:数据挖掘与R语言》首先简要介绍了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。然后通过四个数据挖掘的实际案例(藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类)介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。《计算机科学丛书:数据挖掘与R语言》以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,找到自己实际问题的解决方案。
  《计算机科学丛书:数据挖掘与R语言》不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。读者既可以把《计算机科学丛书:数据挖掘与R语言》作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。

作者简介

  LuísTorgo,葡萄牙波尔图大学计算机科学系副教授,现在在LIAAD实验室从事研究工作。他是APPIA会员,同时还是OBEGEF的创办会员。

目录

出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读《计算机科学丛书:数据挖掘与R语言
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介

第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结

第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结

第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结

第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引

精彩书摘

注意,数字2(实际上是向量c(2)!)被循环,导致v1的所有元素乘以2。正如我们将看到的,这种循环规则也适用于其他的对象,如数组和矩阵。
1.2.5因子
因子提供了一个简单而又紧凑的形式来处理分类(名义)数据。因子用水平来表示所有可能的取值。如果数据集有取值个数固定的名义变量,因子就特别有用。下面的章节将要学习的多个图形函数和汇总函数就应用了因子的这种优点。对用户来说,这种使用和显示因子数据的方式显然是易于理解的,而R软件内部以数值编码方式来存储因子值,这将大大提高内存的利用效率。
下面举例说明如何在R中创建因子。假设有一个10个人的性别向量:
>gg
[1]“f”“m”“m”“m”“f”“m”“f”“m”“f”“f”
你可以把这个向量转换为一个因子:
)gg
[1]fmmmfmfmff
Levels:fm
注意,得到的不再是一个字符向量。上面提到,实际上这些因子在R内部表示为数值向量@。
在这个例子中,因子有两个水平,‘f’和‘m’,在R内部分别表示为1和2。然而,你不需要关心这个内部表示,因为你可以使用“原始的”字符值,R在显示因子时也使用这种字符方式。因此,出于效率的考虑,R因子的编码转换是用户透明的。
假设有另外5个人,需要把他们的性别信息存储在另一个因子对象中。假设他们都是男性。

前言/序言

【前言】
DataMiningwithR:LearningwithCaseStudies
  《计算机科学丛书:数据挖掘与R语言》的主要目的是向读者介绍如何用R进行数据挖掘。R是一个可以自由下载的语言,它提供统计计算和绘图环境,其功能和大量的添加包使它成为一款优秀的、多个已有(昂贵)数据挖掘工具的替代软件。
下载网址:http://wwwrprojectorg。

  数据挖掘的一个关键问题是数据量。典型的数据挖掘问题包括一个大的数据库,需要从中提取有用的信息。在《计算机科学丛书:数据挖掘与R语言》中,我们用MySQL作为核心数据库管理系统。对多个计算机平台,MySQL也是免费的。这意味着,我们可以不用付任何费用就可以进行“重要的”数据挖掘任务。同时,我们希望说明解决方案质量上并没有任何损失。昂贵的工具并不意味着一定更好!只要你愿意花时间来学习如何应用它们,R和MySQL就是一对很难超越的工具。我们认为这是值得的,希望在读完《计算机科学丛书:数据挖掘与R语言》之后,你也相信这点。
下载网址:http://wwwmysqlcom。
  《计算机科学丛书:数据挖掘与R语言》的目的不是介绍数据挖掘的各个方面。许多已有的书籍覆盖了数据挖掘领域。我们用几个案例来向读者介绍R的数据挖掘能力。显然,这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时,我们给出的解决方案也不是最完全的方案。我们的目的是通过这些实际案例向读者介绍如何用R进行数据挖掘。因此,我们案例分析的目的是展示用R进行信息提取的例子,而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路,或者作为开发数据挖掘项目解决方案的基础。尽管如此,我们尽力尝试覆盖多方面的问题,展示数据大小、不同数据类型、分析目标和进行分析所必需的工具所带来的挑战。然而,这里的实践方式也是有代价的。实际上,作为具体案例研究的一种形式,为了让读者在自己的计算机上执行我们所描述的步骤,我们也做了某些妥协。也就是说,我们不能处理太大的问题,这些问题要求的计算机资源不是每个人都具备的。尽管这样,我们认为《计算机科学丛书:数据挖掘与R语言》涵盖的问题也不算小,并对不同的数据类型和维度给出了解决方案。
  这里并不要求读者具有R的先验知识。没有学过R和数据挖掘的读者应该可以学习书中的案例。书中的各个案例相互独立,读者可以从书中任何一个案例开始。在第一个简单案例中,给出了一些基本的R知识。这意味着,如果你没有学过R,至少应该从第一个案例开始学习。而且,第1章给出了R和MySQL的简介,它可以帮助你理解后面的章节。我们也没有假设你熟悉数据挖掘和统计技术。在每个案例的必要地方,都对不同的数据挖掘技术进行了介绍。《计算机科学丛书:数据挖掘与R语言》的目的不是向读者介绍这些技术的理论细节和全面知识,我们对这些工具的描述包括了它们的基本性质、缺点和分析目标。如果需要进一步了解技术细节,可以参考其他书籍。在某些节的末尾,我们提供了“参考资料”,如果需要,可以参考它们。总之,《计算机科学丛书:数据挖掘与R语言》的读者应该是数据分析工具的用户,而不是研究人员或者开发人员。同时,我们希望后者把《计算机科学丛书:数据挖掘与R语言》作为进入R和数据挖掘“世界”的一种方式,从而发现《计算机科学丛书:数据挖掘与R语言》的用途。
  《计算机科学丛书:数据挖掘与R语言》有一个免费的R代码集,可以从《计算机科学丛书:数据挖掘与R语言》网站下载。其中含有案例研究中的所有代码,这可以帮助你的实践学习。我们强烈建议读者在阅读《计算机科学丛书:数据挖掘与R语言》时安装R并实验书中的代码。而且,我们创建了一个名为DMwR的R添加包,它包含《计算机科学丛书:数据挖掘与R语言》用到的多个函数和以R格式保存的案例数据集。你应该按照《计算机科学丛书:数据挖掘与R语言》的指示,安装并加载该添加包(第1章给出了细节)。
下载网址:http://wwwliaaduppt/~ltorgo/DataMiningWithR/。


其他推荐