R语言数据挖掘:10种常用方法详解及实例应用
本著作以R语言为基础,汇集了数据挖掘领域内十种常见且经典的技巧。通过众多实例的辅助,对数据挖掘的相关理论与分析方法进行了详尽的阐述。
本篇内容首先对运用R语言进行数据挖掘的步骤及数据挖掘的基本概念进行了简要阐述;其次,详细列举了数据挖掘领域内广泛应用的十种技术,涵盖回归分析、Logistic回归分析、决策树分析、支持向量机、基于记忆的推理、聚类分析、自组织映射、主成分分析、对应分析以及关联规则分析,并在R环境中对这些技术进行了实际的数据分析实践;最后,通过具体的数据挖掘案例,阐述了如何运用这些技术进行操作。
此书能助你掌握数据挖掘基础理论,同时,你可以在实际工作中无需编写代码便运用这些方法。针对数据挖掘中的分类、回归、关联分析、聚类、异常检测、文本挖掘、时间序列预测以及特征分析等多个问题,详细阐述了决策树、人工神经网络、k均值聚类等二十余种当前普遍采用的算法。对于每一种算法,首先用易于理解的语言阐述了其基本原理,随后通过开源数据分析软件RapidMiner进行了实际操作演示。
数据分析
即便没有编程基础,人们也能掌握 Python 语言进行数据分析,这一技能源于 Facebook 数据科学家丰富的实战经验总结。书中详细介绍了如何通过 Python 编写程序,实现不同数据格式的处理和分析工作的规模化与自动化。主要涵盖:对Python基础知识的阐述、CSV与Excel文件的读写操作、数据库的运用、示例程序的展示、图表的制作等。
此书乃热销作品的更新版,由著名数据企业Cloudera的数据科学家共同撰写,堪称Spark技术在大规模数据分析领域的实战指南。书中详细介绍了众多在数据分析领域广泛应用的算法、数据集以及设计模式。新版Spark引入了全新的核心API,同时,MLlib和Spark SQL这两个子项目也经历了显著的调整,这些变化为那些关注Spark发展动向的读者提供了紧跟时代潮流的参考资料。
此书集结了大数据领域领军企业Cloudera的宝贵经验,通过深入剖析案例,全面展示了问题解决的各个阶段。自首版问世以来,该书始终占据亚马逊大数据分析图书销量排行榜前列。如今中文版的推出防骗大数据,无疑为我国技术界带来了极大的福音。
苗凯翔防骗大数据,现任思科中国研发中心首席技术官,曾担任Cloudera公司的高级职务,担任副总裁一职。
数据科学
当前最受读者青睐的图灵数据科学著作,豆瓣评分高达9.0分。该书以IPython、NumPy、Pandas、Matplotlib和Scikit-Learn这五大基础工具为核心,深入浅出地讲解了数据清洗、数据可视化以及如何利用数据进行统计学或机器学习模型构建等常见的数据科学操作。其目的在于帮助各个领域与数据处理相关的工作人员提升发现问题和解决问题的能力。
本书采用 Python 编程语言对数据科学的基础理论进行阐述,内容广泛,包括数据搜集、整理、保存、查询、格式转换、图形展示、深入的数据分析(如网络分析)、统计学以及机器学习等多个方面。具体涵盖:Python在数据科学领域的核心功能,涉及文本信息的处理、数据库操作、以表格形式呈现的数值数据管理、series与frame的应用、网络数据的运用,数据可视化展示,概率论与统计学知识,以及机器学习技术。
Hadley Wickham 在数据科学界享有盛誉,他创造了一套全新的数据分析技术。他与Garrett Grolemund共同撰写的这部著作,对这一创新方法进行了深入解析,被众多数据分析从业者视为至高无上的指南。
——Roger D. Peng,约翰霍普金斯大学教授
对于刚开始学习 R 语言的朋友们,我推荐阅读这本书中的 R 代码部分。书中作者对在 R 环境下进行数据处理的基本法则进行了详尽的阐述。
——J.J.Allaire,RStudio创始人、CEO
这本著作是由享誉业界的 R 包 ggplot2 等多款热门 R 包的创作者 Hadley Wickham 与著名的 R 语言培训专家 Garrett Grolemund 共同打造的,其初版在亚马逊的数学与统计学畅销书排行榜上高居首位。
作者力求向读者传授最关键的数据科学工具的使用方法,以期为从事数据科学工作打下坚实的根基。完成阅读后,你将精通R语言的精髓,并能熟练运用多种工具来应对各类数据科学挑战。各章节内容均遵循以下结构编排:首先呈现一些颇具吸引力的案例,帮助你全面把握章节主题,随后再逐步深入探讨细节。本书的每一节都配有习题,以帮助你实践所学到的知识。
豆瓣上该书的评分高达9.1分,位居亚马逊“数据仓库”畅销榜单首位。书中详细阐述了数据科学领域至关重要的统计学原理,并指导读者如何将不同的统计技巧应用于数据科学实践。作者通过清晰易懂、便于查阅的方式,揭示了统计学与数据科学之间的关键联系;阐述了每个统计学概念在数据科学领域中的价值和实用性,并深入分析了其背后的原因。
数据库
此书汇聚了九年的实战SQL开发经验。它是原版在亚马逊“其他数据库”类别中排名首位的著作。书中详尽阐述了多种数据库的SQL查询技巧,以及一些基本的SQL查询语句。此外,它还通过实例演示,深入讲解了数据插入、更新与删除等关键操作。本书还详细阐述了运用 SQL 语句对日期进行操作的方法,并涵盖了一系列其他 SQL 查询技巧,这些内容将有助于读者全面掌握 SQL 相关知识。
那么,究竟哪一本著作能对你的当下有所启发呢?近期,众多网络书店纷纷推出了图书优惠活动,相信众多朋友都购置了不少心仪的读物。然而,切莫让这些书籍沦为了装饰品,还是应当尽量抽出时间来阅读它们。
文末福利
本期我们将赠送6册与数据相关的书籍,亲爱的朋友们,不妨分享一下你们在工作中是如何与数据互动的?亦或是日常生活中你们遇到了哪些大数据的例子?点赞数最高的前三条评论中,我们将挑选三位幸运者,截止日期为2018年11月5日下午2点整。