SEO外包平台,我们为您提供专业的企业网站SEO整站优化外包服务 SEO设置

SEO外包平台

专注于企业网站SEO整站优化外包服务

良心书评——我最近读的几本数据分析相关的好书

作者:jcmp      发布时间:2021-04-23      浏览量:0
憋大招的过程非常复杂,一言难尽。具体姿势

憋大招的过程非常复杂,一言难尽。具体姿势参照下图:

嗯,这次的大招就是几本近日我在看的书。为了证明我最近没有在偷懒(啊呸)为了体现出近日我的勤奋,书评我是很用心的在写的。

今天主要介绍三本书:《Excel2013实战技巧精粹》,《数据挖掘》,《数据科学中的R语言》

1. Excel2013实战技巧精粹

当然,上句话只是开个玩笑。不过,不可否认的是,Excel的几个特点,让它成为实务中同类软件中的首选,任何基础的事务都离不开它。

1.Excel拥有直观、简洁的界面。

极具亲和力的菜单栏仿佛是扬州足浴城服务备至的搓澡师傅,时刻彰显人性化。而面对其他数据分析软件,我们仿佛是对牛弹琴——而且明明我们是牛。

2.Excel的表格,把数据管理最常规的模式呈现在我们面前。

3.Excel集成了几乎所有数据管理、数据分析的基础功能。

这一点很厉害。Excel可以担当数据录入工具、数据清洗工具、数据仓库、OLAP、数据分析、数据可视化和数据挖掘等等大量职责。虽然在数据量达到一定程度后有些力不从心,但是对于10W行以下的数据量,可能没有软件比它做得更好。

所以,我会建议每一个将要或正在接触数据的人,去读一读这本《Excel实战技巧精粹》。

这一本书,来自国内最大最权威的Excel论坛 http:// Excelhome.net 。Excelhome出品的excel相关书籍,可以说本本都是神作,无论专业性还是易读性,都几乎没有任何同类书籍能与之比肩。

首先,《Excel实战技巧精粹》的逻辑结构很清楚。 虽然它并没有把Excel每一个功能的细节完全展开,但是它把Excel每一大块内容中的主要技巧全部呈现出来。正如我们所见,全书分成七大部分,分别是基础应用、数据分析、函数公式导读、常用函数介绍、高级公式技巧、数据可视化技术和VBA实例与技巧。每一大部分之下,又有章节的划分,逻辑非常清楚。

其次,《Excel实战技巧精粹》是实用技巧的集合。 这本书在章节之下,是按照技巧1、技巧2这样的模式来叙述的。如图——

可以看到,这种呈现方式做了恰到好处的知识切分。所有“技巧x”的标题,都是日常工作中可能实际需要解决的问题。而书中给出的,也往往是靠谱的解决方案。具体的呈现方式,有点类似于百度经验的模式,如图——

这样的Step x的模式,非常容易操作,基本不存在看不懂或是不会做的情况。说起来,《Excel实用技巧精粹》其实完全可以当做一本工具书来用。

最后,优秀的叙述方式+配套光盘的大量实例,使得这本书可以轻松地从头学到尾。 大量优秀的软件书籍,学习者往往都苦于它的实例不足,没有练手的机会,学起来很慢。而这本书,配套光盘里,每一个技巧几乎都有配套的实例,练手完全不愁。

我花了五天时间(大概每天2-3h)看完了快一半(总共700多页,我看了330多页)。讲真,亲测证实,这本书的学习体验非常棒。

2. 数据挖掘

这本书堪称是数据挖掘领域数一数二的经典。然而中译版真是让人爱恨交加。

整本书都是干货,结尾30多页的参考文献足见其用心程度。但中译版这翻译质量真的是惨不忍睹。别的教材顶多出现个别语句不通顺、词义表达不周的情况。然而这本书给我的感觉,则是整本书都没在说人话。

中文翻译要背80%的锅,但剩下20%的锅是作者的。三位作者里有两位华人,但这并没有让这本书对中国同胞们更友好……在我看来,这本书带着很浓重的论文口吻,更像是专业书籍。

但是偏偏,这本书又是一本逻辑严明,框架清晰的教材,而且还贴心地附上了大量的习题……这才是让人又爱又恨的根源。

所以综合来讲, 我认为这本书很适合有数据库软件应用+统计学基础的朋友们来阅读 。如果想要避免中译版的诸多问题,不妨寻找英文原版来读(这里又加上了英语基础)。

书的结构可以分成三大块: 数据概述、数据仓库、数据挖掘方法 。

数据概述 部分,讲的其实基本上是统计学知识,但是统计学里面的诸多名词纷纷换上了新面孔。比如统计学中的“变量”(Variable)在数据挖掘中被称作“属性”(Attribute),统计学中的“样本”(Sample)在数据挖掘中被称作“数据对象”(Data objects)。只要根据文中描述及时把名词对应到统计学上,这部分就会变得很好理解。

数据仓库 部分,可以认为是对于数据库知识的一个延伸。从第三章数据预处理,到之后的数据仓库(Data warehouses)、数据立方体(Data Cube)部分,对于有数据库基础的朋友来讲,也不会太难懂。如果没学过数据库,则建议先了解Excel中的数据透视表(数据透视表可以视作一个简单的数据仓库,配套有OLAP),否则这部分内容会非常抽象。

数据挖掘方法 部分,是这本书的精华所在。如果仅仅是想要了解数据挖掘的朋友,完全可以从这一部分开始看。书中详细介绍了挖掘频繁模式、关联和相关性、分类、聚类、异常检测等数据挖掘中的基本方法。

总的来说,这是一本优秀的书籍。但是为了看明白这本书,需要付出的代价,可真是不小。

3. 数据科学中的R语言

买国产的数据分析书籍,就跟淘宝一样。你永远不知道你选到的书好不好,合不合你口味。很多国内学院派的教材会非常难读,味同嚼蜡。

然而这本书,我自从读了前言,就知道作者和我是一路人了。

别人写书,前言里一般都是讲讲成书的艰辛,感谢共同编著的作者,总的来说客套大于情怀。然而这本书的作者,上来就开始讲自己高考考上人大统计学专业的故事……

全书最大的特点有三个,我一一列举:

第一,这本书内容丰富,包含R编程以及更为丰富的R应用 。全书分成三大部分:编程篇,模型篇,应用篇。分别讲R编程、常规的R数据分析以及R在现实中的应用。我们最常提到的两本外国R语言经典教材中,《R语言实战》讲的主要是第二部分内容,而《R语言编程艺术》讲的主要是第一部分内容。《数据科学中的R语言》则买二送一,附送了不少R语言在特定领域中的应用。包括我们特别感兴趣的金融领域、互联网文本挖掘和大数据等等。

第二,这本书重视实例,也重视learning by doing,像我一样 。全书中,文字叙述部分很少,大多数都是代码。但代码才是核心,正所谓“Talk is cheap, show me the code.”有经验的朋友会很快爱上这种Learning by Coding的模式。

第三,也是我最佩服作者的一点,这本书的举例堪称绝妙。 我贴一段——

我觉得,能把一件抽象的、复杂的事情,让普通人也能听懂,这是一项极其需要技巧的本领。作者就拥有这样的本领,他的手段就是各种神乎其神的举例与类比。

而且,这里也体现出,这本书对于国内读者非常友好,看看举的例子就知道。总的来说,全书的语言是非常清新的,和国外一些纠缠不清、啰嗦至极的书籍对比,读起来会很有快感。

好啦,今天就到这里吧。若觉得文章对你有用,还请不吝点个赞~

目录: 关于数据分析学习笔记的计划(以及目录)