首页   

系好安全带,开启贝叶斯数据分析之路

生信宝典  · 生物  · 3 周前
刚刚过去的2023年是大模型话题最为火热的一年,从早期的GPT3.5开始到各种国产大模型的出现,大家都将话题和流量给予了LLM,但是不要忘记我们还有很多其他的领域可以去探索和研究,贝叶斯定理极其相关的理论基础就是其中之一。         

 

贝叶斯的小故事
贝叶斯首先是一个人,全名为托马斯·贝叶斯(Thomas Bayes,1701-1761),是一位与牛顿同时代的牧师,但是他同时也是一位业余数学家,平时就思考些有关上帝的事情。当然,当时的统计学家都认为概率这个东西就是上帝在掷骰子。有一天贝叶斯发现了古典统计学当中的一些缺点,这个缺点是什么呢,就是经典的概率论对小样本的事件出现的概率是不能进行准确的评估,要想有准确的结论就需要进行大量实验来确定,因此贝叶斯就很神奇的提出了自己的“贝叶斯统计学”,由于一个新的观点提出的时候在很多人看来都是很奇怪的想法,所以在当时也没有得到人的认可。差不多200年后也就是二十世纪20-30年代,统计学家在古典统计学中遇到了瓶颈,此时回过头来看贝叶斯阐述的理论的时候,许多统计学家基于贝叶斯统计理论解决了很多之前不能解决的问题,贝叶斯统计学一下子火了起来,这同时使得概率论统计学出现了“频率学派”和“贝叶斯学派”,时至今日这两派的恩恩怨怨仍然在上演着。 
贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。    
贝叶斯数据分析     

 

首先贝叶斯数据分析是一种结合了统计学和信息论的思想和方法,用于处理不完全信息和不确定性问题的统计技术。它的核心思想是通过引入先验知识来更新对未知的参数的信念,从而获得后验概率。        

 

这段话理解起来有时候不是那么的容易,这也是为什么现在很多初学者没有完全理解和学头贝叶斯的统计学,更别说基于贝叶斯的理论进行数据分析了,好在最近图灵教育出版了一本《贝叶斯数据分析(第2版)》,这本书篇幅大、内容全,可读性高,几乎手把手教学,掌握贝叶斯数据分析不在是梦。    


话说这本书的封面还是很有意思的,直接诠释条件概率的灵魂,你是不是也想拥有这本书了呢?不着急我先介绍一下内容。全书540页可以分为三个大部分,具体的可以查看以下简版阅读路线图:

细分一下各个章节部分的内容如下:
可以看出作者的行文思路为先以数据分析的视角讨论了一些统计学基本概念,以及进行数据分析实战的R语言工作,之后再引进各种高级分析方法。整个编书的思路是十分清晰的,逻辑是合理的,这非常有利于初学者来进行学习。         

 

         

 

         

 

新内容新特性
相较于第1版的图书,作者新增的内容很多,从封面到封底所有的细节都进行了优化,所有的实战程序都进行了重新的编写,可以看出作者是多么的用心。作者新增了第3章节来讲述R语言,毕竟数据分析离不开数据分析工具,作者在此章节讲述了数据文件与结构的解释,列表和数据框以及我们常见的工具函数等,为了保证初学者学习的效果,作者用心的进行代码的注释和讲解。    
         

 

另外在第18章节作者新增介绍了贝叶斯变量选择的基本思想和方法,主要就是根据贝叶斯准则来选择与目标变量相关的预测变量,以达到更好的模型拟合效果,这里截取一些原文内容和大家分享一下:
通过使用新参数即包含符的思想来重构基本的线性回归方程,从而达到对变量选择的目的,这种想法非常值得我们去学习,有时候将问题进行转换或者稍微复杂化,更有利于我们去获得解决方案。         

 

         

 

        

 

本书优缺点         

 

笔者看了全书的一些内容,从自己的角度上分析了这本书的优缺点(仅仅是自己的角度),这样可以更好的帮助想要购买这本图书学习的小伙伴一个参考:         

 

优点:
(1)本书讲解清晰,非常有趣味性,比如第7章节介绍Metropolis的时候就非常具有幽默感。    
(2)非常适合缺乏统计学基础的初学者来进行学习,只要跟着书籍的内容进行学习就不愁拿不下。
(3)书籍篇幅巨大、内容全,可读性高。作者从统计学的基本理论、概率与程序设计的基本概念出发,带你逐渐掌握实际数据分析中常用的高级模型。理论和实际相结合。
(4)作者在行文的时候使用了非常恰当的比如和案例,这些富有想象力的比如案例肯定是作者精心设计的,作者的用心成就了这么好的作品。
(5)学习完几章节的内容的时候,你会发现自己对于贝叶斯的理论会掌握的越来越好,越来越有信心来驾驭贝叶斯数据分析之路上的马车(就当做是马车吧)         

 

缺点:
作者没有使用现在数据分析常用的Python语言来编写代码,使用的是相对陌生一些些的R语言,这对于习惯了Python编程的小伙伴来说并不是很友好。不过没有关系,大家可以从Github上寻找到一些答案,比如:    
   学习建议
从这本书的内容脑图可知,这本书的内容实在是非常的丰富,自然在学习的时候是有一定的建议的,个人的建议和大家分享一下:         

 

● 基础知识:在开始阅读这本书之前,我们需要对概率论有一定的了解。如果对这部分内容不是很熟悉,还是复习一些相关的基础知识比较好。     

 

● 作者博客:作者John Kruschke提到有自己的博客和相关的邮件(书中有提及),大家在学习的时候遇到一些问题就可以直接与作者交流,根据作者本人是很热情与大家进行深入的交流的。         

 

● 实践操作:这本书使用R语言进行贝叶斯分析,我建议你在阅读的过程中,尝试自己动手实现书中的例子,有能力的小伙伴可以将R代码改写成Python来实现,这样可以加深你对贝叶斯分析的理解。             

 

● 其他参考书目:可以选择一些其他的贝叶斯统计学相关的图书一同学习,对比学习法加深理解。         

 

         

 

作译者介绍
约翰·K. 克鲁施克(John K. Kruschke),美国加州大学伯克利分校博士,美国印第安纳大学心理学和脑科学名誉教授、统计学副教授,拥有近25年的统计学教学经验。他提出的注意力学习模型受到广泛关注,曾凭借在心理学研究方面所做的杰出贡献,斩获由美国国家科学院颁发的特罗兰研究奖。         

 

         

 

本书适合人群
(1)对统计学相关的知识渴望度极高甚至是一名贪婪者。
(2)对贝叶斯统计学感兴趣的初学者。
(3)想要使用R语言来进行贝叶斯数据分析的读者。
(4)对贝叶斯理论不太了解又想掌握的读者。
(5)像我这样的读者。    


贝叶斯数据分析(第2版)(图灵出品),深入浅出,让数据分析变得简单易懂。📚 京东配送,速度快到你都来不及准备接收包裹的心情了!🚀券后价98.90

【京东】贝叶斯数据分析(第2版)(图灵出品)

京东价:¥98.90

抢购链接:https://u.jd.com/98EZEfH

更多好物推荐:https://u.jd.com/9qE74rY


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习








推荐文章
BioArt  ·  Nature | ...  ·  昨天  
BioArt  ·  9篇Science丨PsychENCODE2 ...  ·  4 天前  
半导体圈子  ·  涨阶6%!传联电拟上调2023年代工价格  ·  1 年前  
大象IPO  ·  【报告】2019腾讯家居行业洞察白皮书  ·  3 年前  
© 2022 藏经阁
删除内容请联系邮箱 2879853325@qq.com