实用数学之美读后感汇聚优推10篇
数学之美读后感【第一篇】
这本书一共3章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。从第一章开始其明了幽默的语言就深深的吸引了我,让我觉得如果早一点看这本书,也许数学之于我就是另一番天地。
第一章里作者从原始人类的通信方式开始入手,人类最早利用声音进行的通信依赖于开篇给出的"编码—传输—解码"的基本原理,指出原始人的通信方式和今天的通信方式没什么不同,这世界上近现代最普遍的原理大部分都在人类发展的历史上被无意识的使用着。
第六章信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。
这本书里也能找到不少在学的课程知识,如大学专业课里,数电总是要比模电简单不少,而自然界里大部分的信号都属于模拟信号。所谓模拟信号,是指从时间和数值两种维度上看来都是连续变化的信号。在实际电路中,模数转换是一个很重要的过程,将预处理的模拟信号经过模数变换为数字信号,然后进行数字信号处理。而数字化处理有很多优点,比如功能强大、抗干扰能力强、易于传输等。
简而言之,如果没有数学,就没有数字信号处理和传输的概念,而数字信号传输在当下大规模的集成电路里是必不可少的,这是通信成功的基本要求。
作者把生活中遇到的复杂的问题,以简单清晰,直观的模型或者公式展现出来。我们可能过于注意生活中的种种奇妙现象,往往忽略了追求其理论逻辑的演绎,而这,也是大部分问题的主要根源。
罗素曾经说过:"数学,如果正确地看,不但拥有真理,而且也具有至高的美";爱因斯坦也曾说过:"纯数学使我们能够发现概念和联系这些概念的规律,这些概念和规律给了我们理解自然现象的钥匙。"数学在所有科学领域起着基础和根本的作用。"哪里有数,哪里就有美"。在这里,我也想把《数学之美》真诚推荐给每一位对自然、科学、生活有兴趣有热情的朋友,不管你是从事职业,读一读它,会让你受益良多。
吴军老师在《数学之美》中提到:"这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余"。回到我们日常的生活中,需要学习的东西、技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累。然而基本的原理却是没有怎么变化的。只见森林,不见树木,难免迷失;站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的。
数学之美读后感【第二篇】
《数学之美》是一本领域相关的数学概念书,生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识,可以作为数据挖掘、文本检索的入门普及书。另外,就像作者吴军老师提到的,关键是要从中学到道————解决问题的方法,而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。
下面记录一下自己读这本书的一些感想:
第一章《文字和语言vs数字和信息》:文字和语言中天然蕴藏着一些数学思想,数学可能不仅仅的是一门非常理科的知识,也是一种艺术。另外,遇到一个复杂的问题时,可能生活中的一些常识,一些简单的思想会?给你带来解决问题的灵感。
第二章《自然语言处理————从规则到统计》:试图模拟人脑处理语言的模式,基于语法规则,词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度,而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程,找到统计的方法经历了20多年,非常庆幸我们的前辈已经帮我们找到了正确的方法,不用我们再去苦苦摸索。另外,这也说明在发现真理的过程中是充满坎坷的,感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃,真正的成长是在解决问题的过程中。事情不可能一帆风顺的,这是自然界的普遍真理吧!
第三章《统计语言模型》:自然语言的处理找到了一种合适的方法———基于统计的模型,概率论的知识开始发挥作用。二元模型、三元模型、多元模型,模型元数越多,计算量越大,简单实用就是最好的。对于某些不出现或出现次数很少的词,会有零概率问题,这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用,现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话:数学的魅力就在于将复杂的问题简单化。
第四章《谈谈中文分词》:中文分词是将一句话分成一些词,这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词,如今的中文分词算是一个已经解决的问题。然而,针对不同的系统、不同的要求,分词的粒度和方法也不尽相同,还是针对具体的问题,提出针对该问题最好的方法。没有什么是绝对的,掌握其中的道才是核心。
第五章《隐马尔科夫模型》:隐马尔科夫模型和概率论里面的马尔科夫链相似,就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型,就可以解决好多机器学习的问题,训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型,没有实际实现过,所以感觉好陌生,只是知道了些概率论讲过的原理而已。
第六章《信息的度量和作用》:信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。
第七章《贾里尼克和现代语言处理》:贾里尼克是为世界级的大师,不仅在于他的学术成就,更在于他的风范。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”,这很像听到的一句话“我不赞同你,但我支持你”。贾里克尼教授一生专注学习,最后在办公桌前过世了。读了这章我总结出的一句话是“思想决定一个人的高度”。在这章中对于少年时的教育,以下几点值得借鉴:1、少年时期其实没有必要花那么多时间读书,他们的社会经验、生活能力以及在那时树立起的志向将帮助他们一生。2、中学时花大量时间学会的内容,在大学用非常短的时间就可以读完,因为在大学阶段,人的理解力要强很多。3、学习(和教育)是一个人一辈子的过程。4、书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。
第八章《简单之美————布尔代数和搜索引擎的索引》:布尔是19世纪英国的一位中学教师,但他的公开身份是啤酒商,提出好的思想的人不一定是大师。简单的建立索引可以根据一个词是否在一个网页中出现而设置为0和1,为了适应索引访问的速度、附加的信息、更新要快速,改进了索引的建立,但原理上依然简单,等价于布尔运算。牛顿的一句话“(人们)发觉真理在形式上从来是简单的,而不是复杂和含混的”。做好搜索,最基本的要求是每天分析10—20个不好的搜索结果,积累一段时间才有感觉。有时候,学习、处理问题,可以从不好的方面入手,效果可能更好。
第九章《图论和网络爬虫》:图的遍历分为“广度优先搜索(breadth—first search,简称bfs)”和“深度优先搜索(depth—first search,简称dfs)。互联网上有几百亿的网页,需要大量的服务器用来下载网页,需要协调这些服务器的任务,这就是网络设计和程序设计的艺术了。另外对于简单的网页,没必要下载。还需要存储一张哈希表来记录哪些网页已经存储过(如果记录每个网页的url,数量太多,这里可以用后面提到的信息指纹,只需要一个很多位的数字即可),避免重复下载。另外,在图论出现的很长一段时间里,实际需求的图只有几千个节点,那时图的遍历很简单,人们都没有怎么专门研究这个问题,随着互联网的出现,图的遍历一下子有了用武之地,很多数学方法就是这样,看上去没有什么用途,等到具体的应用出来了一下子开始派上大用场了,这可能就是世界上很多人毕生研究数学的原因吧。一个系统看似整体简单,但里面的每个东西都可能是一个复杂的东西,需要很好的设计。
第十一章《如何确定网页和查询的相关性》:构建一个搜索引擎的四个方面:如何自动下载网页、如何建立索引、如何衡量网页的质量以及确定一个网页和某个查询的相关性。搜索关键词权重的科学度量tf—idf,tf衡量一个词在一个网页中的权重,即词频。idf衡量一个词本身的权重,对主题的预测能力。一个查询和该网页的相关性公式由词频的简单求和变成了加权求和,即tf1*idf1 + tf2*idf2 + 。。。 + tfn*idfn。看似复杂的搜索引擎,里面的原理竟是这么简单!
第十二章《地图和本地搜索的最基本技术——有限状态机和动态规划》:地址的解析依靠有限状态机,当用户输入的地址不太标准或有错别字时,希望进行模糊匹配,提出了一种基于概率的有限状态机。通用的有限状态机的程序不是很好写,要求很高,建议直接采用开源的代码。图论中的动态规划问题可以用来解决两点间的最短路径问题,可以将一个“寻找全程最短路线”的问题,分解成一个个寻找局部最短路线的小问题。有限状态机和动态规划问题需要看相关的算法讲解,才能深入理解,目前对其并未完全理解。
第十三章《google ak—47的设计者——阿米特·辛格博士》:辛格坚持选择简单方案的一个原因是容易解释每一个步骤和方法背后的道理,这样不仅便于出了问题时查错,而且容易找到今后改进的目标。辛格要求对于搜索质量的改进方法都要能说清楚理由,说不清楚理由的改进即使看上去有效也不会采用,因为这样将来可能是个隐患。辛格非常鼓励年轻人要不怕失败,大胆尝试。遵循简单的哲学。
第十四章《余弦定理和新闻的分类》:将新闻根据词的tf—idf值组成新闻的特征向量,然后根据向量之间的余弦距离衡量两个特征之间的`相似度,将新闻自动聚类。另外根据词的不同位置,权重应该不同,比如标题的词权重明显应该大点。大数据量的余弦计算也要考虑很多简化算法。
第十五章《矩阵运算和文本处理中的两个分类问题》:将大量的文本表示成文本和词汇的矩阵,然后对该矩阵进行奇异值svd分解,可以得到隐含在其中的一些信息。计算余弦相似度的一次迭代时间和奇异值分解的时间复杂度在一个数量级,但计算余弦相似度需要多次迭代。另外,奇异值分解的一个问题是存储量大,而余弦定理的聚类则不需要。奇异值分解得到的结果略显粗糙,实际工作中一般先进行奇异值分解得到粗分类结果,在利用余弦计算得到比较精确地结果。我觉得这章讲的svd有些地方不是很清楚,已向吴军老师请教了,等待回信。
第十六章《信息指纹及其应用》:信息指纹可以作为信息的唯一标识。有很多信息指纹的产生方法,互联网加密要使用基于加密的伪随机数产生器,常用的算法有md5或者sha—1等标准。信息指纹可以用来判定集合相同或基本相同。youtobe就用信息指纹来反盗版。128位的指纹,1。8*10^19次才可能重复一次,所以重复的可能性几乎为0。判定集合是否相同,从简单的逐个比对到利用信息指纹,复杂度降低了很多很多。启发我们有时候要用变通的思想来解决问题。
第十七章《由电视剧《暗算》所想到的——谈谈密码学的数学原理》:rsa加密算法,有两个完全不同的钥匙,一个用于加密,一个用于解密。该算法里面蕴含着简单但不好理解的数学思想。信息论在密码设计中的应用:当密码之间分布均匀并且统计独立时,提供的信息最少。均匀分布使得敌人无从统计,而统计独立能保证敌人即使知道了加密算法,也不能破译另一段密码。
第十八章《闪光的不一定是金子——谈谈搜索引擎反作弊问题》:把搜索反作弊看成是通信模型,作弊当做是加入的噪声,解决噪声的方法:从信息源出发,增强排序算法的抗干扰能力;过滤掉噪声,还原信息。只要噪声不是完全随机并且前后有相关性,就可以检测到并消除。作弊者的方法不可能是随机的,且不可能一天换一种方法,及作弊是时间相关的。因此在搜集一段时间的作弊信息后,就可以将作弊者抓出来,还原原有的排名。一般作弊都是针对市场份额较大的搜索引擎做的,因此,一个小的搜索引擎作弊少,并不一定是它的反作弊技术好,而是到它那里作弊的人少。
第十九章《谈谈数学模型的重要性》:早期的行星运行模型用大圆套小圆的方法,精确地计算出了所有行星运行的轨迹。但其实模型就是简单的椭圆而已。一个正确的数学模型应该在形式上是简单的;一个正确的模型可能开始还不如一个精雕细琢过的错误模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去;大量准备的数据对研发很重要;正确的模型可能受到噪声干扰,而显得不准确,这是不应该用一种凑合的修正方法来弥补它,要找到噪声的根源,这也许能通往重大的发现。
第二十章《不要把鸡蛋放在一个篮子里——谈谈最大熵模型》:对一个随机事件预测时,当各种情况概率相等时,信息熵达到最大,不确定性最大,预测的风险最小。最大熵模型的训练非常复杂,需要时查看资料做进一步的理解。
第二十一章《拼音输入法的数学原理》:输入法经历了以自然音节编码,到偏旁笔画拆字输入,再回归自然音节输入的过程。任何事物的发展,螺旋式的回归不是简单的重复,而是一种升华。输入法的速度取决于编码的场地*寻找这个键的时间。传统的双拼,记住编码太难,寻找每个键的时间太长,并且增加了编码上的歧义。根据香农第一定理可以计算理论上每个汉字的平均最短码长。全拼不仅编码平均长度较少,而且根据上下文的语言模型可以很好的解决歧义问题。利用统计语言模型可是实现拼音转汉字的有效算法,而且可以转换为动态规划求最短路径问题。如今各家输入法的效率基本在一个量级,进一步提升的关键就在于建立更好的语言模型。可以根据每个用户建立个性化的语言模型。输入的过程本身就是人和计算机的通信,好的输入法会自觉或者不自觉的的遵循通信的数学模型。要做出最有效的输入法,应该自觉使用信息论做指导。
第二十二章《自然语言处理的教父马库斯和他的优秀弟子们》:将自然语言处理从基于规则到基于统计,贡献最大的两个人,一个是前面介绍的贾里尼克教授,他是一个开创性任务;另一个是将这个方法发扬光大的米奇·马库斯。马库斯的贡献在于建立了造福全世界研究者的宾夕法尼亚大学ldc语料库以及他的众多优秀弟子。马库斯的影响力很大程度上是靠他的弟子传播出去的。马库斯教授有很多值得钦佩的地方:给予他的博士研究生自己感兴趣的课题的自由,高屋建瓴,给学生关键的指导;宽松的管理方式,培养各有特点的年轻学者;是一个有着远见卓识的管理者。他的学生为人做事风格迥异,但都年轻有为,例如追求完美的迈克尔·柯林斯和寻求简单美的艾克尔·布莱尔。大师之所以能成为大师,肯定有着一些优秀的品质和追求。
第二十三章《布隆过滤器》:判断一个元素是否在一个集合当中时,用到了布隆过滤器,存储量小而且计算快速。其原理是:建立一个很长的二进制,将每个元素通过随机数产生器产生一些信息指纹,再将这些信息指纹映射到一些自然数上,最后在建立的那个很长的二进制上把这些自然数的位置都置为1。布隆过滤器的不足之处是它可能把不在集合中的元素错判成集合中的元素,但在某些条件下这个概率是很小的,补救措施是可以建立一个小的白名单,存储那些可能误判的元素。布隆过滤器背后的数学原理在于完全随机的数字其冲突的可能性很小,可以用很少的空间存储大量的信息,并且由于只进行简单的算术运算,因此速度非常快。《编程珠玑》中第一章的那个例子就是布隆过滤器的思想。开阔思维,寻找更好更简单的方法。
第二十四章《马尔科夫链的扩展——贝叶斯网络》:贝叶斯网络是马尔科夫链的扩展,由简单的线性链式关系扩展为网络的关系,但贝叶斯网络仍然假设每一个状态只与它直接相连的状态相关。确定贝叶斯网络的拓扑结构和各个状态之间相关的概率也需要训练。在词分类中,可以建立文章、主题和关键词的贝叶斯网络,用来得到词的分类。贝叶斯网络的训练包括确定拓扑结构和转移概率,比较复杂,后者可以参考最大熵训练的方法。贝叶斯网络导出的模型是非常复杂的。
第二十五章《条件随机场和句法分析》:句法分析是分析出一个句子的句子结构,对于不规则的句子,对其进行深入的分析是很复杂的,而浅层的句法分析在很多时候已经可以满足要求了。条件随机场就是进行浅层句法分析的有效的数学模型。条件随机场与贝叶斯网络很像,不用之处在于,条件随机场是无向图,而贝叶斯网络是有向图。条件随机场的训练很复杂,简化之后可以参考最大熵训练的方法。对于条件随机场的详细参数及原理还不理解。
第二十六章《维特比和他的维特比算法》:维特比算法是一个动态规划算法,凡是使用隐马尔科夫模型描述的问题都可以用它来解码。维特比算法采用逐步渐进的方法,计算到每步的最短距离,到下步的最短距离只用接着本步的计算即可,相比穷举法,大大缩短了计算的时间,并且基本可以实现实时的输出,这看似简单,但在当时确是很了不起的。维特比并不满足停留在算法本身,他将算法推广出去,并应用到了实际中,创立了高通公司,成为了世界上第二富有的数学家。高通公司在第二代移动通信中并不占很强的市场地位,而其利用cdma技术霸占了3g的市场,可见远见的洞察力是多么的重要。
第二十七章《再谈文本分类问题——期望最大化算法》:该章讲的其实就是k均值聚类问题,设置原始聚类中心,然后不断迭代,直至收敛,将每个点分到一个类中。其实隐马尔科夫模型的训练和最大熵的训练都是期望最大化算法(em)。首先,根据现有的模型,计算各个观测数据输入到模型中的计算结果,这个过程称为期望值计算过程,或e过程;接下来,重新计算模型参数,以最大化期望值,这个过程称为最大化的过程,或m过程。优化的目标函数如果是个凸函数,则一定有全局最优解,若不是凸函数,则可能找到的是局部最优解。在以后的一些问题求解过程中,应该考虑其是否是em问题,也可以考虑参考这种思想,不断迭代以优化目标的过程。
第二十八章《逻辑回归和搜索广告》:雅虎和百度的竞价排名广告并不比谷歌的根据广告的预估点击率来客观的推送广告收入多。点击预估率有很多影响因素,一种有效的方法是逻辑回归模型,逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。其训练方法和最大熵模型相似。同样不是很理解其具体内涵。
第二十九章《各个击破和google云计算的基础》:分而治之,各个击破是一个很好的方法,google开发的mapreduce算法就应用了该方法。将一个大任务分成几个小任务,这个过程叫map,将小任务的结果合并成最终结果,这个过程叫reduce,该过程如何调度、协调就是工程上比较复杂的事情了。可见大量用到的、真正有用的方法往往简单而又朴实。
附录《计算复杂度》:计算机中复杂度是以o()来表示的,如果一个算法的计算量不超过n的多项式函数,则称算法为多项式函数复杂度的(p问题),是可以计算的。若比n的多项式函数还高,则是非多项式问题,实际上是不可计算的。非多项式问题中一种非确定的多项式问题(简称np),是科学家研究的焦点,因为现实中好多问题都是np问题。另外还有np—complete问题(np问题可以在多项式时间内规约到该问题)和np—hard问题,对于这两种问题,需要简化找到近似解。
整体上,《数学之美》这本书让我了解了很多文本处理,数据挖掘相关的知识,学到了很多。其中,简单美以及一些科学家的大师风范让我印象深刻!书中提到的一些思想(即道)让我受益匪浅!
数学之美读后感【第三篇】
――邓毅雄。
读来确实有感:数学美。
――邓毅雄。
这本书,主要涉及自然语言处理、网络搜索引擎等问题,介绍解决问题的数学方法,这些方法基本不属高大上,用到的数学知识并不复杂,有的甚至属中等数学,如余弦定理。像较好解决复杂的自然语言识别与翻译的统计方法,只是条件概率与马尔可夫链的应用;解决网页排名的pagerank算法,其核心是数学的n维向量和数值计算中的迭代法;密码学中的公开密钥方法,仅仅是较大素数的乘、除运算而已,等等。复杂的现实问题,简单的数学方法,彰显数学之韵味和数学之美。
数学之美,源自数学的概括与抽象。而数学的抽象,又恰恰是许多人难以接受数学之梗阻。所以,一般来说,能够欣赏到数学之美,必有一定的数学基础。不过,吴军的《数学之美》,语言通俗,略沉心境,顺利读懂其要义,应该是不难的事。有这种说法,真正的大师,能够将复杂的东西,通俗表达。这话我不尽信,但也确实佩服那些把数学理论通俗易懂、形象生动描述的专家,读了《数学之美》,觉得吴军博士不错。
人类发明了许许多多的语言,如自然语言(包括各国各民族的语言)、音乐、绘画等,数学也是一种语言。读懂各种语言,需要下一定功夫,只是有些语言本身比较通俗,功夫不用太深,但像数学这样的语言,数字化,符号化,抽象化,逻辑化,难言大众望而生畏,也着实不少人望而却步。如果我们的数学老师们,能够将这些“化”都“简化”,或者尽量简化些,那是不是有更多的人有迎难而上的勇气呢?也许吧!然而,毕竟数学除了作为工具性角色,还要培养和训练人的思维,一味地简化和通俗,那种逻辑思维的特征要素,失之亦可惜呀。前些日,读了保罗.洛克哈特(美国)的《度量:一首献给数学的情歌》,其对形状和运动的度量叙述,非常通俗,给人启发,但对我这数学背景出身的人来说,因思想深处固守那份对抽象性和逻辑性的呆痴,而总感觉其味不够,犹如爱好辣味的江西人,怕不辣二无味。
五世纪著名数学评论家普洛克拉斯说:“哪里有数,那里就有美”。我国著名数学家华罗庚说:“就数学本身而言,是壮丽多彩、千姿百态、引人入胜的……认为数学枯燥乏味的人,只是看到了数学的严谨性,而没有体会出数学的内在美。”数学之美表现丰富,如美的形式符号、美的公式、美的曲线、美的曲面、美的证明、美的方法、美的理论等。从内容来说,数学之美有可分为结构美、语言美与方法美,数学也有简洁之美、对称之美、和谐之美。罗素说,数学的美,“是一种冷而严肃的美”。所以,欣赏数学的美,是需要一定能力和技巧的。
数学的应用,也是数学美的特征。科学发展到现在,数学应用无处不在,数学应用的方法很多。一个数学的抽象,包含了无穷的客观现实。解决问题,尽量方法简单,能简不繁,是一种原则。数学应用之美,就在于简单,在于巧妙,在于效奇。
作者:邓毅雄。
数学之美读后感【第四篇】
数学,是一门独具美感的科目,是一种有多重美感的学科,虽然没有那么深动多趣的语言,但却是富有所有学科都比不上的精准。
数学用于生活。在建筑物的构造时便会用到数学中对称数和比例美;在玩具或许多模型的制造中也会用到数学美;在战斗时许多飞机的外视也利用到了数学类。就举个离生活最近的例子吧,例如:一个生字本当你用的时候,你会发现就连语文写字的格子纸的大小都是照着一定的比例来生产的。
数学中还有推理美,推理是一种重要的数学思维和方法。通过对本册书数学广角和数学思考的学习,可以对推理有初步的认识,并对数学的严密性和科学性有更深的体会。
数学对于一个事物的准确性的表达也是可以转换为其他形式来表示的,例如我刚刚学过的比例尺,是由“图上距离”比“实际距离”路程的1比500可以写成分数形式为1/500,可以写成比的形式1:500,还可以写成文字形式一比五百。数字也可能变得难懂比例尺也有的人会认为是把尺子,有的人会认为比例尺是几组固定的数字,但严格来讲它是一种比。
数字美无处不在,无穷不尽,只要你用心就会发现,发现数学的美与乐趣。
数学之美读后感【第五篇】
我是在读了吴军博士的《浪潮之巅》之后,发现推荐了《数学之美》这本书。我到豆瓣读书上看了看评价,就果断在当当上下单买了一本研读。本来我以为这是一本充满各种数学专业术语的书,读后让我非常震撼的是吴军博士居然能用非常通俗的语言将自然语言处理等高深理论解释的相当简单。在李开复博士之后,吴军博士又成为了目前备受瞩目的具有深厚技术背景的作家。对于我来说,读这本书有扫盲的功效,让我知道了很多以前不知道的东西。我的想法是在研究生阶段,不只局限于导师的研究方向,通过更加广泛的涉猎知识,去寻找一个自己喜欢的研究领域。如果找到了这样一个领域,那么我就读博士。如果没有的话,那么我想还是工作算了。
语言类、技术类的课程,这些课程的确对提升学生的就业有很大帮助。但是我想说的是,一个忽视数学基础、学科交叉的学校,他无法成为一所国内的一流大学。作为一个母校培养的学生,我深知改革的阻力与困难,但是我希望母校的计算机学院能越办越好。我们现在已经培养出很多高薪优秀的技术人才,我希望将来也能培养出更多的研究型人才。
在整本书中让我最为印象深刻的是解释google搜索的原理,居然就是简单的布尔代数运算。这个的确让我大跌眼镜,我一直认为搜索时一个非常复杂而庞大的问题,其数学原理也是相当高深的,但是吴军博士的解释让我大开眼界。与此同时也知道了google为什么牛,牛在哪了。搜索的原理虽然非常简单,但是搜索是一个需要对海量数据进行操作的工作。google在海量数据的处理方面的确是相当先进的,mapreduce、bigtable等等一些技术的发明与应用使得google在搜索上无出其右。目前分布式存储、分布式计算、数据仓库与存储等研究领域近些年来的大热也说明google在引领研究方向上的超凡本领。
在大二的时候,有一个在我们学生中声望很高的概率老师,他在课程即将结束的时候跟我们说我们将的是前几章,这些事概率论与数理统计的基础。对于你们计算机的学生来时,后面的章节才是最有用的,以后一定要好好的研究,弄上一两个在你的毕业设计上就会让你毕业设计提升一个档次,有可能验收你毕业设计的老师也不懂。我当时对他的话没有特别在意,我只关心期末考试要考哪些题目,因为我那个学期的概率课基本上都在睡觉,只有他讲笑话的时候不睡。我看《数学之美》后发现马尔科夫链、贝叶斯网络之后,对以前的概率老师充满无限的敬意。我发现我们再本科阶段学习的《高等数学》、《线性代数》、《概率论与数理统计》在计算机学科应用较多的要数概率论与数理统计,还有一门我学的不好的《离散数学》在计算机中也是有着举足轻重的地位。我在看米歇尔的《机器学习》时也发现很多熟悉的概率论与数理统计的知识,这让我不得不开始考虑重新弥补自己的数学短板。我的想法是在研一这一年把概率论与数理统计、线性代数、离散数学尽我最大的努力补一补,希望他们对我今后的学习有所帮助。
吴军博士写的书对于学习计算机的学生来说,读起来有种说不出的亲切感。可能这跟他是技术出身的原因有关,流畅的文笔、质朴的文风也让人读起来很舒服。看高晓松在优酷上的《晓说》就知道,在硅谷有着众多的华裔工程师,他们很多都来自清华、北大等国内的名牌大学,这些人在美国实现着自己的梦想。吴军博士也曾是这其中的一员,我非常希望那些像吴军博士一样的牛人们能够写书或者来国内的大学做一些演讲、论坛等等,开阔一下我们的视野,传授一下做学问的经验。与此同时,我也在想为什么我们国家那么多优秀的it人才都去了美国。
这个问题在我去苹果公司在东软信息学院组织的培训过程中得到了答案,那个南京邮电的老师讲了讲中国为什么不像美国那么有创造力。我们中国人并不缺乏创造力,很多时候是我们所处的外部环境恰恰阻碍了创新。我想那么多优秀的清华北大学子纷纷到大洋彼岸的美国,正是被美国开放的学术环境、创新氛围所吸引,每个人都有自己的梦想,他们去美国也是为了能实现自己的梦想。以前都觉得他们是不爱国,现在长大了,对于这个问题看得更清楚了一点。
我想说我们的祖国在经历了改革开放30多年的飞速发展之后,目前正处于一个关键和脆弱的时期。我们靠着人口红利取得了巨大的成就,我们能不能凭借人才红利取得更大的成就还是未知。希望有更多的人才能像李开复博士、吴军博士那样,为我们这个民族青年的成长和国家发展做出贡献。
数学之美读后感【第六篇】
这本书一共31章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。从第一章开始其明了幽默的语言就深深的吸引了我,让我觉得如果早一点看这本书,也许数学之于我就是另一番天地。
第一章里作者从原始人类的通信方式开始入手,人类最早利用声音进行的通信依赖于开篇给出的"编码-传输-解码"的基本原理,指出原始人的通信方式和今天的通信方式没什么不同,这世界上近现代最普遍的原理大部分都在人类发展的历史上被无意识的使用着。
第六章信息论给出了信息的度量,它是基于概率的,概率越小,其不确定性越大,信息量就越大。引入信息量就可以消除系统的不确定性,同理自然语言处理的'大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量,这一点与热力学中的熵概念相同,看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的,要学会借鉴其他知识。
这本书里也能找到不少在学的课程知识,如大学专业课里,数电总是要比模电简单不少,而自然界里大部分的信号都属于模拟信号。所谓模拟信号,是指从时间和数值两种维度上看来都是连续变化的信号。在实际电路中,模/数转换是一个很重要的过程,将预处理的模拟信号经过模/数变换为数字信号,然后进行数字信号处理。而数字化处理有很多优点,比如功能强大、抗干扰能力强、易于传输等。
简而言之,如果没有数学,就没有数字信号处理和传输的概念,而数字信号传输在当下大规模的集成电路里是必不可少的,这是通信成功的基本要求。
作者把生活中遇到的复杂的问题,以简单清晰,直观的模型或者公式展现出来。我们可能过于注意生活中的种种奇妙现象,往往忽略了追求其理论逻辑的演绎,而这也是大部分问题的主要根源。
罗素曾经说过:"数学,如果正确地看,不但拥有真理,而且也具有至高的美";爱因斯坦也曾说过:"纯数学使我们能够发现概念和联系这些概念的规律,这些概念和规律给了我们理解自然现象的钥匙。"数学在所有科学领域起着基础和根本的作用。"哪里有数,哪里就有美".在这里,我也想把《数学之美》真诚推荐给每一位对自然、科学、生活有兴趣有热情的朋友,不管你是从事职业,读一读它,会让你受益良多。
吴军老师在《数学之美》中提到:"这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余".回到我们日常的生活中,需要学习的东西、技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累。然而基本的原理却是没有怎么变化的。只见森林,不见树木,难免迷失;站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的。
数学之美读后感【第七篇】
一、关于此书。
记得几年前看完了《浪潮之巅》之后,便知道了吴军老师还有另外一本非常出名的著作《数学之美》,但是一直没有列入计划阅读。直到我看完了《硅谷之谜》以及《智能时代》之后,便自己上网买了一本第二版的《数学之美》。正如李开复博士所说:“在我认识的顶尖研究员和工程师里,吴军博士是极少数具有强大叙事能力和对科技、信息领域的发展变化有很深的纵向洞察力,并能进行有效归纳总结的人之一。”,正是因为在前面几本书中我看到了吴军老师强大的“讲故事”的能力,他能用通俗易懂,深入浅出的语言将技术原理讲清楚,这就十分腻害了,在《数学之美》中他也再次展示了这一点。
最近除了阅读《数学之美》,还订阅了吴军老师的《硅谷来信》,每天在早上洗漱时听一封信,在睡觉前也会听一封信,借吴军老师之眼去看世界,也可以读到一流的科学家/工程师对于各种事件非常独特的见解,以丰富自己的眼界。在此,感谢之前sobey公司的我的前老板刘总的推荐,我也将《硅谷来信》推荐给你们(可以利用你们的碎片时间来学习)。
part1简单即是美的方法。
这本书一共29章,主要介绍了这些数学方法:统计方法、统计语言模型、中文信息处理、隐含马尔科夫模型、布尔代数、图论、网页排名技术、信息论、动态规划、余弦定理、矩阵运算、信息指纹、密码学、搜索技术、数学模型、最大熵模型、拼音输入法、贝叶斯网络、句法分析、维特比算法、各个击破算法等。
例如,在统计语言模型一章中,我们会发现原来使用简单的数学模型就可以解决复杂的语音识别、机器翻译等问题,但是使用很复杂的文法规则和人工智能却做不到,而这些仅仅需要我们了解概率论和统计学的知识就可以应用到工程中。(当然,最先提出将统计学方法应用到计算机应用工程问题的先驱们是真的值得我们为其鼓掌的!)此外,简单的布尔代数就是支撑搜索引擎索引的数学基础,一个漂亮的pagerank矩阵乘法迭代加上一个tf-idf公式,就可以大程度地改善搜索结果的质量,()无一不体现出简单即是美的特点,而数学模型刚好符合这个要求。
又如,在信息的度量和作用一章,我们再次回顾了信息熵的重要性,这也是吴军老师一直在重复提及的信息论(吴军老师喜欢站在信息论的高度看问题,而不只是看到片面的表象)。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定唯一的办法是引入信息,而需要引入的信息量取决于这个不确定的大小。就像我们在追一个女生的时候,很多时候往往不是一拍即合,一见钟情的,只有互相表达的信息(即引入信息)足够了,才会消除各自对于对方的顾虑。等到引入的信息量消除了处在两个人之间的屏障,那么我们就可以跟对方告白宣告在一起了。
本书中介绍的所有的这些方法在吴军老师的笔下都只为了突出一句话:数学的精彩之处就在于简单的模型可以干大事。
ps:对于书中提到的大部分的数学模型都有其开源的代码实现,而我们这些工程人员只需要使用这些开源工具到自己的实际项目中即可,么么哒!
part2传道授业的专家们。
这本书除了在高层讲述数学方法在计算机应用(主要是语音识别等互联网应用领域)的基本原理(吴军老师称其为“道”)外,还穿插了一些传道的专家们的故事,包括:贾里尼克、辛格、马库斯以及维特比等。
比如,吴军老师的博士生导师贾里尼克教授。贾里尼克教授少年坎坷,也并非开始就投身到自然语言方面的研究,关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生,对于学生的教导,教授告诉你最多的是“什么方法不好”。这让我回想起当年看李开复博士的《世界因你而不同》一书中听到的一句话(李开复博士的导师罗迪教授给李开复讲的一句话)“我不赞同你,但我支持你”,于是也就有了李开复在语音识别领域的一鸣惊人的成就。贾里尼克的一生富于传奇色彩,先在哈佛大学、康奈尔大学教书,接着在ibm任职,之后又去约翰-霍普金斯大学教书。他的贡献主要有如下几个:第一,提出了统计语言识别的框架结构;第二,共同提出了bcjr算法;第三,领导建立了世界著名的clsp实验室。
又如,辛格博士现任主管google搜索的高级副总裁,并被学术界公认是当今最权威的网络搜索专家。他奉行简单的哲学,并一直坚持寻找简单有效的解决方案。令我印象最深刻的就在于,吴军博士在设计分类器时,依照吴军力求完美的态度,应该还会花很多时间去尽善尽美,但是被辛格博士止住了,“在工程上简单实用的方法最好”。这种做事情的哲学其实非常值得我们借鉴,即先帮助用户解决80%的问题,再慢慢解决剩下的20%的问题,是在工业界成功地秘诀之一。许多失败并不是因为人不优秀,而是做事情的方法不对,一开始追求大而全的解决方案,之后长时间不能完成,最后不了了之。在我们的日常工作中也是一样,在项目开发设计中,很多人不管业务场景和技术要求,一上来就这种架构那种模式,往往不考虑到底这种设计是不是大牛拉小车,最后虽然解决了问题但是交付时间被延后,既让用户不满意也让部门不满意。
三、悟技术之道。
吴军老师在《数学之美》中提到:“这本书的目的是讲道而不是讲术。很多具体的搜索技术很快会从独门绝技到普及,再到落伍,追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余”。回到我们日常的开发工作中,作为it工程师,程序员,要跟上技术的大潮流,需要学习的技术太多太多,如果一味地只为去追技术的脚步,那么我们也会很累很累,而且可能会是花了80%的时间却只得到了20%的效果,更别谈期望值最大化了,或许根本就达不到你期望值的60%。相反,比blogs(博客园)在招聘工程师一直提到的“3大原理,2个协议,1种结构”(计算机原理、操作系统原理、编译原理、tcp/ip协议、http协议、数据结构)却是没有怎么变化的(甚至是短时间不会变化的),而这些东西恰好是在这个浮躁的社会,我们这些所谓的计算机系的毕业生,所谓的科班毕业生所缺乏的(因为大部分人都没有在大学期间将这些东西真正地学好,而只是为了所谓的几个学分去图书馆奋战一两个周末而已)。站在高处向下看,也许我们一直看不到底,但是站在底处却是可以看见底的,这也是我为什么在毕业之后还要去重新温故操作系统原理和数据结构等科目的原因。
愿我们能够在底层站的更稳后,能够以一种更加全局的视角去看待上层建筑,感悟技术之道!
数学之美读后感【第八篇】
在语音识别、翻译,还有密码学领域,有着许多基于概率统计的模型和思想。当然,贝叶斯公式是基础,应用到隐含马尔科夫链模型,神经网络模型。
在搜索中,一些相关性的计算,无不用到了概率的知识。在新闻分类中,用到了一些有关矩阵特征值、相似对角化的知识。当然,在图像处理方面,矩阵变换可谓是无处不在。另外,在识别方面,有一些通信模型,涉及到了信道、误码率、信息熵。
最近刚开学也没什么事,所以就想随便找几本书看一下,但别是那种太艰深晦涩的书。8月份一直到现在,吴军写的这本12年5月出版的《数学之美》一直盘踞京东、亚马逊等各大网上商城科技类图书的榜首,当然,还有早些时候出版的《浪潮之巅》也排在很靠前的位置。心想市场的力量应该能帮我挑出好书吧,于是就从图书馆借了一本来,一直到今天晚上把它给看完了。
因此想写一点东西来总结、反思一下,反正刚开完班会也没什么事干。
写在前面的建议:如果你不讨厌数学的话,强烈推荐这本书,网上也可以下到电子版,不过阅读感觉上还是很不一样的。
废话就不多说了,《数学之美》其实是一本科普类的读物,所面向的是接受过普通高等教育的人,完全不需要在特定领域有很深的造诣就可以看懂,大概懂一点线性代数、概率统计、组合数学、信息论、计算机算法、模式识别(虽然列举了这么多,其实有些不懂也没关系……),所以尤其适合信科的人看。内容大部分是和人工智能、计算机相关的,这并非我所学的专业,但作者比较擅长将看似复杂的原理用简明的语言表达出来,所以可读性还是很好的。
吴军是清华大学毕业的,之前任职于google,后来到了腾讯,这些文章都是发表在google黑板报上的,后来经过了重写,所以网上下载的和书本内容有所差异。由于吴军本人是研究自然语言处理和语音识别的,所以统计语言模型的东西可能会多一点,不过我觉得这丝毫不妨碍全书数学之美的展现……感觉收获还是挺多的,知识上的有一些,但更多还是思维方式上的。作者举了很多例子试图让人明白很多看似复杂的高科技背后,基本原理其实是出乎意料简单的(当然,必须承认第一个想到这些方法的人还是非常了不起的……)。比如高准确率的机器翻译,看上去好像是计算机能够理解各国语言,隐藏在背后的却是很多具有大学理科学历的人都非常清楚的统计模型和概率模型;再比如拼音输入法的数学原理,早期的研究主要集中在缩短平均编码长度,比如曾经流行一时的五笔输入法,而现今真正实用的输入法却是有很多信息冗余、编码长度比较长的拼音输入法,作者从信息论和市场的角度做了简单的阐述;又比如新闻的自动分类,许多非it领域的人可能会认为计算机可以读懂新闻并进行分类,而实际上只是特征向量的抽取、空间中向量夹角的计算,非常非常简单,但凡学过一点线性代数的人绝对是一看就懂的……当然,完美的实现还需要考虑很多细节和现实的情况,但这并不是这本书所关注的地方,数学之美在于其简洁而不是繁琐。
除了对于具体信息技术的剖析之外,作者还花了很大篇幅来讲一些杰出人士的成长过程,特别是把这些人的成长经历和中国学生的成长经历作对比。虽然作者并没有明说,但字里行间多少流露出对于中国高等教育以及很多中国企业的批评,一是教育的功利性,缺乏宽松的独立思考的环境,即使学了一堆理论也难有用武之地,自然也就缺乏创新性的成果;二是中国企业的短视,大部分都不舍得在新框架开发上投资,而是坐享学术界和国外企业的研究成果。
总结一下呢,能够从更宏观的角度来思考信息世界背后的数学引擎的运行原理,让人明白看似很高级、复杂的东西背后其实并不如我们所想象的那样复杂,而我们所学的“枯燥”的数学真的可以“四两拨千斤”,改变亿万人的生活。
数学之美读后感【第九篇】
最近看了这本《数学之美》,不得不感叹一句,可惜早已身不在起点。
看了《数学之美》,惊叹于数学的浩瀚和简单,说它浩瀚,是因为它的分支涵盖了科学的方方面面,是所有科学的理论基础,说它简单,无论多复杂的问题,最后总结的数学公式都简单到只有区区几个符号和字母。
这本书介绍数学理论在互联网上的运用,平时我们在使用互联网搜索或者翻译功能的时候,时常会感叹电脑对自己的了解和它的聪明,其实背后的原理就是一个个精美的算法和大量数据的训练。那些或者熟悉或者陌生的数学知识(联合概率分布,维特比算法,期望最大化,贝叶斯网络,隐形马尔可夫链,余弦定律,etc),一步步构建了我们现在所赖以生存的网上世界。
之所以觉得自己早已身不在起点,是因为上面这些数学知识,早已经不在我的知识框架之内,就算曾经学过,也不过是囫囵吞枣一样的强记硬背,没有领会过其中的真正意义。而今天想重头在来学一次,其实已经不可能了。且不说要花费多少的精力和时间,还需要的是领悟力。而这一些,已经不是我可以简单付出的。
不像物理、化学需要复杂的实验来验证,很多数学的证明,几乎只要有一颗聪明的头脑和无数的草稿纸,可是光是这颗聪明的头脑,就可以阻拦掉很多人。有人说多读书就会聪明,我不否认,书本的确会提供很多知识,可是不同的人读同一本书也会有不同的收货,这就限制于每个人的知识框架和认知水平。就如一个数学功底好过我的人,看这本书,就会更容易理解里面的公式和推导出这些公式的其他运用点,而我,只能站在数学的门口,感叹一句,它真的好美吧。
1)一个产业的颠覆或者创新,大部分来自于外部的力量,比如用统计学原理做自然语言处理。
2)基础知识和基础数据是很重要性,只有足够多和足够广的数据,才可以提供有效的分析,和验证分析方法的好坏。
3)先帮用户解决80%的问题,在慢慢解决剩下的20%的问题;
4)不要等一个东西完美了,才发布;
5)简单是美,坚持选择简单的做法,这样会容易解释每一个步骤和方法背后的道理,也便于查错。
6)正确的模型也可能受噪音干扰,而显得不准确;这时不应该用一种凑合的修正方法加以弥补,而是要找到噪音的根源,从根本上修正它。
7)一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物。
数学之美读后感【第十篇】
在看吴军的《数学之美》之前,我并没有看过他写的《浪潮之巅》、《文明之光》等书,但是他主理的得到专栏《硅谷来信》已经听了很久,对吴军其人颇为了解——本硕毕业于清华大学,然后在约翰霍普金斯大学攻读博士,02年、10年先后在谷歌和腾讯任职,是著名的自然语言处理和搜索专家,现在主业是硅谷风险投资。他的专栏宣传标语是“像时代领航者一样思考”,吴军也确实具有“时代领航者”那样的视野和见识,除了专业领域之外,对于日常生活和学习、职业发展也有不俗的见解。
《数学之美》最初是吴军做谷歌研究员时,在谷歌黑板报上撰写的一系列文章。虽然谷歌黑板报的本意是让吴军从一个科学家的角度介绍一下谷歌的技术,但是他却更希望“让做工程的年轻人看到在信息技术行业做事情的正确方法”——因为吴军刚到谷歌时,发现谷歌早期的一些算法根本没有系统的模型和理论基础,而是用“凑”的方法解决问题,工程水平低下。国内这种情况就更加泛滥了。
后来,吴军又将这一系列博客几乎重写了一遍,写成了《数学之美》,希望它能向非it行业的从业人员普及一些it领域的数学知识,能成为茶余饭后消遣的科普读物。“世界上最好的学者总是有办法深入浅出地把大道理讲给外行听,而不是故弄玄虚地把简单的问题复杂化”,因此吴军尽力以伽莫夫(《从一到无穷大》作者)、霍金为榜样,力图将数学之美展示给所有普通读者。
由于我学习过概率论、数理统计、数据结构,整本书看下来,除了某些章节后的“延伸阅读”和马尔可夫链等内容外,其他都是可以看懂的。其实看不懂的部分主要是在用数学推理证明文中的论点,即使不看也不会影响阅读体验。
吴军在扉页讲道:“数学之美,首先在于其内容或许复杂而深奥,但形式常常很简单。同时,数学之美还在于数学原理的通用性和普遍性——数学上的一点突破,可以带动很多领域和行业的进步。”
我高中时曾因为数学的应用不明确而对其抱有偏见,直到大学接触到了数学建模。同样,这本书中讲到了许多数学在信息技术工程领域的应用,搭建了数学与应用之间的桥梁。
书中最令人印象深刻的例子就是通信。人与人之间的交流,也算是广义上的通信,因此通信与我们的生活息息相关。而数学在通信中的应用非常普遍,因为从电报、电话、电视到互联网,这些现代通信都遵从着信息论的规律,而整个信息论的基础就是数学。不仅如此,整个人类的自然语言和文字的起源背后,都受到数学规律的支配——因为数字和文字、自然语言一样,都是信息的载体;语言和数学产生的目的都是为了记录和传播信息。
一个典型的通信系统是这样的:发送者(人或者机器)发送信息时,需要采用一种能在媒体中(比如空气、电线)传播的信号,比如语音或者电话线的调制信号,这个过程是广义的编码。然后通过媒体传播到接收方,这个过程是信道传输。在接收方,接收者(人或者机器)根据事先约定好的方法,将这些信号还原成发送者的信息,这个过程是广义上的解码。
我们平时说话时,大脑就是一个信息源,声带、空气就是如电线、光缆般的信道,听众的耳朵就是接收器,而声音就是传送的信号。根据声学信号推测说话者的意思,就是语音识别。
语言实质上是一套编码、解码的规则。从字(字母)到词的构词法是词的编码规则,这套规则是完备的(有限且封闭的集合);从词到句的语法是语言的编码规则,这套规则是不完备的(无限和开放的集合)——任何语言都有语法覆盖不到的地方。
正是由于语法是不完备的规则,所以在自然语言处理的研究当中,基于规则的方法走向了一条死路。随着计算机性能和可用数据量的增加,基于统计的方法已经被广泛运用到自然语言处理中。书的第2章到第7章,围绕自然语言处理的统计学模型,讲述得深入浅出,而且对科学界的许多大师级人物和他们的贡献都做了介绍。
另一个绝妙的应用案例,是第14章《余弦定理和新闻的分类》。我们在高中都学过用余弦定理判断两个向量之间的夹角大小,然而不知道这样做有什么实际意义。如果当时我们的老师能举出文本分类作为例子,一定能让同学们兴奋不已。
如果由人来做新闻分类,人一定会先把文章读懂。但是计算机没有智能,根本读不懂新闻,它只拥有强大的计算能力。这就要求我们把文字组成的新闻变成一组可以计算的数字,然后设计一个算法,算出任意两篇新闻的相似性。
新闻传递信息,而词是信息的载体,“同一类新闻用词都是相似的,不同类的新闻用词各不相同”。当剔除掉“的、地、得”和“之乎者也”那样的助词和虚词之后,对新闻中剩下的实词,计算出每个词的出现频率(实际上更为复杂,因为只是1篇读书笔记,我就简化成“出现频率”了),再按照词在词汇表中出现的顺序,将这些频率值依次排列,就得到了这篇新闻的特征向量。
如果词汇表中的某个词在新闻中没有出现,对应的频率值为0。如果词汇表总共有64000个词,就会得到一个64000维的特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。新闻就这样,从文字变成了数字。
1篇10000字的文本,它的特征向量各个维度的数值普遍比1篇500字的文本要大,因此单纯比较各个维度的大小没有太大意义。但是,向量的方向却有很大的意义。如果两个向量的方向基本一致,说明它们的新闻用词比例基本一致。
因此,可以通过余弦定理计算两个特征向量之间的夹角,判断对应的新闻主题的接近程度。在真实的文本分类聚合过程中,需要自底向上不断合并,合并的过程中类别越来越少,而每个类越来越大。
另外值得一提的是,这项研究的动机很有意思。当时某个国际会议需要把提交上来的几百篇论文交给各个专家评审,把每个研究方向的论文交给这个方向最有权威的专家。作为会议程序委员会主席的雅让斯基教授为了偷懒,就想了这个将论文自动分类的方法,由他的学生弗洛里安很快实现了。
考虑到多次迭代的计算量,后文又介绍了矩阵奇异值分解的方法,将计算量缩小到1/6。
此外,书中还介绍了搜索引擎算法、拼音输入法等应用背后的数学模型。第19章《谈谈数学模型的重要性》中用托勒密的地心说模型(大圆套小圆)举例,讲:“正确的数学模型在科学和工程中至关重要,而发现正确模型的途径往往是曲折的。正确的模型在形式上通常是简单的。”
其实大多情况下,看书只是用来怡情、消遣的手段,和打牌、玩游戏本质上是一样的。读书的过程中经常会灵光乍现,这就是读书的乐趣。
下一篇:实用个人抵押借款合同书汇总5篇