0%

现代人的数学修养

本文档最初起源于阅读《吴军数学通识讲义》的读书笔记,后来在如果有关于数学有趣的见闻和应用,都留存在这里

世界上有各种各样的知识体系,有些是建立在信仰基础上的,比如宗教;有些事建立在实证基础之上的,比如自然科学。数学和它们都不同,它是建立在纯粹理性(逻辑)基础之上的,因为它是不同信仰,不同语言,不同知识背景的人都能够接受的一种语言。如果存在外星文明,那么地球文明和外星文明最相同的应该是数学

我的个人公众号:stackoverflow

基础篇

第1章-理解数学的线索:从毕达哥拉斯讲起

勾股定理:为什么在西方叫做毕达哥拉斯定理

毕达哥拉斯定理,国内称之为勾股定理,其内容如下:

直角三角形的两条直角边ab边长的平方和等于斜边长c的平方和,即: $a^2 + b^2 = c^2$

古埃及人(公元前25世纪)、美索不达米亚人(公元前15世纪)、中国人(公元前10世纪)的文明中都有勾股数的记录,公元前6世纪,毕达哥拉斯使用演绎法证明了毕达哥拉斯定理

勾股数(例如3,4,5)只是毕达哥拉斯定理的特例,要区分定理和特例/现象的区别。在自然科学中,一个假说通过了实验证实,就成为了定理,比如说波义耳-马略特定理(一个封闭容器内的气压和体积成反比),而数学的结论只能从逻辑出发,通过归纳和演绎得出来,比如哥德巴赫猜想(任意一个大于2的偶数都可以写成2个素数之和)至今没有被证明,就只能是猜想,而不是定理

1⃣ 自然数:全体非负整数的合集

2⃣ 素数(也叫做质数):指在大于1的自然数中,除了1和它本身以外不再有其他因数的自然数

3⃣ 互素:指的是2个数写成分数的形式的时候,2者都不能再约分,比如 $5/8$是素数, $10/16$不是素数

数学的预见性:无理数是毕达哥拉斯定理的推论

🅰 有理数,即分数,可以写成 $p/q$ 的形式,其中 $p,q$ 都是整数,比如 $2/3$,任何两个有理数进行加减乘除运算后,结果仍然是有理数(这种性质也叫做运算的封闭性)

🅱 无理数:无限不循环小数,如 $\sqrt2$ ,无理数是第一次数学危机

宇宙的质量是一个负数(宇宙中存在暗物质)

黄金分割:数学和美学的桥梁

黄金分割的大致比例为: $1:0.618$ 或者 $1.618:1$ ,公式为

其中 (a>b>0),得出 $\varphi$的值的过程是求解一元二次方程组的过程,当 $b^2 > 4ac$的时候,一元二次方程组的2个解分别是

今天认为,最早计算出黄金分割比例值的人是毕达哥拉斯,一般的,在谈论黄金分割时,是较大值vs较小值

Your image description
黄金分割比

在正五角星中,每个等腰三角形的斜边长和底边长的比例都是黄金分割,每个三角形的内角分别是 $36^\circ,72^\circ,72^\circ$,如果将任意一个底角一分为二会得到一个相似三角形,该相似三角形的面积和上一级三角形的的比例为: $0.618:1.618$,内角分别是 $36^\circ,36^\circ,108^\circ$的三角形同理

建筑,绘画,音乐,摄影都和黄金分割比息息相关。单点/两点/三点透视法利用了相似三角形的原理,即从同一个角度看过去物体的大小和距离成比例

  • 单点透视:景物,按照远近比例,在远处汇成一个点

  • 两点透视:景物,按照远近比例,在远处汇成二个点

优选法:其有2个含义,首先它能够找到实际问题的最优解,其次它强调寻找最优解的方法本身也应该是最简单的/最优的,优选法基于黄金分割,即每次在0.618的位置实验

第2章-数列与极数:承上启下的关键内容

数学的关联性:斐波那契数列和黄金分割

斐波那契数列的通项/表达式是: $F_{n+2} = F_{n+1} + F_n$,比如 1,1,2,3,5,8,13,21…,斐波那契数列相邻两项的比值是收敛于黄金分割的

长度是1的线段第一次黄金分割后得到 $0.618(1 \times 0.618)$,0.618再分割一次得到 $0.382(0.618^2 )$两者相加等于1,等同于斐波那契数列中的 $F_{n+2} = F_{n+1} + F_n$的关系,很多现象在数学中是统一的

斐波那契数列一直写下去,最后会趋向于无穷大,因此它是一个发散数列,数列的其他两种趋势是,振荡和收敛

数列变化:趋势比当下重要

等差数列通项

等差数列的求和公式为

等比数列通项

等比数列求和公式

当 $q \ne 1$ 时

一个数列的级数就是它所有项或者有限项的和,比如等比级数,等差级数,其中等差级数要么趋向于无穷大,要么趋向于无穷小,等比数列可能发散,可能收敛

如果我们知道了数列每一次的变化速率,以及一头一尾的情况,就可以推算出发生这样的变化需要多长时间,比如今天用于测定年代的碳141测定法,利用的就是等比数列的这一个性质

Your image description
裂变过程

从等比数列的角度来看核裂变的链式反应,假定第一批核裂变的原子数量是 $a_1$,释放3个中子能够命中新的原子核的平均数量为 $r$,那么第二批核裂变的原子数量是 $a_1r$ 个,第三批就是 $a_1 r^2$个,…那么最终参与核反应的原子数目就是级数(等比数列级数)

其中 $r>1$,链式反应就是发散的,反应就会越来越剧烈,形成原子弹; $r=1$(或者说是保证r值在1左右),就是可控核聚变,主要用于发电,由于将 $r$值控制在1左右不是一件容易的事,一旦比1稍微大了一点,经过几次指数增长后就会失控,所以在核反应堆中都会有“刹车装置”控制棒(吸收中子)和“油门”铀棒(增大铀块体积)

传销,社交网络上的信息传播都是等比级数问题

1. 碳14:https://zh.wikipedia.org/wiki/%E7%A2%B3-14

第3章-数学边界:数学是万能的么?

数学并不是万能的

数学的局限性:从勾股定理到费马大定理

毕达哥拉斯定理出现在几何学中,该定理的另外一个角度就是 $x^2+y^2=z^2$有没有整数解问题,现在我们知道所有的勾股数都是这个方程的整数解,如3,4,5。那么进一步,方程 $x^3+y^3=z^3$ 有没有整数解呢?一般的,n 为 $n>2$的整数的情况下 $x^n+y^n=z^n$ 有没有整数解?17世纪,法国数学家费马提出一个假说: $x^n+y^n=z^n (n>2$) 时没有整数解,该猜想在1994年由 英国数学家安德鲁怀尔斯证明出来,从此这个猜想成为一个定理,并且成为数学大厦的奠基石

这个定理历经了300多年,几代数学家的努力,才得以证明

数学的边界:希尔伯特第十问题

1900年巴黎举行的国际数学家大会上,数学家希尔伯特提出著名的23个数学问题,其中第10个为:

对于任意一个整数系的多项式方程,我们能否在有限步内,判定它是否有整数解?

1970年,俄罗斯数学天才,尤里·马季亚谢维奇在大学毕业一年后,证明了这类问题是无解的,这个定理也成为马季亚谢维奇定理,希尔伯特第10问题说明了,对于一些问题,我们通过数学的方法无法判断该问题的答案存在与否,更不要说通过数学的方法解决它们了。如此就给数学划定了一个明确的边界

数学是绝对正确的,物理学,化学,生物学,计算机科学,医学,经济学都是有条件正确的

数字篇

第4章-方程:新方法和新思维

人类对数的认识和解方程息息相关

1⃣ 一开始人类最先认识到正整数

2⃣ 后来在解 $5x=7$的方程时,发现正整数不够用了,于是有了有理数

3⃣ 毕达哥拉斯发现了勾股定理后,人们便无法回避无理数存在的问题,有了无理数,二次方程的解法得到了完善

4⃣ 数学家门在试图解决三次方程的问题,就不得不面对负数开根号的问题,虚数的概念就被提出来了

方程这个工具有什么用?

从术的层面讲:方程是一种工具,能够将原来用自然语言描述的问题,变成数学上的等式。在数学发展的早期阶段,提出的那些问题(比如费马大定理,庞加莱猜想)同一时代的数学工具不足以解决它们,需要更高层次的工具才好解决。比如我们掌握了中学学的一些数学工具后,小学的各种学数学难题就变的非常容易,而我们掌握了微积分这个工具后,很多中学的数学难题就不值一提了

从道的层面讲:方程是一种思维方式,即逆向思维,比如问题

什么数字加上3等于7?

正向思维是:这个数字肯定比7小,小多少呢?小3,于是我们用 $7-3 = 4$ 得到答案。我从我的一个当数学老师的同学那里了解到:一个念小学的小学生是不具备 $X$思维的,小朋友不知道什么是未知数!

而使用方程是一种逆向思维,先不管这个数字是多少,假设为 $x$,然后将上面这句描述的语言转换为数学语言,即 $x + 3 = 7$,至于 $x$这个数等于多少,方程这个工具会给出系统地解决问题的步骤

不同类型的方程和不同的数是对应的:比如一次方程只要本身不包含无理数,方程的解也就不包含无理数,也就是说一次方程对于有理数是完备的

一元三次方程的解法:数学史上著名的发明权之争

公元9世纪,数学家阿尔·花拉子米总结出一元二次方程的解法,他给出了 $ax^2+bx+c=0$在 $b^2-4ac>=0$ 条件下的2个通解,从通解公式

可以看出,当面对二次方程时,我们对数字的认识必须提升到无理数这个水平,比如 $x^2-3=0$ 的两个解是 $\sqrt3,-\sqrt3$ 是2个无理数。花拉子米回避了 $b^2-4ac<0$ 的情况,因为我们找不到一个自己乘以自己是负数的数,比如 $x^2 + 1 = 0$,因为根据我们对实数的认知, $x^2\geq0$ ,$x^2$ 再加上1,自然不会等于0了。此时,我们宣布,该方程没有实数解。对负数求平方根的问题,在求解一元三次方程的通解时,就无法回避了

对于一个标准的三次方程

计算其通解需要用到卡尔达诺-塔塔利亚公式,要计算它的第一个解,需要计算下面三个中间变量

然后根据上述三个中间变量求解出第一个解

有了一个解,三次方程就可以简化为二次方程,然后就是求解二次方程,一元三次方程的求解比较复杂,可以借助Mathematica这款软件来解决(作者是StephenWolfram)

一元三次方程一定是有实数解的,在计算中间变量 $CR$的过程中,涉及了平方根的运算,由于根号内有负数的存在,卡尔达诺在《大术》一书中引入了 $\sqrt{-1}$ 的概念,同时期的意大利数学家拉斐尔直接使用 $i$ 代表 $\sqrt{-1}$,此类负数的平方根被称之为虚数

虚数:虚构的工具有什么用?

虚数的概念是在推导一元三次方程的时候引入的,根据卡尔塔诺-塔塔利亚公式,即便一个有实数解的一元三次方程,在求解的过程中也会遇到负数开根号的情况,如下面的的方程

显然 $x=4$ 是它的一个实数解,我们带入求解公式,会得到下面的解

在没有虚数 $i$ ,上述的公式就演算不下去了,但当我们有了 $\sqrt-1 = i$

其中:

  • $(a+b)^3 = (a+b) \times (a+b)^2 = a^3 + 3a^2b+3ab^2+b^3$
  • $(a - b)^3 = (a -b) \times (a-b)^2 = a^3 -3a^2b + 3ab^2 -b^3$

整个推导过程引入了虚数 $i$ 到最后正负抵消了,虚数是我们为了解决实际问找到的数学工具,很多的数学工具都是如此,并非我们真实世界存在的东西,而是完全由逻辑虚构出来的,如果缺了这些虚构的工具,有些问题还真的就解决不了,比如几何里常用的辅助线

引入虚数的概念,每一个一元N次方程会有不多不少N个解,极坐标是虚数的应用,极坐标在飞行和航海等场景中有很重要的应用。电磁学,量子力学、相对论,信号处理,流体力学和控制系统的发展都需要用到虚数。虚数的出现,是人类对数这个概念认识的一个大的飞跃,从形象具体真实的对象,上升到了纯粹理性的抽象

人类对数的发展过程如下:

1⃣ 最早的认识的数字都是正整数,1,2,3,4…对应着周围接触到的世界中的一个又一个真实存在的东西,除了古印度,其他文明早期的数字中都没有零这个数

2⃣ 有了数字之后,就需要做运算,两个自然数,相加/乘还是自然数,减法和除法就会出现问题,比如 $2-3, 2/3$ 的结果在自然数中是找不到的,于是人们发明了负数和分数(有理数),这两个概念就相对来说更加抽象

3⃣ 当毕达哥拉斯定理被发现之后,就不得不面对开方这个事情,于是出现了无理数

4⃣ 在求解一元三次方程的时候,不得不面对对负数开方,于是就有了虚数,实数和虚数合在一起,就形成了复数。很多问题,复数这个工具要比实数加上三角函数解决来的容易的多,涉及电磁波的所有问题,几乎都要用复数的工具来解决

Your image description
从自然数到复数

我们的祖先现代智人超过其他动物的地方就在于,能够想象出那些实际不存在的东西,比如神,法律,国家,有限公司,货币,股票,债券等,其本质可以看成是和虚数一样是虚构出来的抽象

第5章-无穷大和无穷小:从数值到趋势

无穷大:为什么我们难以理解无限大的世界

无穷大和无穷大加一完全是一回事,人类也是直到现代才正确认识无穷大的。希尔伯特旅馆悖论指出,有限世界里存在的规律,在无穷大的世界里,有着另外一套规律,需要重新用逻辑推导一遍,例如

Your image description
无穷大的示例

怎样理解无穷大/小的本质?巴赫曼和康托尔给出了答案:

无穷大不是静态的,而是动态的,它反映了一种趋势,一种无限增加/减少的趋势,在增大/减小的过程中,有的无穷大/无穷小会比其他的无穷大/小发展的更快,即高阶无穷大/小,并且它们引入了大 $O$ 表示法来表示无穷大阶数,算法的复杂度也是从该处引申而来

有理数和无理数的数量都是无穷大的,但是哪一个更多呢?19世纪后期,德国数学家康托尔证明无理数的数量要远远多于有理数,甚至在0和1之间的无理数都比要多于全部的有理数,前者的基数比后者大

无穷小:芝诺悖论和它的破解

无穷小不是一个确定的数,更不是零,而是一种趋势,一种不断趋近于零的趋势

在芝诺的阿喀琉斯悖论中(阿喀琉斯追不上乌龟),无穷小趋近于零的速度(指数级的减少)比,分割次数趋近于无穷大的速度(线性增加)要快的多

牛顿和莱布尼茨分别引入了无穷小(和极限)的概念

第二次数学危机:牛顿和贝克莱的争论

牛顿在研究速度,加速度,位移之间的关系时,提出了流数(导数)的概念,速度就是位移的(一阶)导数~位移在瞬时的变化率~,加速度是速度的(一阶)导数~速度在瞬时的变化率~。导数概念的提出,使得人们能够从掌握平均规律,进入到掌握瞬时规律,从对变化本身的观察,上升为对变化速度的观察

牛顿在他的巨著,《自然哲学的数学原理》中,多次使用了无穷小的概念,但是并没有用数学的办法将其讲清楚,哲学家贝克莱挑战牛顿说:你说的无穷小的时间 $\Delta_t$ 到底是不是零,如果是 0,它不能做分母,如果不是零,你的公式依然是一个平均速度(虽然是一个很短的时间间隔),而不是瞬时速度,贝克莱关于无穷小的悖论,是数学史上的第二次危机

无穷小是一种趋势的描述是100多年后的数学家柯西和特拉斯给出的

极限:重新审视无穷小的世界

我们知道 $\frac{1}{2} + \frac{1}{4}+\frac{1}{8} + \frac{1}{16} + …$是不断增加的,但是肯定超不过1。我们今天学习的微积分是经过柯西等人的改造过的,严格的多的微积分,而不是牛顿和莱布尼茨描述的微积分

数列的极限的定义:设 $\{x_n\}$是一个数列, $a$是一个实数

如果对于任意给定的正数 $\epsilon$ (无论它多小),总存在正整数 $N$,使得 $n > N$时,不等式 $|x_n - a| < \epsilon$ 恒成立,则

逻辑符号表示为:

$\lim _{n\to \infty} x_n = a$ 的定义是: $\forall \epsilon >0$, $\exists n\in \mathbb N$ ,当 $n > N$ 时,$|x_n-a| < \epsilon$

$\mathbb N$ 表示的是自然数,人话来说就是 $n$趋近于无穷大的时候,数列趋近于$a$

函数的极限定义:

$\lim _{x \to c} f(x) = L \in \mathbb R$

对于任意 $\epsilon > 0$ ,存在 $\delta > 0$ 使得只要$0 < |x - c| < \delta$ 都有$|f(x)-L| < \delta$

Your image description
函数极限的定义

极限是微积分中最重要/难懂的概念

动态趋势:无穷大和无穷小能比较大小么?

无穷大和无穷小反映的是一种趋势,所以有高阶/低阶无穷大/小的概念,比如在火箭的精度调整中,更希望以高阶无穷小的速度趋近于0

Your image description
不同阶数的无穷大/小

  • 无穷大和无穷大彼此相加,结果还是无穷大

  • 无穷小之间做加减乘,结果都是无穷小

  • 无穷大除以无穷大,无穷小除以无穷小,要看分子分母的阶数高低

几何篇

相比于代数而言,几何是更难的,但在人类的早期文明中,生产和生活太需要几何学知识了,由此几何学得以优先发展起来,所以那时的人们会用几何学的方法来解决本该属于代数学的问题,而后来笛卡尔发明了解析几何,可以使用代数工具解决几何问题,极大地简化了几何问题

几何学是最早被公理化的数学分支

第6章-基础几何学:公理化体系的建立

几何学最早起源于古埃及文明,美索不达米亚人~即两河文明,现今伊拉克位置~发明了角度的度量,即 $360^o$ 和 $60^o$进位。两河文明中,苏美尔人统治时期,将天空划分为12份~12星座的由来~,古巴比伦人后将天空分为360份,每一份就是一度,并且按照 $60^o$进位,这种方式沿用至今

古埃及和美索不达米亚文明积累下的几何学知识,经由闪米特人~今阿拉伯人和犹太人的祖先~传播至古希腊,经由毕达哥拉斯学派的发展,几何学从一种实用性的数学测量和计算工具,逐渐成为单纯基于逻辑推理的数学分支,到了公元前4世纪-公元前3世纪,古希腊数学家欧几里得等人完成了对几何学公理化体系的构建,并写成了《几何原本》一书~距今2000多年~

传统逻辑中,公理是没有经过证明,但被当作不证自明的一个命题(如 $b+a=a+b$),公理是推导其他命题的基础

🅰 欧几里得的《几何原本》中有5条一般性公理~也叫一般性概念~

  • 如果 $a=b, b=c$ , 那么$a=c$
  • 如果$a=b,c=d$,那么$a+c=b+d$
  • 如果$a=b,c=d$,那么$a-c=b-d$
  • 彼此能够重合的物体(图形)是全等的
  • 整体大于部分

🅱 还有5条几何学公理论~也称为一般性公设~,五条公理相互独立

  • 从一点向另一点可以引一条直线(直线公理)
  • 任意线段能无限延伸成一条直线
  • 给定任意线段,可以以其一个端点作为圆心,该线段作为半径作一个圆(圆公理)
  • 所有直角都相等(垂直公理)
  • 通过一个不在直线上的点,有且仅有一条不与该直线相交的直线(平行公理)~公理由意大利数学家贝尔特拉米证明是独立的~

在5条一般性公理和5条几何学公理的基础上,欧几里得又定义了一些基本的几何学概念,比如点,线,夹角等,其构建公理化几何学的大致过程如下:

1⃣ 首先,遇到一个具体的问题,要做相应的定义,比如什么事夹角,什么是圆

2⃣ 其次,从定义和公理出发,得到相关的定理

3⃣ 最后,在定义更多的概念,用公理和定理推导出更多的定理

如此层层递进,几何学大厦就一点点建立起来,在构建几何学的公理化体系中,逻辑是从一个结论通往另一个结论的唯一通道

定理基于公理,定理的”祖先”是公理,公理无”祖先”

欧式几何不足之处在于:没有定义什么是平面,如果将满足平行公理的平面定义为平面,欧式几何的公理将会更加扎实

第7章-几何学的发展:开创不同数学分支融合的先河

非欧几何:换一条公理,几何学会崩塌么?

19世纪初,俄罗斯数学家尼古拉·罗巴切夫斯基发现,如果让几何学不受几何公理中平行公理的限制,即通过一个点作一条直线的任意多平行线,就会得到另一种几何学系统,即罗氏几何。再后来,著名数学家波恩哈德·黎曼又假定,经过直线外一点,一条平行线也做不出来,就会得到另外一种几何系统,即黎曼几何,罗氏几何和黎曼几何被统称为非欧几何

Your image description
罗式几何 和 黎曼几何

在欧式几何中,一个球面的方程是$x^2+y^2+z^2=25$,在黎曼几何中就是$r=5$这样的表述,在黎曼几何诞生后的半个多世纪里都没有太多实际的用途,直到爱因斯坦在描述广义相对论时才用了黎曼几何这个数学工具,因为在广义相对论所说的扭曲空间里,光线的路径不再是直线,而是曲线。黎曼几何在计算机图形学和三维地图绘制等领域有着广泛的应用

可以发现三种几何90%的公理是一样的,只是差了一条平行公理

相对论:时间告诉物质如何运动,物质告诉时间如何弯曲。地球引力场让周围的时空弯曲

圆周率:数学工具的意义

初等几何中,大概分为2类问题

1⃣ 和直线图形有关的问题

2⃣ 和圆相关的问题(和角度相关的问题其实和圆相关)

在人类文明的各个时期,都发现了圆的周长和和直径是成比例的,这个比例和圆的大小无关,公元18世纪,数学家们统一用 $\pi$来表示圆周率。早期文明一直在估算圆周率,但是都是通过实际经验进行估算~第一阶段~,直到欧式几何建立,人们发现圆周的长度介于它的内接多边形和外切多边形之间,可以通过增加多边行的边数不断逼近~第二阶段~,第三阶段是公元十四世纪,使用数列计算圆周率;等到牛顿和莱布尼茨发明了微积分后,圆周率的计算进入了第四阶段

靠机械运动能实现的重复运动只有直线运动和圆周运动, $y = \frac{1}{x^2+1}$ 的积分结果就是$\pi$, $\pi$ 在各个数学分支中扮演着非常重要的角色,而且他是一个超越数~无理数的一种~,另外一个著名的无理数 $e$ 也是超越数

解析几何:如何用代数的方法解决几何问题

法国数学家笛卡尔,建立了使用方程的方式解决几何问题的系统,即解析几何,也即笛卡尔几何。这种方式不仅能够用解方程的方式解决几何问题,而且能够利用几何学直观的特性赋予方程形象的解释。笛卡尔的解析几何在数学和认知上有三大贡献:

1⃣ 它使用平面的任意一个点,根据水平和垂直2个维度进行定位;类似的,一根数轴上只有一个自由度,因此直线是一维空间,而一个空间中的点需要用三个变量$(x,y,z)$来表示,因此空间时三维的。还有其他高维空间

2⃣ 笛卡尔把欧式几何的基本概念用代数的方法描绘了出来。各种几何图形是由点构成的,所以在笛卡尔坐标系中,可以通过确定点来确定任意几何图形,同时将几何图形之间的相对位置关系准确的表示出来

平面上的一条直线对应代数中的二元一次方程;三维空间中一条直线对应代数中的三元一次方程;N维空间中对应着代数中的N元一次方程,正是由于直线和一次方程的对应关系,一次方程也称之为线性方程

Your image description
N元一次方程和 N维空间的直线关系

3⃣ 解析几何第一次将两个看似区别很大的数学分支统一起来,即代数和几何

解析几何也是一种工具,在宇宙中是不存在的

代数篇

早期的数学仅仅是对数字的运算,依赖算术就够了,运算可以分为两种:🅰 正向运算,比如三只鸭子五条小狗,求腿和头的数量数量 ;🅱 逆向运算,比如已知头和腿的数量,鸭子和狗的数量,正向运算很好解决,逆向运算就要难的多,就需要引入 未知数的概念,由此,算术逐渐发展成为代数

公元9世纪,阿拉伯学者花拉子米系统的提出了方程的解法,这让代数真正成为一个独立的分支,所以通常我们认为花拉子米是代数之父。文艺复兴时期之后,有塔塔利亚和卡尔达诺等人解决一元三次方程问题,再后来就是牛顿和莱布尼茨等人从变量和函数出发,逐步构建了近代代数的完整体系

第8章-函数:重要的数学工具

定义和本质:从静态到动态,从数量到趋势

数学家莱布尼茨在研究微积分时,提出函数的概念,初中教科书中函数的定义:

在一个变化过程中有2个变量 $x,y$,如果对于 $x$在某一范围内的每一值,$y$都有唯一的值与它对应,那么就说 $y$是 $x$的函数, $x$是自变量, $y$是因变量

函数的要素是:

  • 定义域
  • 映射关系(一对一的关系,或者多对一的关系)
  • 值域

如果 $x$每增加一个单位, $y$增加1个或者 $k$个单位,那么这种函数关系就是线性的,其图像就是一条直线,如果 $x$每增加一个单位, $y$如果翻一番,这种函数关系就是指数的,其图像是一个上升非常快的曲线

函数的出现提升了人类的认知,将我们从单个数字、变量的关注,引向了趋势,从常数思维到变量思维,再到函数思维

因果关系:决定性和相关性的差别

一个函数和其反函数关于 $y=x$对称,如: $y=in_x$ 和 $y=e^x$,即对数函数和指数函数是互为反函数的,举个例子,假如购买10000元国债,$6\%$的年复合增长率,12年后的本息是 : $y= 10000*1.06^x$,代入 $x=12$,大约是20122元,也就是12年后,投资大约翻了一番;如果我们倒过来问:今天买入10000元国债,多少年后才能本息翻一番?若$x$ 是若干年后的本息总数,$y$是时间,那么:

带入$x=20000$, $y=11.89$,也就是12年左右。因为指数函数和对数函数的计算都不太直观,人们一般实用72定律,假设每年的投资回报率是$R\%$,基本上经过$\frac{72}{R}$年,本息就可以翻一番

对于复杂的,由多个变量解决的函数来讲,每个变量和函数值只存在相关性,切忌把相关性和因果性混为一谈

第9章-线性代数:超乎想象的实用工具

高等数学的基础课是 🅰 线性代数,🅱 微积分

向量:数据的方向与合力的形成

代数学除了给我们带来了方程和函数这2个工具,还揭示了数量的另外一个规律,即数量的方向性。数学上也需要有工具来描述带有方向的数量,这个工具就是向量,那些没有方向的数值称之为标量,一个向量可以用笛卡尔坐标系和极坐标2种方式表示,二者的公式如下:

1个向量的2种表述方式是等价的,有时候我们可能无法解决A问题,但是我们解决相对容易的A问题的等价问题。比如在笛卡尔坐标系中,多个向量的加法可以使用

  • 对应分量相加
  • 三角形法则:向量首尾相连,第一个向量的起点到最后一个向量的终点之间的线段
  • 平行四边形法则:平行四边行对角线

如果我们使用极坐标表示向量,向量的加法就会变的很复杂

向量计算中,角度非常重要,在生活中,角度的测量是间接的,常见的测量角度的方法就是先确定三边边长,然后利用余弦定理计算出2个相邻边的夹角。余弦定理公式如下

或者

余弦定理的思想最早出现在欧几里得的《几何原本》中,公元15世纪,波斯数学家贾姆希德·卡西正式提出余弦定理,我们可以认为毕达哥拉斯定理(勾股定理)其实是余弦定理在直角情况下的特例,或者说余弦定理是毕达哥拉斯定理(勾股定理)的扩展,余弦定理的向量公式为:

多维向量 $\boldsymbol a =(a_1,a_2,…a_n)$ 和 $\boldsymbol b =(b_1,b_2,…b_n)$ 的点积

在计算机应用中,常常使用余弦定理计算文本的分类,粗略的思想就是将一篇文章简化为一个向量,然后向量之间计算夹角,夹角相近的划分为一类

向量是线性代数的基础,在向量之上是更方便计算,也更复杂的矩阵

点乘和数乘:点乘是2个向量相乘得到一个标量,数乘是一个数和向量相乘得到一个向量

矩阵:多元思维的应用

如下是一个矩阵,可以看成是同样维度的向量排在一起之后的结果,其中的每一行都被称为行向量;矩阵的加法即为对应位置上的数值相加

在实际的工作或者生活场景中,我们经常需要一个相对固定的大的原则,以及针对各种情况的小变动,此时就需要一个相对固定的核心矩阵,再加上一个增量矩阵,矩阵加法是一种思维方式

矩阵乘法法则是:对应行和列相乘,$M \times N$ 的矩阵和$N \times K$的矩阵相乘,结果是一个$M \times K$的矩阵。矩阵和向量相乘可以理解为小批量处理,而矩阵彼此相乘则是大批量处理,后者更便于利用计算机自动完成大量的计算,现实中矩阵很多元素是0或者是非常小的值,他们对计算结果没有影响或者影响小到忽略不计,针对这类矩阵又特别的方法可以提高计算效率

举个例子,现在有2家投资银行,第一家投资银行投资3类金融产品(股票基金,债券基金,高风险基金)的回报率分别是$7\%,3\%,10\%$ ,第二家投资银行的回报率分别是$8\%,2\%,9\%$,我们将这两组数放到矩阵中

而投资总额是10000元,按照不同的资金分配方式,形成下列矩阵 $\bold P$

然后让投资回报矩阵 $\bold R$和资金分配矩阵相乘 $\bold P$

矩阵加法反映出核心数量值和微小增量的关系;矩阵的乘法,则体现出将很多维度信息综合考虑批处理的原则。矩阵的出现,使得我们今天能够利用计算机对大量的数据进行有效的处理

为什么向量和矩阵被称作是线性代数?

这个我们可以观察到在进行矩阵相乘的运算中,左边矩阵中的数字可以被看成是一组常数系数,右边竖着的向量中的数则是未知数变量,如此矩阵和向量的乘法就变成了一组线性方程,如果将他们画在空间中,就是直线,平面或者立方体,他们都是线性的,不会有任何曲线,线性代数因此得名

微积分篇

微积分是初等数学和高等数学的分界线,微积分尝试用动态的眼光看待现实中的问题,在微积分出现之前,人们都是用相对静止的方式看待世界的,比如对于速度的概念,学习初等数学和早期的物理中,我们讨论的都是平均速度,但是有了微积分之后,我们就可以精准的把握瞬时速度,并且动态描述速度的变化

微积分有2位主要的发明人:牛顿和莱布尼茨

第10章-微分:如何理解宏观和微观的变化

导数:揭示事物变化的新规律

牛顿发明微积分的一个重要原因是他需要一个数学工具来解决力学问题,比如如何计算瞬时速度,牛顿从平均速度出发,利用极限的概念,推导出瞬时速度

$\Delta _t$ 趋近于0的时候,$ \frac {\Delta_s} {\Delta_t}$就是$t_0$时刻的瞬时速度,也即为曲线在$t _0$时刻的切线斜率。牛顿还认识到函数变化的速率(函数变化的速率即为函数曲线上每个点切线斜率),他称之为流数,即我们今天说的导数,导数是衡量一种函数本身变化快慢的工具,导数的本质就是对原函数变化快慢的规律性描述

  • 原函数递增,导数大于0;原函数递减,导数小于0;反之亦然
  • 导数本身也是一种函数,其自身也有导数,称之为二阶导数。如速度是位移的导数,加速度是速度的导数,加速度是位移的二阶导数
  • 我们通常用$y = f(x)$表示原函数,$y’ = f’(x)$ 表示导函数 ,~拉格朗日发明的方法~

Your image description
抛物线和直线图像

现实世界中,很多概念不是简单的加减乘除的关系,而是导数的关系,如速度是位移的导数,加速度是速度的导数,动量是动能的导数,经济增长率是GDP的导数,导数的使得人类对变化快慢从感性提升到理性,从定性分析到定量分析

微分:描述微观世界的工具

微分的定义,对函数空间$ F$ 中的任意函数 $ y: X \rightarrow \mathbb{R} $,它在 $x_0∈X$ 处的微分是

1
2
导数:是指函数在某一点处变化的快慢,是一种变化率
微分:是指函数在某一点处(趋近于无穷小)的变化量,是一种变化的量

导数也可以写成

假如我们现在计算圆柱体的体积,$\bold V = \pi\times r^2 \times h$,我们可以针对半径变化$dr$求微分$dV$,也可以针对高度变量$dh$ 求微分$dV$ ,在计算微分时候,只改变一个变量,我们称之为(针对某个特定变量的)偏微分,函数的偏微分和相应变量的比值是我们前面提到的导数,我们将这种导数称之为偏导数,如体积相对于半径的偏导数是$\frac{dV}{dr}$,体积相对于高度的偏导数是$\frac{dV}{dh}$

如果我们将2个微分以向量的形式放到一起,就是梯度,圆柱体积函数的梯度就是:

梯度的物理含义就是登山时路径最短路径/速度最快的方向就是梯度最大的方向,在我们做决策的时候,只要在任何时刻(或者是当前位置)知道了梯度,然后沿着最陡但是收益最大的路径前进就好了

一个函数在某一个点可导的必要条件是它在那个点至少是连续的,通俗来说,如果一个函数当变量$x$的增量$\Delta x$趋近于零时,函数$y$的增量 $\Delta y$ 也趋近于零,我们就说这个函数是连续的,即:

函数不连续的情况🅰 一种是跳跃状态,🅱 区间内除了一个点外都是连续的,第二种不连续的情况中,那个不连续的点被称之为奇点

Your image description
函数不连续的情况

一个函数连续,不一定可导,比如上图中从$a$的左边计算,导数是0.5,从$a$的右边计算,导数是0,一个点不可能有2个导数,因此,该函数在$a$点不可导;如果一条曲线在某一点是连续的,“光滑的”,该曲线在这个点就是可导的

在企业的经营管理上,我们希望公司的营收是增长曲线是光滑的

Your image description
函数连续 和公司经营之间的关系

比如王老吉凉茶2008年,的营销策略中,”空中轰炸“做的很好,但是”地面挺进“没有做好

第11章-积分:从微观变化了解宏观趋势

积分:微分的逆运算

积分是微分的逆运算,给定一个曲线,求它下方到$x$轴之间的面积,就是积分,对于一般的速度曲线($x$ 轴是时间,$y$ 轴是速度) 它下方的面积就是这个速度的走过的距离,即距离是速度的积分,前面说过速度是距离的微分,由此可见,微分和积分是互为逆运算的

积分的其中一种计算方式是:将曲线划分的很细,用很多直方图加在一起近曲线下方的面积

Your image description
积分的计算方式

这么计算会有一定的误差,但是当我们把每一份分割的无穷小,这个误差就趋近于零了,此时 $\Delta x$ 就变成了 $dx$,我们将其写成积分的形式 $\int f(x) dx$

积分符号$\int$ 就是 单词Sum拉长的 $S$,可以理解为多个小长方形的和

为了表明积分是从 $x = a$ 一直累加到 $x = b$ 的,我们把起始点$a$ 和 $b$ 分别写到积分符号的上下方

通俗的讲,积分的运算就是整体等于部分之和,物理学中,积分反应很多物理量之间的关系,比如距离是速度的积分,速度是加速度的积分,体积是面积的积分

积分具有滞后效应,主要包含2点:

🅰 凡事需要通过积分获得数量,他的结果会滞后于瞬间变化,有时还要经过相当长的时间滞后才能看到

🅱 这种由积分获得的数量,一旦被大家都观察到之后,要逆转这个趋势是非常难的

比如飞轮效应,如果我们在飞轮上均匀用力,加速度恒定,而加速度是速度的积分,是一个累积后才能看到的量,因此具有滞后效应,所以飞轮效应是说刚开始变化转的很慢,但是随着时间的累积,转速越来越快,后来就像是飞一样,其实在工作生活中,我们可以自比飞轮,努力就和用力一样,今天晚上努力了,想要获得收获,需要一段时间的累积,这就是做积分,累积一段时间,我们的能力才会有明显提高,在提升成绩能力的同时,做出一件又一件漂亮的事情,逐渐树立良好的形象,所以某种程度上是能力是努力的积分,成绩是能力的积分,好形象是成绩的积分

最优化问题:用变化的眼光看最大值和最小值

机器学习的过程其实就对目标函数的实现最优化的过程(求效用函数的最大值,或者是损失函数的最小值),比如在求解二次方程最大值的过程中,前人的思路是基于比较的寻找,而牛顿的思路是将比较大小的问题转化为寻找函数拐点的问题,于是发明了导数(导数大于0递增),但是导数等于0并不代表这该点是最大值,只能说是函数的一个极大值

戴金德分割

动态的去看待数字,比如$0.99999 \cdot \cdot \cdot = 1$

狄利克雷函数,每个点都不连续,无法在笛卡尔坐标系中化出其图像

测度的概念比常用的长度的概念更加的严密

建立在实数理论和测度理论上的微积分,也被称为实变函数论分析

概率与数理统计篇

概率论的创建人一般认为是:帕斯卡和费马

对概率论做出贡献的有:法国数学家,伯努利,拉普拉斯,泊松,德国的高斯,俄罗斯的切比雪夫,马尔可夫

第12章-随机性和概率论:如何看待不确定性

是谁定义了古典概率?

最初给出概率论定义的是法国数学家拉普拉斯,拉普拉斯先定义了一种可能性相同的基本随机事件,也称为单位事件,基于单位事件的概念,拉普拉斯定义了古典概率,即一个随机事件A的概率$P(A)$可以按照下面的公式计算:

拿掷骰子来举例子的话,随机变量空间就是两个骰子点数的各种组合,有36种单位事件,即第一个骰子为1/2/3/4/5/6点时,第二骰子1~6点的6种情况。概率为1的事件称之为必然事件,概率为0的事件称之为不可能事件

什么是伯努利实验?

伯努利实验只有2种结果,非A即B,没有第三种状态,A和B发生的可能性不需要相同,但是在同样的情况下重复实验,A和B各自发生的概率需要一致

比如一个口袋里有1个白球,三个红球,他们的大小重量都相同,从口袋里摸出来一个,看完颜色在放回去,这就是一个伯努利实验。如果每一次伯努利试验中事件A发生的概率为 $p$,进行 $N$次实验后,恰好发生了 $k$次的概率可以表示为

伯努利实验只有2个结果,因此得到的概率分布也被称为2点分布(伯努分布/二项式分布),二项式分布是一个钟形曲线,对称轴是$NP$ ,$N$ 越大,这个钟形曲线越窄,反之越宽扁

均值,方差,标准差的意义在于什么?

  1. 均值:数据的平均情况,用$\mu$ 表示,也叫做数学期望
  2. 方差:数据偏离均值的情况,用 $\sigma ^{2}$ 表示
  3. 标准差:对方差开方,用 $\sigma$ 表示,可以用来直接和均值比较

一般而言,一个随机变量的概率分布曲线越平,方差越大,越向中间集中,方差越小。或者这样理解:数据随机性越大,方差越大,反之亦然

拉普拉斯发明了拉普拉斯变换,拿破仑是他的学生

什么是大数定律?

大数定理指的是同样的随机试验,重复的次数越多,其结果的平均值就越接近该随机变量(或者随机事件)发生的数学期望,其中弱大数定理的定义为:同一概率分布的样本序列 $X_1,X_2,…,X_n$ 的均值 $\bar{X_n}$ 依概率趋近于它的数学期望 $\mu$,即给定一个正数 $\epsilon$ ,都有

第13章-小概率和大概率:如何资源共享和消除不确定性

什么是泊松分布?

泊松分布是二项分布的一种特例,在伯努利实验中,如果随机时间A发生的概率通常很小,但是实验的次数很大,这种分布被称为 泊松分布,发生车祸的情况就是如此

其中:

  • P(X = k) 是随机变量 X 等于 k 的概率
  • e 是自然对数的底(约等于 2.71828)
  • λ 是在一个给定的时间间隔或空间内事件的平均发生次数
  • k 是事件发生的次数,k = 0, 1, 2, …

泊松分布揭示的是诸多小概率事件发生时的统计规律

什么是高斯分布?

也称作是 正态分布(normal distribution),符合正态分布的随机变量呈现中间大,两头小的特性,数学家高斯将一个随机变量 $X$ 的概率分布和它平均值 $\mu$ ,方差 $ \sigma ^2$ 联系一下,均值和方差满足以下规律的概率分布称为 正态分布

$f(x)$ = probability density function
$\sigma$ = standard deviation
$\mu$ = mean

Your image description
高斯分布的图像

Your image description
高斯分布函数的概率:

  1. 在一个标准差内,我们对平均值的置信度为68%
  2. 2个 $\sigma$ 的 置信度为95%
  3. 3个 $\sigma$ 置信度为99.7%

谁完成了概率公理化?

柯尔莫哥洛夫(Andrey Nikolaevich Kolmogorov),他在概率论、湍流理论、数学物理学和信息论等多个领域作出了重要贡献。为现代概率论奠定了坚实的数学基础。柯尔莫哥洛夫在1933年发表的著作《概率论基础》中,提出了一套基于测度论的概率论体系,这一体系后来成为现代概率论的基础

样本空间,随机事件空间,测度等概念

样本空间 $\Omega$ :它包含我们要讨论的随机事件所有可能得结果。例如,当你抛掷一枚硬币时,样本空间是 $\Omega = \{正面, 反面\}$,掷骰子有6中情况 $\Omega = \{1,2,3,4,5,6\}$,高斯分布的样本空间是实数 $\Omega = \bold R$

随机事件空间 ,集合 $F$,包含我们要讨论的所有随机事件,比如掷骰子不超过4点的情况是一个随机事件,可以表示为 $A_1 =\{1,2,3,4\}$,掷骰子结果为偶数点的随机事件可以表示为 $A_2 = \{2,4,6\}$。这些随机事件可以构成一个集合

对于无线概率空间里的随机事件,可以是一个范围,比如一个传感器接收到的电信号在 $0 \sim 5V$ 之间的任何电压,即便有无数情况,但是可以划定范围 $0\sim 1V$ 或者 $4.5\sim5V$ 之间

测度 $P$:也就是一个函数 $P$,他将集合中的任何一个随机事件对应为一个数值,也即$P:F \rightarrow \bold R$ 。只要这个函数 $P$ 满足如下的3个公理,它就是概率函数

  1. 公理1,任何事件的概率是在0和1之间(包含0和1)的一个实数,也就是说 $P: F \rightarrow [0,1]$

  2. 公理2,样本空间的概率为1,即 $P(\Omega) = 1$,比如掷骰子,从1点到6点加在一起构成样本空间,所有这6种情况放在一起的概率为1

  3. 公理3,如果2个随机事件 $A$ 和 $B$ 是互斥的,也就是说 $A$发生的话,$B$ 一定不会发生,那么 $A$ 发生或者 $B$ 发生这件事发生的概率,就是 $A$ 单独发生的概率 ,加上 $B$单独发生的概率。即为互斥事件的加法法则:

    如果 $ A \cap B = \emptyset$, 那么 $P(A \cup B) = P(A) + P(B)$

    举个例子:比如掷骰子1点朝上和2点朝上显然是互斥事件,1点或者2点任意一种情况发生的概率,就等于只有一点朝上的概率,加上只有2点朝上的概率

由以上3条公理,可以推导出一些概率论定理:

  1. 互补时间的概率之和等于1
  2. 不可能事件的概率为0

第14章-前提条件:度量随机性的新方法

世界上有很多随机事件的发生是彼此相关的,比如今天的天气和昨天的天气有关,在一句话中,某个词是否出现,和上一个词不仅相关,而且关系极大。同一个随机事件,在不同条件下发生的概率,差异很大,我们需要将随机事件发生的条件也考虑进去

什么是大数定理?

当 $ C$ 足够大的时候, $ C(A) \rightarrow P(A)$ ,即用一个随机事件 $A$发生的次数 $ C(A)$ ,除以总的实验次数 $ C$

条件概率

其中

  1. $C$ 表示总的实验次数,即样本总数
  2. $C(A)$ 随机事件发生的次数
  3. $C(B)$ 条件发生的次数
  4. $C(A,B)$ 条件和随机事件同时发生的次数
  5. $P(A,B)$ 联合概率
  6. $P(A|B)$ 条件概率

对于一个随机事件A,我们有三种概率

  1. 没有任何限制条件一般意义上的概率 $P(A )$
  2. 它在条件 B发生后才发生的条件概率 $P(A|B)$
  3. 它和B一同出现的联合概率 $P(A,B)$

一般的概率分布

Your image description
概率分布

$$ P(A) = P(A,B) + P(A,\overline B) \tag{a} $$ $$ P(A) = P(A|B) \cdot P(B) + P(A|\overline B) \cdot P(\overline B) \tag{b} $$ ### 概率和条件概率的差异在哪? 一个随机事件 $X$ 发生与否的条件 $Y$ 可能有 $k$ 中的情况 $$ P(A)= \sum _{i=1}^{k} P(A|B_i) P(B_i) $$ 其中 $B_1,B_2,...,B_k$ 构成了 $Y$ 的全部选项,在现实使用中,要注意不要只是累计其中的几项,而是全部。世界上最权威的杂志:《自然》,《科学》 ### 联合概率和条件概率的差异 这里举个🌰:有2中疾病 $C_1$ 和 $C_2$ ,他们的死亡率分别是 10% 和 3%,那么那种疾病更危险? 很多人看到这个问题,会认为死亡率 10%比3%高的多,这里很容易忽略的一个重要事实就是:一个人得上这2种病的概率,这里假设是 $P(C_1)$ 和 $P(C_2)$ ,假设 $X$ 代表病死这个随机事件,那么就有 $10\% = P(X|C_1)$ , $3\% = P(X|C_2)$ ,直接对比2者,比对的是条件概率,即为已经发病条件下的危险性 但是比对2个病更危险的情况,衡量标准应该是联合概率,即 $P(C_1,X),P(C_2,X)$ 的大小,根据条件概率的公式: 1. $P(C_1,X) = P(X|C_1) P(C_1)$ 2. $P(C_2,X) = P(X|C_2) P(C_2)$ 假设 $P(C_1) = 0.1\%$ , $P(C_2) = 2\%$ ,那么计算出第二种疾病是第一种疾病危险性的 6倍 ### 条件概率和相关性有什么关系? 条件概率中的事件,本身也是一种随机事件,它可以有不同的取值,因此条件概率在本质上揭示的是2个随机事件的相关性。利用这种相关性,可以解决很多信息处理问题 ### 贝叶斯公式的用法 计算 田七在“中药”这个条件下出现的概率时,是从中药喝田七的联合概率出发,利用条件概率公式得出: $$ P(田七|中药) = \frac{P(中药,田七)}{P(中药)} \tag{a} $$ 我们尝试将条件和结果互换,计算如果后一词是田七时,前一个词是中药的概率,得到如下公式: $$ P(中药|田七) = \frac{P(中药,田七)}{P(田七)} \tag{b} $$ 将 a,b2个公式合并,得到 $$ P(中药|田七) = \frac{P(田七|中药) P(中药)}{P(田七)} $$ 将该公式泛化,得到 $$ P(X|Y) = \frac{P(Y|X)P(X)}{P(X)} $$ 有时候,我们很难计算 $P(X|Y)$ ,但是知道 $P(Y|X)$,于是就可以用贝叶斯公司间接计算出 $P(X|Y)$ ### 准确率和召回率的关系 在疾病检测,信息检索,人脸识别等实际应用中,都会出现准确率和召回率的矛盾,其关系如下图,经过技术改进后后,整个函数的曲线会上移

Your image description
准确率和召回率的关系

第15章-统计学和数据方法:准确估算概率的前提

统计学是概率论是应用部分么?

统计学是一门独立的学科,他是收集,分析,解释,称述数据的科学,只是说统计学的数学基础是概率论的,统计学除了一些数学工作,还有一些非数学工作:

  1. 如何称述数学让大家接收我们的结论,比如各种图标
  2. 保存和整理数据等

什么是霍桑效应?

被观察者知道自己成为被观察对象而改变行为倾向的反应

什么是齐普夫定律?

美国20世纪初的语言学家,经过对各种语言中词频的统计发现,

  1. 一个词的排位和它词频的乘积,几乎是一个常熟。比如在汉语中“的”是最常见的词,排位第一,它的词频大约是6%,于是 $1\times 6\% = 6\% $ 。第二高频的词为 “是”,词频大约是 $3\%$ , 于是 $2 \times 3\% = 6\%$ 。80:20定律是齐普夫定律的特例
  2. 词频乘以相应的词的数量,得到的结果也近乎是一个常数。假设只出现1次的词有 $N_1$个,出现2次的词有 $N_2$个,那么 $1 \times N_1$ 和 $2 \times N_2$ 都差不多

什么是古德-图灵折扣估计?

古德-图灵估计主要解决的问题是:在一个概率模型中,如果你有一个包含许多事件的样本数据集,其中某些事件可能没有在样本中出现,你如何估计这些未见事件的概率?即:处理零概率和小概率事件

古德-图灵估计的核心思想是从高频的随机事件中拿出一点概率总量(probability mass) 分配到低频的随机事件头上,再从低频的随机事件中拿出一些概率总量,分配给统计时没见到的随机事件

古德-图灵折扣估计的做法

假设出现 $r$ 次的单词有 $N_r$个,那么一个语料库文本中所有单词的总次数就是 $N=1\times N_1 + 2 \times N_2 + 3\times N_3 + … + k \times N_k$ ,其中 $k$ 是最高的词频。在这个公式中,没有考虑那些原本没有被考虑进来的词,这些词在之前的统计中出现0次,这里假设 这次单词有 $N_0$个

古德根据经验,假设 $N_0 > N_1$ 即:那些没有被统计出来的词,数量比在统计时出现了至少一次的词多很多,接下来古德是这样调整词频的:

  1. 一个单词如果原来出现了0次,就将出现的次数调整为 $\frac{N_1}{N_0}$ 次,这是一个0到1的数,不再是0了
  2. 一个单词如果原来出现了1次,就将出现的次数调整为 $\frac{2N_2}{N_1}$ 次,通常是一个1到2之间的数
  3. 一般情况,如果原来出现了 $r$ 次,就调整为 $\frac{(r+1)N_{r+1}}{N_r}$

那么被通缉预料中所有词的总的次数变成了

  1. 0次的数量有$N_0$个,它们每个被分配了 $\frac{N_1}{N_0}$ 次,总共 $N_1$次
  2. 1次的数量有$N_1$个,它们每个被分配了 $\frac{2N_2}{N_1}$ 次,总共 $2N_2$次
  3. $k-1$次的数量有$N_{k-1}$个,它们每个被分配了 $\frac{(k-1)N_k}{N_{k-1}}$ 次,总共 $kN_k$次

至此,被分配的总次数加起来是 $N=1\times N_1 + 2 \times N_2 + 3\times N_3 + … + k \times N_k$ 。古德,将出现 $i$ 次的词总的次数,分配给了出现 $i-1$ 次的那些词。对上出现次数为0到$k-1$ 的词,按照以上方式分配概率,当一个词的出现次数大于 $t$ 次之后,就认定他们出现了t次,不在调整。这样一来,被分配的总次数加起来就可能大于 $N $,因此在计算概率时,需要做归一化,保证所有的概率加起来依然等于1。这种做法被称之为 古德-图灵折扣估计法

什么是删除插值法?

核心思想是遇到同级数量不足时,就设法在更大范围中找到一个可靠性较高的统计结果来近似。比如想要了解每一个城市居民特性,一个办法就是在每个城市抽样统计一下,但福州市就找到3个样本,此时我们将福建省的统计结果最显著的特性,补充到福州市的统计结果中

将 $f(X|Y)$ 和 $f(X)$ 的线性组合作为 条件概率 $P(X|Y)$ 的估计

概率是一种世界观,统计是一种方法论

很多时候,世界没有简单的黑与白,只有灰度

第16章-数学在人类知识体系中的位置

笛卡尔告诉人类要通过理性过了直接经验,然后才能获得知识。即通过理性的推理,实现去伪存真

如果我们仅仅像古希腊奴隶那样为了谋生而学习,掌握一点技能就够了,但是如果我们想苏格拉底那样把自己看成主任,以这个态度来学习,来做事情,就需要再认知层面有所提高了

拉瓦锡说:“没有天平就没有真理”,他提出了氧化说

在集合论中为什么所有元素都必须是独一无二的?比如整数的集合中只能有一个3,因为同一律,即一个事物只能是其本身。同一律,确认我们说的是的确是同一个东西

矛盾律:在某个十五的某个一方面(在同一时刻)不可能既是 A又不是 A,反证法就是基于矛盾律

增加

排列组合2

排列名名称为:Arrangement,组合英文名叫 Combination。A 和 C 的本质区别在于:决策的顺序对结果有没有影响

排列

如果要想在 n 个物品中,按顺序的选择 k 个物品,那么选择的方式总共有这么多种

比如 $A(4,1) = \frac{4!}{3!}= \frac{24}{6}=4$

组合

如果要想在 n 个物品中,选择 k 个物品出来,选择的顺序无所谓,那么选择的方式总共有这么多种

比如 $C(4,3) = \frac{4!}{1! \times 3!} = 4$,同时 $C(4,3) = C(4,1)$

傅里叶变化

Fourier transform2,十九世纪法国的数学家傅立叶,发现任何周期性的函数(信号)都等同于一些三角函数的线性组合

计算机上的声音和图像信号、工程上的任何波动信息、数学上的解微分方程、天文学上对遥远星体的观测,到处都要用到傅里叶变换。你用手机播放MP3音乐、看图片、语音识别,这些都是傅里叶变换的日常应用,下面是wiki的解释:

傅里叶变换是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换

以上的定义是从数学的角度对傅立叶变换做出的解释,从本质上来说,

傅里叶变换,是把一个复杂事物拆解成一堆标准化的简单事物的方法

声音其实是空气的震动。拨动一下琴弦,耳边传来一个纯净的、而且在短时间内是持续的声音。比如一个A 音符,大约每秒钟要震动440 次,所以除非是重低音,你通常不一定能感觉到震动,但是你能感到音量和音调,音量就是震动的幅度,音调就是震动的频率

下图是一个

Your image description
频率固定的简单音调的图像,横坐标是时间,纵坐标是震动的幅度

所谓傅里叶变换就是说,如果我们先规定好一系列的简单波动,那么任何一个复杂的波动,就都可以用这些简单波动拆解

Your image description
傅里叶变换

一条复杂的曲线,可是我们只需要用几个数字就可以描写它

卷积

卷积3的公式和定义是什么?

卷积是数据分析一种重要的运算。设 $f(x)$、$g(x)$,是 $\mathbb {R} $上的两个可积函数,作积分

随着 $x$ 的不同取值,这个积分就定义了一个新函数 $h(x)$,称为函数 $f$与 $g$的卷积,记为$h(x)=(f*g)(x)$

给定2个数组,如何计算卷积(离散卷积)?

1
2
In [2]: np.convolve((1,2,3),(4,5,6))
Out[2]: array([ 4, 13, 28, 27, 18])

$(1,2,3)$ 和 $(4,5,6)$ 的卷积为 ( $1\times 4,1\times 5 + 2\times 4,1\times 6 + 2 \times 5 + 3\times 4,2\times 6 + 3 \times 5 ,3\times 6 )$。这里注意要将,数组2先逆序

下面展示展示多项式+合并同类项 和 卷积是一样的

Your image description
卷积

卷积与傅里叶变换有着密切的关系?

两函数的傅里叶变换的乘积等于,它们卷积后的傅里叶变换

卷积有哪些应用?

对于原始数据 A$[1,2,3,4,5,6,7,8,….]$, 我们可以引如 B,计算A和B的卷积,这样就可以得到原始数据的平滑版本,

🅰 当 $B = [0.2,0.2,0.2,0.2,0.2]$ ,那么相当于对原始数据求均值

🅱 当 $B = [0.1,0.2,0.4,0.2,0.1]$ ,那么相当于对原始数据中间的数据一个较大的权重

  1. 图像处理,可以模糊化图片(比如高斯模糊),应用于卷积神经网络
  2. 求解微分方程
  3. 概率论
  4. 多项式乘法,可以加速卷积计算方式,思路是采点相乘,之后求解系数(方程系数),即 FFT算法

马尔可夫

假设 S是一个有意义的句子 $S = w_1,w_2,…,w_n $,那么 S 在文本中出现的概率表示为

使用条件概率的公式,将 $P(w_1,w_2,…,w_n)$ 展开为:

19世纪到20世纪初,俄国数学家马尔科可夫(Andrey Markov),提出一个假设:

任意一个词 $w_i$ 出现的概率只和它前面的词 $w_{i-1}$ 有关

于是

如此对应的统计语言模型,叫做二元模型(Bigram Model),同样,我们可以假设 任意一个词 $w_i$ 出现的概率和它前面 n个词有关,那就是 $N$ 元模型

接下来就是如何估计条件概率 $P(w_i|w_{i-1})$ 的值,

其中,$\C$ 表示语料库(corpus)的大小,$\C(w_{i-1},w_i)$ 表示 $w_{i-1},w_i$这对词在语料库前后出现了多少次,$\C(w_{i-1})$ 表示 $w_{i-1}$ 在语料库中出现了多少次

那我们这里假设

文本中的每个词 $w_i$ 和只和前面 $N -1$ 个词有关,

这样当前词 $w_i$ 的概率只取决于前面 $N-1$个词

$N = 1$ 即为一元模型,实际上是一个和上下文无关的模型;$N=2$ 即为二元模型,$N=3$,三元模型,更高阶的模型就使用的少了。即为 N-1阶马尔可夫假设

马尔可夫假设的局限性是什么?

在自然语言中,上下文之间相关性的跨度可能非常大,甚至从一个段落到另一个段落,无论如何提升模型的阶数,都没办法获取这种相关性

如何处理概率不平滑的问题(即概率为0或者为1)?

使用语言模型,需要知道模型中所有的条件概率,我们称之为模型的参数,通过对语料库的统计,得到这些参数的过程,就是对语言模型的训练,拿二元模型来说,可能会遇到 $\C (w_{i-1},w_i) = 0 $ 或者 $\C(w_{i-1},w_i)$ 和 ${\C(w_{i-1})}$ 都只出现了1次。怎么处理这种问题?使用古德-图灵估计(Good-Turning Estimate)

马尔科夫假设在计算机自然语言处理领域有着重要的应用

张量

首先理解三维组数。为了形象化三维数组,你可以把它想象成一叠放在一起的二维表格。每个表格都是一个二维数组,拥有自己的行和列

张量(Tensor)是一个数学对象,用于表示一组数据和这些数据之间的规则。张量的核心思想是一种扩展,它将标量、向量和矩阵扩展到更高维度

  1. 标量 (0维张量): 标量是一个单独的数字,没有方向,例如:5, -3.2, 0 等
  2. 向量 (1维张量): 向量是一维数组,即数字的有序列表。它有方向。例如:[1, 2, 3], [-1, 0, 1] 等
  3. 矩阵 (2维张量): 矩阵是一个二维数组,具有行和列。例如:[[1, 2, 3], [4, 5, 6], [7, 8, 9]] 是一个3x3的矩阵
  4. 高维张量 (3维及以上): 当超过2个维度时,我们通常称其为张量。例如,3维张量可以视为“矩阵的数组”。一个典型的例子是图像数据,可以表示为(高度, 宽度, 颜色通道)的3维张量

在深度学习和机器学习中,张量是一个核心概念,因为它们是用于表示数据和模型参数的主要数据结构。

举例,在Python中,我们可以使用NumPy库来创建和操作张量:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import numpy as np

# 创建一个0维张量(标量)
scalar = np.array(5)

# 创建一个1维张量(向量)
vector = np.array([1, 2, 3])

# 创建一个2维张量(矩阵)
matrix = np.array([[1, 2], [3, 4]])

# 创建一个3维张量
tensor_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

# 查看张量的形状
print("Scalar shape:", scalar.shape

创建一个三维数组

1
2
3
4
5
6
7
8
9
10
11
12
13
-- 创建一个三维数组,尺寸为 2x3x4 (深度 x 行 x 列)
three_dim_array = [
[ # 第一个二维数组
[0, 1, 2, 3], # 第一行
[4, 5, 6, 7], # 第二行
[8, 9, 10, 11] # 第三行
],
[ # 第二个二维数组
[12, 13, 14, 15], # 第一行
[16, 17, 18, 19], # 第二行
[20, 21, 22, 23] # 第三行
]
]

向量化计算

在编程和数据分析中,向量化通常指的是利用现代CPU的SIMD(Single Instruction Multiple Data,单指令多数据流)指令集,使一条指令能同时对一组(向量)数据进行操作

举个例子。假设你有两个数组,你需要将这两个数组对应位置的元素相加。传统的做法中,你可能需要一个for循环来逐个地处理这些元素:

1
2
3
4
5
a = [1, 2, 3, 4, 5]
b = [6, 7, 8, 9, 10]
c = []
for i in range(len(a)):
c.append(a[i] + b[i])

但如果使用向量化的方法,你可以一次处理所有的元素:

1
2
3
4
5
import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.array([6, 7, 8, 9, 10])
c = a + b

机器学习和数据分析,向量化技术非常关键,可以显著提升计算性能

终篇

人想要成为精英,首先得在精神层面成为精英,这样才能在精英的方式思考,以主人的心态做事,才能超出常人

2. 排列组合参考:https://zhuanlan.zhihu.com/p/41855459
3. 傅里叶变化参考:https://www.dedao.cn/course/article?id=dA5eO3NDrGk8KP0djQK2oxp9MRBzQP&source=search,https://www.dedao.cn/course/article?id=3bezDG7wBonmJwgQr3JvQkAg5PyO1x&source=search,https://www.dedao.cn/course/article?id=oezW9aA7r8pGX8BlxoVlY4jRMdvmbE&source=search,https://www.dedao.cn/course/article?id=3bezDG7wBonmJwgQr3JvQkAg5PyO1x&source=search
4. 卷积动画教学: https://www.bilibili.com/video/BV1Vd4y1e7pj/?spm_id_from=333.999.0.0&vd_source=8fa100d4b07f2acf478f19c38839cf28