1.2 统计学简史¶

“统计学是不是现代人才发明的？”小率在博物馆门口问。

均哥摇摇头：“只要人类开始管理粮食、人口、土地、疾病和风险，就已经在做统计学的前身了。只不过那时候还没有今天这些名字。”

统计学的历史，不是一串需要硬背的人名，而是一条很朴素的线索：

人类遇到问题，先把事实记录下来，再从记录里寻找规律，最后用规律帮助下一次决定。

所以，统计学并不是从黑板上的公式开始的。它先出现在粮仓门口、户籍账册、瘟疫死亡清单、战地医院、天文观测台、农田实验站、彩票销售点，最后才走进电脑、手机和 AI 模型。

1.2.1 古代：先把东西数清楚¶

如果把统计学的历史拍成电影，第一幕不会出现在大学教室，而会出现在一个很忙的古代仓库。

秋收刚结束，粮食一袋袋搬进仓里。负责记账的人坐在案边，面前可能是竹简、木牍、泥板，也可能是纸张账册。他要记下今年收了多少粮，哪个村交了多少，粮仓还剩多少，遇到灾荒时能救济几户。旁边另一张账上，写的是人口、田亩、赋税、徭役：谁家有几口人，谁家有多少地，谁家要服役，谁家可以免税。

这些数字听起来不浪漫，却非常现实。数错了，轻则账目混乱，重则有人挨饿、有人被多征税、有人被漏掉救济。古代统计学的第一条朴素原则就是：如果你连“有多少”都不知道，就很难谈公平、治理和计划。

在中国古代，这类工作有一个很典型的制度化场景：户部。

户部是古代中央官署之一。到唐代，户部相关机构要管户口、田土、赋税、仓储、漕运等事务；到明清，户部更是和全国疆土、田地、户籍、赋税、俸饷、财政收支紧密相关。换成今天的话说，户部很像一个把“人口数据库、土地数据库、财政系统、粮食物流系统”揉在一起的超级部门。

当然，古代没有电子表格，也没有数据库。一个地方上报的人口多一点，少一点，背后都会牵动税粮、兵役和财政。地方官可能想少报，百姓可能想躲避重役，中央又希望掌握真实情况。于是，“数清楚”从来不是单纯的技术问题，也和权力、利益、生活压力连在一起。

一个很早的中国故事，是《国语》里提到的“料民”。“料”有统计、清查的意思。周宣王在太原一带清查人口，目的与兵源、赋税有关。大臣仲山甫劝他“民不可料也”，不是说人口永远不能数，而是在提醒：如果清查只是为了加重负担，数字会变成压在人身上的石头。这个故事很适合作为统计学的第一课：数据本身不是善也不是恶，关键看它被怎样收集、怎样解释、怎样使用。

古埃及也有类似的故事。尼罗河每年泛滥，洪水退去后，土地边界可能被冲刷得不清楚。要重新丈量土地，才知道谁家的地在哪里，税该怎么算，粮食该怎样征收。古巴比伦留下过大量商业、粮食和借贷记录。古代国家要修水渠、建城墙、组织军队，也都离不开人口和物资的清点。

这一阶段的统计思想很像整理一个大家庭的储物间：

先记录：有多少人、多少粮、多少地、多少牲畜。
再汇总：一个村、一个县、一个国家合起来是多少。
再安排：税粮怎么收，救济怎么发，工程怎么做。
最后追问：这些数字准不准，有没有人被漏掉，有没有人被重复计算。

均哥的小提醒

古代统计学的关键词不是“公式”，而是“清点”。它解决的是最基本的问题：把世界从一团模糊的经验，变成可以讨论的记录。没有这一步，后面的推理、比较和预测都无从谈起。

1.2.2 近代：开始用数据讲道理¶

时间来到近代，统计学开始变得更像我们今天熟悉的样子。人们不再只满足于“数清楚”，而是开始追问：这些数字能不能说明问题？能不能帮我们发现危险？能不能说服别人改变做法？

伦敦死亡清单：一个布商看见了城市的脉搏¶

17 世纪的伦敦，瘟疫时常让人心惊。城里会发布一种叫“死亡清单”的东西，记录各个教区一周里有多少人死亡，以及大致死因。对普通人来说，这像是一份危险地图：哪里死亡多，哪里就要少去；瘟疫数字上升，富人可能赶紧离开城市。

约翰·格朗特（John Graunt）原本是布商，不是大学教授。他却盯上了这些周周发布的死亡数字。他把多年死亡清单收集起来，认真整理、比较，写成了 1662 年的《基于死亡清单的自然与政治观察》。他关心的问题很具体：伦敦到底大约有多少人？男孩和女孩出生比例怎样？哪些死因常见，哪些可能被误记？某些疾病的数字突然变多，是疾病真的爆发，还是记录方式出了问题？

这件事厉害在哪里？

不是因为格朗特有一台显微镜，也不是因为他知道现代医学。厉害的是，他发现一堆“日常公告”可以变成理解城市的证据。单看一个人的死亡，是悲伤的个体事件；把很多人的死亡放在一起看，就会出现城市健康、人口变化和公共风险的轮廓。

这就是统计学从“账房工具”走向“公共知识”的关键一步。数字开始会说话，但前提是有人愿意把它们放在一起，耐心地问：这些记录背后，社会正在发生什么？

骰子、分奖金和概率：偶然也能讲道理¶

同一时期，还有一条线索来自游戏。

想象两个朋友玩一场掷骰子游戏，约好谁先赢到若干局，谁就拿走奖金。可游戏玩到一半，突然必须中断。这时奖金应该怎么分？

如果只看已经赢了几局，可能不公平；如果只说“各拿一半”，也不一定合理。真正的问题是：在当前局面下，双方接下来赢得整场比赛的机会分别有多大？

帕斯卡和费马讨论的“分赌注问题”，就把人们带向了概率思想。这里有一个很重要的转变：偶然不是不能讨论，偶然也有结构。我们不知道下一次骰子会掷出几点，但可以讨论很多次以后各结果出现的机会；我们不知道某个人明年是否生病，但可以研究一群人的风险。

统计学从此学会了一句非常现代的话：

我不知道下一次会怎样，但我可以认真估计许多次以后大概会怎样。

南丁格尔：她不只是“提灯的女士”¶

很多人知道南丁格尔（Florence Nightingale）是现代护理事业的重要人物，知道她在克里米亚战争中照顾伤员，被称为“提灯的女士”。但如果只记住这个形象，就会错过她最有力量的一面：她也是一位非常出色的数据传播者。

克里米亚战争期间，英军士兵大量死亡。普通人的直觉可能会以为，战场上死亡主要来自枪炮和伤口。南丁格尔整理数据后发现，许多死亡其实与拥挤、污水、通风差、卫生条件糟糕有关。也就是说，士兵不是只死于敌人，也死于可以改善的环境。

她真正厉害的地方，是没有把这些发现只写成厚厚的报告。她把数据画成醒目的图形，也就是后来常被称为“玫瑰图”或“极区图”的统计图。每一块扇形都像一片花瓣，花瓣大小告诉读者某类死亡原因有多严重。这样一来，不懂复杂表格的官员和公众，也能一眼看出问题。

这就是数据可视化的力量：它不是把数字变漂亮，而是把原本容易被忽视的痛苦变得难以回避。

南丁格尔后来成为英国皇家统计学会第一位女性会员。这个身份很有象征意义：统计学不只是数学家的玩具，它也可以是护士、改革者、公共卫生工作者手里的工具。她告诉我们，好的统计图不是装饰，而是一种公共表达：请看清事实，然后采取行动。

小率的理解

近代统计学像是从账本走向街道、医院和议会。它开始帮助人们讨论公共问题：城市是否安全，疾病怎样传播，战争伤亡能不能减少，制度有没有必要改变。

1.2.3 现代：用统计模型理解现实¶

进入现代，统计学又往前迈了一步。

古代统计问：“有多少？”

近代统计问：“这些数字说明了什么？”

现代统计开始问：“现实背后有没有一种可以理解的结构？我们能不能建立一个简化模型，帮助解释和预测？”

这里的“模型”不用想得太神秘。模型就像地图。地图不可能画出每一片树叶、每一块石头，但它能保留道路、方向和距离。统计模型也一样：它不复制整个世界，而是抓住最重要的关系。

高斯：误差不是噪音，而是可以理解的形状¶

高斯（Carl Friedrich Gauss）是数学史上非常耀眼的人物。他和统计学的关系，可以从一个日常问题讲起：同一个东西，为什么反复测量结果会不一样？

比如测一张桌子的长度。第一次是 120.1 厘米，第二次是 119.9 厘米，第三次是 120.0 厘米。是尺子坏了吗？不一定。现实中的测量总会有微小误差：眼睛读数、手的角度、工具精度、环境变化，都会让结果有一点浮动。

天文学和测地学里，这个问题更严重。观测星体位置、测量土地距离，误差不可避免。高斯等人研究误差时发现，许多测量误差并不是完全乱飞，而是经常围绕某个中心聚集：小误差常见，大误差少见，正负误差大致平衡。把它画出来，就像一口钟。这就是我们后来熟悉的正态分布（Normal Distribution），也常被称为“高斯分布”。

有趣的是，高斯和这条钟形曲线后来甚至登上了德国 10 马克纸币。纸币正面是高斯的肖像，旁边有哥廷根建筑和一条高斯曲线；背面则有测量仪器和测地网络。把数学家印在钞票上，本身就像一个文化隐喻：一个国家把“精确测量、科学理性、数学模型”当成值得纪念的财富。

这条曲线为什么重要？因为它让人们意识到，误差并不只是麻烦。只要误差有规律，我们就能估计真实值，评估不确定性，也能判断某个观测结果是不是异常。

身高、回归和“别被极端值骗了”¶

还有一个很适合初学者的故事，来自高尔顿（Francis Galton）研究身高。

他观察父母和孩子的身高，发现一个现象：很高的父母，孩子往往也偏高，但通常没有父母那么极端；很矮的父母，孩子往往偏矮，但也常常比父母更接近平均水平。这个现象后来和“回归到平均水平”联系在一起。

这不是说孩子一定会变普通，也不是说努力没有意义。它提醒我们：极端表现里常常混有偶然因素。一次考试特别高分，不代表以后每次都那么高；一次比赛发挥失常，也不代表真实水平就那么差。统计学让我们学会把“趋势”和“波动”分开看。

这条思想在生活里特别有用。看到某个产品本周销量暴涨，我们要问：是广告真的有效，还是刚好赶上节日？看到某个运动员上一场发挥神勇，我们要问：这是稳定实力，还是一次特别顺的状态？现代统计学训练我们的，不只是计算能力，还有一种不被单次极端结果带跑的冷静。

费舍尔和农田：比较要公平¶

再看一个农业实验的故事。

如果我们想知道某种肥料是否能提高小麦产量，最直觉的做法是：一块地用肥料，另一块地不用，然后比较收成。问题是，两块地可能本来就不一样。一块靠近水源，一块土壤贫瘠；一块阳光好，一块容易积水。最后产量不同，到底是肥料造成的，还是土地本来就不同？

费舍尔（R. A. Fisher）在英国罗斯汉姆斯特德农业试验站工作时，面对的就是这类问题。农业实验看似朴素，其实非常考验统计思想。要让比较公平，就要设计实验：把地块分组，尽量随机安排处理方式，重复观察，估计自然波动的大小。

这就是现代统计学非常重要的一课：

想知道一个因素有没有作用，不能只看结果差多少，还要看比较是否公平。

这个思想后来进入医学、心理学、工业、教育和互联网实验。今天我们讨论药物是否有效、教学方法是否更好、按钮颜色是否提高点击率，本质上都在继承这条线索：让比较尽量公平，让结论经得起怀疑。

彩票漏洞：统计学也会出现在便利店¶

现代统计学还有一些很“电影感”的故事。

美国有一对退休夫妻 Jerry 和 Marge Selbee，他们的故事后来被改编成 2022 年电影《Jerry & Marge Go Large》。故事的核心不是他们运气特别好，而是他们看懂了彩票规则里的一个统计漏洞。

当时有种彩票叫 WinFall 或 Cash WinFall。一般情况下，彩票当然是对玩家不利的：长期平均看，买票的钱会比奖金多。但这个游戏有一个特殊规则：如果头奖累积到某个水平还没人中，奖金不会继续全部滚入头奖，而会“下滚”到低等级奖项。也就是说，三等奖、四等奖等奖项的奖金会突然变大。

Jerry 发现，在这种“下滚周”里，如果买足够多的彩票，平均回报可能超过成本。注意，这不是保证每一张票都赚，也不是预测开奖号码，而是利用“期望值”变成正数。单张彩票仍然随机，但大量购买彩票后，随机波动会被摊平，规则本身的优势就显出来了。

这个故事很适合提醒初学者：

概率不是算命，它不告诉你下一张票会不会中。
期望值也不是保证，它说的是长期平均。
规则设计如果有漏洞，统计学能把漏洞照出来。
“合法利用规则”和“公平感受”可能不是同一回事。

后来类似故事也引发监管关注，相关彩票游戏被停止或调整。统计学在这里像一盏灯：它照见的不只是中奖技巧，也照见制度设计里的不平衡。

均哥的小提醒

现代统计学最迷人的地方，是它既能解释天文观测误差，也能分析农田肥料；既能帮助公共卫生改革，也能看穿彩票规则。它不是远离生活的公式，而是理解现实的一套眼睛。

1.2.4 AI 与计算时代：人人都能处理海量数据¶

计算机出现后，统计学像换上了高速发动机。

过去一群人算很久的大表，今天一台电脑几秒钟就能处理。过去只能抽几百份问卷，今天手机、传感器、网站、医院系统、卫星和智能设备每天都在产生海量数据。统计学的任务也从“把表算完”，变成“从数据洪流里找出有用的模式”。

电子表格：普通人第一次摸到数据分析¶

在很长时间里，数据分析是专家的工作。你要会计算，要能操作大型机器，要有专门训练。

电子表格改变了这一点。一个小店老板可以记录每天卖出的奶茶口味，看周末和工作日有什么不同；一个学生可以记录复习时间和测验成绩，观察自己什么时候效率最高；一个家庭可以记录每月支出，发现外卖、交通、订阅服务到底花了多少钱。

电子表格让统计学从实验室和办公室里走出来，变成普通人也能使用的工具。它不一定高级，却很重要。因为很多数据素养，就是从“我把自己的记录整理成一张表”开始的。

机器学习：统计学换了一种更会计算的外衣¶

如果说电子表格让人更容易处理数据，那么机器学习（Machine Learning）则让计算机开始从数据中学习规律。

但机器学习并不是凭空冒出来的魔法。它和统计学是一脉相承的：统计学关心“从已经看到的数据里找规律，并判断这个规律靠不靠谱”；机器学习关心“让计算机从大量例子里自动找规律，并把规律用于新情况”。两者的共同底座，仍然是数据、误差、比较、预测和不确定性。

举个最简单的例子：如果我们让电脑根据房屋面积、楼层、位置来估计房价，电脑一开始可能猜得很离谱。它会把猜测结果和真实成交价比较，看看自己错了多少；然后调整内部规则，让下一次猜得更接近。这个过程听起来像机器在“学习”，其实背后仍然是统计学的老问题：

看到的数据能不能代表未来会遇到的情况？
模型是不是只记住了旧题答案，而没有学会真正规律？
预测错了多少，错得能不能接受？
换一批新数据，它还能表现好吗？

机器学习的很多关键词，换成统计学语言也很亲切：“训练”就是反复用数据调整规则；“损失”就是模型犯错的大小；“泛化”就是它遇到新情况时还能不能靠谱；“过拟合”就是把偶然细节当成规律记住了。

所以，这一段历史不是“统计学结束，机器学习开始”，而是统计学在计算机时代长出了新的枝条。

神经网络：从会学习的机器，到沉睡很久的想法¶

神经网络（Neural Network）的想法很早就出现了。1943 年，麦卡洛克和皮茨提出了人工神经元的逻辑模型；1950 年代，罗森布拉特提出感知机（Perceptron）。当时媒体对它非常兴奋，仿佛机器马上就要学会看、说、写，甚至拥有意识。

但早期神经网络能力有限。它能处理一些简单分类，却很难解决更复杂的问题。后来人们发现，单层感知机有明显边界，研究热情一度下降。这个阶段很像一个孩子刚学会走路，大家却期待他立刻跑马拉松，于是失望来得很快。

1980 年代，反向传播（Backpropagation）重新点燃了神经网络研究。你可以把它理解成一种“错了就往回找原因”的学习方法：模型先给出答案，和正确答案比较，看看错了多少；然后把错误一层层往回传，调整内部连接的权重。这个过程重复很多次，模型就可能慢慢学会更复杂的模式。

这里的“错了多少”非常统计学。它不是一句情绪化评价，而是一个可以计算的量。模型每次训练，都在尝试让这种错误变小。深度学习（Deep Learning）只是把这件事做得更深、更大：层数更多，参数更多，数据更多，能表达的模式也更复杂。

可是，想法有了，还不够。神经网络需要大量数据，也需要强大的计算能力。很长一段时间里，硬件和数据都跟不上，很多研究只能停在小规模实验。

深度学习爆发：数据、算力和算法终于碰头¶

到了 2010 年前后，三件事终于碰到一起：

互联网带来了大量图片、文字、语音和行为数据。
GPU 等硬件让大规模计算变得可行。
神经网络训练技巧不断改进。

2012 年，AlexNet 在 ImageNet 图像识别竞赛中表现惊人，把深度学习推到聚光灯下。它不是第一个神经网络，却像一个响亮的信号：原来多层神经网络真的可以在大规模现实任务中取得巨大进步。

从那以后，图像识别、语音识别、机器翻译、推荐系统都迅速变化。手机相册能自动识别人脸，输入法能预测下一个词，地图能估计堵车时间，平台能推荐你可能喜欢的内容。这些功能背后，常常有统计学和机器学习的共同影子。

深度学习看起来很新，但它仍然离不开统计学的三件事：

用数据学习规律，而不是只靠人工写死规则。
用误差衡量模型哪里做得不好。
用新数据检验模型是否真的学会了，而不是只会背训练材料。

Transformer：让模型学会“看重点”¶

在自然语言处理里，早期模型处理句子常常像一个人从左到右逐字阅读。这样当然可以，但长句子、长文章、跨段关系会变得很难处理。

2017 年，Google 研究者发表论文《Attention Is All You Need》，提出 Transformer 架构。这里的核心词是注意力机制（Attention）。通俗地说，模型在处理一句话时，不是平均看每个词，而是学会判断“现在这个位置应该重点关注哪些词”。

比如“小率把书递给均哥，因为他要讲这一页”。要理解“他”指谁，模型需要回头看前面的词和关系。注意力机制让模型更灵活地建立词与词之间的联系。Transformer 还有一个重要优点：它更适合并行计算，可以利用现代硬件训练更大的模型。

这一步非常关键。后来的许多大语言模型，包括 GPT 系列，都建立在 Transformer 思想之上。

从统计学角度看，Transformer 仍然在做一件熟悉的事：根据上下文，估计接下来最可能出现什么。只是它面对的不是几十行表格，而是海量文本；它估计的不是一个简单数值，而是一长串可能词语的机会大小。

ChatGPT：数据分析从“写命令”变成“对话”¶

2022 年 11 月 30 日，OpenAI 发布 ChatGPT。它带来的震动，不只是因为模型会写文章、改代码、回答问题，而是因为它把复杂的 AI 能力包装成了普通人熟悉的形式：对话。

ChatGPT 背后的 GPT 模型，主要使用 Transformer 的解码器（decoder）部分。可以把 decoder 想成一个“接着往下说”的系统：给它前面的文字，它会估计下一个词、下一个片段、下一句话最可能是什么。训练时，它看过大量文本，每一步都在做类似这样的练习：

前面已经出现了这些字词，那么后面最可能接什么？

如果它猜错了，就调整内部参数；如果猜对的机会变高，就说明模型对语言模式掌握得更好。这里仍然是统计学的影子：根据已有信息估计未知结果，用错误大小推动改进，用大量例子让规律变得更稳定。

当然，大语言模型不只是“词语接龙”。当模型足够大、数据足够多、训练方式足够好时，它会表现出总结、改写、翻译、写代码、解释概念、辅助推理等能力。但这些能力的底层，仍然离不开“从数据中学习规律”这条统计学主线。

过去，一个人想让电脑分析数据，通常要知道软件、菜单、公式或编程语言。ChatGPT 这类对话式 AI 出现后，人们开始尝试直接说：

“帮我解释这张表里发生了什么。”
“把这些数据画成适合汇报的图。”
“这段 Python 代码为什么报错？”
“我这个实验设计有没有明显问题？”
“这份调查结果能不能说明结论？”

这是一种很大的变化。AI 没有让统计学消失，反而把统计学问题带到更多人面前。以前很多人卡在“我不会写代码”，现在他们可能先从提问开始，再逐步学会数据、图表、模型和验证。

所以，ChatGPT 不是统计学的反面，而是统计学、计算机科学、语言学和工程实践长期汇合后的结果。它把“用数据学习规律”这件事，推到了普通人能直接对话使用的层面。

但均哥也提醒小率：“越是强大的工具，越需要清醒地使用。”

ChatGPT 这类模型可能生成听起来很流畅但并不正确的内容。它可能误解数据来源，可能忽略样本偏差，可能把相关说成因果，也可能给出看似合理但未经验证的解释。所以，在 AI 时代，统计学不是过时了，而是更重要了。

我们更需要会问：

数据从哪里来，收集过程可靠吗？
样本能代表我们关心的人群吗？
模型是在学习规律，还是记住了巧合？
结果有没有不确定性，误差大不大？
一个看起来漂亮的结论，能不能被新的数据验证？
AI 给出的解释，有没有和真实证据对上？

从户部账册到 ChatGPT：同一个问题没有变¶

表面上看，古代户部和 ChatGPT 离得很远。一个面对的是户籍、田亩和粮仓，一个面对的是互联网文本、图像、代码和海量数据。

但它们背后的核心问题其实连在一起：

阶段	代表故事	统计学在做什么
古代	户籍、田亩、粮仓、赋税	把东西数清楚，让管理有凭据
近代	格朗特死亡清单、帕斯卡与费马、南丁格尔玫瑰图	用数据讲道理，让问题被看见
现代	高斯误差曲线、农田实验、彩票漏洞	用模型理解现实，让比较更公平
AI 与计算时代	电子表格、机器学习、深度学习、Transformer、ChatGPT	从海量数据中学习模式，辅助人类决策

小率的笔记本

统计学的历史，就是人类越来越会和数据相处的历史。先是把东西数清楚，再用数据讲道理，然后用模型理解现实，最后借助计算机和 AI 处理海量数据。工具一直在变，但最重要的问题没有变：证据可靠吗？比较公平吗？不确定性有多大？结论能帮助我们更好地理解世界吗？