如何解决空间依赖性对传统统计学就业基于独立同分布假设不存在的影响

概率论只不过是把常识用数学公式表达了出来。

记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——这果然是个牛逼的方法。

这是一篇关于贝叶斯方法的科普文,我会尽量少用公式,多用平白的语言叙述,多举实际例子。更严格的公式和计算我会在相应的地方注明参考资料。贝叶斯方法被证明是非常 general 且强大的推理框架,文中你会看到很多有趣的应用。

托马斯·贝叶斯(Thomas Bayes)同学的详细生平在。以下摘一段 wikipedia 上的简介:

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别地,贝叶斯是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。这个时候,我们就需要提供一个猜测(hypothesis,更为严格的说法是“假设”,这里用“猜测”更通俗易懂一点),所谓猜测,当然就是不确定的(很可能有好多种乃至无数种猜测都能满足目前的观测),但也绝对不是两眼一抹黑瞎蒙——具体地说,我们需要做两件事情:1. 算出各种不同猜测的可能性大小。2. 算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。

1.1 一个例子:自然语言的二义性

下面举一个自然语言的不确定性的例子。当你看到这句话:

你对这句话的含义有什么猜测?平常人肯定会说:那个女孩拿望远镜看见了那个男孩(即你对这个句子背后的实际语法结构的猜测是:The girl saw-with-a-telescope the boy )。然而,仔细一想,你会发现这个句子完全可以解释成:那个女孩看见了那个拿着望远镜的男孩(即:The girl saw the-boy-with-a-telescope )。那为什么平常生活中我们每个人都能够迅速地对这种二义性进行消解呢?这背后到底隐藏着什么样的思维法则?我们留到后面解释。

贝叶斯公式是怎么来的?

我们还是使用 wikipedia 上的一个例子:

一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

一些认知科学的研究表明(《决策与判断》以及《》第12章:小孩也可以解决贝叶斯问题),我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。在这里,我们不妨把问题重新叙述成:你在校园里面,遇到了 N 个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这 N 个人里面有多少个女生多少个男生。

你说,这还不简单:算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生,不就行了?

我们来算一算:假设学校里面人的总数是 U 个。60% 的男生都穿长裤,于是我们得到了 U * P(Boy) * P(Pants|Boy) 个穿长裤的(男生)(其中 P(Boy) 是男生的概率 = 60%,这里可以简单的理解为男生的比例;P(Pants|Boy) 是条件概率,即在 Boy 这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。40%

注意,如果把上式收缩起来,分母其实就是 P(Pants) ,分子其实就是 P(Pants, Girl) 。而这个比例很自然地就读作:在穿长裤的人( P(Pants) )里面有多少(穿长裤)的女孩( P(Pants, Girl) )。

上式中的 Pants 和 Boy/Girl 可以指代一切东西,所以其一般形式就是:

难怪拉普拉斯说概率论只是把常识用数学公式表达了出来

然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。

经典著作《人工智能:现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在,徐宥的翻译版在,这篇文章很深入浅出,强烈建议读一读),里面用到的就是贝叶斯方法,这里我们不打算复述他写的文章,而是简要地将其核心思想介绍一下。

首先,我们需要询问的是:“问题是什么?

问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:

P(我们猜测他想输入的单词 | 他实际输入的单词)

这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为 h1 h2 .. ( h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H (单词总共就那么多而已),将用户实际输入的单词记为 D ( D 代表 Data ,即观测数据),于是

P(我们的猜测1 | 他实际输入的单词)

类似地,对于我们的猜测2,则是 P(h2 | D)。不妨统一记为:

运用一次贝叶斯公式,我们得到:

对于不同的具体猜测 h1 h2 h3 .. ,P(D) 都是一样的,所以在比较 P(h1 | D) 和 P(h2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:

P(h | D) ∝ P(h) * P(D | h) (注:那个符号的意思是“正比例于”,不是无穷大,注意符号右端是有一个小缺口的。)

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下 P(h) * P(D | h) 这个值,然后取最大的,得到的就是最靠谱的猜测。

一点注记:Norvig 的拼写纠正器里面只提取了编辑距离为 2 以内的所有已知单词。这是为了避免去遍历字典中每个单词计算它们的 P(h) * P(D | h) ,但这种做法为了节省时间带来了一些误差。但话说回来难道我们人类真的回去遍历每个可能的单词来计算他们的后验概率吗?不可能。实际上,根据认知神经科学的观点,我们首先根据错误的单词做一个 bottom-up 的关联提取,提取出有可能是实际单词的那些候选单词,这个提取过程就是所谓的基于内容的提取,可以根据错误单词的一些模式片段提取出有限的一组候选,非常快地缩小的搜索空间(比如我输入 explaination ,单词里面就有充分的信息使得我们的大脑在常数时间内把可能性 narrow down 到 explanation 这个单词上,至于具体是根据哪些线索——如音节——来提取,又是如何在生物神经网络中实现这个提取机制的,目前还是一个没有弄清的领域)。然后,我们对这有限的几个猜测做一个 top-down 的预测,看看到底哪个对于观测数据(即错误单词)的预测效力最好,而如何衡量预测效率则就是用贝叶斯公式里面的那个 P(h) * P(D | h) 了——虽然我们很可能使用了。后面我们还会提到这样的

3. 模型比较与奥卡姆剃刀

介绍了贝叶斯拼写纠正之后,接下来的一个自然而然的问题就来了:“为什么?”为什么要用贝叶斯公式?为什么贝叶斯公式在这里可以用?我们可以很容易地领会为什么贝叶斯公式用在前面介绍的那个男生女生长裤裙子的问题里是正确的。但为什么这里?

为了回答这个问题,一个常见的思路就是想想:非得这样吗?因为如果你想到了另一种做法并且证明了它也是靠谱的,那么将它与现在这个一比较,也许就能得出很有价值的信息。那么对于拼写纠错问题你能想到其他方案吗?

不管怎样,一个最常见的替代方案就是,选择离 thew 的最近的。然而 the 和 thaw 离 thew 的编辑距离都是 1 。这可咋办捏?你说,不慌,那还是好办。我们就看到底哪个更可能被错打为 thew 就是了。我们注意到字母 e 和字母 w 在键盘上离得很紧,无名指一抽筋就不小心多打出一个 w 来,the 就变成 thew 了。而另一方面 thaw 被错打成 thew 的可能性就相对小一点,因为 e 和 a 离得较远而且使用的指头相差一个指头(一个是中指一个是小指,不像 e 和 w 使用的指头靠在一块——神经科学的证据表明紧邻的身体设施之间容易串位)。OK,很好,因为你现在已经是在用最大似然方法了,或者直白一点,你就是在计算那个使得 P(D | h) 最大的 h 。

而贝叶斯方法计算的是什么?是 P(h) * P(D | h) 。多出来了一个 P(h) 。我们刚才说了,这个多出来的 P(h) 是特定猜测的先验概率。为什么要掺和进一个先验概率?刚才说的那个最大似然不是挺好么?很雄辩地指出了 the 是更靠谱的猜测。有什么问题呢?既然这样,我们就从给最大似然找茬开始吧——我们假设两者的似然程度是一样或非常相近,这样不就难以区分哪个猜测更靠谱了吗?比如用户输入tlp ,那到底是 top 还是 tip ?(这个例子不怎么好,因为 top 和 tip 的词频可能仍然是接近的,但一时想不到好的英文单词的例子,我们不妨就假设 top 比 tip 常见许多吧,这个假设并不影响问题的本质。)这个时候,当最大似然不能作出决定性的判断时,先验概率就可以插手进来给出指示——“既然你无法决定,那么我告诉你,一般来说 top 出现的程度要高许多,所以更可能他想打的是 top ”)。

以上只是最大似然的一个问题,即并不能提供决策的全部信息。

23/11 每项把前项作为 X 带入后计算得到的数列?此外曲线拟合也是,平面上 N 个点总是可以用 N-1 阶多项式来完全拟合,当 N 个点近似但不精确共线的时候,用 N-1 阶多项式来拟合能够精确通过每一个点,然而用直线来做拟合/线性回归的时候却会使得某些点不能位于直线上。你说到底哪个好呢?多项式?还是直线?一般地说肯定是越低阶的多项式越靠谱(当然前提是也不能忽视“似然”P(D | h) ,明摆着一个多项式分布您愣是去拿直线拟合也是不靠谱的,这就是为什么要把它们两者乘起来考虑。),原因之一就是低阶多项式更常见,先验概率( P(h) )较大(原因之二则隐藏在 P(D | h) 里面),这就是为什么我们要用来插值,而不是直接搞一个 N-1 阶多项式来通过任意 N 个点的原因。

以上分析当中隐含的哲学是,观测数据总是会有各种各样的误差,比如观测误差(比如你观测的时候一个 MM 经过你一不留神,手一抖就是一个误差出现了),所以如果过分去寻求能够完美解释观测数据的模型,就会落入所谓的数据的境地,一个过配的模型试图连误差(噪音)都去解释(而实际上噪音又是不需要解释的),显然就过犹不及了。所以 P(D | h) 大不代表你的 h (猜测)就是更好的 h。还要看 P(h) 是怎样的。所谓精神就是说:如果两个理论具有相似的解释力度,那么优先选择那个更简单的(往往也正是更平凡的,更少繁复的,更常见的)。

过分匹配的另一个原因在于当观测的结果并不是因为误差而显得“不精确”而是因为真实世界中对数据的结果产生贡献的因素太多太多,跟噪音不同,这些偏差是一些另外的因素集体贡献的结果,不是你的模型所能解释的——噪音那是不需要解释——一个现实的模型往往只提取出几个与结果相关度很高,很重要的因素(cause)。这个时候观察数据会倾向于围绕你的有限模型的预测结果呈,于是你实际观察到的结果就是这个正态分布的,这个取样很可能受到其余因素的影响偏离你的模型所预测的中心,这个时候便不能贪心不足地试图通过改变模型来“完美”匹配数据,因为那些使结果偏离你的预测的贡献因素不是你这个有限模型里面含有的因素所能概括的,硬要打肿脸充胖子只能导致不实际的模型,举个教科书例子:身高和体重的实际关系近似于一个二阶多项式的关系,但大家都知道并不是只有身高才会对体重产生影响,物理世界影响体重的因素太多太多了,有人身材高大却瘦得跟稻草,有人却是横长竖不长。但不可否认的是总体上来说,那些特殊情况越是特殊就越是稀少,呈围绕最普遍情况(胖瘦适中)的正态分布,这个分布就保证了我们的身高——体重相关模型能够在大多数情况下做出靠谱的预测。但是——刚才说了,特例是存在的,就算不是特例,人有胖瘦,密度也有大小,所以完美符合身高——体重的某个假想的二阶多项式关系的人是不存在的,我们又不是欧几里德几何世界当中的理想多面体,所以,当我们对人群随机抽取了 N 个样本(数据点)试图对这 N 个数据点拟合出一个多项式的话就得注意,它肯定得是二阶多项式,我们要做的只是去根据数据点计算出多项式各项的参数(一个典型的方法就是最小二乘);它肯定不是直线(我们又不是稻草),也不是三阶多项式四阶多项式.. 如果硬要完美拟合 N 个点,你可能会整出一个 N-1 阶多项式来——设想身高和体重的关系是 5 阶多项式看看?

实际上,模型比较就是去比较哪个模型(猜测)更可能隐藏在观察数据的背后。其基本思想前面已经用拼写纠正的例子来说明了。我们对用户实际想输入的单词的猜测就是模型,用户输错的单词就是观测数据。我们通过:

来比较哪个模型最为靠谱。前面提到,光靠 P(D | h) (即“似然”)是不够的,有时候还需要引入 P(h) 这个先验概率。奥卡姆剃刀就是说 P(h) 较大的模型有较大的优势,而最大似然则是说最符合观测数据的(即 P(D | h) 最大的)最有优势。整个模型比较就是这两方力量的拉锯。我们不妨再举一个简单的例子来说明这一精神:你随便找枚硬币,掷一下,观察一下结果。好,你观察到的结果要么是“正”,要么是“反”(不,不是少林足球那枚硬币:P ),不妨假设你观察到的是“正”。现在你要去根据这个观测数据推断这枚硬币掷出“正”的概率是多大。根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是 1 ,因为这个才是能最大化 P(D | h) 的那个猜测。然而每个人都会大摇其头——很显然,你随机摸出一枚硬币这枚硬币居然没有反面的概率是“不存在的”,我们对一枚随机硬币是否一枚有偏硬币,偏了多少,是有着一个先验的认识的,这个认识就是绝大多数硬币都是基本公平的,偏得越多的硬币越少见(可以用一个 来表达这一先验概率)。将这个先验正态分布 p(θ) (其中 θ 表示硬币掷出正面的比例,小写的 p 代表这是)结合到我们的问题中,我们便不是去最大化 P(D | h) ,而是去最大化 P(D | θ) * p(θ) ,显然 θ = 1 是不行的,因为 P(θ=1) 为 0 ,导致整个乘积也为 0 。实际上,只要对这个式子求一个导数就可以得到最值点。

以上说的是当我们知道先验概率 P(h) 的时候,光用最大似然是不靠谱的,因为最大似然的猜测可能先验概率非常小。然而,有些时候,我们对于先验概率一无所知,只能假设每种猜测的先验概率是均等的,这个时候就只有用最大似然了。实际上,统计学家和贝叶斯学家有一个有趣的争论,统计学家说:我们让数据自己说话。言下之意就是要摒弃先验概率。而贝叶斯支持者则说:数据会有各种各样的偏差,而一个靠谱的先验概率则可以对这些随机噪音做到健壮。事实证明贝叶斯派胜利了,胜利的关键在于所谓先验概率其实也是经验统计的结果,譬如为什么我们会认为绝大多数硬币是基本公平的?为什么我们认为大多数人的肥胖适中?为什么我们认为肤色是种族相关的,而体重则与种族无关?先验概率里面的“先验”并不是指先于一切经验,而是仅指先于我们“当前”给出的观测数据而已,在硬币的例子中先验指的只是先于我们知道投掷的结果这个经验,而并非“先天”。

然而,话说回来,有时候我们必须得承认,就算是基于以往的经验,我们手头的“先验”概率还是均匀分布,这个时候就必须依赖用最大似然,我们用前面留下的一个自然语言二义性问题来说明这一点:

就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

我们不妨先来看看 MacKay 在书中举的一个漂亮的例子:

图中有多少个箱子?特别地,那棵书后面是一个箱子?还是两个箱子?还是三个箱子?还是.. 你可能会觉得树后面肯定是一个箱子,但为什么不是两个呢?如下图:

很简单,你会说:要是真的有两个箱子那才怪了,怎么就那么巧这两个箱子刚刚好颜色相同,高度相同呢?

用概率论的语言来说,你刚才的话就翻译为:猜测 h 不成立,因为 P(D | h) 太小(太巧合)了。我们的直觉是:巧合(小概率)事件不会发生。所以当一个猜测(假设)使得我们的观测结果成为小概率事件的时候,我们就说“才怪呢,哪能那么巧捏?!”

现在我们可以回到那个自然语言二义性的例子,并给出一个完美的解释了:如果语法结构是 The girl saw the-boy-with-a-telecope 的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

自然语言二义性很常见,譬如上文中的一句话:

参见《决策与判断》以及《》第12章:小孩也可以解决贝叶斯问题

就有二义性:到底是参见这两本书的第 12 章,还是仅仅是第二本书的第 12 章呢?如果是这两本书的第 12 章那就是咄咄怪事了,怎么恰好两本书都有第 12 章,都是讲同一个问题,更诡异的是,标题还相同呢?

注意,以上做的是似然估计(即只看 P(D | h) 的大小),不含先验概率。通过这两个例子,尤其是那个树后面的箱子的例子我们可以看到,似然估计里面也蕴含着奥卡姆剃刀:树后面的箱子数目越多,这个模型就越复杂。单个箱子的模型是最简单的。似然估计选择了更简单的模型。

这个就是所谓的贝叶斯奥卡姆剃刀(Bayesian Occam’s Razor),因为这个剃刀工作在贝叶斯公式的似然(P(D | h) )上,而不是模型本身( P(h) )的先验概率上,后者是传统的奥卡姆剃刀。关于贝叶斯奥卡姆剃刀我们再来看一个前面说到的曲线拟合的例子:如果平面上有 N 个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型1),也可以用二阶多项式(模型2)拟合,也可以用三阶多项式(模型3),.. ,特别地,用 N-1 阶多项式便能够保证肯定能完美通过 N 个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?前面提到,一个衡量的依据是奥卡姆剃刀:越是高阶的多项式越是繁复和不常见。然而,我们其实并不需要依赖于这个先验的奥卡姆剃刀,因为有人可能会争辩说:你怎么就能说越高阶的多项式越不常见呢?我偏偏觉得所有阶多项式都是等可能的。好吧,既然如此那我们不妨就扔掉 P(h) 项,看看 P(D | h) 能告诉我们什么。我们注意到越是高阶的多项式,它的轨迹弯曲程度越是大,到了八九阶简直就是直上直下,于是我们不仅要问:一个比如说八阶多项式在平面上随机生成的一堆 N 个点偏偏恰好近似构成一条直线的概率(即 P(D | h) )有多大?太小太小了。反之,如果背后的模型是一条直线,那么根据该模型生成一堆近似构成直线的点的概率就大得多了。这就是贝叶斯奥卡姆剃刀。

贝叶斯模型比较理论与信息论有一个有趣的关联:

两边求对数,将右式的乘积变成相加:

显然,最大化 P(h | D) 也就是最大化 ln P(h | D)。而 ln P(h) + ln P(D | h) 则可以解释为模型(或者称“假设”、“猜测”)h 的编码长度加上在该模型下数据 D 的编码长度。使这个和最小的模型就是最佳模型。

而究竟如何定义一个模型的编码长度,以及数据在模型下的编码长度则是一个问题。更多可参考 Mitchell 的 《Machine Learning》的 6.6 节,或 Mackay 的 28.3 节)

所谓的推理,分为两个过程,第一步是对观测数据建立一个模型。第二步则是使用这个模型来推测未知现象发生的概率。我们前面都是讲的对于观测数据给出最靠谱的那个模型。然而很多时候,虽然某个模型是所有模型里面最靠谱的,但是别的模型也并不是一点机会都没有。譬如第一个模型在观测数据下的概率是 0.5 。第二个模型是 0.4 ,第三个是 0.1 。如果我们只想知道对于观测数据哪个模型最可能,那么只要取第一个就行了,故事到此结束。然而很多时候我们建立模型是为了推测未知的事情的发生概率,这个时候,三个模型对未知的事情发生的概率都会有自己的预测,仅仅因为某一个模型概率稍大一点就只听他一个人的就太不民主了。所谓的最优贝叶斯推理就是将三个模型对于未知数据的预测结论加权平均起来(权值就是模型相应的概率)。显然,这个推理是理论上的制高点,无法再优了,因为它已经把所有可能性都考虑进去了。

只不过实际上我们是基本不会使用这个框架的,因为计算模型可能非常费时间,二来模型空间可能是连续的,即有无穷多个模型(这个时候需要计算模型的概率分布)。结果还是非常费时间。所以这个被看作是一个理论基准。

以下我们再举一些实际例子来说明贝叶斯方法被运用的普遍性,这里主要集中在机器学习方面,因为我不是学经济的,否则还可以找到一堆经济学的例子。

贝叶斯是机器学习的核心方法之一。比如中文分词领域就用到了贝叶斯。Google 研究员吴军在《数学之美》系列中就有一篇是介绍中文分词的,这里只介绍一下核心的思想,不做赘述,详细请参考吴军的文章()。

分词问题的描述为:给定一个句子(字串),如:

如何对这个句子进行分词(词串)才是最靠谱的。例如:

1. 南京市/长江大桥

2. 南京/市长/江大桥

这两个分词,到底哪个更靠谱呢?

我们用贝叶斯公式来形式化地描述这个问题,令 X 为字串(句子),Y 为词串(一种特定的分词假设)。我们就是需要寻找使得 P(Y|X) 最大的 Y ,使用一次贝叶斯可得:

用自然语言来说就是 这种分词方式(词串)的可能性 乘以 这个词串生成我们的句子的可能性。我们进一步容易看到:可以近似地将 P(X|Y) 看作是恒等于 1 的,因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的(只需把分词之间的分界符号扔掉即可)。于是,我们就变成了去最大化 P(Y) ,也就是寻找一种分词使得这个词串(句子)的概率最大化。而如何计算一个词串:

于是我们可以通过一系列的条件概率(右式)的乘积来求整个联合概率。然而不幸的是随着条件数目的增加(P(Wn|Wn-1,Wn-2,..,W1) 的条件有 n-1 个),也会越来越严重,即便语料库再大也无法统计出一个靠谱的 P(Wn|Wn-1,Wn-2,..,W1) 来。为了缓解这个问题,计算机科学家们一如既往地使用了“天真”假设:我们假设句子中一个词的出现概率只依赖于它前面的有限的 k 个词(k 一般不超过 3,如果只依赖于前面的一个词,就是2元(2-gram),同理有 3-gram 、 4-gram 等),这个就是所谓的“有限地平线”假设。虽然这个假设很傻很天真,但结果却表明它的结果往往是很好很强大的,后面要提到的朴素贝叶斯方法使用的假设跟这个精神上是完全一致的,我们会解释为什么像这样一个天真的假设能够得到强大的结果。目前我们只要知道,有了这个假设,刚才那个乘积就可以改写成: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) .. (假设每个词只依赖于它前面的一个词)。而统计 P(W2|W1) 就不再受到数据稀疏问题的困扰了。对于我们上面提到的例子“南京市长江大桥”,如果按照自左到右的贪婪方法分词的话,结果就成了“南京市长/江大桥”。但如果按照贝叶斯分词的话(假设使用 3-gram),由于“南京市长”和“江大桥”在语料库中一起出现的频率为 0 ,这个整句的概率便会被判定为 0 。 从而使得“南京市/长江大桥”这一分词方式胜出。

一点注记:有人可能会疑惑,难道我们人类也是基于这些天真的假设来进行推理的?不是的。事实上,统计机器学习方法所统计的东西往往处于相当表层(shallow)的层面,在这个层面机器学习只能看到一些非常表面的现象,有一点科学研究的理念的人都知道:越是往表层去,世界就越是繁复多变。从机器学习的角度来说,特征(feature)就越多,成百上千维度都是可能的。特征一多,好了,就产生了,数据就稀疏得要命,不够用了。而我们人类的观察水平显然比机器学习的观察水平要更深入一些,为了避免数据稀疏我们不断地发明各种装置(最典型就是显微镜),来帮助我们直接深入到更深层的事物层面去观察更本质的联系,而不是在浅层对表面现象作统计归纳。举一个简单的例子,通过对大规模语料库的统计,机器学习可能会发现这样一个规律:所有的“他”都是不会穿 bra 的,所有的“她”则都是穿的。然而,作为一个男人,却完全无需进行任何统计学习,因为深层的规律就决定了我们根本不会去穿 bra 。至于机器学习能不能完成后者(像人类那样的)这个推理,则是人工智能领域的经典问题。至少在那之前,()的说法。

统计机器翻译因为其简单,自动(无需手动添加规则),迅速成为了机器翻译的事实标准。而统计机器翻译的核心算法也是使用的贝叶斯方法。

问题是什么?统计机器翻译的问题可以描述为:给定一个句子 e ,它的可能的外文翻译 f 中哪个是最靠谱的。即我们需要计算:P(f|e) 。一旦出现条件概率贝叶斯总是挺身而出:

这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子 e 的外文句子 f 将会胜出。我们只需简单统计(结合上面提到的 N-Gram 语言模型)就可以统计任意一个外文句子 f 的出现概率。然而 P(e|f) 却不是那么好求的,给定一个候选的外文局子 f ,它生成(或对应)句子 e 的概率是多大呢?我们需要定义什么叫 “对应”,这里需要用到一个分词对齐的平行语料库,有兴趣的可以参考

就是其中的一种(最靠谱的)对齐,为什么要对齐,是因为一旦对齐了之后,就可以容易地计算在这个对齐之下的 P(e|f) 是多大,只需计算:

然后我们遍历所有的对齐方式,并将每种对齐方式之下的翻译概率 ∑ 求和。便可以获得整个的 P(e|f) 是多大。

一点注记:还是那个问题:难道我们人类真的是用这种方式进行翻译的?highly unlikely 。这种计算复杂性非常高的东西连三位数乘法都搞不定的我们才不会笨到去使用呢。根据认知神经科学的认识,很可能我们是先从句子到语义(一个逐层往上(bottom-up)抽象的 folding 过程),然后从语义根据另一门语言的语法展开为另一门语言(一个逐层往下(top-down)的具体化 unfolding 过程)。如何可计算地实现这个过程,目前仍然是个难题。(我们看到很多地方都有 bottom-up/top-down 这样一个对称的过程,实际上有人猜测这正是生物神经网络原则上的运作方式,对视觉神经系统的研究尤其证明了这一点,Hawkins 在 《On

贝叶斯方法是一个非常 general 的推理框架。其核心理念可以描述成:Analysis by Synthesis (通过合成来分析)。06 年的认知科学新进展上有一篇 paper 就是讲用贝叶斯推理来解释视觉识别的,一图胜千言,下图就是摘自这篇 paper :

首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是 E 还是 F 还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。

是一种问题,问题描述:给你一堆数据点,让你将它们最靠谱地分成一堆一堆的。聚类算法很多,不同的算法适应于不同的问题,这里仅介绍一个基于模型的聚类,该聚类算法对数据点的假设是,这些数据点分别是围绕 K 个核心的 K 个正态分布源所随机生成的,使用 Han JiaWei 的《Data Ming: Concepts and Techniques》中的图:

图中有两个正态分布核心,生成了大致两堆点。我们的聚类算法就是需要根据给出来的那些点,算出这两个正态分布的核心在什么位置,以及分布的参数是多少。这很明显又是一个贝叶斯问题,但这次不同的是,答案是连续的且有无穷多种可能性,更糟的是,只有当我们知道了哪些点属于同一个正态分布圈的时候才能够对这个分布的参数作出靠谱的预测,现在两堆点混在一块我们又不知道哪些点属于第一个正态分布,哪些属于第二个。反过来,只有当我们对分布的参数作出了靠谱的预测时候,才能知道到底哪些点属于第一个分布,那些点属于第二个分布。这就成了一个先有鸡还是先有蛋的问题了。为了解决这个循环依赖,总有一方要先打破僵局,说,不管了,我先随便整一个值出来,看你怎么变,然后我再根据你的变化调整我的变化,然后如此迭代着不断互相推导,最终收敛到一个解。这就是

EM 的意思是“Expectation-Maximazation”,在这个聚类问题里面,我们是先随便猜一下这两个正态分布的参数:如核心在什么地方,方差是多少。然后计算出每个数据点更可能属于第一个还是第二个正态分布圈,这个是属于 Expectation 一步。有了每个数据点的归属,我们就可以根据属于第一个分布的数据点来重新评估第一个分布的参数(从蛋再回到鸡),这个是 Maximazation 。如此往复,直到参数基本不再发生变化为止。这个迭代收敛过程中的贝叶斯方法在第二步,根据数据点求分布的参数上面。

学过线性代数的大概都知道经典的最小二乘方法来做线性回归。问题描述是:给定平面上 N 个点,(这里不妨假设我们想用一条直线来拟合这些点——可以看作是的特例,即允许误差的拟合),找出一条最佳描述了这些点的直线。

(即误差的平方和)最小,至于为什么是误差的平方和而不是误差的绝对值和,统计学上也没有什么好的解释。然而贝叶斯方法却能对此提供一个完美的解释。

我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测,所有纵坐标偏离 f(Xi) 的那些数据点都含有噪音,是噪音使得它们偏离了完美的一条直线,一个合理的假设就是偏离路线越远的概率越小,具体小多少,可以用一个正态分布曲线来模拟,这个分布曲线以直线对 Xi 给出的预测 f(Xi) 为中心,实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于

现在我们回到问题的贝叶斯方面,我们要想最大化的后验概率是:

又见贝叶斯!这里 h 就是指一条特定的直线,D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(D|h) 最大。很显然,P(h) 这个先验概率是均匀的,因为哪条直线也不比另一条更优越。所以我们只需要看 P(D|h) 这一项,这一项是指这条直线生成这些数据点的概率,刚才说过了,生成数据点 (Xi, Yi) 的概率为 EXP[-(ΔYi)^2] 乘以一个常数。而

朴素贝叶斯方法是一个很特别的方法,所以值得介绍一下。我们用朴素贝叶斯在垃圾邮件过滤中的应用来举例说明。

5.1 贝叶斯垃圾邮件过滤器

问题是什么?问题是,给定一封邮件,判定它是否属于垃圾邮件。按照先例,我们还是用 D 来表示这封邮件,注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件,h- 表示正常邮件。问题可以形式化地描述为求:

其中 P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的,只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。然而 P(D|h+) 却不容易求,因为 D 里面含有 N 个单词 d1, d2, d3, .. ,所以P(D|h+) = P(d1,d2,..,dn|h+) 。我们又一次遇到了数据稀疏性,为什么这么说呢?P(d1,d2,..,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!开玩笑,每封邮件都是不同的,世界上有无穷多封邮件。瞧,这就是数据稀疏性,因为可以肯定地说,你收集的训练数据库不管里面含了多少封邮件,也不可能找出一封跟目前这封一模一样的。结果呢?我们又该如何来计算 P(d1,d2,..,dn|h+) 呢?

这个单词在垃圾邮件中出现的频率即可。关于贝叶斯垃圾邮件过滤更多的内容可以参考,注意其中提到的其他资料。

一点注记:这里,为什么有这个数据稀疏问题,还是因为统计学习方法工作在浅层面,世界上的单词就算不再变多也是非常之多的,单词之间组成的句子也是变化多端,更不用说一篇文章了,文章数目则是无穷的,所以在这个层面作统计,肯定要被数据稀疏性困扰。我们要注意,虽然句子和文章的数目是无限的,然而就拿邮件来说,如果我们只关心邮件中句子的语义(进而更高抽象层面的“意图”(语义,意图如何可计算地定义出来是一个人工智能问题),在这个层面上可能性便大大缩减了,我们关心的抽象层面越高,可能性越小。单词集合和句子的对应是多对一的,句子和语义的对应又是多对一的,语义和意图的对应还是多对一的,这是个层级体系。神经科学的发现也表明大脑的皮层大致有一种层级结构,对应着越来越抽象的各个层面,至于如何具体实现一个可放在计算机内的大脑皮层,仍然是一个未解决问题,以上只是一个原则(principle)上的认识,只有当

5.2 为什么朴素贝叶斯方法令人诧异地好——一个理论解释

朴素贝叶斯方法的条件独立假设看上去很傻很天真,为什么结果却很好很强大呢?就拿一个句子来说,我们怎么能鲁莽地声称其中任意一个单词出现的概率只受到它前面的 3 个或 4 个单词的影响呢?别说 3 个,有时候一个单词的概率受到上一句话的影响都是绝对可能的。那么为什么这个假设在实际中的表现却不比决策树差呢?有人对此提出了一个理论解释,并且建立了什么时候朴素贝叶斯的效果能够等价于非朴素贝叶斯的充要条件,这个解释的核心就是:有些独立假设在各个分类之间的分布都是均匀的所以对于似然的相对大小不产生影响;即便不是如此,也有很大的可能性各个独立假设所产生的消极影响或积极影响互相抵消,最终导致结果受到的影响不大。具体的数学公式请参考 。

是现代贝叶斯方法的标志性建筑之一。前面讲的贝叶斯,都是在同一个事物层次上的各个因素之间进行统计推理,然而层次贝叶斯模型在哲学上更深入了一层,将这些因素背后的因素(原因的原因,原因的原因,以此类推)囊括进来。一个教科书例子是:如果你手头有 N 枚硬币,它们是同一个工厂铸出来的,你把每一枚硬币掷出一个结果,然后基于这 N 个结果对这 N 个硬币的 θ (出现正面的比例)进行推理。如果根据最大似然,每个硬币的 θ 不是 1 就是 0 (这个前面提到过的),然而我们又知道每个硬币的 p(θ) 是有一个先验概率的,也许是一个 beta 分布。也就是说,每个硬币的实际投掷结果 Xi 服从以 θ 为中心的正态分布,而 θ 又服从另一个以 Ψ 为中心的 beta 分布。层层因果关系就体现出来了。进而 Ψ 还可能依赖于因果链上更上层的因素,以此类推。

吴军在数学之美系列里面介绍的(HMM)就是一个简单的层级贝叶斯模型:

那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做“隐含马尔可夫模型”(Hidden Markov Model)来解决这些问题。以语音识别为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据这组信号推测出发送的句子 s1,s2,s3。显然,我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,…的情况下,求使得条件概率

吴军的文章中这里省掉没说的是,s1, s2, s3, .. 这个句子的生成概率同时又取决于一组参数,这组参数决定了 s1, s2, s3, .. 这个马可夫链的先验生成概率。如果我们将这组参数记为 λ ,我们实际上要求的是:P(S|O, λ) (其中 O 表示 o1,o2,o3,.. ,S表示 s1,s2,s3,..)

当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成

这里,s1,s2,s3…本身可以一个句子的可能性其实就取决于参数 λ ,也就是语言模型。所以简而言之就是发出的语音信号取决于背后实际想发出的句子,而背后实际想发出的句子本身的独立先验概率又取决于语言模型。

吴军已经对贝叶斯网络作了科普,请直接跳转到。更详细的理论参考所有机器学习的书上都有。

原标题:钱颖一把几十年教育经验用2万字写了出来:中国如何破解钱学森之问?

中国教育的长处和短处可能正好与美国教育的长处和短处相反。虽然我们重视知识,但是我们存在另外的、严重的问题。那就是我们太简单地把教育等同于知识。

来源:清华大学教育研究

教育的价值不仅体现在学生的知识掌握上,更体现在学生的思维发展上,其中的核心是批判性思维与创造性思维教育。

在理念上,批判性思维可分为能力(skillsets)和心智模式(mindsets)两个层次,而创造性思维可看做由知识、好奇心和想象力、价值取向三个因素决定。

在实践上,清华大学经济管理学院本科批判性思维教育的9年历程和清华x-lab在本科和研究生阶段创意创新创业教育的5年探索,提供了从理念到行动的两个案例。

本文还评述了技术进步的影响,并对在中国推动批判性思维与创造性思维教育提出若干建议。

一、教育的价值:从知识到思维

长期以来,我们对教育的重视,主要体现在对教育价值的认知是知识获取(从学生角度)和知识传授(从教师角度)。目前的应试教育,更是一个以知识为中心的教育,因为考试的基本目的就是测试学生对知识的掌握。

学生的职责是学习知识,教师的职责是传授知识,这些似乎都是天经地义的。中国小孩回到家里,家长通常问的问题的是今天你学了什么新知识?具有工作经验的人再回到学校学习,目的是为了更新知识。

知识有各种各样,包括基础知识、专业知识、前沿知识,即使是在通识教育中,关注的也是通识知识。在现代科学出现之前,知识主要是人文知识和实用知识。在现代科学出现之后、知识更多体现为自然科学和社会科学知识以及各类应用知识。在应试教育中,知识被浓缩为"知识点",就是那些关键概念和公式,那些在考题中会出现,在评卷中评审人会去努力寻找的关键词或关键内容。

事实上,知识是现代性的重要特征。培根的"知识就是力量"这句名言,说明了在现代社会中,知识是改变世界的力量。在中国,知识又与人的命运联系在一起。中国历史上没有像其他一些国家那样的社会等级制度,而是在科举制度面前人人平等。中国现在的高考制度就是通过学习知识改变命运的重要渠道。"知识改变命运"就是这样把知识与个人发展前途联系在一起。

在当今中国,以知识为中心的教育观念派生出一系列学生学习知识的特点和方法。首先是学生学习知识投入的时间多。研究发现,中国学生比美国学生用在学习上的时间平均每天多两个小时。当然,这会产生挤出效应,由于用在学习知识上的时间多了,投入到其他方面的时间就少了。

学生投入学习时间多,不仅反映在校内学业负担重,而且也反映在课外辅导多。最近教育部门试图减少学生校内学业负担,但随之而来的是各种校外辅导班的增多。这在客观上推动了教育辅导产业,一些这类公司上市了,并且有很高的市值。这都说明了市场对课外辅导的需求。

在以知识为中心的教育观念下,学生为掌握知识点而形成了一系列行之有效的学习方法。对于文科题目,“死记硬背”是传统方式。而理科题目,当然可以死记硬背公式和概念,但是解题就不容易了。不过,学生们也开发出一种方法,就是通过"大量做题"来识别题型,记住解题技巧,最终达到解题的目的。俗话说熟能生巧,题目做得足够多,以至于“刷题”把能够找到的题目都做一遍,这样在考试中遇上做过的类似题目或题型的可能性就大。

在培养拔尖创新人才上,一种经常使用的方法是"因材施教"。因材施教通常也是以知识为核心的,表现在对成绩好的学生给予特殊培养,主要体现在“学早一点”、“学多一点”、“学深一点”。这里仍然是对知识而言的。

我在美国大学任教经历中发现,中国留学生往往在硕士和博士头两年的考试中领先全班。因为他们学得早、学得多、学得深。但是在此之后,当到达了知识前沿时,在需要自己探索新知识的时候,中国学生的通常优势就没有了。这似乎同时印证了"因材施教"方法的长处和短处。

这种对知识点掌握的重视不是完全没有意义的。事实上,"知识就是力量"本身是有道理的。知识确实可以转化为生产力,这正是现代社会的特征。在经济增长理论中,人力资本对经济增长有重要作用,而教育就是人力资本的决定性因素。

中国的中学生在国际测评PISA中表现优秀,以至于近期一些发达国家聘请中国中学教师去教课。大量中国留学生被发达国家大学接受读硕士和博士。所有这些都说明中国教育有它的长处。而在一些发达国家(比如美国),在近期被人诟病的教育中的一个问题,正是学生学习的知识不够,这里的知识就是指各种学科的知识。

不过,中国教育的长处和短处可能正好与美国教育的长处和短处相反。虽然我们重视知识,但是我们存在另外的、严重的问题。那就是我们太简单地把教育等同于知识。

他讲这句话的背景是这样的。1921年,爱因斯坦获得诺贝尔物理学奖后第一次访问美国。当他到达波士顿后,一个记者问他"声音的速度是多少"。他当然知道,但是他拒绝回答。他说你可以在任何一本物理学教科书上找到答案,没有必要记住。随后就讲了上述这句名言。

爱因斯坦这里说的事实就是知识。知识当然重要,但是知识不是教育的全部内容。他在这里提出了有关教育价值的一个新命题,就是教育的价值不是记住很多知识,而是训练大脑的思维。这就提出了教育价值超越知识的另一个维度——思维。而恰恰是在这个维度上,我们中国教育是薄弱的。学生的思维发展正是我们教育中的短板。

思维或思考(thinking)通常被称为能力。能力有别于知识,这样便于区分两者。但是在本文中,思维或思考不仅是一种能力,也是一种价值取向。所以,本文不局限于讨论思维能力,因为它包含超越能力的部分。

本文将集中讨论两种重要的思维——批判性思维和创造性思维。批判性思维与创造性思维有交集。但是并不完全相同。批判性思维(critical thinking)教育是一个目前在世界范围的大学教育中普遍受到重视的话题,而创造性思维(creative thinking)教育则是一个在关注创新驱动发展的国家内更加受到重视的话题。

在大学中,致力于本科通识教育的人更加关注批判性思维教育。在研究型大学、研究机构、企业、政府中,关注创新的人则更加关注创造性思维教育。我的看法是,这两者之间有密切关联,放在一起讨论是有意义的,特别是对于研究型大学而言。

这本书基于他对哈佛大学本科教育的观察和反思,对美国大学本科教育提出诸多批评和改革建议。在我看来,他在书中对美国大学生的批评也同样适用于中国大学生。

根据对哈佛学生的观察并且根据心理学的研究,博克在书中把大学本科生的思维模式分为三个阶段。

第一阶段是"Ignorant Certainty",即"无知的确定性"。这是一个盲目相信的阶段。刚从高中毕业进人大学的新生,往往都处于这个阶段。在中学,学生认为学到的知识是千真万确的,这个确定性来源于学生知识的有限性,因此是一种无知下的确定性。

第二阶段是"lntelligent Confusion",即"有知的混乱性"。这是一个相对主义阶段。学生上了大学之后,接触到各种各样的知识,包括各种对立的学派。虽然学生的知识增加了,但是他们往往感到各种说法似乎都有道理,"公说公有理,婆说婆有理",而无法判断出哪个说法更有道理。这就是一种相对主义。

博克观察到大多数本科生的思维水平都停留在第二阶段,只有少数学生的思维水平能够进人第三阶段,就是"Critical Thinking",即"批判性思维"阶段。这是思维成熟阶段。在这个阶段,学生可以在各种不同说法之间,通过分析、取证、推理等方式,作出判断,论说出哪一种说法更有说服力。

批判性思维是人的思维发展高级阶段,它有两个特征:第一,批判性思维首先善于对通常被接受的结论提出疑问和挑战,而不是无条件地接受专家和权威的结论;第二,批判性思维又是用分析性和建设性的论理方式对疑问和挑战提出解释并做出判断,而不是同样接受不同解释和判断。这两个特征正是分别针对"无知的确定性"和"有知的混乱性"的,因此批判性思维不同于这两种思维方式。

在这两个特征中,第一条是会质疑即提出疑问。能够提出问题并且善于提出问题是批判性思维的起点。据说犹太人小孩回到家里,家长不是问"你今天学了什么新知识",而是问"你今天提了什么新问题",甚至还要接着问"你提出的问题中有没有老师回答不出来的"?这就是批判性思维的起点。

第二条是在提出疑问之后,能够用有说服力的论证和推理给出解释和判断,包括新的、与众不同的解释和判断。

把这两个特征结合在一起,批判性思维就是以提出疑问为起点,以获取证据、分析推理为过程,以提出有说服力的解答为结果。在这个意义上,"批判性(critical)不是"批判"(criticism),因为"批判"总是否定的,而"批判性"则是指审辩式、思辨式的评判,多是建设性的。

从教育的角度来看,批判性思维可以分为两个层次。第一个层次是"能力"层次,学生应该获取批判性思维的能力(skillsets)。第二个层次是"心智模式"层次,学生应该获取批判性思维的心智模式(mindsets)。

首先,批判性思维的第一层次是一种能力,有别于知识。批判性思维能力不是指学科知识,而是一种超越学科,或是说适用于所有学科的一种思维能力,也称为可迁徙能力(transferable skills)。这种能力与形式逻辑和非形式逻辑以及统计推断有关。

批判性思维的能力层次是可训练的。在国内,讲授批判性思维课程教师的学科背景不少是逻辑学。批判性思维的教科书也大多围绕形式逻辑和非形式逻辑展开,也包括统计学内容。

与此相伴的是,批判性思维能力是可测试的。比如,美网ETS(教育考试服务中心)开发的HEIghten批判性思维测试题目就是一种测试。这套考题与ETS的GRE考题中的部分内容有类似之处,它们并不是考学科知识本身,而是测试学生的推理、判断能力。

ETS HEIfhten样品题目中有这样两道题,我们从中可以看到它们是如何测试批判性思维能力的。

题目一:下面是网上论坛中两人的一段对话:

Kate:Seti的诗"橡树"比较了橡树周期性脱树皮与作者自己生活中的各种经历。这首诗不可能是在1960年之前写的。在1960年之前,作者从来没有离开过她的故乡阿拉斯加,那里太冷,不可能有橡树生长。在1960年,Seti访问了澳大利亚,那里橡树十分普遍。所以,这首诗一定是在她访问澳大利亚期间或以后写的。

Miriam:但是Seti完全有可能不需要亲自观察到橡树脱树皮的过程,也能够了解橡树的这种现象。所以,她有可能在她职业生涯中的任何时间写这首诗,她的职业生涯开始于1960年之前。

问题:下面的哪种情况最准确地刻画了Miriam对Kate的反驳?

(A)它说明了Kate的论据假设了她要试图说明的观点。

(B)它从Kate在论说时提供的证据中推出了相反的结论。

(C)它拒绝了Kate的一个没有说出的假定,从而反驳了Kate的说法。

(D)它对Kate用以支持她的结论的一个论点提出了疑问。

正确的答案是(C)。这是因为支持Kate推理的一个没有说出的假定是一个人只有亲身访问澳大利亚后才能观察到橡树脱树皮这种现象,才能对它有所了解。当然这个假定不一定是对的。

题目二:对Longport镇居民的调查发现在过去的12个月中,在上继续教育的人中,修文学课的人数比修艺术课的人数要多。如果是这样的话,一定是有一些人修了多门艺术课,因为课程注册的数据显示,注册艺术课的人数超过注册文学课的人数。

问题:以上的推理取决于下面的哪一个假定?

(A)非Longport镇的居民中没有很多人注册艺术课。

(B)文学课堂数不多于艺术课堂数。

(C)在过去的12个月中,很少Longport镇的居民既选了艺术课又选了文学课。

(D)在过去的12个月中,多数Longport镇的居民选了至少一门艺术课。

正确的答案是(A)。这是因为在没有太多从Longport镇以外来的人注册艺术课的条件下,从Longport镇上修文学课的人数比修艺术课的人数多这个事实出发,可以推出一些人修了多门艺术课。

以上两道题目旨在发现隐含的未说出的假定和找出推理成立的必要条件,这些逻辑相关问题都是批判性思维过程中必不可少的环节。这种测试对于提高学生的批判性思维能力有所帮助。但是,这种测试也有问题:因为它是可训练的,所以测试成绩好可能是因为学生会考试。在以往的测试中发现,批判性思维的测试成绩与数学、物理等学科的测试成绩有相关性,就说明了这个问题。

2018年中国高考全国II卷中的作文题,也是一个测试批判性思维能力的题目。

题目:根据以下材料写一篇作文。“二次大战”期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家沃德力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。事实证明·沃德是正确的。

这是一个真实的故事。沃德(Abraham Wald)是哥伦比亚大学统计学教授,之前也是经济学教授。他是统计决策理论(startistical decision theory)和序贯分析(sequential analysis)的创始人之一。上面的故事是他在“二战”期间帮助美军分析的一个例子,它说明了统计分析中的“幸存者偏差”(survival bias)问题。

那就是我们只看到了那些能够飞回来的飞机,而看不到那些被击落而没能飞回来的飞机。所以,只是根据“幸存者”的数据做出的判断是不正确的。这是基于统计推断的思维,也是一种批判性思维能力。这种测试题超越传统的知识范围,应该说是有意义的。

批判性思维能力是可训练、可测试的。但是如果认为批判性思维只是这些内容,那就错了。批判性思维除了在能力层次之外还有一个更重要的层次,它是一种思维心态或思维习惯,称之为心智模式(mindset)。这个层次超越能力,是一个价值观或价值取向的层次。批判性思维不仅是一种能力,也是一种价值取向。

如果说批判性思维作为一种能力更多地是关于“如何思考”(how to think),那么批判性思维作为一种思维心态或思维习惯更多地是关于“思考什么”(what to think)和“问为什么”(ask the why question)。批判性思维的这个层次是引导人们有意识地打破思维“禁区”,走出思维“误区”,走进思维“盲区”。有关“how”方面的问题。多是技术层面,包括形式逻辑、非形式逻辑和统计推断的能力,是可以通过训练获取,也可以通过诸如ETS的考题来测试。而有关“what”和“why”方面的问题,则很难通过类似的方法学习,但是它也是可学习的,可以通过被感悟、被启发等方式学习。

所谓不变型心智模式就是用固定的、守旧的思维习惯去思考问题。而成长型心智模式就是一种开放式的思维习惯,不断拓宽思维范围,想以前没有想过的问题,同之前没有怀疑过的命题。这就不是“how”(如何)的范畴了,而是进人到“what”(什么)和“why”(为什么)的范畴。

应该说,中国的文化传统和教育传统在训练学生“how”(如何)方面见长。中国学生提出的问题,几乎所有都是关于“how”(如何)的,但很少是关于“why”(为何)的。我们往往满足于知其然,不知其所以然的一知半解,但不求甚解。

批判性思维除了要求在逻辑上、统计上不犯错误之外,更重要的是要想别人没有想过的问题,问别人没有问过的问题,并且要刨根问底,探究深层次、根本性的原因。

在批判性思维教育上,从能力层次人手是自然的,也是需要的。不过,这不是全部。批判性思维教育不仅要提高学生的思维能力,也要塑造学生的价值观和人生态度。

批判性思维教育是一个普遍的教育问题,而创造性思维教育更多地为研究型大学、科研机构和经济发展到一定阶段的国家所关注。

经过改革开放40年,中国经济已经由高增长进入到高质量发展阶段。高质量发展的供给侧要依靠创新驱动,而创新最重要的要素是具有创造力的人才,即创造性人才。

中国教育的优势表现在学生整体水平比较高,但是中国教育的弱点是突出人才太少。我曾经用一个统计学术语刻画这个特征:“均值高”、“方差小”,含义是,学生的平均水平较高,但是其中的拔尖人才较少。

这个教育特征对经济发展有双重含义:在经济发展初期的模仿追赶阶段,它并不是坏事,至是优势,因为比较整齐、平均水平比较高的人力资源有利于在已有技术条件下的执行和管理。但是,在经济发展的创新驱动阶段,缺少突出的、有创造力的人才,对经济发展会很不利。这就是为引么培养创造性人才在今日的中国受到前所未有重视的基本原因。

创新的核心是创造性人才,而创造性人才的核心是人的创造性思维。人的创造性思维是指新的思维、与众不同的思维,它是产生创造力的源泉。创造性思维与批判性思维相关,但不完全相同,因为创造力的核心是“新”,发现新规律,发明新产品,运用新方法,解释或解决新问题。

2005年,钱学森向温家宝总理提出一个问题,后来被称为“钱学森之问”:为什么我们的学校总是培养不出杰出人才?虽然他当时只是针对科学研究而言,但这个问题可以推广到很多领域,比“钱学森之问”更为一般、更具准确性的问题是:相对于我们的人口规模,相对于我们的经济总量,相对于我们的教育投入,从我们的教育体制中走出来的具有创造力的人才,不是没有,为什么这么少?

中国是世界上人口最多的国家,占全球人口的1/5,是美国人口的4.5倍,日本人口的11倍。中国的经济总量(GDP)占全球总量的1/7,是美国GDP的60%,日本GDP的2.5倍。中国也是世界上在校学生最多的国家。2016年,中国高等教育在学规模有3600多万,高校在校生2700多万,高校每年录取本科专科学生700多万,均为全球第一。相对于这样巨大的人口规模、经济规模和受教育者规模,无论是科学技术成就、人文艺术贡献、还是新产品新品牌新商业模式,在中国产生的创新不是没有,确实太少。

近年来,我们也有不小进步。以自然科学研究为例。据《自然》杂志引用的数据,中国发表的研究论文的数量在2005年占全球总量的13%,到2015年增加到占全球总量的20%,仅次于美国。虽然论文数量已居世界第二,但是科学研究的突出成果仍然不多。

日本从2000年到2016年间,共有17人获得诺贝尔自然科学奖,平均每年1个。当然,中国按照人均GDP的发展水平目前还只相当于日本的70年代,不过日本在1980年之前已有3人获诺贝尔科学奖,80年代和90年代也有3人获奖。而中国到目前为止只有1人获诺贝尔科学奖,况且中国的人口是日本人口的11倍。所以,即使拿我们的现在与日本的70年代比,并考虑到我们的人口规模,从诺贝尔科学奖这个指标来看,我们的差距也是明显的。

数学的菲尔兹奖是另一个指标。中国内地至今还没有产生过获得菲尔兹奖的数学家。中国香港、越南、伊朗都产生过获得菲尔兹奖的数学家。我们当然不能以诺贝尔奖或菲尔兹奖为唯一指标,但是它们有标志性。“钱学森之问”是一个值得重视和思考的问题。

值得探讨的问题是,我们缺乏创造性人才的原因是什么?具有创造性思维的人才通常具有哪些要素?我在这里提出一个关于创造性思维的三因素假说:创造性思维由知识、好奇心和想象力、价值取向三个因素决定。

创造性思维首先来源于知识。这似乎没有争议。不过,对知识的界定需要更多思考。我们说的知识通常指学科和领域的专业知识。但是,知识也应该包括跨学科知识、跨领域知识、跨界知识,而这些正是我们的薄弱环节。

创造力多产生于学科交叉和融合。《史蒂夫·乔布斯传》的作者艾萨克森(Walter Isaacson)把乔布斯(Steve Jobs)描写为“站在科学与艺术之间”的企业家,是指科学与艺术的跨界。马斯克(Elon Musk)的本科专业是商业管理,同时修物理学第二学位,而物理学对他的创新创业有很大影响,这是科学与商业的跨界。所以,即使是在知识层面,我们也需要改革,要超越狭隘的专业知识的范围,更多地强调跨学科和跨界知识。

所以我对“钱学森之问”的第一个回答是:我们的教育体制中培养的学生缺乏创造性人才的第一个原因是学生的知识结构有问题。我们的学生过多局限于专业知识,而缺乏跨学科、跨领域、跨界知识,而这些往往是具有创造力的人才的特征。

创造性思维的第二个来源是好奇心和想象力。十几年前,清华大学物理系邀请了四位诺贝尔奖获得者来访。在探讨他们为什么取得科学成就时,清华学生提出的词是基础好、数学好、动手能力强、勤奋、努力等。然而,这四个人回答是一样的,不是这几个词中的任何一个,而是说好奇心最重要。

他在这里讲的好奇心和想象力,是超出知识以外的因素,这正是在我们以知识为中心的教育中不受重视的方面。

知识通常是随着受教育的增多而增多。经济学家都是用劳动者受教育年限来度量“人力资本”,并以此测算它对经济增长的贡献。但是,好奇心和想象力与受教育年限的关系就不像知识与受教育年限的关系那么简单了,非常取决于教育环境和教育方法。

我们有理由相信,儿童时期的好奇心和想象力特别强。但是随着受教育的增多,好奇心和想象力很有可能会递减。这是因为,知识体系都是有框架、有假定的,好奇心和想象力往往会挑战这些假定,批评现有框架。当然这些批评在绝大多数情况下并不正确,所以会被否定,但是这在客观上就产生了压制和否定好奇心和想象力的效果。

在我们的应试教育下,情况会更糟。当学生学习的唯一目的是获得好成绩,当教师教书的唯一目标是传授标准答案,那么很可能的结果就是,受教育年限越长,教师和学生越努力,虽然学生的知识增长了,知识点掌握多了,但是他们的好奇心和想象力却被扼杀得越系统、越彻底,结果是好奇心和想象力保留得越少。

如果创造性思维是知识与好奇心和想象力的乘积:创造性思维=知识x好奇心和想象力,那么,随着受教育时间的增加,前者在增加,而后者在减少,作为两者乘积的创造性思维就有可能随着受教育的时间增加先是增加,到了一定程度之后会减少,形成一个倒U形状,而非单纯上升的形状,如图1所示。

这就形成了创造性人才教育上的一个悖论:更多的教育一方面有助于增加知识而提高创造力,另一方面又因减少好奇心和想象力而减少创造力。这两种力量的合力使得判断教育对创造性人才产生的作用变得不那么确定,但是却能为解释一些辍学大学生很有创造力提供了空间。

如果以上分析是对的,那么我对“饯学森之问”的第二个回答是:不是我们的学校培养不出杰出人才,而是我们的学校在增加学生知识的同时,有意无意地减少了创造性人才的必要因素——好奇心和想象力。

创造性思维的第三个来源与价值取向有关,也就是与追求创新的动机和动力有关。当前影响创造性人才培养的一个突出问题是普遍的短期功利主义,具体表现为急功近利、追求短期效果的浮躁心态和浮夸环境。个人和社会都想在创新上有“立竿见影”的效果,就是插个杆子,太阳一照,马上就能看到影子。各种评价机制多奖励可度量、可量化的成果,但是有创造性和长远的成果往往难度量、难量化。短期功利主义也是创新中的“同质性”和创业中的“羊群效应”的深层次原因。

讲到创新的动机,还是需要引用爱因斯坦的话。爱因斯坦在100年前的1918年4月在柏林物理学会举办的普朗克60岁生日庆祝会上有一篇著名的讲话。在这篇题为《探索的动机》的讲话中他说:在科学的庙堂里有各式各样的人,他们探索科学的动机各不相同。有的是为了智力上的快感,有的是为了纯粹功利的目的,他们对建设科学殿堂有过很大的甚至是主要的贡献。但是科学殿堂的根基是靠另一种人而存在。他们总想以最适当的方式来画出一幅简化的和易领悟的世界图像,他们每天的努力并非来自深思熟虑的意向或计划,而是直接来自激情。

爱因斯坦说普朗克是这样的人。爱因斯坦自己也是这样的人。爱因斯坦的信念是“简洁思维”,他相信世界是可以被简洁的理论解释,并可以用简洁的公式表述。

it.)在他看来,科学研究不是为了智力上的快感,不是为了功利的目的,而是想以最适当的方式来画出一幅简化的和易领悟的世界图像。所以,他的创造性的动力并非来自深思熟虑的意向或计划,而是来自向往“简洁思维”的激情。

乔布斯的创新也是来自一种激情,他的信念是“不同思维”。面对IBM这样的大公司在计算机领域的霸主地位,乔布斯相信我要与你不同。长期以来,IBM的座右铭是其创始人沃森(Thomas Watson)提出的“Think”(思维),这就是ThinPad名称的来源。

1997年,当乔布斯重返苹果时,公司正处于低谷。他为苹果公司精心设计了一个划时代的广告“献给疯狂的人”(To the Crazy Ones)。在展示出包括爱因斯坦、爱迪生、毕加索等杰出人物(“疯狂的人”)之后,广告推出的主题是苹果公司向这些人致意,与他们为伍,并针对IBM的“Think”推出苹果公司与这些“疯狂的人”的一个共同理念,就是“Think diffcrent”,即“不同思维”。正是这个“不同思维”,成就了苹果公司贡献给世界的一系列革命性的新产品。

一般来说,创新的动机有三个层次,分别代表了三种价值取向:短期功利主义、长期功利主义、内在价值的非功利主义,每一个后者都比前者有更高的追求。

具体到当前情况,对短期功利主义者而言,创新是为了发论文、申请专利、公司上市,这些能够在短期带来奖励的结果。对长期功利主义者而言,创新是为了填补空白、争国内一流、创世界一流,这些需要长期才能见到成效的结果。而对内在价值的非功利主义者而言,创新是由于一种内在动力,而不是为了个人的回报和社会的奖赏,是为了追求真理、改变世界、让人更幸福。这种内在价值是一种心态,一种永不满足于现状的渴望,一种发自内心、不可抑制的激情。

如果创造性思维是知识、好奇心和想象力、价值取向三者的乘积:创造性思维=知识x好奇心和想象力x价值取向,那么,在这三种价值取向下人的创新动机不同,所产生的创造力也不同,如图2所示。

我们的现实情况是,具备第一类动机的人很多,具备第二类动机的人也有,但具备第三类动机的人就寥寥无几了。具备第一类动机的人,虽然也能出创新成果,但是不一定有太多创造性,因为太急功近利。具备第二类动机的人比第一类具有更加长远的目标,可以作出创造性贡献、葚至开创性贡献。但是,这还不是创新动机的最高境界。诸如普朗克、爱因斯坦、乔布斯这样的科学家和企业家,他们具有第三类动机,是最高的境界。科学和社会的殿堂中如果没有他们,就不成其为殿堂。

我们之所以缺乏创造性人才,除了知识结构问题和缺乏好奇心和想象力之外,就是在价值取向上太急功近利,太功利主义。急于求成的心态,成雄败寇的价值观,导致的是抄袭、复制,而不大可能出现真正的创新,更不可能出现颠覆性创新、革命性创新。

所以我对“钱学森之问”的第三个回答是我们的价值取向出了问题:不仅是学校,而且整个社会都太急功近利、太功利。

与此成为鲜明对比的另一个极端是科学的发源地古希腊。古希腊哲学和科学的产生是最为纯粹地基于人们对自然现象和社会现象所表现出来的困惑和好奇,以及感受到自己的无知。在古希腊,求知并非为了实用的目的,而是为了摆脱无知,为求知识而求知识。正是古希腊的那种对智慧的纯粹的热爱,那种完全的非功利主义、不追求任何有用的回报的价值取向,才成就了它辉煌的哲学和科学。当然现代社会的情况不同于古希腊,但是我们仍然可以从历史中受到启发。

四、批判性思维教育:清华经管学院本科教育改革九年历程

清华经管学院是清华大学的一个学院,学科覆盖2个学科门类下的4个一级学科:经济学门类下的理论经济学和应用经济学、管理学门类下的工商管理和管理科学与工程。清华大学每年招收3300名左右本科生,其中经管学院招收200名左右本科生,文理兼招。学院本科共有3个专业:经济与金融(国际班)、会计学、信息管理与信息系统。按照高考成绩衡量,清华经管学院可以说是集中了全国最优秀的生源。

在十年前的学年,学院针对本科教育改革进行了一年的调研和讨论。清华大学积极支持学院的改革,分管校领导在2009年春季学期把经管学院列为全校本科教育改革试点学院,先行尝试本科教育改革。我在2011年《清华大学教育研究》上发表的《论大学本科教育改革》一文对清华经管学院当时的本科教育改革思路有系统介绍。

经管学院从2009年秋季学期开始在2009级本科生中实施新的本科培养方案。这个方案的突出点就是把本科教育从知识层面扩大到能力层面和价值层面。为此,学院提出了“价值塑造、能力培养、知识获取”的“三位一体”的教育理念。清华大学在2014年提出的教育40条中,把这个“三位一体”作为整个清华大学的教育理念。

新的本科培养方案有三项具体改革措施。除了实施作为本科教育基础的通识教育和促进个性发展的三个方向(学术、创业、领导力)的“优秀人才培养计划”两项之外,就是推动批判性思维教育。学院把批判性思维教育作为本科教育改革的重要抓手、把批判性思维教育作为通识教育的重要组成,把批判性思维教育贯穿于本科教育的全过程。

学院的本科教育改革以批判性思维教育为抓手是有深到思考的,本科教育既有通识教育与专业教育两个方面,也有通识教育和个性发展两个维度。如何把这两个方面和两个维度结合起来呢?学院的思路是通过批判性思维教育。批判性思维教育是融合通识教育与专业教育的粘合剂,批判性思维教育也是连接通识教育与个性发展的桥梁。批判性思维教育具有跨通识教育、专业教育、个性发展的一般性特征。学院把批判性思维教育上升到这样的一个高度来认识。这是一个新认识。

从2009年秋季学期开始到2018年春季学期结束,新的本科培养方案,特别是批判性思维教育,在清华经管学院已经实践9年。在此期间,学院从未停止过总结和反思批判性思维教育的进展情况。

2014年春季学期,在新的培养方案实施5年之际,学院总结本科教育改革的阶段性成果,并以“通识教育与个性发展相结合——经济管理本科教育改革的理念与实践”为题申请教育成果奖。该申请在同年秋季学期获得每四年评选一次的国家级教育成果一等奖。

在2016年秋季学期,在新的培养方案实施7年之际,学院组织了若干场回顾与反思研讨会。在2018年春季学期,在批判性思维教育实施9年之际,学院再次进行总结和反思。这期间,我作为清华大学第25次教育研讨会通识教育组联席组长,在讨论会上介绍经管学院的情况,并在学校层面推动批判性思维教育。

在这些总结和反思中很重要的一次是学院在2016年11月25日组织的批判性思维教育专场研讨会。这个研讨会由学院院长、分管副院长、教学办公室老师、授课教师、学生、校友参加,也邀请了来自大学教务处、教育研究院、新雅书院的老师参加。研讨会对相关课程进行评审,并根据发现的问题提出整改意见。

那时正值我的《大学的改革》两卷本出版,所以在这个会上印发了收入其中的我的10次讲话,从2009年8月27日在2009级本科生开学典礼上的讲话中第一次谈到批判性思维教育,到2015年8月20日在2015级本科生入学导向上的讲话。在研讨会上,我结合这10次讲话系统梳理了经管学院推动批判性思维教育的思路与历程,在肯定成绩的同时,不回避问题并直面挑战。

这次研讨会上学院决定与ETS合作,使用ETS HEIghten批判性思维测试。学院希望通过这个测试来评估各年级学生批判性思维能力在校期间的变化,特别是用来评估一些核心课程的直接影响,包括比较不同授课教师之间的差别。学院分别在2017年9月(秋季学期开始)和2018年1月(秋季学期结束)举行了两次测试。第一次测试共有393人参加,主要覆盖学院大一、大二学生。第二次测试共有151人参加,覆盖学院大二学生。从两次测试的比较中可以看出大二学生在2017年秋季学期学习有关批判性思维课程的效果以及不同授课教师的差别。

学院在推动批判性思维教育方面有两项具体行动,就是重点建设通识教育中的两门课程:《中文写作》和《批判性思维与道德推理》。

写作课,这是一门目前在国际高校,包括顶尖学府哈佛大学、普林斯顿大学开设的大一新生必修课。在哈佛,《英文写作》(Expository Writing)是对本科生要求的唯一一门必修课。按照哈佛的要求,写作课作为通识教育的一个重要内容,是培养学生批判性思维的重要方式之一。这门课旨在训练学生就一个主题正确地提出问题,找到强有力的论据,清晰有效表达出自己的观点,并能客观评估他人观点的能力,最终培养的是学生的理性思维和书面表达能力。这是从高中阶段的作文写作过渡到大学阶段的论说写作的必要训练。一手研究、文本细读、批判性思维是贯穿其中的教学方式。要达到训练目的,以哈佛大学为例,12人一个小班、一个学期要开设70多个课堂,两个学期方可覆盖每年入校的1600名学生。

清华经管学院从2009级本科生开始,把2学分的《中文写作》列为一年级必修课,学生可在大一的秋季学期或春季学期修。这是学院把批判性思维教育落地的第一门课程。《中文写作》课程内容重点是论说文写作,强调写作的说理性,把写作与批判性思维结合起来。写作为什么与批判性思维相关?原因是写不好,是因为想不清。同学们发现,《中文写作》课不单是技术性的写作技巧,而更加是批判性思维的书面呈现。一篇不佳的文章,或者是由于材料搜集不充分,或者是由于逻辑论述不严谨,或者是由于理论应用不恰当。写作的目的是使作者的论说有说服力,最终是要使读者读后信服。

《中文写作》的授课方式采取课堂讲授、小组讨论和“面批”三种形式。由于受师资所限,课堂在30人左右,与国外大学相比仍然偏大。小组讨论通常是5人左右的小组。“面批”环节是老师与学生一对一,老师当面批改学生写的文章并讲解其中的道理。学生写作的主题方向由老师确定,具体内容学生根据自己兴趣自由选择。实现小班授课,特别是个别指导,是相当花费时间的。仅“面批”一个环节,教师每次与每个学生30分钟沟通,如果每学期“面批”两次,仅一个课堂30人就需要30个小时工作量。

学生对《中文写作》课有不同程度的认可,取决于教师的授课效果和同学的投入程度。一位2017级本科生是某省文科状元,她的高考作文获得58分(满分60分),她在《中文写作》课上投入很多,她的期末文章是关于袖子形成中折射出的汉满蒙三族服饰文化的交融。为此她投入很多精力,做了细致的研究,才完成了写作。她感叹道:“高考写作是应试,不是为了探索、为了了解自己,不是自己与天地与古今中外的对话。现在,通过《中文写作》与《中文沟通》的学习,学习批判性思维,是一个内省的学习,是对自身的否定之否定,给自己的是一种修养。学到了不同沟通风格没有好坏,而是要认识自己,要将自己风格的发挥与情景进行匹配。无论是从对自己人生审视的角度还是对自己职业发展的角度,这两门课都是必备的。”

至今《中文写作》课在清华经管学院一直坚持开设了9年。2018年5月17日,在首场“清华名师教学讲坛”上,清华大学校长邱勇宣布,清华大学将在2018级新生中开设《写作与沟通》必修课程,计划到2020年,该课程将覆盖清华所有本科生。这说明了经管学院坚持9年的《中文写作》(以及《中文沟通》课)获得了学校的认可。由学校开设《写作与沟通》课也将缓解学院聘用相关教师的压力。

《批判性思维与道德推理》课是学院批判性思维教育落地的第二门课。它从2009级本科生开始成为一门3学分的必修课程,作为必修课它已经连续开设8年。在2011年5月18日,学院邀请了哈佛大学讲授《正义》课程的桑德尔(Michael Sandel)教授为首次成为必修课的这门课讲了一课。哈佛的《正义》课是单纯的道德推理课程,而《批判性思维与道德推理》则把批判性思维与伦理道德结合起来,是考虑到中国学生特点而设计的课程。如果没有批判性思维的基础,对道德相关问题只能做肤浅的判断,无法做有深度的道德推理。

开始时这门课安排在大二的春季学期,后来放到大二的秋季学期、从下一学年开始,这门课将放到大二的秋季和春季学期,学生可以选择。这门课程目前有3位教师,平均大约30人左右一个课堂。除了课堂讲授之外,还有小班讨论,大约15人一个小班。小班讨论由高年级曾经上过该课的学生担任“教员”(Teaching Fellow),独立讲授辅助材料并组织讨论。担任该课教员的学生普遍反映,担任教员的过程比之前的被动学习收获更大。

《批判性思维与道德推理》这门课是清华经管学院通识教育课程中最具创新,也是同学们评价最高的一门课。在这门课上,同学们学习经典著作,辩论热点问题,从提出疑问到收集证据,从推理论证到考察其他可能的解释。

这门课的英文名称是“Critical Thinking and Moral Rcasoning”,简称为“CTMR”。经管学院学生的一个口头禅是:你对这个问题CTMR过了吗?意思是你对这个问题是否做过不同的分析思考。CT(计算机断层扫描)和MR(磁共振成像)是两种医疗诊断设备。在清华经管学院,CTMR就是一种思维诊断方法或思维心态。现在,CTMR已经成为了清华经管学院的一张名片。

在每年的毕业季,我作为院长都会问经管学院本科毕业生们一个问题:四年中经管学院的哪门课对你们影响最大?我听到最多的回答是《批判性思维与道德推理》。同学们对这门课有很多正面的评价。

比如,2010级的一位同学说:“有的课能授人以知识,让人具备某种完成特定任务的能力。这种课给人的影响,只是局限在特定的领域。但更有一些课,它能够改变一个人的思维方式,提升一个人的思想能力。这样的课程,对人的影响便是一种全方位的提升。而这门《批判性思维与道德推理》便是这样一种课。”

2012级的一位同学说:“经管学院很培养人的批判性思维,正如很多人说经管上的最有意思和最难忘的课是CTMR。这课对求职、未来发展看不出什么影响,但对于我却是潜移默化的。它让我对自己身上发生的事情有比较理性的看法:完善权衡各种事情,做出最好的决定。这种思维和决策方式会帮助我在未来走得更顺和更安心。”

批判性思维教育不仅是这两门通识教育课程,还体现在学院的其他课程中。如果说《中文写作》和《批判性思维与道德推理》是人文类的课程,那么大一必修的《新生研讨课》和《经济学原理》这两门课则是社会科学类的课程,它们也是批判性思维教育的重要载体。

在清华大学,《新生研讨课》是一门大一学生的选修课。而经管学院则把《新生研讨课》列为大一学生的必修课。每年学院开设10多个不同课堂,15个人左右小班上课,学生根据自己的兴趣选择不同主题的课堂,课程以批判性讨论为主。这是用批判性思维来连接通识教育与个性发展的一个例子。

《经济学原理》课是经管学院的一门共同专业基础课,是用经济学的思维方式来分析经济问题以及更一般性的社会问题的导论课。我从2002年秋季学期开始与学院其他教师一起讲授《经济学原理》课,至今已经16年。这门课不用数学公式,特别强调经济学的基本思想和分析方法、对现实的观察以及经济学直觉,也就是有意识地用批判性思维来讲授。这是用批判性思维来融合通识教育与专业教育的一个例子。

批判性思维教育也同样体现在自然科学类课中。2018年春季学期,学院在通识教育课程的“物质科学”课程组中新增加了《物理学简史》课,在“生命科学”课程组中新增加了《生命科学简史》课。传统的《物理学导论》和《生命科学导论》课的重点是传授知识点,公式和实验细节是知识点的重要内容。知识点是科学发现的结果。

但是这两门科学史课程重点介绍重要科学发现的历史脉络,让同学们理解科学发现的过程,而科学发现的过程就是一个批判性思维的过程。比如《生命科学简史》课中讲免疫,不仅讲了从接种牛痘到发现青霉素的历史过程,还讲了疫苗引发的副作用,副作引起的疫苗抵制,抵制造成疾病的死灰复燃,以及由此产生的一系列社会问题和伦理道德问题。这其中就不乏批判性思维教育。这是学院在自然科学课程中融入批判性思维教育的尝试。

批判性思维教育还体现在其他教育环节中。举两个例子。学院在2016年春季学期邀请《从0到1》的作者蒂尔(Peter Thiel)先生讲授一门选修课《创办新企业》。事实上,他在课中并没有讲创办新企业的细节,而是特别强调“逆向思维”(contrarian thinking)在创办新企业中的重要性。他解释说,“逆向思维”并不是在多数人的想法前面加一个“负号”,而是要想别人没有思考过的维度,要思考别人还没有想到的领域。

比如,当别人都在讨论技术问题时,他就要提出商业模式问题;而当别人都在商业模式上纠缠的时候,他更多思考技术的可行性。这正是批判性思维。“逆向思维”可以说是蒂尔的心智模式。他的这种"“逆向思维”不仅使他在2004年成为facebook的第一个天使投资人,也使他在2016年美国大选中成为硅谷唯一支持特朗普的企业家和风险投资人。

另一个例子是我与特斯拉和SpaceX创始人、学院顾问委员会委员马斯克于2015年10月22日在清华经管学院的一场对话。马斯克在对话中反复强调“反直觉思维”(counter-intuitive thinking)和物理学“第一性原理”(first principles)对他的影响。他从量子力学中受到启发,在量子层面的物理规律与我们从宏观层面物理学中形成的直觉往往相反,却是正确的,因而悟出“反直觉思维”有意义。他又进一步推崇物理学“第一性原理思维”,就是一种刨根问底、追究最原始假设和最根本性规律的思维习惯,并以此对比人们通常使用的"类比"式思维习惯,在他看来这是一种"走捷径"的思维方式,这就是他的批判性思维,他说这种"反直觉思维"和"第一性原理思维"是他想建造可回收火箭这一想法的起点。

无论是蒂尔的"逆向思维",还是马斯克的"反直觉思维"。和"第一性原理思维",都是批判性思维,而且更多体现的是批判性思维的第二层次,即批判性思维的"心智模式"。显然,批判性思维的这个层次很难从通常的课程中学到,或用ETS的考题来测试。学院所做的是创造条件,邀请像蒂尔和马斯克这样的人来讲课和对话,让学生有机会从中获得感悟,并尝试去调整或改变自己的思维习惯和心智模式。

这两个例子还启示我们,批判性思维与创造性思维有着密切关联。蒂尔的"逆向思维"和马斯克的"反直觉思维"和"第一性原理思维",既是他们的批判性思维,也是他们的创造性思维,由此引发他们的创新创业。所以批判性思维教育与创造性思维教育可以,也应该结合在一起。

五、创意创新创业教育:清华x-lab五年探索

在经济管理学科领域,如何培养具有创造力的人才,这是所有经济管理学院(或管理学院和商学院)面临的挑战。在学术人才培养上,经济管理学科与自然科学、其他社会科学、人文学科面临的问题类似。已经有比较成熟的模式。但是,经济管理学院如何在本科和研究生(包括专业硕上)阶段培养在商界具有创造力的人才,并没有现成的模式可以遵循。

2011年5月11日,借中国MBA教育20周年之际,清华经管学院召开了一个由国内200多所管理学院和商学院院长参加的论坛,探讨管理教育的新方向。我在讲话中提出了三个新方向,即"领导力"、"企业家精神"和"体验式学习"。

这三条涵盖了两类问题,一类是教什么(what to teach),一类是如何教(How to teach)。"what"的问题是指教育内容的变化,我提出从过去的"商"(business)和"管理"(Man一agement)向今后的"领导力"Leadership)和"企业家精神"。(Entreprencurship)的转变。而"How"的问题是指教育方法的变化,即从过去的通过课堂讲授学习、案例教学学习,转变到今后的体验式学习、行动中学习。这两个转变的目的都是为了培养在商界具有创造力的人才。

这些年来,这个思路在清华经管学院逐渐变成了教育实践,其中一个标志性举措就是清华x-lab(清华x-空间)。经过近两年的筹备,在2013年4月2日清华经管学院联合清华大学十几个院系发起成立清华x-lab----一个创意创新创业的教育平台。它服务于清华全校的学生、校友、教师,并以学生的创造力教育为中心。

清华x-lab从一开始就得到清华大学领导的有力攴持,在2013年4月25日清华x-lab的启动仪式上,时任清华大学党委书记胡和平到场致辞。在2014年5月25日清华x-Lab,成立一周年暨首届清华大学"校长杯"创新挑战赛举办之际,时任清华大学校长陈吉宁到场点评并为获奖者颁奖。

清华X-lab的五年历程是一个探索创意创新创业教育新模式的过程,它打破了传统的商学院和管理学院的教育模式。围绕培养具有创造力的人才精心建设了三个平台:学生的教育平台、团队的培育平台、资源聚集和学科交叉的生态平台。

作为学生的教育平台,清华x-Lab先做了三件事:一是实施面向清华经管学院本科生的"优秀创业人才培养计划",每年录取15人;二是实施面向清华非经管学院本科生管理学第二学位的"创新创业领导力"方向,2018年有56人毕业;三是举办面向清华所有研究生的创新力提升证书项目,自2015年1月推出后已有556人参与。5年来,共有近3万人次清华学生和校友参加了清华x-lab组织的各类课程、讲座、训练营、实践活动。

作为团队的培育平台,清华x-lab注重体验式学习和早期创新创业团队的组成和培育,清华大学首个由校长冠名的、面向学生和校友的真实创新项目比赛——清华大学"校长杯"创新挑战赛在清华x一lab创建之初启动,到2018年已经举办到了第五届。5年来,在清华x-lab诞生了一批出众的创新创业团队。截至2017年底,共有1212个入驻创新创业团队,其中创办公司的有494家,获得融资的有159个,融资总额达到27亿元人民币。清华x-Lab培育的创新创业团队还在国内外大赛中多次获奖。

作为资源聚集和学科交叉的生态平台,在清华x-Lab创办之初,一批清华校友率先成为驻校天使投贤人(AiR)和驻校创业导师(EiR)。如今,驻校天使投资人有32位,驻校创业导师有24位,驻场服务机构从银行扩展到律师事务所、会计事务所、知识产权事务所等共有13家,与清华x-lab合作的投资机构有600多个。此外清华x-lab还有创新中心与功能服务中心15个。这些都是清华x-lab利用自身优势搭建的生态平台。

清华x-lab旨在培养创意创新创业的人才,它是如何在创造力教育上融入知识、好奇心和想象力、价值取向这三个要素的呢?

第一,在知识方面,积极推动学科交叉和跨界资源整合。清华x-lab由经管学院发起,由清华校内15个院系共建,包括理学院、环境学院、机械工程系、建筑学院、材料学院、信息科学技术学院、航天航空学院、工程物理系、法学院、公共管理学院、新闻与传播学院、教育学院、医学院、美术学院。这些学院的学科覆盖理科、工科、文科、医科和艺术。

清华x-lab引导学生把艺术和科学结合起来,把工程和商业结合起来,把技术和生产结合起来,让学生在掌握专业知识的基础上,学习管理思维、创业思维。以及相关的技能和方法,从而建立复合型知识体系。另外,通过驻校天使投资人和驻校创业导师指导学生的活动,清华x-lab创造一种环境,有利于学生的跨界学习。

举一例说明。清华x-lab在2017年春季学期联合 Facebook开设2学分的全校选修课《创新与创业:硅谷洞察》。在这门课上,Facebook派出7位高管来清华讲课。来自清华21个院系的近200名学生选修该课,其中本科生占23%.硕士研究生占41%,MBA和EMBA学生占23%,博士研究生占13%,国际学生占到1/4,这是清华课程中学生构成最为多元化的一个课堂。这些学生组成了37个实践团队,平均每个团队5-6人。该课责任教师有意识地把不同院系的同学组织到一个团队,使得每个团队中兼具来自多个院系和学科的学生,从而有利于学生跨学科的交流与合作。比如,在课程最后的团队比赛中获得第一名的是AiHrt,一个基于人工智能技术的心脏疾病影像智能诊断平台,其团队由来自医学院、经管学院、机械工程学院的学生组成。

第二,在好奇心和想象力方面,从创意入手,保护和激发学生的好奇心和想象力。从2013年一开始。学院给清华x-lab的定位就是"三创"而不是"双创"。我们执意从创意人手,并把创意放在创新和创业的前面,就是为了激发学生的好奇心和想象力。2015年在国家提出"大众创业、万众创新"的"双创"之后,我们没有像有些高校那样一窝蜂搞"双创"。因为我们认为,创意是起点,创意取决于好奇心和想象力,在教育领域,创意教育应该优先于创新和创业教育。

学院通过多种途径向学生讲述好奇心的重要性,学院举办的"院长对话"系列就是其中的一个渠道。近年来,这个对话多次邀请海内外知名创业者,我每次在与这些创业者的对话中,都有意识地挖掘他们的求学经历并发现他们的共同思维特质,让学生亲耳聆听创业者的心路历程。在这些对话中,无论是马斯克还是马化腾,无论是今日头条的张一鸣还是红杉资本的沈南鹏,当我追问他们哪些是推动自己创新创业最重要的特质时,他们都不约而同地把好奇心放在了首位。

事实上,这四人的教育背景很不同。马斯克本科学习商业管理和物理学,马化腾本科专业是计算机,张一鸣本科先学习电子工程后来转到软件工程,而沈南鹏本科毕业于数学专业,研究生学习管理。不管学科专业背景,在创新创业中,如同在科学探索中一样,好奇心都是重要源泉。清华x-]ab学生从这些"院长对话"交流中受到的启迪是:保持好奇心和想象力是创新创业重要的推动力,与专业无关。

第三、在价值取向方面,坚持以育人而不是育项目为中心,在育人方面着眼于长远。短期功利主义在学校的一个反映是急于培育项目和产品,急于看到学生的创业成果。但是清华x-lab顶住各种诱惑,坚持把育人放在中心位置。我们不以学生创业为目标,而以培养具有创造力的人认才作为目标。

学院的本科管理学第二学位项目创新创业领导力方向吸引了清华各院系的优秀学生,其中很多学生并不是为了转专业,也不是为了创业。我们的研究生创新力提升证书项目也是为了提高学生的创造力。而不是为了创业而设计的,参加这些项目的学生在x-1ab学习之后,多数并没有马上要创业的打算,也许他们在10年、20年或者更长时间之后想创业或想做不同的事。如果我们今天的教育对那时的他们有所帮助,那就是我们教育的成效。

对学生价值取向的教育来自多个方面。清华经管学院每年借顾问委员会会议之际举行"顾问委员走进课堂"活动。2015年10月24日,Facebook的创始人兼首席执行官、学院顾问委员扎克伯格(Mark Zuckerberg)用中文为清华学生上了一课。有趣的是他讲的主题不是"如何创业",而是"为什么创业"。他结合自己创建Facebook的经历,讲述了关于"使命"、"用心"、"向前看"的三个故事。他说从一开始他就很明确,他的使命不是创建公司,而是使人连接。他鼓励清华学生创新,但告诫同学们在做事之前,一定要先问"为什么去做"。扎克伯格的这堂课对学生的启示是想清楚"为什么去做"比学会"如何去做"更重要。这就是价值取向的意义。而这正是我们的创新创业教育中最为需要的。

从上可以看出,清华x-lab五年探索本身就是一个创意、创新、创业的过程。可以说,清华经管学院是用创业者的心态和激情打造清华x-lab这样一个创意、创新、创业的教育平台。但这只是开始,探索创意、创新、创业教育的路还很漫长。

六、技术进步的影响和对教育改革的建议

技术进步,特别是人工智能的发展,对人在经济中的作用将产生重要影响,从经济学分析角度看,人工智能既可以帮助人提高生产力——这是互补关系,也可以代替人的工作——这是替代关系。具体是哪种情况,取决于人的工作特点。我的一个基本判断是,人的工作特点与教育有关,在人工智能时代,批判性思维和创造性思维教育比任何时候都更加重要。

虽然我们目前还看不太清楚人工智能的准确影响,但是比较清楚的是,人工智能是通过"机器学习"和"深度学习",即通过"图像识别"来完成智能化工作的。因此,从逻辑上看,人工智能最有可能替代甚至超越人通过死记硬背、大量做题而获得知识的能力,并且机器在这方面有绝对优势:机器能够学习的知识量超过人,机器的记忆力也超过人。这就是替代作用。苹果公司CEO库克(Tim Cook)在2017年MIT毕业典礼上说,"我不担心机器像人,我更担心人像机器"。他就是在警告,人如果像机器一样思考的话,将来就很容易被替代。

人工智能机器的这种学习能力已经初见端倪。有报道说,2017年6月7日有两合机器参加了全国高考的数学考试,满分是150分,它们分别得134分和105分,而且只用了10分钟和22分钟完成。据说到2020年机器将参加高考的全部科目,不仅是数学。

可是另一方面,人的创造性的工作是人工智能还不能取代的。在这方面,人工智能却可以辅助人,帮助人提高效率,这就是互补作用。所以,面对人工智能的快速发展,我们的教育必须要有调整,努力的方向很明确,就是我们教育出来的人要做机器不能做的事,那就是具有创造性的事。

技术进步,特别是人工智能的发展,给我们的教育改革增加了紧迫感。这是因为人工智能更可能替代那些在我们的教育中培养出来的学生的长处,即对已有知识的掌握。我在2017年6月9日举行的国务院参事讲堂首讲中提出了这个警告,受到媒体的关注,一些媒体用了更加醒目的标题来报道我的这个演讲,比如"仅靠死记硬背和大量做题,教育很可能被人工智能拿下"、"人工智能将使中国教育优势荡然无存"。

虽然这些标题有些夸张,但是它们说明了大众认同这样的观点,就是我们过去的教育优势更容易被人工智能替代。而能够成为与人工智能互补的那些工作,恰恰需要依赖于批判性思维和创造性思维,而这正是我们目前教育的短板。在这个意义上,推动批判性思维与创造性思维教育有其紧迫性。

在这种压力之下,教育改革应该把推动批判性思维与创造性思维教育放在重要位置。针对批判性思维教育,我提出三条改革建议:

第一,要把培养学生的批判性思维能力作为大学教育的必要环节。批判性思维教育首先要体现在重点建设若干门课程上,比如写作、沟通、逻辑、统计、伦理、道德课程,但也要体现在所有课程和所有培养环节中。

第二,要把培养学生的批判性思维心态和习惯即心智模式作为更高的教育目标。这就要求不仅要教学生如何思考,更要启发学生思考什么,并鼓励学生为追究深层次原因多问为什么。

第三,批判性思维教育需要宽松和宽容的氛围。大学和社会都要创造有利于学生自由发展、个性发展的空间和条件。要允许学生犯错、失败,允许学生与众不同的发展路径和成长方式。

针对创造性思维教育,我也提出三条改革建议:

第一,要改变学生的知识结构,增加学生跨学科、跨领域知识,并使学生能够融会贯通不同学科和领域的知识。鼓励本科生在第一学位之外学习第二学位,鼓励研究生获得不同学科的双硕士或双博士,鼓励学生融合文、理、工、医、艺。

第二,要有意识地保护学生的好奇心,激发学生的想象力。好奇心是比物质激励和精神激励更强的创新驱动力,要给学生充分的想象空间,不要轻易打击不符合当前规范的"胡思乱想"。

第三,全社会都要克服急功近利的短期功利主义,在价值取向上要有更高追求。不能低估推动创新的内在动力。创新可以驱动经济发展,但不只是为了驱动经济发展、经济发展也不是社会发展的唯一目的。创造力最终使人更自由、更幸福。

推动以上改革的前提是首先要转变教育观念,要从过去以知识为中心的观念转变为重视学生思维发展的观念。批判性思维和创造性思维是人的思维发展的高级阶段,它是人类文明高级阶段的基石。中国要为人类文明作出贡献,批判性思维与创造性思维教育不可或缺。

本文档一共被下载: 次 ,您可全文免费在线阅读后下载本文档。

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

2.该文档所得收入(下载+内容+预览三)归上传者、原创者。

3.登录后可充值,立即自动返金币,充值渠道很便利

特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。

  • 上传作者: (上传创作收益人)
  • 需要金币200(10金币=人民币1元)

分类号 TP391 学号 UDC 004 密级 公开 工学博士学位论文 基于概率生成模型的社区发现和网络数据分 类方法研究 博士生姓名 王桢文 学科专业 管理科学与工程 研究方向 指挥信息系统 指导教师 肖卫东 教授 国防科学技术大学研究生院 二〇一三年十月 万方数据 论文书脊 基 于 概 率 生 成 模 型 的 社 区 发 现 和 网 络 数 据 分

我要回帖

更多关于 统计学就业 的文章

 

随机推荐