DS十年特辑01 | 数据科学到底科不科学?

2025-06-30T00:00:00Z | 更新于 2025-06-30T00:00:00Z

@
原创 数据科学
DS十年特辑01 | 数据科学到底科不科学?

正文

作为一门学科,数据科学包含了数学、统计、计算机、优化、机器学习等多门学科的一部分技能树。

作为一个行业,数据科学几乎可以和各行各业都扯上些关系,给各种企业提供各种业务方面的支持——比如帮助科技公司的产品开发,分析预测某家零售企业的销量等等。

作为一个职业……呃,其实说“一个职业”不太准确,因为有很多个相似但不同的职业都被笼统地归类在“数据科学”的大旗之下:比如数据科学家、数据工程师、数据分析师等等。

所以我们在讨论“数据科学”的时候,很容易因为不同人的视角和定义不同,而导致讨论得牛头不对马嘴。其中也容易产生对这个行业的误解。从我自己的经验和体验出发,为了文章的统一性,讲一下我自己的定义,也欢迎大家讨论交流。

在我看来,数据科学的核心定义是:对现实的问题建立一个基于经验数据的数理模型,通过这个模型得到的结论做出决策判断。

先举几个具体的例子吧,希望会有助于诠释这个定义。比如我现在正在经营一家制造和销售羊毛衫的公司——

  • 我想知道我下个月生产多少羊毛衫。我可以基于历史销售数据和相关信息(比如气温变化),建立一个监督式机器学习模型,根据历史数据训练这个模型,对下个月的销量做出预测,进而以此决定我下个月该薅秃多少只羊的羊毛。
  • 我想知道我该如何扩张我的供应链网络,比如我已经在中国市场站稳了脚跟,希望把我的羊毛衫卖到欧洲去,那么我应该继续薅自己家的羊毛把成品直接送到欧洲市场,还是也许在蒙古再养些羊,薅它们的外国羊毛然后从那里发往欧洲?这里, 我们可以建立一个网络优化模型(network flow model),通过这个模型的最优解确定最佳的货源地、配送中心和运输方案(即:羊毛在哪里薅、羊毛衫在哪里生产、发往哪个仓库、供给哪些客户)。
羊毛怎么薅
羊毛怎么薅

在这些例子中,我们都是将现实问题转化为一个基于经验数据的数理模型(即预测模型和网络优化模型),这个数理模型从一定程度上刻画了世界运作的规律。然后通过求解这个数理模型,我们得到的答案可以帮助我们在现实世界中做出决策(比如规划多少产量,配送中心建在哪里)。

既然“数据科学”中有“科学”二字,于我而言,以上是至少要达到的程度。很多时候,“分析一下历史数据看看哪里奇怪了”、甚至“做一个dashboard展示历史数据”也都被归为数据科学,在我看来是不够严谨的,严格意义上这应该只是算做数据分析(analytics)。既然是科学(science),有可复现并能够被验证的框架(在这里是数理模型)是必须的。

取决于你认同什么流派的科学哲学,不同的人可能会对“数据科学算不算科学”有不同的看法。我把我个人的看法放在文末附录。打这种哲学思辨的嘴炮虽然有趣,也很容易让讨论演变得很虚无。最重要的其实是,你在读这个文章系列的时候能够理解我指代的“数据科学”是什么。那么,除了高屋建瓴的“哲学”定义之外,让我也多讲一些我过去工作中碰到的数据科学实例,这样我们可以(暂时)对数据科学有共同的定义。

举一些我自己接触过的项目作为例子:

  • 帮助服装百货公司如何打折进行定价:百货公司在给打折商品定价时,既需要考虑利润率(避免江南皮革厂这种直接血亏倒闭),也要考虑出货速度(按照预计时间清空库存才能及时上新货)。我们先用一个机器学习模型预测需求弹性(即:价格每变动一块钱,需求会对应变化多少),然后再通过一个优化模型(mixed-integer programming model即MIP)找到不同商品在不同时间点的最佳折扣力度。【MSP/定价】
  • 帮助酒店集团做需求预测和定价:酒店的房间其实边际成本都一样,如何定价完全取决于需求而不是成本。因此,尽可能准确地预测房间需求量就有利于定价——如果知道一周后的那个周末会有很多人订房,开价就可以高一些,趁机赚一票。这里我们用机器学习模型(时间序列叠加XGBoost)基于历史数据和相关信息(比如是不是情人节要到了)对订房需求进行预测。【MSP/定价】
  • 帮助制药公司优化供应网络:一家大型药企在欧洲的供应链非常臃肿,在同一个地区可能有好几个仓库和配送中心。通过网络优化模型(network flow model),我们给这家公司提供了如何将40多个节点简化为10多个节点的方案。【OPS/供应链】
  • 帮助冷冻食品公司优化生产工序:一家冷冻食品公司在生产不同类型的薯条时,经常因为更换刀片、调料等原因耽搁生产时间。通过混合整数规划模型(MIP),我们给这家公司提供了每个生产周期最优的工序排列,减少不必要的耽搁,大幅提高生产效率。【OPS/生产】

我在另一篇博客文章 里还提到了几个其它的例子,也可以一并参考。

一位前辈同事曾告诉过我:一个列表如果超过三项,最好进行分类,不然可读性就会下降。在上面的列表中,我在每项末尾也放置了分类。总的来说,我在工作中应用到数据科学的地方大部分落在两个业务领域(functional practice area):

  • Marketing, Sales, and Pricing (MSP)
  • Operations (OPS)

其中,MSP经常做定价类的项目,上面就举了两个例子。除此之外,也做很多个性化推荐(personalization)。而OPS基本就集中在供应链和生产优化两个分支,上面也各有一个例子。这些应用场景加起来,大概覆盖了我做过的80%项目类型。

以上这些是我所理解和应用到的数据科学。显然,这不代表整个行业和学科,只是我个人的视角。后面文章所阐述的想法也是仅以此为根基。说了这么多有的没的,管它是黑猫还是白猫,抓住老鼠就是好猫。管它是不是科学,这个行业有没有创造任何实际价值,还是“全都是泡沫”?且听下文分解。

抓住老鼠就是好猫
抓住老鼠就是好猫

可读可不读的附录

关于科学哲学的一些形而上的思考(aka嘴炮)

如文中所言,“数据科学算不算科学”取决于你认同哪种科学哲学的定义。如果我们考虑比较常见的Thomas Kuhn的范式论,一门学科算作科学的条件可以大致总结为:

  • 有共同的理论根基,不能只是零散的应用场景
  • 有一个共同的范式(paradigm)——比如牛顿力学体系
  • 在正常情况下,从业者在范式之内解决问题,即常态科学(normal science)
  • 科学的演化和进步来自于范式转移(paradigm shift),尤其是在范式之内积累了足够多的反例(anamolies)之后——比如从牛顿力学体系演化到爱因斯坦相对论体系

我会认为,我对于数据科学所提出的“对现实的问题建立一个基于经验数据的数理模型,通过这个模型得到的结论做出决策判断”这一定义几乎可以符合Kuhn所说的“范式”。从业者都是沿用共同的、有理论根基的工具方法(比如凸优化理论),去解决范式定义内的问题(比如一个线性规划问题或者一个支持向量机SVM回归模型)。

但这一定义的不足之处是,数据科学的几个分支也可以说是各自有各自的范式。比如深度学习和NLP有自己的通用套路:神经网络+SGD;而运筹优化也有自己的三板斧:目标函数+决策变量+限制条件。与其说是一整个统一的范式,数据科学应该更多是包含了一堆各自独立范式的混合学科

如果跳出Kuhn的范式论,考虑其它科学哲学的定义,另一个常见的考量是:科学应该去发现未知的事实,而不是应用已知的理论和工具。从这个角度来说,数据科学也不太能称得上科学,至少业界从业者都是应用者,只有极少数人在推进前沿理论的发展。不过,这种认为“科学需要发现新知”的看法应该算是科学实在论(scientific realism)的核心观点,而这种学派现在不能说是主流。从二十世纪中叶开始,科学哲学论的主流思想都逐渐转向于有用、可预测的科学模型,而不关注是否发现新的“真相”——毕竟,如何定义“真相”也是一个令人头疼的问题。

总结一下这堆可有可无的嘴炮:

  • “数据科学算不算科学”取决于我们对什么算是“科学”的定义;
  • 如果我们采纳比较主流的Kuhn范式论作为科学的定义,我认为我提出的定义可以大致符合;
  • 但也还有欠缺之处,别人也可以对这个定义挑刺(取决于我们对“范式”如何理解);
  • 我们也可以考虑别的科学哲学流派,有些也会认为数据科学不能算是科学。但你也可以说这些流派是非主流。

总而言之:我觉得数据科学作为一门传统意义上完全严谨的科学略有些勉强,但我们至少可以有一些最低的标准(我提出的定义可以是选择之一),使其尽可能接近一门严谨的科学学科

© 2025 - 2026 Know-Hao

🌱 Powered by Hugo with theme Dream.

符号

我从人人网的时代开始就会写写博客文章,到现在还在用这种文字形式的人应该算是老顽固了吧:) 在这个充满碎片化信息的时代,还是希望在这个博客保留一个能够完整分享自己精神世界的窗口。

  • 上海/洛杉矶/多伦多
  • 90后ISTJ
  • 数据科学 x MBB管理咨询 从业10年
  • 文理学院数学专业本科
  • 运筹学PhD辍学,苟到了一个硕士学位
  • 喜欢体育运动,大自然,旅行,读书读报

博客不开通评论功能,欢迎在长毛象 或者知乎 上戳我。