编码之前的第一步是了解我们试圖解决的问题和可用的数据在这个项目中,我们将使用公共可用的纽约市的建筑能源数据【1】
目标是使用能源数据建立一个模型,来預测建筑物的Energy Star Score(能源之星分数)并解释结果以找出影响评分的因素。
数据包括Energy Star Score意味着这是一个监督回归机器学习任务:
监督:我们可鉯知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型
我们想要开发一个模型,在准确性上——它可以实现预測Energy Star Score并且结果接近真实值。在解释上—— 我们可以理解模型的预测
一旦我们知道了目标,在深入挖掘数据并构建模型时就可以用它来指导我们的决策。
与大多数数据科学课程所相信的相反并非每个数据集都是一组完美的观测数据,没有缺失值或异常值(你可以查看你嘚mtcars【2】和iris数据集【3】) 现实世界的数据很乱,这意味着在我们开始分析之前我们需要清理并将其转换为可接受的格式【4】。数据清理是大多数实际的数据科学问题中不具吸引力,但必不可少的一部分
首先,我们可以将数据用Pandas DataFrame加载并查看:
data = ()方法来查看列的数据类型: