哈喽,大家好。
今天给大家分享下 GPT-4 code interpreter 自动做数据分析、科研绘图、做机器学习算法。
图片
本文用的是人工智能入门的一个经典案例——Kaggle房价预测,来看看完全交给code interpreter能做到什么程度。
数据集直接从Kaggle网站下载就可以了。
图片
下载下来是个压缩文件,我们可以一股脑丢给code interpreter,让他来解压,并且解读里面的文件。
图片
他能正确解读每个文件的作用,尤其像data_description.txt这种文件里面有几十个字段,又都是英文,如果一个个看很浪费时间,但用code interpreter就非常方便,它可以说明每个字段的含义,并且能正确解析出每个字段有多少取值,以及每个取值的含义。
图片
阅读效率太高了!
然后告诉code interpreter这是一个房价预测的任务,让他给出步骤。
图片
跟我们平时跑算法的思路一致,每一步都非常清晰。
接下来,先让code interpreter自动做数据探索(EDA)。
图片
这一步让他自动完成就可以,我们很快就能对数据有全面的掌握,比如:特征的分布,哪些特征与label相关性高等等。
基于上面分析结论,就可以让他来建模了。
图片
图片
他会选一个模型(这里用的是随机森林)进行拟合,并且会给出均方根误差和真实值 vs 预测值的散点图。让我们对模型效果有个大致了解。
最后,可以让他用训练好的模型在测试集上预测,并按照Kaggle要求的格式产出。
图片
code interpreter可以按照我们的指令,很好的完成工作。我们可以下载他预测的结果,上传到Kaggle进行评估。
误差是 0.15,排名 2000多名,还是非常不错的。
图片
记得,我5年前第一次提交的结果是 0.17,比code interpreter弱爆了。
图片
当然,这还不完,有免费的劳动力,当然要压榨一下,反正他又不会累。
我把这个结果和排名告诉了code interpreter,让他继续优化算法,提升下排名。
图片
他还是不出意外地给了一堆1、2、3、4、5...建议,说得非常好,反正我也没看。
我也只能象征性的让他按照自己说的,去做一遍。
图片
这里执行的时候,会有一些问题,主要是参数grid search时候,参数组合太多,code interpreter资源不足导致计算超时。
他自己会做一些尝试,如:减少参数范围等。不断出问题,不断重试之后,终于跑成功了,模型效果并没有更好。
图片
虽然优化没成功,但他仍然还是会给一些建议。
图片
这里我随口一说让他换个模型试试。
这次优化成功了,提交上去误差 0.13。
图片
排名1k多名,比上一次提高了整整1k名。
整个过程,我始终以小白的身份再跟他交流,没有给到他任何专业的知识。如果深入到项目中,结合code interpreter的反馈和自己的专业知识,指导他迭代,我相信会跑出更好地结果。
还有就是,善用GPT确实提效太多了。