会被取代吗？GPT4 Code Interpreter全自动-51CTO.COM

哈喽，大家好。

今天给大家分享下 GPT-4 code interpreter 自动做数据分析、科研绘图、做机器学习算法。

图片

本文用的是人工智能入门的一个经典案例——Kaggle房价预测，来看看完全交给code interpreter能做到什么程度。

数据集直接从Kaggle网站下载就可以了。

图片

下载下来是个压缩文件，我们可以一股脑丢给code interpreter，让他来解压，并且解读里面的文件。

图片

他能正确解读每个文件的作用，尤其像data_description.txt这种文件里面有几十个字段，又都是英文，如果一个个看很浪费时间，但用code interpreter就非常方便，它可以说明每个字段的含义，并且能正确解析出每个字段有多少取值，以及每个取值的含义。

图片

阅读效率太高了！

然后告诉code interpreter这是一个房价预测的任务，让他给出步骤。

图片

跟我们平时跑算法的思路一致，每一步都非常清晰。

接下来，先让code interpreter自动做数据探索（EDA）。

图片

这一步让他自动完成就可以，我们很快就能对数据有全面的掌握，比如：特征的分布，哪些特征与label相关性高等等。

基于上面分析结论，就可以让他来建模了。

图片

他会选一个模型（这里用的是随机森林）进行拟合，并且会给出均方根误差和真实值 vs 预测值的散点图。让我们对模型效果有个大致了解。

最后，可以让他用训练好的模型在测试集上预测，并按照Kaggle要求的格式产出。

图片

code interpreter可以按照我们的指令，很好的完成工作。我们可以下载他预测的结果，上传到Kaggle进行评估。

误差是 0.15，排名 2000多名，还是非常不错的。

图片

记得，我5年前第一次提交的结果是 0.17，比code interpreter弱爆了。

图片

当然，这还不完，有免费的劳动力，当然要压榨一下，反正他又不会累。

我把这个结果和排名告诉了code interpreter，让他继续优化算法，提升下排名。

图片

他还是不出意外地给了一堆1、2、3、4、5...建议，说得非常好，反正我也没看。

我也只能象征性的让他按照自己说的，去做一遍。

图片

这里执行的时候，会有一些问题，主要是参数grid search时候，参数组合太多，code interpreter资源不足导致计算超时。

他自己会做一些尝试，如：减少参数范围等。不断出问题，不断重试之后，终于跑成功了，模型效果并没有更好。

图片

虽然优化没成功，但他仍然还是会给一些建议。

图片

这里我随口一说让他换个模型试试。

这次优化成功了，提交上去误差 0.13。

图片

排名1k多名，比上一次提高了整整1k名。

整个过程，我始终以小白的身份再跟他交流，没有给到他任何专业的知识。如果深入到项目中，结合code interpreter的反馈和自己的专业知识，指导他迭代，我相信会跑出更好地结果。

还有就是，善用GPT确实提效太多了。