大模型训练数据的收集方式,以后企业最重要的资产不是厂房而是数据 原创

发布于 2024-7-5 07:55
浏览
0收藏

 大模型的本质,是一种能够处理特定类型任务的数学模型

现在大模型可以说是人工智能的代表,但目前的大模型还只是一种基于数学逼近算法的概率统计模型。

因此,其需要大量的训练数据来让模型学习,找到其中的规律,然后就有了大模型。因此,也间接说明了训练数据的重要性。

那么应该怎么收集训练数据呢?

01、收集训练数据的渠道

马云说:“二十一世纪是大数据时代,数据是一家企业最重要的生产资料”。

而在人工智能时代来临的时候,数据果然成了重要的生成资料。大模型的训练成了实现人工智能的主要途径,而数据的收集也成了重中之重。

其实,说到底数据的来源无非有两种,第一种是自己的数据,第二种是别人的数据。

大模型训练数据的收集方式,以后企业最重要的资产不是厂房而是数据 -AI.x社区

但对很多企业来说,自身的数据还不足以维持大模型的训练;因此数据的收集主要集中在别人的数据上。

而别人的数据又分为几种情况,第一种是人家的企业内部数据;第二种是网络上公开的数据。

人工智能聊天小程序,感兴趣的可以点击查看:

因此根据以上情况,收集数据的渠道无非以下几种:

第一种在自己企业内部收集数据,比如多年来的企业经营的数据等。

第二种是收集网络上公开的数据,但网络上公开的数据有的可以收集有的还是需要别人的同意才行。

比如,弱智吧的数据,抖音,公众号,小红书等的内容数据;这些数据虽然网上都可以看得到,但你不能直接使用。

第三种是收集人家企业内部的数据,比如某某公司的运营数据等。

02、数据的收集方式

在前面说了数据的重要性,以及数据的收集渠道,这里讲一下收集数据的方式。

为什么要讲这个?

是因为不同的数据有不同的收集方式,如果使用错误的方法很可能造成违规操作,给企业带来损失,严重的甚至会去吃皇粮。

第一种数据收集渠道,最简单,成本最低,风险也最低。

因为所有的东西都是自己的,然后自己想怎么用就怎么用,只要别做违法的事情,那么就可以合理的利用。

第二种收集别人的数据,就需要注意了。一些公网上的公开数据,企业可以通过爬虫去获取,这个合理合法。

大模型训练数据的收集方式,以后企业最重要的资产不是厂房而是数据 -AI.x社区

但如果你用爬虫爬取其它企业的内部数据,或者导致人家的系统瘫痪,那么就是爬虫写的好,皇粮少不了。

还有一种就是购买别人的数据,但购买别人的数据也不是可以随便买。比如,企业的一些经营数据可以买,但如果涉及到用户信息和隐私,那么不论是买数据的还是卖数据的,都会去喝茶。

最后人工智能时代,机器学习的技术很重要,但数据处理的技术也同样重要。没有数据,再强大的机器学习模型也没有用武之地。

因此,人工智能时代,参与的不一定是懂得机器学习的,也需要懂得大数据处理技术,和前后端开发技术。因此,技术的根本价值在于使用,技术很重要,但技术的应用更重要。

这就类似于,美国的人工智能技术强,中国的人工智能应用强。


本文转载自公众号AI探索时代 作者:DFires

原文链接:​​https://mp.weixin.qq.com/s/9T-_17lZneG2bncNtinRoQ​



©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2024-7-5 12:57:33修改
收藏
回复
举报
回复
相关推荐