
神经网络的两个重难点之一,数据处理和模型设计 原创
“ 数据是互联网时代的石油,而数据处理是人工智能的基础。”
神经网络准确的说是人工智能技术,目前存在两个比较重要的难点,数据和模型;模型作为人工智能的基础,其重要性就不言而喻了;而作为互联网界的石油,很多人却忽略了数据的重要意义以及其处理手段。
目前人工智能应用面临着两个主要问题,其一是模型的设计问题,简单来说就是架构和算法问题;其次,就是数据问题,人工智能在垂直领域内的应用需要高质量的数据做支撑。
从技术的角度来说,模型的架构和算法的发展需要大量的科研投入,包括技术,资金,人力等多方面的投入;一般中小企业很难搞得起来。对中小企业来说最好的选择就是,基于现有的开源模型和模型服务商提供的通用模型做微调和训练,因此这时数据才应该是大部分企业需要关注的问题,这也是人工智能应用的难点与重点。
数据处理
从流程上来说,数据处理有着固定的基本步骤,主要包括以下几个大的方面:
- 任务目标
- 数据收集
- 数据处理
- 数据质检
任务目标
首先明确了任务目标,你才能知道你需要什么样的数据,为后续的数据准备做好规划;比如数据来源,数据量,数据类型,数据结构等等。
数据收集
如果说数据处理是AI技术的基础,那么数据收集就是数据处理的基础;要想处理数据首先需要收集数据,那么数据从哪来就是一个问题。
而常见的数据收集方式有,使用爬虫技术从网络中爬取需要的数据;其次,使用企业内部数据,如企业介绍,文化,管理制度,经营数据等;还有可以通过从数据服务商那里购买数据。
数据来源渠道:
- 爬虫技术
- 内部数据
- 购买数据
当然,数据收集的大前提是一切都在合理合法的范围内进行,而不能触犯法律问题。
数据处理
数据处理是整个数据处理流程中最复杂也是最麻烦的一个步骤;一般收集过来的数据存在很多各种各样的问题。
比如说,数据只经过简单分类,数据中存在很多的噪声,无效数据以及空值等;因此,刚收集过来的数据需要经过清洗之后才能进行下一步使用。
其次,在模型的训练过程中,存在监督训练和非简单训练;因此,需要对数据进行标注;比如说哪些是汽车,哪些是人,哪些是积极的内容,哪些是消极的内容等等。
面对着复杂的数据来源和数据格式,数据处理面临着各种各样的问题;虽然每家企业在数据处理的流程上不尽相同,但大都需要经过以下几个步骤:
- 数据清洗
- 数据标注
- 数据预处理
- 格式变换统一
- 数据增强
只有这样,我们才有可能打造一个高质量的数据集供模型使用,而数据处理的难度随着数据量的提升,其难度也同样呈直线上升。毕竟,处理几十M数据和处理几十G和几十T数据是不一样的,其对计算性能,数据存储,分布式计算等都有更高的要求。
数据质检
数据质检就是对数据处理结果的验收,采用某种方式来验证数据的质量和性能,以此来保证数据对模型的负面影响降到最低。
总之,数据处理是人工智能技术发展的重要前提之一,模型的性能和表现,一是依赖于模型本身,其次就是高质量的数据集。而,人工智能要想渗透到各行各业,那么就需要大量的行业垂直数据做支撑。
因此,数据处理服务存在着巨大的市场前景和需要,特别是针对中小型企业,他们没有大企业的技术实力和数据来源,因此数据的收集和处理是他们不得不面对的问题。
本文转载自公众号AI探索时代 作者:DFires
原文链接:https://mp.weixin.qq.com/s/SCqlNqvwGRXmmRfP4cAHxg
