随着机器学习应用的增多,很多人需要了解采用机器学习训练数据的好处。
如果用户使用基于机器学习的系统,那么需要了解有关训练数据的知识。在将数据加载到人工智能模型以进行模型训练之前,必须正确格式化数据并确保其准确性。
假设用户正在使用公共云中流行的机器学习系统创建欺诈检测引擎。首先需要创建用于训练模型的数据集:而在这个案例中将处理数百万个带有欺诈交易标记的交易记录。这样,通过模型就可以了解哪些可能是欺诈的,哪些不是。当然,训练数据有不同类型,有些带有标记,有些没有。
经过训练之后,这种模型实际上可以通过了解可能的欺诈行为而不是通过经验学习来继续训练。如果用户有时间的话,这个模型可以通过监控那些被工作人员或其他系统标记为欺诈的交易来训练自己。
这种人工智能训练方法令人印象深刻的是,用户需要一个完善的训练数据集。在某些情况下,可以从公开或专有的训练数据代理那里获取。在大多数情况下,用户可以格式化自己的数据来训练机器学习模型。但是,是否有可以随时随地进行训练的机器学习模型?
这个想法并不新鲜。自从人工智能出现以来,人们一直想让人工智能引擎教会另一个人工智能引擎,也就是共享训练数据。或者更好的办法是,通过自动的直接交互来共享知识和经验。或者通过人工智能引擎指导者提供外部经验,从而使人工智能模型更有价值和更有效。
这说起来容易做起来难。机器学习引擎即使采用相同的软件,也通常不会互相对话。对于独立的学习者需要从头开始设计,并与非人工智能系统或人类进行交互。但是,大多数供应商都在进行人工智能引擎之间的训练。
最近人们将看到一些可能改变游戏规则的主要趋势:
- 首先,是使用按需或基于SaaS的人工智能引擎,该引擎可以与公共云或内部部署的其他人工智能引擎进行交互。可以将它们视为SaaS,这个云平台专门针对其他人工智能引擎讲授特定技能集,从发现欺诈性交易、医疗诊断到机器维护等等。
- 其次,人工智能引擎能够与其教学模型相结合,创造出各种人工智能的超级大脑,不仅能在其领域之外提供经验,还能与自己的训练数据相结合,提供本地和全球的体验。
之所以提出这一点,是因为大多数企业要想从人工智能中获得更多价值,就需要了解这些趋势,其中包括机器学习和深度学习。而且,许多企业正陷入没有足够的训练数据来使机器学习正常运行的困境。这可能是解决这两个问题的很好的办法。