如今,企业开始意识到分析算法只与其所针对的数据一样好。以下是一些改进数据质量的方法来获得***的洞察力。
在凯西奥尼尔的著作《数学毁灭的武器》中,解释了如果大数据算法的运行质量不高,那么大数据算法会产生不正确的结果。
奥尼尔以一个学区为列,这个学区运行了一种算法来识别其200名表现最差的教师,。其中一位被选出的教师实际上是表现最出色的,但是她的班级中有许多学生都是来自表现不佳的学校。结果,老师所教的学生在测试中表现不佳,因此对这位老师评价不高。
奥尼尔认为,其他形式的输入,例如来自管理员、学生和同伴的老师的精彩评论,应该被纳入与算法相关的数据运算中,也许可以防止这种事件的发生。这是对每一位大数据从业者的给了一个提醒,即分析算法只与其运行的数据一样好。
企业如何确保数据的质量将优化算法的性能,并最终确保从中获得见解?
关键在于数据准备和匹配企业想要应用算法的业务用例。
以下是开发质量数据和算法的六个***实践:
1.“真实”的算法
企业必须认真构建算法适合自己的商业案例。如果是医疗保健提供者,并且想要确定服务区域中存在心脏问题高风险人群,则可能需要构建一个算法,询问“65岁以上的人是否已经有心脏手术?”而不仅仅是“谁超过了65岁?
2.使数据实现标准化
为避免获取重复数据并可能会影响分析结果,重复的记录应该标准化为单一数据事件。
3.修复损坏的数据
在某些情况下,人们需要参与人工纠正损坏的数据,然后才能通过算法检查数据。破碎的数据可能包含拼写错误(例如,缅因州居民的MN代替ME),或者可能是某人的姓氏拼写错误,从而产生不应包含在数据集中的额外记录。数据准确性越好,分析结果就越准确。
4.消除无关的数据
企业可以越多地将数据范围缩小到其正在检查的特定用例的边界,其算法能够更快地处理数据,算法将提供企业所寻求的见解的可能性越大。
5.获得用户的一致意见
不要在没有首先与用户核对的情况下就将企业要排除的数据做出单方面决定,因为他们可能知道企业不知道的内容。
6.检查结果
大数据算法和查询的趋势是根据需要修改并重新运行它们,但不一定要记录结果。相反,应该始终设置结果基准并对其进行测量。例如,如果企业的***个数据算法只会使产品的潜在购买者获得3%的响应率(最终购买1%的产品),那么需要知道是否修改后的查询是否优于这个。