可信任人工智能的基石就是在正确时间获得正确数据-51CTO.COM

我们已经开始习惯人工智能的存在，也可以看到人工智能对世界的影响是如何随着生成式人工智能(GenAI)的火爆而增长的。人工智能多年来一直被用来帮助企业“猜你喜欢”，希望加快分析并做出更好、更快、更智能决策的企业越来越多。但如果人工智能在不知不觉中做出了糟糕的决定呢?

当人工智能推荐一本你不感兴趣的书或一种你讨厌的蔬菜时，这并不是什么大不了的事。但是，当涉及到投资者的财务指导或特色产品的新功能时，不正确的分析可能会导致一个糟糕的决定，影响企业的业绩或声誉，使用户或企业都面临风险或伤害。

这就提出了一个问题：我们真的能相信人工智能做出重要决策吗?尤其是，随着更复杂的深度学习(DL)和GenAI模型被训练和部署用于日常使用。

答案在于理解数据和数据质量在机器学习生命周期中的关键作用。

数据质量的影响

当谈到可信任人工智能时，用于推动其决策的数据质量具有巨大意义。有缺陷的数据，无论是不完整的、不正确的还是有偏见的，都会扭曲人工智能预测的准确性。在人工智能系统中依赖不可靠数据的后果可能会变得灾难性。

想象一下，你是一个寻求财务指导的投资者，求助于一个人工智能平台来帮助你做出投资决策。这种人工智能依赖于历史财务数据来分析市场趋势，识别潜在机会，并提供建议。然而，如果人工智能使用的数据不完整或有偏见，也许是因为它从未完全集成到系统中，那么它提供的指导可能会有缺陷，导致你走上错误的投资道路。

比如，人工智能只能从有限的来源获取财务数据，而忽略了某些部门或地理区域的关键信息。因此，人工智能的分析可能会忽视重大的市场变化或新兴趋势，使你无法利用有利可图的投资机会。

此外，有偏见的数据对人工智能决策过程的不利影响。偏见可能渗透到数据收集方法中，或者是数据本身固有的，导致见解和建议出现偏差。例如，如果人工智能系统使用的财务数据主要代表特定的人口统计数据，或者未能考虑到各种经济因素，那么由此产生的投资建议可能无法反映更广泛市场的现实。

仅仅依赖基于不完整或有偏见的数据的预测可能会导致误导性的投资决策，对财务成功产生不利影响，阻碍业务增长。当我们认识到人工智能系统在训练和部署人工智能模型时所做的决策只能与可用数据一样可靠时，数据质量的重要性就变得显而易见了。“垃圾进，垃圾出”是永恒的经典。

正如坚实的基础对建筑的结构完整性至关重要一样，可靠和高质量的数据构成了值得信赖的人工智能运行的基石。正如受损的建筑材料或薄弱的基础会危及结构的稳定性和安全一样，有缺陷的数据也会破坏人工智能决策的准确性和可靠性。

为了减轻这些风险，组织必须优先考虑数据收集过程，以确保完整性、准确性和无偏见。他们应该努力收集多样化和全面的数据集，这些数据集涵盖了各个部门、人口统计和地理区域。采用数据验证技术，如交叉引用多个来源和采用数据清理算法，可以帮助识别和纠正错误，确保更准确地表示现实。

稳健模型的重要性

对数据质量同样至关重要的是用于使用数据进行预测见解的模型。人工智能驱动决策的可靠性在很大程度上取决于这些模型的稳健性、准确性和透明度，以及使用正确的数据和数据集来构建它们。

让我们想象一下人工智能在医疗保健行业中被用来帮助医生诊断疾病。该人工智能模型采用复杂的神经网络来分析患者症状并提供诊断建议。虽然神经网络在识别疾病方面可能表现出很高的准确性，但它在解释如何得出结论方面缺乏透明度。

如果你是一名医生，使用这一预测来帮助诊断患者，你将能够得到快速诊断，但不了解导致这一结论的因素。在没有透明度的情况下，盲目信任人工智能变得风险巨大，因为它可能会忽视关键症状或无法考虑重要的医疗考虑。这些挑战在高度监管的行业中很常见，在这些行业中，信任和透明度是必不可少的。

另一方面，如果医疗AI工具使用了决策树算法模型。决策树以其可解释性而闻名，因为它们提供了决策过程的逐步分解。在这种情况下，当人工智能系统推荐诊断时，你可以很容易地追踪决策的路径，了解哪些症状和因素导致了这个结论。这种透明度使医生能够对人工智能的建议做出更明智的判断。

再举一个例子，想象一下你面前有两个复杂的谜题;一个有明确的指示和透明的步骤，而另一个缺乏任何指导或解释。在第一个谜题中，你可以很容易地理解逻辑进展，使你能够有效地解决它。然而，第二个难题会让你感到困惑和不确定，很难相信自己的决定，也很难确定自己是否找到了正确的解决方案。猜测、假设和试错成为决策过程的一部分。稳健透明的模型使用户能够更好地理解人工智能的决策过程，从而对其建议灌输更大的信心。

语义层的作用

语义层在创建一个通用数据层以提高人工智能决策的可信度方面发挥着至关重要的作用。它解决了数据定义不一致和缺乏上下文的挑战，正如我们在上面的例子中看到的那样，这可能会极大地破坏人工智能的利用价值和可信度。通过建立一个单一的真相来源，语义层可以确保所有人工智能应用程序都在一个公共数据源中工作，该数据源可以查看数据经过的每一步的转换。

当一个组织中的不同团队或个人使用不同的测量单位或对数据有不同的解释时，可能会阻碍合作并导致相互矛盾的结论。语义层通过提供共享的理解来帮助克服这个问题。它捕捉数据中的关系、概念和上下文，从而实现一致的解释和分析。通过对整个组织的数据有一个共同的理解，可以得出更值得信赖的结论，因为它们基于相同的可靠信息来源。

语义层有助于确保数据得到准确理解、解释和一致使用，培养人们对人工智能系统见解的信任。

在人工智能中建立信任

真正的问题是：我们如何确保人工智能系统做出值得信赖的决策?

为了提高对人工智能的信任，组织必须优先开发和利用具有稳健性、准确性和透明度的模型。这需要使用可解释人工智能等技术，使模型的内部工作变得可理解和可解释。此外，组织可以采用模型评估方法，利用敏感性分析或性能指标等技术来评估模型的可靠性和有效性。通过创建语义数据层，人工智能决策可以变得更加可靠、透明和知情，因为有了共同的来源。如果没有这些举措，人工智能将永远不会被视为可靠和值得信赖的决策伙伴。

除了仔细审查外，提出正确的问题对于建立与人工智能的信任至关重要。通过向任何人工智能提出相关询问，我们可以确定其在代表我们做出关键决策时的可靠性。

以下是一些需要考虑的重要问题：

哪些数据被用来训练和指导人工智能?它是否完整、准确、公正?
如何构建用于数据分析的模型?它们是否准确、稳健和透明?
作为反馈回路的一部分，人工智能的决策与人类专家的决策相比如何?

只有确保数据完整、准确、公正，并利用准确、稳健和透明的模型，我们才能真正开始相信人工智能会做出正确的决策。值得信赖的人工智能可以成为进步的催化剂，但前提是我们必须采取必要的行动来帮助它发展。生成式人工智能只会放大这一挑战，这就是为什么坚实的数据基础现在比以往任何时候都至关重要。