如果你正在构建一个云架构,同时也在设计高性能的AI系统,你需要做些什么不同的事情?你需要什么才能做到这一点呢?新兴的最佳实践是什么?以下是我的建议:
了解你的用例
明确定义你的云架构中AIGC的目标。如果我反复看到任何错误,那就是没有理解商业系统中AIGC的含义。了解你的目标是什么,无论是内容生成、推荐系统还是其他应用程序。
这意味着写下东西,在目标上找到共识,如何实现目标,最重要的是,如何定义成功。这并不是只有AIGC才有的;这是每一次迁移和构建在云中的全新系统成功的一步。
我看到云中的整个AIGC项目都失败了,因为它们没有很好地理解业务用例。公司创造的东西很酷,但不会给企业带来任何价值,这是行不通的。
数据来源和质量是关键
通过AIGC模型识别训练和推理所需的数据源。数据必须是可访问的,良好的质量,并仔细管理。你还必须确保云存储解决方案的可用性和兼容性。
AIGC系统高度以数据为中心。我会称它们为面向数据的系统,数据是推动AIGC系统成果的燃料。垃圾进,垃圾出。
因此,它有助于将数据可访问性作为云架构的主要驱动因素。你需要访问大多数相关数据作为训练数据,通常将其保留在其存在的位置,而不是将其迁移到单个物理实体。否则,你最终会得到冗余的数据,没有单一的真理来源。在将数据送入AI模型之前,考虑使用高效的数据管道对数据进行预处理和清理,这确保了数据质量和模型性能。
这大约是使用AIGC的云架构成功的80%。然而,它最被忽视,因为云架构师更多地关注AIGC系统处理,而不是向这些系统提供数据。数据就是一切。
数据安全和隐私
正如数据很重要一样,应用于该数据的安全和隐私也很重要。AIGC处理可能会将看似毫无意义的数据变成可能会暴露敏感信息的数据。
实施强大的数据安全措施、加密和访问控制,以保护AIGC使用的敏感数据和AIGC可能生成的新数据,至少要遵守相关的数据隐私法规,这并不意味着将某些安全系统固定在你的体系结构上作为最后一步,必须在每一步都将安全性融入到系统中。
可伸缩性和推理资源
规划可扩展的云资源以适应不同的工作负载和数据处理需求。大多数公司都在考虑自动伸缩和负载平衡解决方案。我看到的一个严重的错误是,建立了规模很大、但成本高昂的体系。最好在可伸缩性和成本效益之间取得平衡,这是可以做到的,但需要良好的体系结构和FinOps实践。
此外,还应检查培训和推理资源。我想你已经注意到,云会议上的许多新闻都是围绕这个主题的,而且有很好的理由。选择合适的具有GPU或TPU的云实例进行模型训练和推理。再次,优化资源配置以实现成本效益。
考虑型号选择
选择示范性的AIGC架构(一般对抗性网络、转换器等)。基于你的特定用例和需求。考虑使用云服务进行模型培训,如AWS SageMaker等,并找到优化的解决方案。这也意味着你要明白,你可能有很多相互连接的模型,这将是常态。
实施强大的模型部署策略,包括版本化和容器化,以使你的云架构中的应用程序和服务可以访问AI模型。
监控和日志记录
设置监控和日志记录系统以跟踪AI模型的性能、资源利用率和潜在问题不是可选的。建立异常警报机制以及为处理云中的AIGC而构建的可观察性系统。
此外,持续监控和优化云资源成本,因为AIGC可能是资源密集型的。使用云成本管理工具和实践。这意味着让FinOps监控你的部署的所有方面——最低限度地提高运营成本效益和架构效率,以评估你的架构是否最优。大多数架构都需要调整和持续改进。
其他考虑事项
需要故障转移和冗余来确保高可用性,灾难恢复计划可以最大限度地减少系统故障时的停机时间和数据丢失,在必要时实施冗余。此外,定期审计和评估你的AIGC系统在云基础设施中的安全性,弥补漏洞并维护合规性。
为AI的道德使用建立指导方针是一个好主意,特别是在生成影响用户的内容或做出影响用户的决策时。解决偏见和公平问题,目前有关于AI和公平的诉讼,你需要确保你做的是正确的事情。持续评估用户体验,以确保AI生成的内容符合用户预期并增强参与度。
无论你是否使用AIGC,云计算架构的其他方面都大同小异。关键是要意识到,有些事情要重要得多,需要有更严格的要求,总有改进的空间。