对于存储归档任务来说,AWS的简单存储服务(S3)是一个较具成本效益的选择。把归档移至云计算可让企业用户减少内部部署硬件,例如网络附属存储(NAS)的文件存储。当你在一个归档中进行文件搜索时,为了降低存储介质故障或其他问题所带来的风险,你可能会使用冗余副本,而使用AWS的S3还可以有助于节省冗余副本的数量。
如果需要实现AWS S3优势的***化,适当的规划是至关重要的。当把归档迁移至S3时以及在云计算中长期管理它们时,有几点是需要谨记于心的。
为你的归档设计一个组织架构
有些企业可能希望通过操作功能和日期来组织归档内容;而另一些企业则发现按照组织层次结构是更为简单的。无论哪种方法适合你的企业,你都需要考虑你应如何为归档任务实施扣费。例如,如果你计划向你企业的各个部门为他们所使用的归档开出帐单,那么你将需要一个能够让你轻松生成帐单报告的结构。
Bucket是AWS S3的存储逻辑单位。每个Bucket可以有最多10个标签,例如名称值对,“部门:财务。”在生成帐单报告过程中,这些标签是比较有用的,但是在所有的存储区域中使用始终一致的一组标签也是非常重要的。
AWS正在计划要求所有的Bucket名称遵循DNS命名约定。Bucket名称应当是3至63个字符,并用句号分隔标签。这里,应使用一个分层式命名约定。Bucket名称应当是这样的,例如:archive.finance.audit 和 archive.finance.accountspayable。
每一个AWS帐号一次可以拥有100Bucket。如果单一一个账户能够管理所有的归档,那么应制定相应的计划。而对于在一个Bucket中存储对象的数量是没有限制的。在若干Bucket或多个Bucket之间存储对象是没有性能损失的。亚马逊S3在Bucket中支持文件夹,从而为使用多个bucket提供一个替代方案。但是,文件夹不支持成本分配标签。
为传输数据确定***方法
这取决于你要传输至S3的数据量,你可能需要考虑使用AWS导入/导出数据迁移服务。不同于传统通过互联网传输文件的方式,客户需要把数据通过硬盘递交给亚马逊,并在亚马逊的一个数据中心内把数据载入S3。AWS在美国东部(北弗吉尼亚州)、美国西部(俄勒冈州)、美国西部(北加州)、欧美(爱尔兰)以及亚太地区(新加坡)提供专项服务。
我们建议,使用导入/导出服务还是通过互联网传输文件,这取决于网络速度和你需传输的数据容量。如果你的网络速度达到10Mbps且数据传输量在600GB以上,那么可考虑后者的方法。而当网速达到100Mbps,传输数据量超过5TB时,那么导入/导出服务则是可行的一种方法。AWS导入/导出计算器可帮助你估算对你的归档使用这项服务的成本。
验证、验证、再验证
不管你采用何种方法传输数据,你将需要验证被传输的数据是被正确地写入S3的。传输错误可能会导致源文件和目标文件之间的差异。大多数的Linux发行版本包括了用于计算文件哈希值的md5sum工具。用户可以使用这个工具计算源文件和目标文件的哈希值。如果两个哈希值有差,那么就说明传输过程中出现了错误,同时该文件应被重新传输。由于这些文件一般都是具有一定价值的信息集合,所以验证在AWS S3中所存储数据的完整性是非常重要的。
期待更便宜的替代产品
亚马逊的Glacier是一个专门的文件归档服务,其价格为0.01美分每GB每月,这样的价格是S3目前价格的三分之一,具体主要决定于所存储数据的容量。如果你不会需要执行检索操作或者会很快地就删除这些文件,那么可考虑弃用AWS S3而使用Glacier。在Glacier中检索数据可能需要花费数小时之久,而亚马逊会因为你把三个月内新载入的数据删除而收费。
实现AWS S3和Glacier优势的一个方法就是根据公司策略使用生命周期管理规则把文件迁移至Glacier。例如,一个已经被保存在S3中六个月的归档文件。你可能不会访问它;如果你确实需要访问它,那么检索这个文件需要花费长达数个小时并不会中断业务运营。一个生命周期配置规则可以与S3 Bucket相关,这样在指定时间之后文件会被自动传输至S3,从而降低整体存储成本。
企业用户可以针对归档任务使用AWS S3,但是***做好长期规划,这样你就可以简化日常管理运营,例如为个人用户开账单并在适当的情况下通过使用Glacier控制成本。