训练速度提升12倍 UAI-Train帮你解除计算资源运维困扰

云计算
人工智能(AI)已经成为新一轮产业变革的关键领域。麦肯锡今年6月发布的报告指出,以机器学习为主要实现方式的人工智能,有望在15-20年内成为世界所有主要经济体中主要产业的基础支撑方式,为人类带来14万亿的直接经济效益。

人工智能(AI)已经成为新一轮产业变革的关键领域。麦肯锡今年6月发布的报告指出,以机器学习为主要实现方式的人工智能,有望在15-20年内成为世界所有主要经济体中主要产业的基础支撑方式,为人类带来14万亿的直接经济效益。

计算资源的运维困扰

UCloud的这位用户是人工智能领域的一家数据分析公司,研发总部位于北京,主要服务对象为东欧等亚欧板块国家,通过算法模型,可快速将不同场景或大量数据整合、分析,并输出可视化的分析图,从而帮助客户找到所需答案。

该公司所有的数据源都来自最终客户,但为了验证模型的准确性和通用性,依旧需要使用自己收集的公共数据来训练一个通用的模型。而对于一家几乎都是由数据科学家组成的公司来说,管理和维护所需要的计算资源是一个巨大的问题。

UAI-Train的充足计算能力

最近,UCloud发布了UAI-Train在线训练产品,解决包括代码管理、运行环境维护、GPU管理维护、数据管理等模型训练过程中的每个环节,提供一站式PaaS解决方案。

(图:UAI-Train 产品架构图)

UAI-Train是面向AI训练任务的大规模分布式计算平台,基于UCloud性能强大的GPU云主机集群构建,为AI训练任务提供充足的计算能力。该平台提供一站式训练任务托管服务,自动实现计算节点调度、训练环境准备、数据上传下载以及任务容灾。

AI训练服务按照实际计算消耗付费,普遍适用于常见的AI模型训练场景,如图像识别、自然语言处理、语音识别等。

使用后的意外收获

该公司近期在UCloud平台上运行的是地点分类的训练任务,共计12个城市,总训练图片量在十万张左右,测试图片在2000张,总计30G的图片数据集,用inceptionv3网络进行训练。

(UAI-Train模型训练场景:通过照片识别所在城市)

本次训练***epoch是50,在15个epochs左右发生了early stop。UAI-Train使用了4张Nvidia P40 GPU资源,总计训练耗时在5小时10分钟;对比原来使用6台CPU资源,训练速度大概是之前的12倍。

UCloud打造全新计算资源租赁模式

UCloud的AI训练服务是一种全新的计算资源租赁模式,用户无须购买或租赁昂贵的虚拟GPU服务器,只需要提供Docker镜像和训练数据,UAI-Train能够自动为其训练任务创建运行环境(Docker容器),并调用GPU计算资源为用户提供高性能计算服务。

用户能够以低廉的价格,按需使用GPU计算资源,甚至无需担心因训练超时或忘记关停而浪费租金。在训练的同时,UAI-Train可以通过TensorBoard或控制台日志的方式监控训练过程。事实上,以Docker容器方式部署的UAI-Train服务可以使用任何用户熟悉的编程语言和框架进行建模。

责任编辑:武晓燕 来源: UCloud云计算
相关推荐

2017-12-19 10:41:29

人工智能UCloudARKie

2018-05-19 00:26:13

UAI Train分布式训练

2024-03-18 09:02:53

AI模型

2022-02-25 23:46:16

神经网络机器学习AI

2020-09-20 21:46:00

量子芯片网络

2019-02-19 09:14:52

IT运维系统

2009-12-24 09:30:38

Opera性能测试

2017-05-11 11:30:43

MySQL查询速度

2021-03-10 15:19:01

工具代码开发

2021-07-05 13:10:17

技巧MySQL数据库

2009-03-29 09:47:24

苹果Iphone移动OS

2024-04-10 08:00:00

PostgresNoSQL

2009-06-08 15:43:56

IT服务运维管理广通信达

2013-09-27 17:06:01

RIIL综合运维广西大学

2022-07-28 16:02:44

思科NTT数字化转型

2022-10-14 17:30:59

Windows 11微软

2010-08-12 15:38:39

IT运维网管软件摩卡软件

2017-05-10 16:09:12

MySQL数据库查询

2020-03-03 11:08:16

AI 数据人工智能
点赞
收藏

51CTO技术栈公众号