9月1日,阿里云再次出现故障,有多位用户在微博爆出运行在阿里云上的系统命令及可执行文件被删除。
看看他们都遭遇了什么?
@点心哥哥:现在ECS 的机器,每执行一个命令,就完蛋一个命令,被删除,已经严重影响到我们线上服务与运维了,怎么办?
@francs3:我有台阿里云服务器 more ,cat , tail 命令都没有了。
@joyqi:我登上服务器用vim修改配置,配着配着我的vim进程突然被杀掉了。。。然后我运行vim就找不到这个命令了,接着我想用top看看是不是有异常进程来着,看着看着老子的top进程也被杀掉了,接着top命令也没了,我想尼玛命令没了老子重装一下可以吧,结果apt-get也这样没了。。。
@f0lk:去年就遇到这种情况了。gitlab 服务前一秒还正常,restart 就起不来了,查到后来,发现 /usr/bin/mysql 莫名被删了,git 用户组也被删了。同事还以为我误操作,我再怎么糊涂也不会不记得10分钟前干了什么,更别说删用户组了。作为多年 linux 新手,这锅背的太冤。
通过检索,笔者发现,遭遇此类故障的用户不在少数。
根据阿里云官方给出的声明称,是由于云盾升级触发bug,导致少量文件被系统误删除。
阿里云声明如下:
因云盾安骑士server组件的恶意文件查杀功能升级触发了bug,导致部分服务器的少量可执行文件被误隔离。系统在第一时间启动了回滚,目前被误隔离的文件已基本恢复。我们正在回访个别尚未恢复的客户,协助尽快恢复。对于受影响的客户,我们将立即启动百倍时间赔偿,并避免类似失误再次发生。我们深知这一失误对您业务带来的影响和损失,再次致以最深刻的歉意。
收到阿里云工单回复的用户此时才恍然大悟,@火丁笔记说,“我去,原来是这么回事啊,我出现了命令丢失后(+微信关注网络世界),想通过另一个服务器把文件 rsync 过去,结果 rsync 也没了。一上午了,我一直在反思到底是被黑了,还是误操作了!”
还有多位用户表示,一天在公司就解决各种命令丢失的问题。
不过也有用户对阿里云声明表示质疑,@cjacker说,“这里最大的问题在于,一个云平台级工具怎么能知道用户虚机执行什么且怎么能删掉虚机内数据?阿里云该检讨的不是这个故障,而是整个平台的数据安全性和隐私隔离保护。”
其实早前就有用户抱怨阿里云云盾扫描占用大量CPU,以及怀疑云盾定期对云主机监听端口做SQL注入,不论这种做法是否合理以及此行为的必要性,既然有用户受此困扰,阿里云更应该给用户一个透明的解释,以增强云计蓬勃发展中,企业对云的信心。