当时我在
世纪互联的CDN事业部做运维总监; 这份工作无需涉及任何具体技术, 只需做好每日的流程调度和CDN业务规化工作即可; 所以这些载体的设计全是我在工作之外完成.
先说一下CDN原先的运维方式: 我下设有四组人员, 分别是: 网管组, 运维组, 监控组, GSLB(全局DNS解析组);
我们的客户有: 联想, 新浪, 网易, 迪斯尼, 财富网, PPLive……,
每当大量不同需求的业务涌入公司时, 运维人员就开始进入人肉操作状态——到各结点查询空闲机器、布署操作系统、布署不同的应用、同步文件、布署监控、布署日志收集、智能DNS切换方案……,
还有其它的突发事件: 主机坏了, 硬盘坏了, 广东省网故障……,
所有工作使用了大量人工, 虽然有已成熟的操作流程管理, 但对于未来要出现的业务成倍增长, 这样的方式不是长久的办法……,
对于若干节点数千台机器在的管理, 市面上根本没有适用的软件可言, 开发部研发的"商业智能"主要是针对日志收集\传送\分析, 用以和我们的客户以及机房对帐使用的.
而且, 市场竟争非常激烈, 我们的竟争对手有网宿、蓝讯、帝联等, 当然,我所获知的: 他们的业务上也在做人肉操作.(我知悉的时间:2009年).
因此我思考: 必须要有一种云布署和云迁移方案, 加上中心数据库管理的机制, 智能处理各种业务, 实现绿色IDC.
参考了Oracle官方的一个方案, 做了一定的修正:
(1)我们不可能使用iSCSI方案, 对于CDN业务而言, 成本太高.
但我建立的小型linux只有十几兆到几十兆的大小,做为功能服务器,
可以非常方便的由物理机的网卡通过网络启动(以MAC为依据,tftp传输), 在数秒内布署到虚拟内存盘里, 然后自我引导系统.
(2)宿主机以及宿主机里的虚拟机, 我分别只用一种模版,
都能从节点的数据库服务器上取相关的业务方案形成配制文件, 然后启动业务服务.
而Oracle的方案是把它的每一个虚机(正常的、大个的企业版linux)做成actor放入到stage server中.
(3)同Oracle的方案一样,我们需要建立management server(业务布署方案数据库), 和UI server(操作人员管理平台).
(4)小型宿主机的linux的内核建立在对DELL、惠普、IBM和主流阵列卡、块设备、主流服务器网卡的支持上.
经过充分实验, 一台空白物理机在数十秒内布署上宿主机和其上的十个虚拟机.(注意:本页下载的只是stand alone的单机应用)
这个想法, 得到过
世纪互联的
雷紫东的很有限的支持.
提及这个想法之前, 雷紫东不允许产生"研发2部", 要求我专心做好"指挥官", 而"战士"该做的事更不允许染指.
得知这个想法后, 雷紫东一改态度, 提出要把研发部的技术人员调来给我用, 我拒绝了, 理由是: 研发部的人员适应了用JAVA编写大型企业应用的工作方式,
而我需要他们具备自动化控制领域的知识, 需要基于交易码[字典表]和信号实现对数千台机器的管理动作.
雷紫东又提出: 找两个秘书来做文档. (唉! 这是个很不靠谱的说法, 她们除了打字快, 一点都不懂技术, 写不了任何文档, 而我每天都在做"指挥官", 累得不亦乐乎的!)
后记: CDN事业部发生很大的人事变动, 直到与"云计算事业部"合并以后, 仍然还在以"人肉操作"执行业务.(我知悉的时间:2010年)
隐藏