选择实例时优先考虑业务特点:CPU 密集型选用高主频或高核型,内存密集型选用内存优化型。若是低延迟面向台湾或东亚用户,建议将云主机部署在台湾区域以降低网络时延。
评估负载基线并留有余量;使用自定义机器类型可以精细化匹配资源;测试使用预留实例或长期合约以降低长期成本。
先在台湾机房做性能基准测试,再根据监控数据调整机型与区域。
遵循最小权限原则配置 IAM,启用 VPC 子网划分与私有 IP,使用防火墙规则限制入站流量。对公网访问使用 Cloud NAT 或负载均衡器,并结合 SSL/TLS 证书保障传输安全。
启用两步验证和组织策略、定期审计 IAM 权限、使用 OS Login 管理 SSH 访问、对敏感流量开启 VPC Service Controls。
结合 Cloud Armor 做 DDoS 防护,并在重要实例上启用磁盘加密与客户管理密钥(CMEK)。
推荐使用 Google Cloud Monitoring 与 Cloud Logging(原 Stackdriver)集中采集指标与日志。为关键服务设置自定义指标与告警策略,确保在阈值触发时及时通知运维人员。
配置服务等级目标(SLO)和服务等级指示器(SLI),将告警与 PagerDuty 或 Slack 集成,使用日志聚合与结构化日志便于搜索与追踪。
对容器化工作负载引入 Prometheus + Grafana,与 Cloud Monitoring 联动以获得更丰富的可视化。
使用定期磁盘快照(Snapshots)和区域或跨区域复制来保证数据持久性。对数据库采用托管服务(如 Cloud SQL)并开启自动备份与跨区复制,制订 RTO(恢复时间目标)和 RPO(恢复点目标)。
建立备份保留策略与定期演练恢复流程,使用冷备/热备分层存储以优化成本,并对快照加密以满足合规要求。
至少每季度做一次全流程恢复演练,验证备份完整性和恢复时间。
通过自动伸缩(Autoscaling)应对流量波动,使用预留实例或承诺使用折扣(Committed Use Discounts)降低长期成本。选择近似资源的预留或抢占型实例(Preemptible VM)用于非关键批处理任务。
优化应用层(缓存、连接池)、利用负载均衡做流量分发、监控资源利用率并按需调整机器类型,避免持续低利用率导致浪费。
启用 Cloud Billing 报表与预算告警,定期审查未使用资源(如闲置磁盘、未绑定的静态 IP)并清理。