产品系列 | Statuspage #1 状态和事件沟通工具
2019.08.21停机期间及时通知客户和员工的最佳方式
降低支持服务成本
无论是服务器的问题、生产环境中的 bug,还是 DDoS 攻击,现实是停机的情况在所难免。宕机时,通常会发布您的状态页面,发送跟雪片一样的客服电邮。事件沟通,先行一步,让您的团队专注于解决手头的问题。借助 Statuspage,他们能实时接收停运和维护提醒。
与客户建立信任关系
客户看重透明度。借助 Statuspage,通过显示服务的每个核心组件的状态,为您的客户提供真知灼见。这是您可以将艰难处境转变成令人难忘的客户体验的工具。
面向客户的公共页面
通过显示服务中的每个核心组件的状态,为您的客户提供其所需的洞察力。通过发布关键性能指标(比如正常运行时间和响应时间)来显示正常运行时间跟踪记录。相信我们,客户会因为这项服务而喜欢上您。
面向员工的私有页面
当您为数百或数千位员工运行服务时,通过群发邮件进行事件沟通已经行不通了。您可以为员工提供单一数据来源,并让他们能够选择相关通知。将您的服务页面挂接到 SSO,您就可以离开监控工具,一切自动执行,并且您再也不用回复“状态如何”这样的电子邮件了。
挖掘 150+ 家云软件提供商的状态
显示您的服务所依赖的关键型工具的状态。Statuspage 采用 Stripe、Mailgun 和 PagerDuty 等服务提供的最大且发展最快的第三方组件。您可以选择自己使用的工具。
Mixpanel 分享他们重大事件响应的 Tips:
Mixpanel 公司里两次屡获殊荣的支持团队是公司的核心。因此,当领先的用户分析平台需要解决问题时,熟练的事件响应团队知道如何快速解决团队中的问题。尽管停机时间很少见(Mixpanel 拥有令人印象深刻的 99.98% 正常运行时间记录,相当于每天只需 17 秒),但他们随时准备并能够在最重要的时候与客户建立信任。
是什么让他们在事件响应中如此擅长?我们打赌开发和支持团队之间一定形成了强大的协作和信任,他们出色的流程和文档,以及在出现问题时内部和外部过度沟通的习惯。我们采访了他们的支持团队的一些成员和一名工程师,以了解更多信息。
.统一开发和支持团队
传统上,技术人员(开发人员,SRE 等)是在出现问题时的主要负责人。但在 Mixpanel,事件响应时是由支持团队来负责领导。
支持团队成员位于工程对应人员旁边的待命列表中,因此他们可以在检测到问题后立即开始更新用户。它们在事件响应期间协同工作,因此客户可以尽可能地获得最新,最准确的信息。Jira 工单、专用 Slack 渠道和 Statuspage 是事件真相的数据来源,可在事件发生时保持团队同步。
但是,工具只是事件响应过程中的一部分。Mixpanel 团队还具有定义明确的角色,沟通风格指南以及事件通信模板,可在事件发生之前进行行调整,以便每个人在最重要的时候保持一致。他们与营销团队合作创建了风格指南,以便他们在编写事件更新时快速参考语气提示,避免使用的词语等等。他们的一个指导性沟通原则是“诚实,但不是危言耸听”,旨在尽可能透明,不会给用户提供不准确或不相关的信息。
最终,Mixpanel 能够提供这传奇般的支持,不仅靠扎实的技术技能,而且具有深刻的同理心。通过快速确定某人问题的根本原因,支持工程师能够更快地连接并教导客户如何对其产品和公司做出更明智的决策。通过及早和诚实地更新用户,他们能够消除困惑并建立持久的信任。
.过度沟通以保持同步
清晰,全面和有组织的沟通是事件响应期间主要的原则。“内部过度沟通是关键,”卡西告诉我们。“如果我知道某件事是一个问题而工程师知道这件事,那并不意味着每个人都知道......我们需要确保所有利益相关者和所有与客户沟通的人都在能同步。”
Mixpanel 通过将不同类型的对话分解到不同的 Slack 通道并记录哪些通道用于什么来组织事件期间的通信。任何人都可以参考这些文档并在合适的时间跳转到正确的聊天。例如,他们在“Ops 团队”频道中通过事件修复进行讨论,但对与实际修复无关的相关信号使用“停机聊天”。强大的协作和内部沟通帮助他们能在外部提供快速,一致的通信。
“我们将 Statuspage视为行业领导者。就个人而言,我很喜欢可扩展性和与其他同类最佳服务的集成,提供快速实现网络状态的便捷性,它是 Atlassian 大家族中的一员,这使我们的选择和持续合作变得更加容易。”
布兰登·沃尔夫
用户管理副总裁
InVision