繁体
首页

第84章 错误、故障和风险(5)(1 / 3)

第二次事故发生后,AECL进行了调查,发现了涉及转盘的几个问题(不包括任何我们所描述的问题)。他们对系统中做了一些修改,对操作过程提出了一些建议的改变。他们宣布已经把该机器的安全性提高了五个数量级,但他们告诉美国FDA说,他们也不知道该次事故的确切原因。也就是说,他们并不知道他们是否发现了造成该起事故的问题,抑或只是其他不相干的问题。在做出是否继续使用该机器的决定时,医院和诊所不得不考虑很多原因,包括:停止使用一台价格高昂机器带来的成本(收入损失,以及导致需要它的病人无法得到治疗);关于该机器是否造成伤害的原因的不确定性;以及后来当问题清楚之后,制造商关于他们已经解决了这个问题的保证。

一家加拿大的政府机构和使用Therac-25的一些医院提出了更多的修改建议,以加强其安全性;它们都没能付诸实施。第五次事故发生后,美国食品药品管理局宣布该机器存在故障,并下令AECL通知用户该机器存在问题。FDA和AECL花了大约一年时间(在此期间发生了第六起事故)对应该如何改动该机器进行谈判。最终方案包括了超过20项的改动。他们最终还是安装了关键的硬件安全联锁装置,而在此之后,仍在使用的大部分机器都没有发生过新的辐射过量事件。

过度自信

在第一起过量事件中,当患者告诉机器操作员说,机器让她感到“灼烧”,操作员对她说这是不可能的。包括这在内的许多迹象表明,Therac-25的制造商和一些用户对于该系统的安全性过度自信。对于软件过度自信的最明显和最重要的迹象是,他们做出了取消硬件安全机制的决定。在这些事件发生多年以前,AECL完成的安全性分析表明,他们没想到软件错误会带来显著的问题。在一个案例中,其中一间诊所自己在机器上添加了硬件安全功能,AECL告诉他们这是没有必要的。(在该诊所,没有发生任何意外事件。)

使用该机器的医院假设它可以安全工作,这是一种可以理解的假设。不过,他们的一些行动则表明存在过度自信,或者至少存在一些他们应该避免的实践。例如,操作员会忽略错误消息,因为机器产生的错误消息太多。在治疗室的摄像机和对讲系统使操作员能够监视治疗,并与病人沟通。(操作员在被屏蔽的治疗室外面使用一个控制台。)在一个诊所,事故发生的当天,视频监控和对讲设备都无法使用。操作员无法看到或听到病人在辐射过量之后,尝试站起来的场景。在他走到门口并用力撞门之前,他又接受了第二次过量治疗。在这一起事件之前,这家诊所已经使用该机器成功治疗了超过500名患者。

8.2.4 观察和展望

从设计决策一直到对辐射过量事故的响应方式,Therac-25的制造商都没有做好。这个案例中的问题数量和模式及它们的处理方式,都表现出了严重的不负责任。这一案例说明了一个负责任的、有道德的软件开发人员不应该做的很多事情。它说明了在软件开发过程中采取好的过程的重要性。它提醒我们,粗心大意、偷工减料、工作不专业,和试图逃避责任会带来严重的后果。它提醒我们,一个复杂的系统虽然可以正常工作上百次,但也会发生在很少见的异常情况下才会出现的错误,因此在操作有潜在危险的设备时,总是遵循好的安全流程是非常重要的。这个案例也说明了个人的主动性和责任感的重要性。回想一下,有些诊所还是对他们的Therac-25机器安装了硬件安全设备。他们认识到了风险,并采取了行动来减少风险。在一家诊所工作的住院医生花了大量时间,来尝试重现过量可能会发生的条件。在缺少制造商的支持和信息的情况下,他独立找出了其中的一些故障原因。

为了强调安全需要的不仅仅是没有错误的代码,我们来考虑涉及其他放射治疗系统的故障和事故。1966年,伦敦一家医院在一天内发生了三例患者放射治疗过量,原因是安全控制失灵。1991年,西班牙一家医院有24名患者因为机器故障接受了过量治疗;有3名患者死亡。这些机器上都没有计算机控制。两位新闻记者审阅了提交给美国政府的超过4000例关于辐射过量的报告。这里有一些他们所描述的过量事件。一个技术人员在开始治疗后,离开了病人10-15分钟去参加办公室聚会。另一位技术人员未能仔细检查需要治疗的时间。还有一位技术人员没有对所需使用的放射性药品进行称重,她觉得只要看起来适量就可以了。至少在两个案例中,技术人员把微居里和毫居里这样的单位都搞混了[5]。基本问题是粗心大意、对所涉及的风险缺乏了解、培训不够,以及缺乏足够的惩罚措施来鼓励更好的做法。(在大多数案例中,医疗设施只支付了少量罚款或根本没有支付罚款。)