动力冗余概述


2020年3月18日,SpaceX 在卡纳维拉尔角采用Falcon 9火箭发射了Starlink第6组共60颗卫星。火箭在接近一级关机时, 一台发动机发生异常提前关机,但最终火箭还是成功地把卫星送入了预定轨道(回收失败)


图 Falcon 9发射第6批星链发动机2分21秒异常关机 


图 Falcon 9发射第6批星链飞行时序


纵观Falcon 9火箭的历史,这种发动机故障下关机的能力多次拯救火箭性命。


2010年6月4日,Falcon 9第一次飞行试验,火箭进入发射窗口后,由于发动机参数超差,在点火前1秒终止了发射,在历时4小时的发射窗口即将结束时才抓住了第二次发射机会成功点火升空。


2010年12月8日,Falcon 9第二次飞行试验,Falcon 9火箭经历了一次发动机异常,原因是一台发动机的燃料—氧化剂混合比错误,富氧燃烧环境导致燃气发生器内温度升高,并最终引发关机。


2012年5月19日,Falcon 9 第三次飞行试验,当倒计时到0秒时,全部9台发动机点火。但第5号发动机突然出现”燃烧室压力升高“,计算机瞬时命令全部9台发动机停止产生推力,此时距发射只差0.5秒,火箭并未离开发射台,后调查表明一个涡轮泵阀引起5号发动机压力尖峰。


2012年10月8日,Falcon 9火箭发射龙飞船过程中,火箭飞行大约79秒后,第一级1号发动机压力骤降,控制系统关闭发动机,并计算了新的上升轨迹,指令箭上其它8台发动机多工作近30s,最终将龙飞船准确送入轨道。由于故障耗费了更多推进剂,剩余推进剂不足,无法确保二次点火成功率。为保证龙飞船安全,未实施二级发动机二次点火,没能把搭载的 OG2卫星送入预定轨道,2天后卫星坠入大气层烧毁。


图 2012年10月8日Falcon 9火箭在线关机


其中Falcon9的前三次异常关机属于牵制释放范畴,2012年10月8日的发射则是在飞行中起到了作用。美国大量火箭采用了这种设计技术。


1968年4月4日,阿波罗6号任务时,由于液氢燃料波纹管设计缺陷,土星五号二级5台J-2发动机中的1个开始颤动,控制系统关闭了此发动机,当它熄火时,另一个发动机也迅速关闭了(这台发动机其实并无故障,而是由一个戏剧性的接线错误导致的错误关闭),导致其它3台发动机产生的推力不对称地作用于箭体。但最终土星五号火箭控制系统仍稳定了箭体,并延长了发动机工作时间保证了三级火箭的正常入轨。


图 土星五号二子级


1985年7月29日,挑战者号升空后3分30秒,主发动机系统的一个温度传感器探测到1号主发动机超温93℃,安全系统计算机关闭了这台故障发动机,并完成了飞行。


图 航天飞机


在休泽尔的《液体火箭发动机现代工程设计》中:运载器在其中一台发动机不工作时完成任务的能力(简称为“停机能力”)...停机往往带来某些性能的损失,但这种损失将随着发动机数目的增加而降低…停机能力对于完成任务的可靠性有着重要的影响,组合发动机故障概率可以减少一半以上。


当我们假设最低要求为16台发动机可靠工作,考虑Q取为0.99~0.999范围内,得到16台、17台和18台发动机可靠性见如下表和图。



图 具备停机能力后可靠性(横坐标为单机可靠性,纵坐标为动力系统可靠性)


量化结果极其诱人,可靠性甚至比单台发动机还要高。当然,停机后可能带来运载能力损失,发动机台数越少,损失越大,火箭经济性越差。但在载人火箭上,第一要义并不是经济性,而是可靠性和安全性。美国载人火箭包括土星五号一二级和航天飞机,尽管只有5台或3台发动机,仍具备停机能力。


对于多台发动机,具备停机能力可大幅提高火箭可靠性水平;对于少数台发动机,具备停机能力,将大大减少火箭失败可能性,对于载人运载火箭意义尤其重大。


新技术发芽的土壤


既然是好技术,Just do it!


但,真的Just do it 就行了吗?正如联产承包责任制,如果仅仅是干活就行了,那包不包产到户又有什么区别?因此,干就行,并不一定是正确的打开方式。


是否具备停机能力是技术问题,但采用这种技术的驱动力,则是管理问题。有了需求,技术问题总归可以解决(尤其是有先例的情形下),但需求的产生,是管理问题,也是最为根本的问题。


正如垂直起降是关于变推力、凸优化等的技术问题,但是否采用垂直起降技术,一个重要前提是火箭产品所有权,是定价模式,即采用购买发射服务的模式,还是购买火箭产品的模式。如果购买火箭产品,明显返回的产品报不上价,设计部门怎么可能有兴趣和信心去说服生产部门;如果火箭的所有权不属于研制部门,研制部门又怎么有驱动力去自己革自己的命。垂直起降技术真正发芽的土壤,只能产生于对火箭状态监管变弱,购买发射服务而不是购买火箭产品的模式深入人心的大环境形成后。


动力冗余技术的驱动力和边界


在国内,给“停机能力”取了一个更为形象的名字:“动力冗余”。


冗余是提高飞行可靠性的有效方法,可以将冗余分为元器件冗余、单机冗余、系统内冗余、系统间冗余四个层面。动力冗余是典型的系统间冗余,动力系统出现故障,通过控制系统予以吸收和补救。


冗余是技术问题,但采用此技术的驱动力,则是管理问题。


单机的所有权明确,坏了是我的责任;冗余了、降低了失败概率,是我方案设计正确,因此元器件冗余和单机冗余非常容易取舍。


系统内冗余,涉及的单位很多,但只要有一个负责任的总体单位管,取舍起来也不是那么难。譬如速率陀螺坏了,采用惯组内陀螺的数值代替,编程可能复杂点,控制品质可能会变差点,但总归是控制系统内部事情,控制系统抓总单位真要推行也不是不行。


但对于动力冗余这种系统间冗余,关系就复杂了。发动机出现问题,控制系统补救,听起来总体最优。但这里有两个心理因素。


第一个因素:发动机出现了故障,结果控制系统补救了,错误是我的,功劳是你的,我不开心呀。


都是国家任务,有你说的这么 low 吗?


人性有其阴暗面。明朝末期,崇祯筹款十年依然穷得叮当响,李自成用七天抢到七千万两白银,这些当时哭穷的人不知道国和家之间的关系吗?怎么可能不知道。共和党和民主党深陷党争无法自拔,难道他们不知道美国当前的困境吗?怎么可能不知道。但特定的社会结构下,不同利益集团间的冲突才是最重要的。


正如有个故事:天下所有母鸡商量,总下蛋还要被杀,不如一起不下蛋了。很久没有鸡蛋吃人类很苦恼。这时候有个人说这有何难,他选出一只母鸡,说这是一只会下蛋的鸡,是母鸡中的战斗机。全国巡游,给予最高的礼遇和待遇,风光后,其它母鸡终于不忿了:她是谁?当年下的蛋比起我又小又少,凭什么全国巡游,凭什么待遇这么高?于是所有母鸡又一起下起蛋了。鸡蛋问题也就解决了。


航天人不 low,但责权利不统一时,只要有可能,最好不要给任何人这种人性选择。利用外部环境的变化,在关键时候出手,将比强行要求do it强太多;通过引入新技术,调整研制模式或组织模式,避免或弱化这种人性选择,则更有作为得多。就像在载人运载火箭进行故障检测和逃逸系统研制,推行起来就顺畅得多;载人火箭上将逃逸功能放到火箭系统而不是飞船系统上,火箭系统内部就可以完成设计闭环,且责权利统一,工作开展也会顺畅很多。


第二个因素:存在漏判和误判可能性。花了很多人力和经费开发了故障检测系统,漏判了不好交代;误判了,关了本不该关的发动机,就更不好交代了。


对于任何一项新技术,它的能力边界是一个重要的考量因素。“捡个鼠标想开网吧”的心态是新技术最大的敌人,”这也想要那也想要”的要求会将所有的激情消耗殆尽。动力冗余不是包治百病的灵丹妙药,除却部分发动机故障检测错误外,还存在发动机故障对其它系统影响,如N-1火箭的第一次飞行,燃气发生器导管断裂后引起了发动机机舱着火,致使1000Hz直流和交流电路短路,并最终引起火箭爆炸,此时已无法依靠动力冗余技术解决问题。对新技术的边界的充分讨论和广泛认同,是新技术顺利推行的必要条件。


动力冗余技术对设计的需求


没有动力冗余时,发动机故障扩展是一个典型的开环系统;采用动力冗余技术后,故障检测、控制重构和执行三个环节,它们组成了一个闭环系统。


与开环系统仅仅涉及执行相比,闭环系统多了故障检测和控制重构两个环节,也引入了更多设计因素。一是工况的复杂性,造成设计和仿真工况的大幅增加,即设计升维了;二是测量系统的技术定位,即测量参数是否可信的问题。


第一个问题是工况的复杂性。在编程中,对于函数会返回一个数字编码,作为错误类型的标识码。一般采用0作为成功标识,而其它数值代表错误标识。成功只有一种情况,用0就够了,而错误的可能性千变万化,需要采用更多的数字。


对于故障的识别,依赖于对动力系统单位的总体牵引和大量经费支持。


美国是最早开展故障诊断技术研究的国家,应用在飞机自动驾驶、人造卫星、航天飞机、核反应堆等各个尖端部门,处于世界领先地位。上世纪70年代初,美国在火箭发动机发动机监控方面做了很多工作,如宇宙神(Atlas)和大力神(Titan)等火箭的发动机的一些关键参数设置了上、下限监控。80年代后期,NASA MSFC/洛克达因研制了用于SSME地面试车过程监控的“异常与故障检测系统”(SAFD)。之后洛克达因公司研制了更为实用的火箭发动机健康管理系统(HMSRE)


在研究过程中,洛克达因公司曾针对七种型号发动机(MA-3、MA-5、RS-27、F-1、H-1、J-2、SSME)研制过程中的故障进行统计,从交付的2500台进行过1000次飞行的发动机中统计出85000次故障,对故障记录进行评定、筛选、归类,缩减到1771次故障,并归结为十六种故障模式,并附以故障传播图表示,用于发动机的故障分析和预测。


对于故障的重构,依赖于各单位间设计模型和软件工具的有效集成。


在设计时,成功只有一种工况,设计和仿真时只需要考虑一种工况,即使存在多个单位,即使仿真工具不太好用,尚可以牺牲效率为代价,完成设计和仿真。但采用动力冗余后,由于飞行中故障可能发生在任意时刻,故障类型和量级也多种多样,设计和仿真数量从一种变成了成百上千种,必须依赖于准商业化的通用仿真工具。而且由于系统间冗余涉及较多单位,为了多工况仿真可以进行,要实现交换模型的研制模式,代替简单的交换数据和文件的模式。


第二个问题是测量系统的技术定位。在以往飞行中,测量系统仅用于获取信息,可靠性要求远远低于控制系统,重视程度也远远低于控制系统。在很多时候,它所表现的可靠性也远远低于控制系统,在进行发动机参数检测时,所有关于转速、燃烧室压力的数据或多或少是不被信任的。处理这种方法有两种思路,自顶而下,和自底而上。


自顶而下是用控制系统信息辅助判断(甚至抛弃发动机参数直接判断)如发动机参数异常时,同时观察箭体过载、姿态等是否存在异常。如果存在,则表明发动机的确出现问题了,而不是传感器错误。这种方式看起来很保险,但实际上,发动机故障的扩展,富燃循环发动机一般在500毫秒级,而富氧循环发动机一般在50毫秒级,采信发动机参数还有可能提前进行判断,真正等到箭体有反应时,发动机早已出现不可挽回的故障(这种现象在某些型号上已经观察到了)


另一种思路是从基础做起,为什么不能直接用发动机的测量参数?Falcon 9火箭就是这样用的,针对3月18日的发动机在线关机,马斯克表示,导致这台引擎失效的原因是有“少量”的异丙醇(清洁液)被困在传感器的死角、并在飞行中被点燃。作为一款在无菌环境中常用的清洁消毒剂,其似乎有些意外地被留在了发动机流体系统中压力阀传感器的外壳中,然后在发动机点火时燃烧了起来。尽管此事可能不足以损坏发动机,但传感器还是认为热量超过了材料可承受的极限,从而触发了保护性停机。SpaceX 后续在清洁后再次仔细地检查,以避免发生类似的意外。该公司担任本次发射网播解说的人员莱昂斯称,本次发射所用火箭未采取这道清洗程序。


有人说,我们正是要规避这种测量错误模式的产生。但现实是,测量错误的概率远远小于正确实施动力冗余的概率。因为测量系统不可信只是目前研制模式下的结果,并不是必然。自底而上的思路是,从基础做起,从源头上提高测量系统可靠性(如采用元器件和单机冗余)基础做牢了,数据积累多了,自底而上的路自然就通了,只有在缺乏数据的情况下,才会选择看起来保险,其实未必管用的自顶而下的方法。


三大理念的共通之处


至此,运载火箭三大研制理念(静态点火、牵制释放、动力冗余)系列连载已完成,笔者将它们编排在一起,除了对这三项技术的向往之外,还因为它们之间有一个隐形的联系:故障检测技术。静态点火是试车后的人工故障检测、牵制释放是发射过程中的在线故障检测、动力冗余是飞行中的在线故障检测和决策。检测都是为了行动服务,静态点火通过人工判断产品是否正常以决策是否更换产品、牵制释放用于在线判断产品是否正常以决策是否紧急关机更换产品、动力冗余用于在线判断产品是否正常以决策是否在线关机并通过控制重构吸收故障。


表 三项技术区别和联系


火箭研制,是一项系统工程,在过去,我们聚焦于“A执行”环节,从无到有实现了载人航天、嫦娥登月、北斗工程,而引入“OODA”——博伊德循环(Observation观察、Orientation判断、Decision决策、Action执行)——的闭环环节后,是从系统到体系的跨越,实现的将是质量、效益和效率的大幅提高。


系统工程运行的60年,让我们步入了航天大国,而这之后必将是体系的运行,它承载的是我们从航天大国迈入航天强国的航天梦。


最后,需要说明的是,本系列风格与其它文章不太一致,历史调研、技术研究较少,笔者呓语较多。这也是本系列将标题称为“理念”的原因。理念和逻辑的区别是,逻辑可以论证,理念就是——你相信他。


本文来自微信公众号:理念世界的影子(ID:spaceodyssey1968),作者:洞穴之外