本文来自微信公众号:与非网eefocus(ID:ee-focus),作者:刘浩然,题图来自:视觉中国


6月8日下午,有大量广东电信用户反馈手机出现了打不了电话、上不了网的情况。事发时正值高考期间,而且断连并没有在短时间内迅速恢复,这一消息也迅速被顶上各大平台热搜。


据悉,本次受到影响的用户并不只是位于广东的电信用户。


据网友证实,只要你用的是广东电信卡,不论人在哪里,都可能会出现不能打电话的情况。根据2021年广东电信官方资料显示,广东电信的用户总数量达到4500万以上。


这次“断连”事件不仅影响范围广,恢复时间还很长。


据网友评论称,很多人在下午两点左右就出现了不能拨打电话的情况。官方微博在下午4点左右通报了这一事件。



不过,断连被没能像以往一样很快恢复。


一般来说,发生概率最高的服务器宕机事件可以通过重启服务器解决。而省级电信部门是一定拥有一套可快速上线的服务器备份的。在备用服务器协助下重启,可以保证绝大部分问题在半小时内解决。


2021年12月10日下午5点20左右,陕西电信曾出现网络故障,西安、临潼、宝鸡等多地用户无法上网,但在下午5点50分前后,网络就已经基本顺畅。2022年1月12日0:27,中国电信出海信号受阻,官方通报为设备故障,经过紧急处置,于0:51修复完毕。


然而回顾本次事件,通信全面恢复时间可能长达4~5小时。直到晚上7点多才完全恢复。



本次事件还有一点十分特殊,就是受影响用户仅电话与短信功能无法使用,上网功能不受影响。


在断连之初,电信内部其实已经流出了本次事故的大致原因。后来经过多名通信专家确认,已经可以基本得出结论:广东电信的核心网出现故障,LDRA到HDRA之间链路出现拥塞现象。专家解释,链路拥塞原因可能为某设备商的数通设备出现异常,导致数据包重传,引起信令风暴。应急处理方法是在SBC部署了流量控制流程,以及将某设备商的路由器隔离。


什么是LDRA与HDRA?为什么只有广东电信的用户受影响?为什么故障只影响通话而不影响网络?本文将带你分析手机通话的内部过程,找到断连的真正原因。


从拨出到接听,发生了什么?


手机从电话按下拨出键,到接听人接听为止,这一过程并不简单,其中要涉及到复杂的信令流程。


在你拨出电话前,手机其实早早地开始准备将你的“声音”传递出去。


通常手机在刚开机的时候是不能拨打电话的。这时需要等待手机进行“搜索信号”。只有当手机顶部状态栏出现三大运营商的名字后,我们才能拨打电话。这个过程其实就是在手机与小区基站之间建立连接,包含小区搜索、读取系统广播(随机接入)和网络侧注册登记(附着)三个过程。


这里的“小区”并不是我们认识中的居住小区,而是被蜂窝网络划分出的一个个六边形区域,每个区域都会有一个基站。通常来讲一个基站对应一个小区,即以基站为中心的一片覆盖区域,若基站覆盖范围较大,还可以将小区划为不同的扇区,一根天线负责一个扇区的信号传输。


当手机开机后,一般会从手机射频端检测出一个功率最大的小区,接着手机会和该小区的基站达成频率与时隙同步,这样手机就可以使用当前基站的网络服务,最后再进行验证等工作,确认该手机入网的合法性。之后你就具备了拨打电话的条件了。这个过程在开机后会多次重复,使手机始终与信号最强的基站(或多个近处的基站)保持连接。


回到打电话的流程中,手机中的麦克风会将声音这种模拟信号转化为数字信号,通过基带芯片进行编码后,通过天线将信号(高频脉冲)散发出去。基站的收发器收到信号,会对信号进行进一步处理并上行,然后通过光缆传递到目标区域的基站。之后的流程便是将上述流程反向走一遍,接收方就能听到语音了。


不过,这个过程十分简化,其中也省略了一个关键步骤,基站怎么知道你要打电话的人在哪个基站旁边?其实,这个流程与手机初次连接基站时的信息交换相关。手机SIM卡在注册时都会有归属地,比如本次上了热搜的广东电信,归属地就是广东,当然归属地往往还会细分,例如广州电信、深圳电信、佛山电信等。归属地的交换中心(MSC)中会存储所有注册的SIM卡信息。


MSC具有号码储存译码、呼叫处理、路由选择、回波抵消、超负荷控制等功能。作为网络核心,还支持位置登记、越区切换和自动漫游等移动管理功能,以及信道管理、数据传输,以及包括鉴权、信息加密、移动设备识别等安全保密功能。


当手机上网后,运营商的服务器(交换中心,MSC)会记录该手机最后出现在哪个基站旁边。


如果呼出用户和被呼用户都在归属地,那么手机的信号就会通过呼出手机—基站—呼出地MSC—光缆(核心网内部通信)—被呼地MSC—基站——被呼手机传输。


如果被呼用户不在归属地,被呼MSC会向被呼用户所在地的MSC转发呼叫请求,再通过基站连接。这个路径就是呼出手机—基站—呼出地MSC—光缆—被呼归属地MSC(转发请求)—光缆—被呼地MSC—基站—被呼手机,此时呼出地与被呼地之间仍然通过核心网内部光缆直连,但这中间需要通过当地的MSC转发才能接通。


断连的原因


在初步的了解了手机通话原理后,我们来尝试一步步分析断连原因。


或许你曾经有过这种经历,当你正在玩手机网游,与对手大战300回合的时候,突然一个电话打过来,手机瞬间失去网络连接。虽然你一瞬间挂掉了电话,但这短暂的断网还是让你输掉了关键团战,导致游戏失败。


如今这种令人“暴躁”的经历已成历史,4G时代后,使用VoLTE网络的手机已经可以做到边打电话边上网了。这种改变的关键,就在于过去上网与通话使用的是同一条链路,如今则变为两条,打电话业务通过IMS(IP Multimedia Subsystem,IP多媒体子系统)线路传输,而互联网则通过LTE线路传输,通话再也不会占用网络通信的通道。


图源:鲜枣课堂


正是由于通话与网络各自独立,造成了故障仅影响通话与短信,而不影响网络的结果。不过这仅解释了其中一部分原因,断连的关键还是要剖析核心网内部的故障。


我们常见的网络构造,从2G到5G,基本可分为3层,即接入层、汇聚层、核心网。我们日常能看到的基站,就属于接入层。


当基站收集到手机发出的信号后,会经过承载网传输到核心网,承载网可以简单理解为信号的传输高速路,通过光纤将信号从基站传输到核心网上。这一过程与前文提到的手机拨打电话的通信过程类似。


核心网是连接移动接入网和外部网络的关键部分,为用户提供了核心业务的支持,如语音通话、短信、数据业务等。它就像一个巨大的交换机或路由器,将来自世界不同角落的信号分发到目的地。因此,核心网需要支持海量的用户接入,还需要保证高可靠性与安全性。


前文提到的MSC交换机也是核心网的一部分,只不过MSC是基于2G通信网络架设的,在进入LTE时代后,MSC的功能就被集成在了电路域(CS网络)中,3G时代又归为IMS系统中。


随着4G、5G网络的铺开,核心网逐级向基于IP的全互联的网状网络转向,这其中业务、安全、维护及扩展性等问题,都将成为网关升级重点。目前,DRA的部署和建设,可以真正实现核心网的扩展,简化网络,实现快速部署、高效维护及增强网络安全。


DRA即Diameter Routing Agent,路由代理节点。DRA节点负责LTE Diameter信令目的地址翻译和转接, 实现LTE用户的鉴权、位置更新、计费管理等功能。Diameter信令网采用分级、分区组网架构,由信令转接点DRA分区汇接Diameter信令节点的信令消息。一般DRA节点会划分省内与省外。其中省内按照各地区承载量部署LDRA,每个LDRA再划分不同网元,网元与不同LDRA通过网状相连。最终,省内不同的LDRA会统一接入省级的HDRA中。


Diameter信令网网络结构  图源:51学通信


现在我们可以简单分析广东电信断连的真正原因了。


从通报中,我们了解到LDRA向HDRA传输受阻,而本次事故影响遍及全省,则HDRA的某台设备出问题的概率较高。其中DRA节点掌握着用户的鉴权、位置更新等重要功能,可以说已经成为本地用户的数据库。DRA还承担了曾经MSC交换机的责任,负责向外界发送注册用户信息。因此,重要DRA节点宕机,导致整条IMS线路不通,直接影响了所有广东电信用户的通话与短信功能,即使是身处外地的用户也无法避免“用户数据库丢失”的问题。


有业内人士分析了多个受影响案例后发现,广东电信用户之间不能互打电话,显示空号,而电信用户拨打其他运营商(移动、联通)则可以打通,反过来却不行。这也证明DRA某设备损坏推论的合理性。


写在最后


其实,本次广东电信大范围长时间断连背后,其实隐藏着一个更加重要的隐患,那就是防灾冗余机制没能发挥作用。


2022年12月,人民邮电报刊文《中国电信研究院:5G核心网容灾和安全能力提升》,文中重点讲述了中国电信已经实现了5G核心网用户数据库网元全故障极端场景下仍保持用户业务的可用,数据逃生时长从原本的180分钟缩短到10分钟。


其中在办法的实施上,中国电信采用5G用户数据库全故障快速应急逃生方案,当双机热备的两台用户数据库网元中的一台发生故障时,就触发提前向4G核心网快速批量导入用户逃生数据;当5G用户数据库两台都发生故障时,快速逃生到由4G核心网承接业务。文章讲到,该方案在5G用户数据库网元全故障场景下,对已经在线的用户启用特殊的免鉴权流程,保障超过80%已在线用户的基础业务不受影响。


然而本次断连事件中,中国电信曾经测试的防灾措施并没有发挥作用,甚至数据恢复时间要远超180分钟。这或许是因为5G核心网并没有出现故障,该防灾机制并没有设置3G数据向上逃逸的方案。


但就目前来说,电话与短信仍然是用户的重要通信方案,它并没有因为数据网络的出现而完全消失。更重要的是,无论4G、5G通信有多快,但依旧面临覆盖面积有限的问题,因此2G或3G通信仍旧是重要的备份通信方式。


纵使电话与短信功能的重要性在逐渐下降,还是希望全国运营商能通过该事件警醒,继续提高或优化防灾能力,若未来发生“断网”5小时事故的话,那造成的影响,可能就不可估量了。


本文来自微信公众号:与非网eefocus(ID:ee-focus),作者:刘浩然