运营商PPPOE拨号故障处理流程:
专用名词:- PPPOE:以太网上的点到点协议(Point-to-Point Protocol Over Ethernet)
- BRAS:宽带接入服务器(Broadband Remote Access Server)
宽带接入服务器(BRAS)主要完成两方面功能,
1、网络承载功能:
负责终结用户的PPPoE(Point-to-Point Potocol Over Ethernet,是一种以太网上传送PPP会话的方式)连接、汇聚用户的流量功能;
2、控制实现功能:
与认证系统、计费系统和客户管理系统及服务策略控制系统相配合实现用户接入的认证、计费和管理功能;
- RADIUS:远程认证拨号用户服务(RemoteAuthenticationDial-InUserServer)
RADIUS服务器通过UDP协议与BRAS服务器通信,RADIUS服务器的1812端口负责认证,1813端口负责计费工作。
采用UDP的基本考虑是因为BRAS和RADIUS服务器大多在同一个局域网中,使用UDP更加快捷方便。
编号 名词解释 radius.code 特征
1 Access-Request 1 端口1812,上传用户CHAP加密MD5值
2 Access-Accept 2 端口1812,下发地址池,下发速率策略
3 Access-Reject 3 端口1812,拒绝原因
4 Accounting-Request 4 端口1813,radius.Acct_Status_Type == 1(开始) radius.Acct_Status_Type == 2 (停止)
5 Accounting-Response 5 端口1813
- BOSS系统:业务运营支撑系统(Business & Operation Support System,BOSS)
通常所说的BOSS分为四个部分:计费及结算系统、营业与账务系统、客户服务系统和决策支持系统。BOSS设定相应的业务账号、密码、带宽、漫游属性等同步到RADIUS,RADIUS下发带宽、账号密码等信息到BRAS上。
- POP:运营商汇聚设备
PPPOE其实就是一种宽带拨号上网的协议,通过PPPOE协议实现用户接入并访问互联网。
C/S架构PPPOE认证流程如图所示:(M属于运营商网络的BRAS设备,右侧服务器是RADIUS服务器)
考虑到认证安全性,采用CHAP 三次握手 认证加密
缩写 名词解析 ppp.code 特征
1、PADI PPPoE Active Discovery Initiation 0x09 广播
2、PADO PPPoE Active Discovery Offer 0x07 AC-Name
3、PADR PPPoE Active Discovery Request 0x19 先到先用,主机向优先收到PADR的BRAS发送PADR请求。(PADR分组必须包含一个服务名称类型标签)
4、PADS PPPoE Active Discovery Session Stage 0x65 确认会话开始(生成唯一的PPPOE SESSION-ID)
PPP会话阶段:
LCP协商 最大传输单元、加密方式的协商等链路建立配置。
CHAP CHAP认证
NCP协商 获取IP地址和DNS
LCP结束
5、PADT PPPoE Active Discovery Terminate 0xa7 会话结束
过程:
- 发现(Discovery)阶段-也称为PPPOED:主机以广播形式寻找所有集中器(BRAS),上述1-5均是发现阶段,最终确立相同且唯一的PPPoE SESSION-ID,同时学习到彼此的以太网Mac地址。(注意此处没有用ARP而是通过PADI包去学习MAC地址)
- PPP会话阶段:主机与BRAS协商MTU值、加密方式等,进入主机顺利获取到IP地址。
- 会话结束:主机通过发送PADT分组(需在会话已经建立的时候发起),用于终止PPPoE会话。当BRAS收到一个PADT报文后,将不再通过该会话去发送PPP报文。
- BRAS与RADIUS验证通信阶段
- 拨号故障码:拨号651、678、691分别以为着可能的故障点是?
拨号651、678:
故障可能的原因:
1. 路由器克隆(MAC地址冲突)
2. 账号多拨后Mac被锁(先691->后678)
3. 线路问题(ONU或接入层故障,至NAS通信问题)
拨号691:
1. 漫游限制
2.拨号账户或密码错误
3.续费未同步
4.空拨(空账号拨号测试线路正常),状态码先691->后678(多次拨号MAC被锁-678)
5.BARS地址池不
- 单个PPPOE拨号故障
- 整个POP下分散区域PPPOE拨号故障(拨测故障码-651)
1、排查BRAS、POP这两级设备的log日志是否有异常log,互联链路是否正常(无错误包,无拥塞),BRAS上vlan子接口是否超过阈值(MX960 VLAN子接口不可超过2.5W,PPPOE用户数不可超过6.5W)。
拨号651一般是线路上的故障
2、在1排查正常的情况下,同步咨询用户拨测状态码若是拨号651/678则排查POP设备是否正常;拨号到BRAS上是否能收到PADI报文。
收到的PADI很少且没有增加,在链路正常,BRAS配置正常情况下,怀疑POP报文没转达至BRAS。
在RADIUS上查用户VLAN信息不对。
3、判断是POP(已做IRF)问题,接入至POP链路,一般是跨机框或者板卡双上行链路,可以考虑断掉一根链路排除机框板卡转发问题。
4、确定是POP问题,考虑重启单机框(总好过现场更换设备)
注意:遇到大故障一定要迅速定位问题,涉及POP层面故障,提前安排人去机房待命。
对网络工程及Python编程感兴趣的可以加关注,我会不定期分享相关干货。