华三IMC Portal服务器常见错误分析.docx
- 文档编号:12314320
- 上传时间:2023-04-18
- 格式:DOCX
- 页数:22
- 大小:626.32KB
华三IMC Portal服务器常见错误分析.docx
《华三IMC Portal服务器常见错误分析.docx》由会员分享,可在线阅读,更多相关《华三IMC Portal服务器常见错误分析.docx(22页珍藏版)》请在冰豆网上搜索。
华三IMCPortal服务器常见错误分析
1PortalServer进程不能启动2
2提示“接收或解析响应报文失败”4
3上线一段时间掉线6
4Portal服务器获取不到设备信息或者设备没有回应req-info报文9
5页面显示向设备发送报文超时12
6设备没有回应ACK_INFO报文13
7设备拒绝请求15
8返回radius错误码信息17
9Portal页面一直处于请求状态无法打开或响应速度很慢17
10iNode客户端上线提示有一个用户正在认证17
11Portal认证提示“raidus服务器没有响应”18
12使用iNode可以上线,使用网页不能上线18
13客户端反复上下线18
14Portal日志增长过快问题18
15弹出心跳页面但实际上并未上线成功18
本文介绍了Portal常见错误,供研发人员和用服人员分析portal问题使用,其中前11个错误比较普遍,文档还在不断完善中。
1PortalServer进程不能启动
有如下可能原因:
1、统一地址文件中保存的portal地址不正确,造成该情况可能是部署时输入地址错误或者是服务器地址改变过但没有同步修改统一地址文件
2、50100、50200、50500等端口被占用,造成该情况可能是之前进程退出存在问题或者其他应用程序占用,比如DNS服务器。
可以通过如下命令查看端口是否占用:
如果是windows,如果linux,请使用命令:
netstat–anp|grep50200
1)查到如下进程ID为7348
2)打开windows任务管理器,选中显示进程ID列
3)找到对应的进程名称,如果是java.exe则基本可以确定是我们自己的进程占用,否则为其他程序占用。
3、portal.properties文件被意外清空。
该情况目前还不好确定,只在极少局点出现过,可能是由于意外断电、关机等造成的数据丢失。
4、数据库存在问题,导致无法连接数据库。
这种情况在portal日志中会提示数据库相关加载失败,可以通过osql(sqlserver)或sqlplus(oracle)连接数据库进行初步排查。
5、网卡处于禁用状态。
2提示“接收或解析响应报文失败”或“向portalserver发送请求超时”
日志文件一般会有如下错误,目前该提示已修改为:
向PortalServer发送请求超时。
有如下可能原因:
1、Portalweb获取的portalserver地址为null,导致报文发向127.0.0.1,从而portalserver收不到报文,也就不会响应给portalweb。
这种情况日志文件:
2、Portal服务器与Portal设备之间交互出现错误,并且portalweb的超时时间小于Portal服务器与Portal设备之间通信超时时间。
Portalweb的超时时间为15秒,可以在如下文件中修改:
Portal服务器与Portal设备之间通信超时时间和如下界面设置相关:
超时时间=报文请求超时时长(单次发送超时)×(认证重发次数+1)
如下设置超时为8秒。
3、PortalWeb与Portal服务器之间通信存在问题,比如socket绑定、端口占用等导致报文发送接收问题。
3上线一段时间掉线
有如下可能原因:
1、可能是用户关掉心跳页面导致,比如单任务的手机终端就会存在该问题。
2、页面有缓存,发送心跳功能失效。
3、设备或iMC上设置限制时长或者设备配置相关命令,这样在超过闲置时间就会收到设备的下线报文(NTF_LOGOUT)。
2012-09-2515:
55:
41.468[Portal服务器][调试(0)][ProxyRequestHandler:
:
run]192.168.26.5;NTF_LOGOUT(8);1143;192.168.26.1:
2000;报文处理成功
PacketType:
NTF_LOGOUT(8)
SerialNo:
1143
Address:
192.168.50.2
Port:
50908
RemoteIp:
192.168.26.1
RemotePort:
2000
Version:
portal2.0
AuthType:
CHAP
ErrorID:
0
UserIP:
192.168.26.5
UserPort:
0
ReqID:
0
Rsvd:
0
attriNum:
4
DeviceIp:
192.168.26.1
SessionId:
d43d7e11f919
TextInfo:
SendNTF_LOGOUTwhenonline!
DeviceTimeStamp:
1320777567
4、同一在多处登录,在线数量限制为1,且设置了如下参数:
5、配置了Portal服务器和Portal设备之间的用户级心跳,之前版本iMC在某些情况下处理存在问题会导致心跳报文不携带在线用户IP,后面版本已经改正。
6、收到设备NTF_LOGOUT报文,出现这个报文情况比较多,需要咨询设备具体原因,常见下述2种原因的下线报文。
2012-06-1209:
54:
08.859[Portal服务器][调试(0)][ProxyRequestHandler:
:
run]10.11.1.155;NTF_LOGOUT(8);7238;10.11.255.5:
2000;报文处理成功
PacketType:
NTF_LOGOUT(8)
SerialNo:
7238
Address:
10.10.203.5
Port:
50908
RemoteIp:
10.11.255.5
RemotePort:
2000
Version:
portal2.0
AuthType:
PAP
ErrorID:
0
UserIP:
10.11.1.155
UserPort:
0
ReqID:
0
Rsvd:
0
attriNum:
4
DeviceIp:
10.11.255.5
SessionId:
90fba61df710
TextInfo:
SendNTF_LOGOUTwhenwaitingLOGIN_ACK!
DeviceTimeStamp:
1277448815
PacketType:
NTF_LOGOUT(8)
SerialNo:
7540
Address:
10.10.203.5
Port:
50908
RemoteIp:
10.11.255.5
RemotePort:
2000
Version:
portal2.0
AuthType:
PAP
ErrorID:
0
UserIP:
10.11.1.105
UserPort:
0
ReqID:
0
Rsvd:
0
attriNum:
4
DeviceIp:
10.11.255.5
SessionId:
002197c8c8fe
TextInfo:
SendNTF_LOGOUTwhenonline!
DeviceTimeStamp:
1277448815
7、UAM后台回应计费更新报文Session-Timeout(27)属性为0,常见一个原因是余额不足,还有其他一些特殊原因,举一个之前发生的特殊例子:
上线报文正常,但计费开始和更新报文携带mac地址不全,如下所示,mac少了1段,导致收到计费开始报文时不会插入在线表,这样在收到计费更新报文时就会出现如下错误而回应Session-Timeout(27)=0属性。
%2012-11-2809:
32:
12;[WARNING
(2)];LAN;$SYS$;(NULL);(NULL);(NULL);Failtoprocessuseraccountingupdaterequest:
E63010:
使用指定业务的用户不在线
CODE=4.
ID=80.
ATTRIBUTES:
User-Name
(1)="xueping".
NAS-Identifier(32)="TZ-S75E-AC4".
NAS-Port(5)=16789554.
NAS-Port-Id(87)="00050".
NAS-Port-Type(61)=19.
Calling-Station-Id(31)="00-1F-3B-CD-3C-63".
Called-Station-Id(30)="00-0F-E2-EA-DD-D0:
OA".
Acct-Status-Type(40)=1.
Acct-Authentic(45)=1.
Acct-Session-Id(44)="39b0".
Framed-IP-Address(8)=2230363123.
NAS-IP-Address(4)=2230362882.
Event-Timestamp(55)=1354093042.
hw_Connect_ID(26)=1099.
hw_Input_Peak_Rate
(1)=0.
hw_Input_Average_Rate
(2)=0.
hw_Output_Peak_Rate(4)=0.
hw_Output_Average_Rate(5)=0.
hw_Priority(22)=0.
hw_IP_Host_Addr(60)="132.240.163.24300:
1f:
3b:
cd:
3c:
".
4Portal服务器获取不到设备信息或者设备没有回应req-info报文
实际上目前实现和发送req_info已关系不大,所以出现此错误基本可以确认是根据用户地址找不到对应portal设备信息,有如下可能原因:
1、用户上线IP地址没有包含在iMC的PortalIP地址组网段中。
2、ACK_INFO回应的端口信息不在端口组设置围:
上述端口设置不支持中文或特殊字,因此出现这种情况最典型的原因是设备的sysname含有中文或特殊字符,将sysname改为英文字符即可。
3、没有配置端口组,或者端口组中引用的地址组不正确。
4、使用移动终端等上线,IP地址经常变化,而由于Portal具有缓存机制,因此,造成缓存中原地址和现有报文头地址不一致(分别对应私网地址属性和公网地址属性),被识别为NAT,从而无法匹配到对应的地址组,参见如下红色部分,正常情况下如果不是NAT这2个地址是一样的。
PacketType:
CODE_PP_DOMAIN_REQUEST(110)
SerialNo:
15545
Address:
10.80.162.3
Port:
50908
RemoteIp:
10.80.164.10
RemotePort:
52719
Version:
portal2.0
AuthType:
CHAP
ErrorID:
0
UserIP:
10.80.164.10
UserPort:
0
ReqID:
0
Rsvd:
0
attriNum:
2
PrivateIp:
10.80.164.10
PublicIp:
10.80.164.10
5、ACK_INFO报文返回错误码1,原因可能是设备没有学习到该用户的arp表项,或者较老设备不支持REQ_INFO报文,目前iMC版本已对这种情况进行了放行处理。
6、ACK_INFO报文返回成功,但没有携带端口信息,目前iMC版本已对这种情况进行了放行处理。
PacketType:
ACK_INFO(10)
SerialNo:
90
Address:
172.16.88.64
Port:
50908
RemoteIp:
192.168.80.2
RemotePort:
2000
Version:
portal2.0
AuthType:
CHAP
ErrorID:
0
UserIP:
192.168.80.77
UserPort:
0
ReqID:
0
Rsvd:
0
attriNum:
2
DeviceIp:
192.168.80.2
DeviceTimeStamp:
1324145120
7、配置台配置没有生效,即,通知portal服务器加载失败,造成这种情况原因可能是portal服务器未正常启动或50900端口没有正常绑定,可以查看如下界面Portal主页信息显示正常与否来确认50900端口是否正常工作。
5页面显示向设备发送报文超时
有如下可能原因:
1、大用户量并发上线,Portal服务器代理出现队列满情况,导致报文丢弃。
这种情况如下日志文件中会有队列慢(英文full)的错误。
2、设备没有及时回应ACK_INFO/ACK_CHALLENGE/ACK_AUTH等报文。
3、对于没有接收到设备回应ACK_INFO报文情况较多,在下节单独列出。
6设备没有回应ACK_INFO报文
这种情况portalserver_2013-02-20.txt日志会记录req_info报文,但却没有ack_info报文,同时有如下错误提示:
2013-02-0515:
25:
44.964[Portal服务器][调试(0)][TimerSendTask:
:
stopProcess]用户“10.80.164.10”状态从“LOGIN_PORT_REQUEST_STATUS”变为“DEL_STATUS”
2013-02-0515:
25:
44.965[Portal服务器][调试(0)][RequestProcessor:
:
sendLoginRespToUser]errorCode=124
2013-02-0515:
25:
44.965[Portal服务器][调试(0)][ProxyResponseClientHandler:
:
run]10.80.164.10;CODE_PP_LOGIN_RESPONSE(101);16;10.80.162.3:
65285;向设备发送请求超时(124)
发生这种错误有如下可能原因:
1、设备对应端口没有启用portal。
2、iMC上Portal设备地址配置错误
3、iMC配置的Portal设备地址是Portal设备某个端口地址,但是和Portal设备回应报文使用的地址不一致,会出现如下红色框框所示的错误。
4、有防火墙阻挡,可以通过抓包确认。
5、设备上配置的portalserver地址不正确。
可以通过如下命令查看:
6、设备上没有配置对应的用户地址段。
7、Portal设备上配置的密钥和iMC配置台上配置的Portal设备密钥不一致。
7设备拒绝请求
1、设备回应ACK_CHALLENGE报文时携带错误码1,可能是设备没有对应arp表项,或者设备处理队列满导致,需要设备配合定位。
PacketType:
ACK_CHALLENGE
(2)
SerialNo:
13
Address:
2001:
250:
f004:
400:
0:
0:
0:
100
Port:
50915
RemoteIp:
2001:
0250:
F004:
0400:
0000:
0000:
0000:
0001
RemotePort:
2000
Version:
portal3.0
AuthType:
CHAP
ErrorID:
1
UserIP:
0.0.0.0
UserPort:
0
ReqID:
5
Rsvd:
0
attriNum:
2
UserIPv6:
2001:
0250:
F004:
0400:
69B5:
2FA2:
0A4C:
4B50
DeviceIpv6:
2001:
0250:
F004:
0400:
0000:
0000:
0000:
0001
DeviceTimeStamp:
956750412
2、设备回应ack_auth报文时携带错误码1,日志会有如下记录,出现这样的错误原因很多,可以先查看radius日志是否认证通过,如果通过就需要咨询设备具体原因了,比如,配置了下发ACL,但设备没有配置对应ACL的情况。
8返回radius错误码信息
凡是返回信息中带有如下红色框框所示错误号的说明radius认证出错,需要分析radius日志来确认具体失败原因。
9Portal页面一直处于请求状态无法打开或响应速度很慢
1、系统资源不足导致,查看启动脚本设置的存是否足够大
如下设置中至少应为1024m。
2、系统资源不足导致,查看是否存在其他耗存的程序,比如sqlserver数据库是否限制了最大占用存数。
之前发生过sqlserver数据库不断占用存情况导致系统变慢。
3、原有Portalweb实现依赖session,在用户量大时性能下降明显,新版本已经进行改善。
10iNode客户端上线提示有一个用户正在认证
这个提示通常是存在其他错误导致上次认证未完成,客户端超时重发,所以有此提示,如果出现这个提示,必然存在上述1~9中的某个问题。
2013-02-0515:
21:
15.227[Portal服务器][调试(0)][ProxyResponseClientHandler:
:
run]10.80.164.10;CODE_PP_LOGIN_RESPONSE(101);4963;10.80.164.10:
63173;Portal认证失败,该用户正在认证过程中,请稍后重试。
(3)
11Portal认证提示“raidus服务器没有响应”
设备和radius服务器之间认证出现问题,可以通过分别在radius服务器、设备上抓包分析原因。
12使用iNode可以上线,使用网页不能上线
网页获取客户端IP和iNode客户端获取IP方式不同,因此,这种情况多半为网页方式传递IP地址不正确,比如,前面提到的网页缓存导致使用旧IP上线失败情况。
13客户端反复上下线
从服务器上看已经发送了上线成功报文,但仍不断收到客户端发来的上线请求报文,出现该问题的可能原因有:
1、客户端没有收到服务器发来的报文,可以通过在客户端抓包确认。
2、服务器发送上线成功报文迟延,导致客户端超时重发。
14Portal日志增长过快问题
在极少情况下(具体什么情况不确定),网卡绑不上多播端口,而原代码未对该种情况进行保护处理,该问题在iMCUAM3.60-E6301P06及之后的版本已经解决。
15弹出心跳页面但实际上并未上线成功
某些终端由于自身机制问题,一旦上线成功过,后续上线不会发送任何报文,但仍会弹出心跳报文,造成上线成功假象。
这个问题仅在实验环境下出现过一次。
解决方法:
将浏览器缓存和本地cookie信息全部清除,重新上线可解决问题。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华三IMC Portal服务器常见错误分析 IMC Portal 服务器 常见 错误 分析