一、分析原则1、根据场景运行过程中的错误提示;2、根据收集到的监控指标数据;3、分段排查便于快速定位问题。分析实例一:Error:Failed to connect to server "192.168.1.43:8080":[10060]connectionError:timed out Error:server"192.168.1.43"has shut down theconnection prematurelyA:应用服务死掉。(小用户时:程序上的问题。程序上处理数据库的问题)B:应用服务没有死。(应用服务参数设置的问题)例:在许多客户端连接weblogic应用服务器被拒绝,而在服务器端没有错误显示,则有可能是weblogic中的server元素的acceptbacklog属性值设置过低,如果连接时收到connection refused消息,说明应该提高该值,每次增加25%。C:数据库的连接(1、在应用服务的性能参数可能设置的太小了。2、数据库启动的最大连接数(跟硬件和内存有关))。分析实例二:Error:Page download timeout(120 seconds) has expiredA:可能应用服务参数设置太大导致服务器的瓶颈B:可能是在主页面中图片太多C:在程序处理表的时候检查字段太大太多二、常用指标分析方法1、内存1、UNIX资源监控中指标内存页交换速率(Paging rate),如果该值偶尔走高,表明当时有线程竞争内存。如果持续走高,则内存可能是瓶颈,也可能是内存访问命中率低。2、Windows 资源监控中,如果Process\Private Bytes计数器和Process\Working Set计数器的值在长时间内持续升高,同时Memory\Available bytes计数器的值持续降低,则很可能存在内存泄露。瓶颈征兆:1、很高的换页率(high pageout rate);2、进程进入不活动状态;3、交换区所有磁盘的活动次数很高;4、很高的全局系统CPU利用率;5、内存不够出错(out of memory errors)。2、CPU1、UNIX资源监控(windows操作系统同理)中指标CPU占用率(CPU utilization),如果该值持续超过95%,表明CPU是瓶颈。可以考虑增加一个处理器或者换一个更快的处理器。如果服务器专用与sql server,可接受的最大上限是8085%,合理使用范围是6070%。2、windows资源监控中,如果System\Processor QueueLength 大于2,而处理器利用率(Processor Time)一直很低,则存在处理器阻塞。瓶颈征兆:很慢的响应时间(slow response time)CPU空闲时间为零(zero percent idle CPU)过高的系统占用CPU时间(high percent system CPU)过高的用户占用CPU时间(high ercent user CPU)长时间的有很长的运行进程队列(large run queue size sustainedover time)3、磁盘I/O1、UNIX资源监控(windows操作系统同理)中指标磁盘交换率(Disk rate),如果该参数值一直很高,表明I/O有问题,可以考虑更换更快的硬盘系统。2、windows资源监控中,如果Disk Time和Avg.Disk QueueLength的值很高,而Page Reas/sec页面读取操作速率很低,则可能存在磁盘瓶颈。瓶颈征兆:过高的磁盘利用率(high disk utilization)太长的磁盘等待队列(large disk queue length)等待磁盘I/O的时间所占的百分率太高(large percentage of timewaiting for disk I/O)太高的物理I/O速率:large physical I/O rate(not sufficient initself)过低的缓存命中率(low buffer cache hit ratio(not sufficient initself))太长的运行进程队列,但CPU却空闲(large run queue with idleCPU)三、oracle数据库1、如果自由内存接近于0而且库快存或数据字典快存的命中率小于0.90,那么需要增加SHARED_POOL_SIZE的大小。快存(共享SQL区)和数据字段快存的命中率:select (sum(pins0reloads))/sum(pins) fromv$librarycache;select (sum(getsgetmissesusagefixed))/sum(gets)from v$rowcache;自由内存:select * from v$sgastat where name ='free memory';2、如果数据库的缓存命中率小于0.90,那么需要加大DB_BLOCK_BUFFERS参数的值(单位:块)。缓存区高速缓存命中率:select name,value from v$sysstat where name in ('dbblock gets','consistent gets'.'physical reads');Hit Ratio=1(physical reads/(db block gets+consistent gets))3、如果日志缓冲区申请的值较大,则应加大LOG_BUFFER参数的值。日志缓冲区的申请情况:select name,value from v$sysstat where name = 'redolog space requests';4、如果内存排序命中率小于0.95,则应加大SORT_AREA_SIZE以避免磁盘排序。内存排序命中率:selectround((100*b.value)/decode((a.value+b.value),0,1,(a.value+b.value)),2) from v$sysstat a,v$sysstat b wherea.name='sorts(disk)' and b.name='sorts (memory)'SQL语句优化的目标1、去掉不必要的大表全表扫描;2、检查优化索引的使用,这对于提高查询速度来说非常重要;3、检查子查询,考虑SQL子查询是否可以用简单连接的方式进行重新书写;4、调整PCTFREE和PCTUSED等存储参数优化插入、更新或者删除等操作;5、考虑数据库的优化器;6、在多个CPU的情况下考虑并行查询。四、问题排查方法查找瓶颈的难以程度,由易到难:服务器硬件瓶颈>网络瓶颈>应用瓶颈>服务器操作系统瓶颈(参数配置)>中间件瓶颈(参数配置,数据库,web服务器等)。