CRASH

domingo, 21 de agosto de 2011

Nobody is free from an unexpected crash, I'll leave some tips to help in this critical situation.


Some important logs:



System log after crash:

/var/adm/syslog/syslog.log


System log before crash:

/var/adm/syslog/OLDsyslog.log


Event log - some hardware problem?

/var/opt/resmon/log/event.log

You can do a MP dump to check others hardware logs.

Look for some "panic", this file hold some information about shutdow (who? when?)

/etc/shutdownlog

If the /var/tombstone/ dir exist - This is normally the result of a piece of hardware causing a Group 1 interrupt, an HPMC.


Check the software:

# swlist -l product

# swlist -l bundle


Default crash place:

/var/adm/crash

If the crash wasn't created automatic you can try use the "savecrash" command.


where's the crash?

If you can't find the crash in the default place, you can confirm the path in the bellow file:

/etc/rc.config.d/savecrash


CRASHINFO - Crash analisy
It can be download by hp software site, it's free, always use the last version.


Crashinfo

After download..

Sent to server

It's necessary change the permision, adding execution to crashinfo.bin file (not necessarily 777).

# chmod 777 crashinfo.bin

getting the reports for analisy:

[Disk space ] It's recommended use the same memory size for crash zone, the system will send some warning to syslog when the size of /var is less than 500mb.

You can check a lot of important things in the bellow output:

#./crashinfo.bin -c > crash_c.out

#./crashinfo.bin -v > crash_v.out

---------------------------------------
pt/br

Ninguém esta livre de um crash inesperado, nesta postagens dou algumas dicas para descobrir a origem de um crash, existem outros metodos, assinalo os que julgo importante.


Logs importantes quando acontece crash:


Log do sistema posterior ao boot:
/var/adm/syslog/syslog.log

Log do sistema anterior ao boot:
/var/adm/syslog/OLDsyslog.log

Event log - Hardware com problema?
/var/opt/resmon/log/event.log

É interessante fazer um dump dos logs da MP também para poder isolar qualquer problema.

Se o diretório /var/tombstone/ existir - Isto normalmente resulta de uma falhar de hardware, um HPMC.

Importar para constatar o crash:
/etc/shutdownlog

 Verificar pacotes:
# swlist -l product
# swlist -l bundle

Local padrão do arquivo de crash:
/var/adm/crash

where's the crash?
Neste arquivo pode ser definido a localização dos arquivos de crash
/etc/rc.config.d/savecrash

Analisando o crash:Pode ser baixado através do site de "software" da hp, é free, procure sempre pegar a última versão.

Utilizando o crashinfo
Após baixar:
O envie para o servidor
Altere as permissões a modo que você consiga o executar, não necessariamente 777.
# chmod 777 crashinfo.bin
Obtendo os relatórios para análise:
Muito importante manter a área assinalada para receber o crash que tenha no minimo 1gb, quando esta área chegar a 500mb voce receberá mensagens no syslog da maquina indicando pouco espaço.
Através dos relatórios obtidos nos próximos passos voce podera analisar a origem do crash, quantidade memória livre no momento do crash entre outros dados úteis.
#./crashinfo.bin -c > crash_c.out
#./crashinfo.bin -v > crash_v.out