Upload
packsric
View
204
Download
4
Embed Size (px)
Citation preview
Checklist de Dispositivos de Fita para Ambiente SAN
A ocorrência de erros de I/O tais como [90:190] Invalid format version of Data Protector medium, [90:51] Cannot write to device, [90:54] Cannot open device, na maioria das vezes não são decorrentes de problema de hardware ou do DP, mas da ação de agentes externos ao Data Protector que durante a operação de backup (escrita em midia), forçam o dispositivo a executar uma operação de rewind.
Como o Data Protector não tem ciência desta operação, após o rewind, os dados continuam sendo escritos, sobreescrevendo a header da fita. Desta forma, a fita deixa de ser reconhecida e passa para um status BLANK. A mídia registrada no pool que deixou de existir por perda do header permanecerá no pool com status POOR.
Pela experiência de suporte, os agentes mais comuns em ambiente SAN que causam este comportamento são:
- ferramentas de monitoração de dispositivos;- ferramentas de monitoração da SAN;- outras aplicações de backup ativas na SAN (arcserver, por exemplo);- política de locking de dispositivos de fita do DP incorretamente aplicada.- reset da SAN, switches problemáticos, manutenção da SAN;- reboot de sistemas linux;- drivers de Fibre Channel e SCSI desatualizados;
Pode-se claramente identificar a ocorrência deste tipo interferência, analisando o report da(s) NSR(s), localizando a string “FCP_CDB 00000000” na sessão de traces:
...19505ms 289us Vx Date 04/24/08 Time 16:01:15 0ms 1us FrmHdr 06040b00 00050c00 08290008 00000000 0136ffff Port 0 0ms 2us FCP_LUN 00000000 00000000 FCP_CNTRL 00000000 FCP_DL
00000000 0ms 0us FCP_CDB 00000000 00000001 44000000 00000000 IOCB
80F2B5DC 0ms 20us RMI_getPortIdforRoute: routeIndex: x3, Route_Port: x0 0ms 2us fcpTrns_cleanupPersistentCommand: Leaving ....
Como reforço, segue um excerto traduzido do Enterprise Backup Solution Design Guide, documento que deve ser utilizado quando da configuração de um ambiente de backup (http://h18000.www1.hp.com/products/storageworks/ebs/):
Rogue applications“Rogue applications” (ou aplicações trapaceiras), é uma categoria de
produtos de software frequentemente encontradas em ambientes de SAN que podem interferir no funcionamento normal de operações de backup e restore. “Rogue applications” incluem agentes de gerenciamento, softwares de monitoração e uma ampla lista de drive de fitas e utilitários de configuração de sistema. Uma lista de “rogue applications” conhecidas e os sistemas operacionais onde elas rodam pode
1
ser vista abaixo. Esta lista não pretende cobrir todas as aplicações, é somente um exemplo das mais comuns.
. Windows (all versions). SAN Surfer (HBA configuration utility). HBAnywhere/lputilnt (HBA configuration utilities). HP System Insight Manager (management agents). Removable Storage Manager. HP Library & Tape Tools (tape utilities)
. Linux (all versions). SAN Surfer. HP Library & Tape Tools. mt commands (native to OS)
. Unix. mt commands (native to OS). diagnostics
. Solaris. SUN Explorer (system configuration utility)
Essas aplicações, utilitários e comandos reconhecidamente interferem nos componentes onde os dados trafegam e quando rodados concorrentemente as operações de backup ou restore, tem o potencial de causar interrupção de jobs, corrupção de dados e emitir falsos alarmes de hardware. Por exemplo, utilitários de HBA tais como SAN Surfer e HBAnywhere tem a habilidade de de resetar portas de Fibre Channel; utilitários como HP Library and Tape Tools permitem testes completos e reset de devices e upgrade de firmware; agentes de gerenciamento e utilitários, tais como HP Systems Insight Manager and SUN Explorer fazem polling de dispositivos de fita e podem causar interrupções e/ou contenções no acesso aos mesmos.
Recomendações
Implemente uma política de acesso restritiva aos dispositivos da library, evitando que novos hosts tenham inadvertidamente acesso aos drives da library. O discovery manual e a associação de um mapa nulo inicial para um novo host do router fazem esta função.
As seguintes ações que devem ser efetivadas em todos os servidores que tenham acessos compartilhados, via SAN, aos dispositivos de fita (drives e libraries):
Manter os drivers de Fibre Channel e SCSI/SCSI-tape atualizados nos sistemas operacionais;
Manter um controle rígido de mudanças nos hosts da SAN;
IMPORTANTE:Instalação de atualizações de software ou hardware (Windows Service Pack,
Proliant Support Pack) eventualmente podem desfazer as modificações aqui
2
sugeridas, retornando à uma condição em que teremos as interferências presentes novamente no ambiente.
REVISE ESTE CHECKLIST APÓS QUALQUER ATUALIZAÇÃO DOS SERVIDORES.
3
Ambiente Windows
Desabilitar os serviços:
RSM (Removable Storage Manager)
Start > Run > dcomcnfg, ao acessar o MMC - Component Services > Computers > My Computer > Dcom Config > Removable Storage Manager, selecionar e clicar com o botão direito do mouse e em seguida clicar em properties
4
Na aba location verificar se a apção "Run Applcation on this computer" está desabilitada.
Desabilitar também o serviço em “Services” do painel de controle – ferramentas administrativas
5
TUR (Test Unit Ready)
Tomar as ações recomendadas em
http://support.microsoft.com/default.aspx?scid=kb;en-us;842411
Ou
http://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?lang=en&cc=us&objectID=c00718488&jumpid=reg_R1002_USEN
Manually edit the system registry using RegEdit. Logged into the system as a user with Administrative privileges, run RegEdit and navigate to the following registry key:
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\hplto.
To disable RSM polling, edit the AutoRun value found in this key. A value of 0 (zero) indicates that polling is disabled; a value of 1 indicates that polling is enabled.
If this key does no exist, create it:
Value: AutoRun Type: REG_DWORD Data: 0 is disabled
After completion of these steps, the affected system should be rebooted.
IMPORTANT: Adding or removing tape drives from the system may cause an older driver inf file to be re-read, which in turn can re-enable RSM polling. If drives are added or removed, the registry should be checked for proper configuration and, if necessary, repeat step 2 above.
6
HP Management Agents - Storage Agents
Start > Control Panel > HP Management Agents.
Na barra de título pode ser identificada a versão do HP Management Agents instalada
7
Na aba de Process Monitor, localizar “cqmgstor” e clicar na opção “Stop”. Clicar em Ok.
8
Start > Run > service.msc
9
HP Management Agents - Fibre Agent Tape Support
Start > Control Panel > HP Management Agents.
Na barra de título pode ser identificada a versão do HP Management Agents instalada
Uma vez identificada a versão dos agents, siga as instruções abaixo para desabilitar o tape device polling.
10
Agentes na Versão 7.30 e Superiores
Clique na aba Storage e marque a checkbox Disable Fibre Agent Tape Support.
Agentes na Versão 7.20
Clique na aba Storage e marque a checkbox Disable Fibre Agent Tape Support.
11
Agentes nas versões 7.10 e 7.00
Para desabilitar o Fibre Array Tape Support, aplique o SoftPaq SP25792 disponível em: ftp://ftp.compaq.com/pub/softpaq/sp25501-26000/SP25792.EXE.
A documentação deste SoftPaq está disponível em: ftp://ftp.compaq.com/pub/softpaq/sp25501-26000/sp25792.txt
Para confirmar, checar o registry:[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\CqMgStor\CPQFCA]"DisplayName"="Fibre Array Information""Timeout"=dword:0001d4c0"DisableFlags"=dword:00000001
12
HBA’s de Fibra
Emulex:
If you are using Emulex HBA, the Emulex HBA driver has to be updated and resetTPRLO has to be set to 2 as per HP guide lines. This can be done directly in the System Registry or using Lputil Utility. This utility will be there along with the Emulex device drivers.Servers with Emulex adapters using Storport:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\elxstor\Parameters\Device"DriverParameters"="NodeTimeOut=10;LinkTimeOut=40;QueueTarget=1;EmulexOption=0;ResetTPRLO=2;"
QLogic:
5. If you are using QLogic HBA, from the "Configuration settings" menu in FastUTIL, select "Advanced Adapter Settings" and set the "Enable Target Reset" to NO, the default is 'Yes'.(If installed, you can also use the SANSurfer CLI or the SANSurfer GUI, check the manual of the HBA for details).
For Qlogics FC-Adapter: Go into the registry and change this parametersHKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device"DriverParameters"="UseSameNN=0;"To"DriverParameters"="UseSameNN=0;rstbus=2;tapereset=0"
!! Some configuration need the SCSI reset to be enable (like clusters configuration) to work correctly, check with customer if these settings can be made in his configuration.
13
Outras ferramentas de backup
Verificar a existência de outras ferramentas de backup instaladas, tais como NTBackup ou ArcServer e desabilitá-las.
...e qualquer outro serviço de monitoração de dispositivos de fita.
14
Ambiente Linux:
Desabilitar o serviço HP Linux Storage Agent para sistemas Prolianthttp://h20000.www2.hp.com/bizsupport/TechSupport/Document.jsp?objectID=c00715023
/opt/compaq/storage/etc/cmascsid stop vi /opt/compaq/storage/etc/cmascsid Comentar a linha . $CMAINCLUDE
SUsE:http://support.novell.com/techcenter/psdb/f3f70d4088fdc8473c2b7d44afa82b30.html
Desabilitar devices com rewind no RedHat:1 – Renomeie os devices com rewind:
edite-> /etc/udev/rules.d/50-udev.rulesadicione-> KERNEL="st[0-9]*", BUS="scsi", NAME="xst%n"
2 – Mude os parâmetros default dos devices com rewind:edite-> /etc/udev/permissions.d/50-udev.permissionsmodifique a linha de permissões do st para-> xst*:root:disk:0000
3 - Reboot o servidor.
15
Ambiente HP-UX (pré 11.31):
verificar os parâmetros de kernel:st_san_safe = 1st_ats_enable = 0
o st_san_safe
This feature prevents that another HP-UX host is able to open a tapedevice with the automatic rewind at close functionality. It does notprevent another host from doing all other kind of things with the tapedrive. One could for example issue a different tape position commandwith mt. A tape drive is a non tagged queuing scsi device, that meansonly one command to a tape drive can be outstanding. That limits thepossibility that a host that is not using the drive for a backup willinterfere with the currently ongoing backup, but it can not guaranteethat another host interferes.
o st_ats_enabled
This parameter enables a feature that the scsi command set offers. It isa reserve and release mechanism. A host can reserve a drive so that onlythis host can access this drive. Any other host which tries to accessthis drive will receive a check condition "reservation conflict" and notbe able to do anything with this drive. The host that holds thereservation needs to explicitly release the drive again when it doesn'tuse the drive anymore. The biggest problem arises when the host does notrelease the drive, then all other hosts are not able to access the driveas well as they can not break the reservation conflict. The onlypossibility is to reset the tape drive or the original host will do therelease. The above kernel tunable enables the (s)tape driver to reservethe drive when one opens the tape device and do a automatic release whenthe device is closed.
It is important to understand that only st_ats_enabled can assure thatno other host can access a tape drive while another one is using it.This is a type of mandatory locking. Due to the mentioned problems tobreak the reservation should a host have "forgotten" to release thereservation, Omniback and other backup solutions do not use thismechanism anymore. They favor the first mechanism, that only preventsthe rewind of the tape through other hosts, but it is important tounderstand that this is not a real locking meachanism that can preventothers from doing wrong things with the tape drive. Omniback and otherbackup solutions try to coordinate the tape access by some cell servers,but they can not prevent that a system admin accidently accesses a tapedevice file with mt or another command.
16
Verificar se o EMS está na versão A.29.00 0112 December 2001 ou superior, a qual já deve conter a cfg abaixo:
Set the POLL_INTERVAL value in the file /var/stm/config/tools/monitor/dm_stape.cfg to zero to stop the monitor from polling and uncomment it (remove the leading #). The dm_stape.cfg config file will be reread within 60 minutes if polling was disabled, otherwise within one current polling cycle (no reboot is necessary). IMPORTANT NOTE: The diaglogd process must be running when you set the POLL_INTERVAL value to zero. Otherwise, the monitor will fill the api.log file with error messages (until the hard disk space is used up) and consume most of the CPU time. Under no circumstances should diaglogd or the STM diagnostics be shut down!
Ambiente HP-UX (B.11.31)
Instalar o último patch de SO 11.31 estape cumulative patch (atualmente é o PHKL_39593) e suas dependências.
On previous versions of HP-UX the client had to issue the following command: # kctune st_san_safe=1 . With HP-UX B.11.31, the command needed to get the same functionality is: # scsimgr set_attr -d estape -a norewind_close_disabled=1 . To preserve the change across reboots, the user must also run: # scsimgr save_attr -d estape -a norewind_close_disabled=1 . To confirm your desired settings, run: # scsimgr -d estape get_attr . DRIVER estape GLOBAL ATTRIBUTES: . name = version current = 0.1 default = saved = . name = norewind_close_disabled current = 1 <--- Here is the set_attr change default = 0 saved = 1 <--- The save_attr will save the setting across reboots . name = st_ats_enable current = 0 default = 0 saved = . For more information, read the scsimgr(1M) and scsimgr_estape(7) man pages or refer to the I/O subsystem section of the release notes for HP-UX 11iv3.
17
STM Info Tool:
root cause:
The info tool is sending TUR (Test Unit Ready) commands, which cause running
backups to abort and tapes to rewind if they are using rewind device files.
Up to hpux system running 11.23 and using the cstm info tool we are using
inquiries only but on hpux running 11.31, the cstm info tool is sending a TUR in
addition to the inquiry.
Solution:
Install online Diagnostic Sept 2009.
In this bundle the tape driver for online diags is fixed.
WORKAROUND:
as long online Diagnostic Sept 2009 is not available, install the binaries (PA or IA)
as follows:
-rw-r--r-- 1 root sys 159364 Mar 9 14:29 tlscsidev.sl_IA
-rw-r--r-- 1 root sys 61440 Mar 9 14:28 tlscsidev.sl_PA
Procedure to use these binary:
1) Binary to be replaced in the target system is /usr/sbin/stm/uut/lib/tlscsidev.sl
2) Take a backup of the existing binary at location /usr/sbin/stm/uut/lib using
the command: mv tlscsidev.sl tlscsidev.sl_backup
3) Replace the corresponding (IA/PA) binary in the target system.
4) Change the permission for the binary file as: chmod 555 tlscsidev.sl
5) Change the owner: chown bin:bin tlscsidev.sl
6) Issue the info command for tape.
tlscsidev.sl_IA tlscsidev.sl_PA
18
No ambiente DP:
Após a configuração de um ambiente de SAN, poderão existir múltiplos drives lógicos representando um mesmo drive físico. O Data Protector usa um mecanismo de locking que evita que um backup que utilize um determinado drive lógico venha a sofrer interferência de outro backup que utilize um device lógico que mapeie o mesmo drive físico. Este mecanismo é chamado “Lock Name” e consiste na utilização de um mesmo lockname para todos os drives lógicos que mapeiem o mesmo drive físico.
A configuração automática de devices do DP é a forma recomendada para evitar erros de configuração, pois cria os lock names e ajusta os drive index/SCSI paths automaticamente.
Levantamento do escopo do problema
Para verificar se há corrupção de headers, pode-se procurar nas mensagens das sessões de backup do DP em que tape drives o problema já ocorreu:
cd /var/opt/omni/server/db40/msg/2007/06for i in `grep -l 90:190 *`doecho $igrep -e BMA -e 90:190 $idone
Uma vez sabidos os drives em que o problema ocorre, é possível levantar os sistemas que os acessam via NSR para investigar somente os envolvidos com o problema.
19
CONFIGURAÇÃO DE LOCK
20
21