failover clustering disperso geograficamente
TRANSCRIPT
-
SISTEMAS INFORMATICOS DISTRIBUIDOS
1 Parcial
FAILOVER CLUSTERING DISPERSO GEOGRFICAMENTE
2011
Botto, Vernica Leg. 46068 Hevia, Ezequiel Leg. 46058
Lugo, Jos Leg. 34111
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
ndice de contenidoIntroduccin................................................................................................................................3Funcionamiento de un Failover Cluster .....................................................................................3
Compartir Discos..........................................................................................................3Heartbeat: Latido del Corazn......................................................................................4Qurum.........................................................................................................................5Splitbrain.......................................................................................................................5
Confiabilidad de los Nodos.........................................................................................................5Configuracin de los Nodos........................................................................................................6Requerimientos del Diseo de las aplicaciones..........................................................................8Barreras de Entrada/Salida (I/O Barriers)...................................................................................8Dispersin Geogrfica ................................................................................................................9Cundo usar un Failover Cluster Disperso Geogrficamente?................................................11Proveedores de software para Clusters Dispersos.....................................................................12
Metrocluster (Hewlett Packard)..................................................................................12Extended RAC (Oracle)..............................................................................................14
Conclusiones.............................................................................................................................16Bibliografa...............................................................................................................................17
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 2/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
IntroduccinUn cluster deservidores, a veces llamadogranja deservidores (server farm), consiste de doso mas
computadorasquefuncionan,sonadministradasyparecen,para losusuariosdelared,comounasola
entidad.Cadaunadelascomputadorasquepertenecenalclustersellamannodos[1].
Losfailoverclustersoclustersdealtadisponibilidad (HighAvalilability,HAporsussiglaseningls), son
grupos de computadoras que dan soporte a aplicaciones de servidor que pueden ser utilizadas
confiablementeconunmnimodetiempofueradeservicio.Operan con computadorasredundantes,en
gruposoclustersqueproveenserviciocontinuocuandofallanloscomponentesdelsistema.Sinlosclusters,
siunservidorcorriendounaaplicacinen particular falla,laaplicacinnoestardisponiblehastaqueel
servidor sea arreglado. El clustering de alta disponibilidad remedia esta situacinal detectar fallas de
hardwareosoftware,einmediatamentereinicialaaplicacinenotrosistema,sinrequeririntervencindel
administradordelsistema,unprocesollamadofailover [2].Comopartedeesteproceso,elsoftwaredel
clusterpuedeconfigurarelnodoantesdecomenzarlaaplicacinenl.Porejemplo,sepuedenimportary
montarlos sistemasdearchivosapropiados, configurarseel hardwaredered,y ejecutar aplicacionesde
soporte.
LosclustersdealtadisponibilidadseusanamenudoparaBasesdeDatoscrticas,paracompartirarchivos
enunared,aplicacionesdenegocios,yserviciosaclientescomositioswebdecomercioelectrnico.
Funcionamiento de un Failover Cluster Paraimplementarclusters,sedebecontarconalmenosdosservidoresqueestnconectadosalamisma
redycorransoftwareespecfico.Dependiendodelmtodoqueseuse,tambinsepuedenecesitarundisco
compartidoounarreglodediscos,aloscualesseconectanambosservidores.
Cuandounrecursodelclusterfalla,sedicequeocurreunfailover.Siloquefallesunasolaaplicacin,el
serviciodelclusterintentareiniciarlaprimeroenelmismonodoyluego,siesonofunciona,enotronodo.Si
elnodoprimarioeselquefalla,elsoftwaredelclusterdetectaunfailoverdetodaslasaplicacionesque
estaban corriendo. Esto ocurre en forma automtica, aunque los administradores pueden iniciar,
manualmente,unprocesodefailover.Lahabilidaddelsoftwaredelcluster,luegodeunfailover,derestaurar
losrecursosalnodoquelosproveaoriginalmente,unavezqueesteestenlineanuevamente,sellama
failback. Los administradores del cluster pueden, a travs del software de administracin, establecer
polticasparadeterminarcundoelfailbackestpermitido.
Compartir DiscosHaytresmtodosparaquelainformacinestdisponibleaplicaciones,datosdeusuarioparatodoslos
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 3/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
servidoresdeuncluster, ysuincidenciaesenelniveldelhardwaredelcluster.Elprimerodeellos esel
llamadosistemadearchivosdered,dondeseusaunserverdealmacenamientobasadoenlared.Coneste
enfoquetodoslosnodosdelclustermontanelsistemadearchivosusandounprotocolodeterminadoytiene
accesoalmismoconjuntodearchivos.Estoofreceventajascomosimplicidadyfacilidaddeimplementacin,
pero a cambio hay una gran desventaja: el cluster tiene un nico punto de falla. Si el servidor de
almacenamientosaledelinea,caetodoelcluster[3].Adems,dealgunamaneraserreduceelrendimiento
altenerqueusarunadministradordebloqueoylospotencialescuellosdebotellaquegeneralmentese
producenenelhardwarecompartido.
Otromtodousareplicacinatravsdediscosespejados.Cadaunodelosservidorestieneundiscofsico
separado.Elsoftwaredeclusteringcopiatodoslosdatosescritoseneldiscodeunservidoralosdiscosde
losotrosnodos.Losdiscosespejadosproveenunagranredundancia,perosoncomplicadosdeadministrar
ymantener.Lamayordesventajadeestemtodoesque,duranteelmomentoquesetardaenreplicarlos
datosalosotrosdiscos,losnodosnotendrninformacinidntica;siocurrieraunafallaexactamenteen
esepunto,estoseraunproblema.Lareplicacinpuedeserunabuenasolucinparasitiospequeos,pero
parasitiosmuygrandes,losservidoresdealmacenamientosiguensiendounasolucinconfiable.
Otroenfoqueprovienedelmtodollamadonadacompartido(sharednothing),porquenoinvolucraaccesos
concurrentesaldiscodesdemultiplesnodos.Enotraspalabras,nohacefaltaunadministradordebloqueo.
Entre los proveedores que incluyenesta solucinest Microsoft Cluster Server (MSCS), que usa una
conexinSCSIentrelosnodos,perosolamenteunservidornecesitaeldiscoenunmomentodeterminado,
porlocualnohayaccesosconcurrentesalosdatos[4].Enesteesquema,cadanodotienesuspropios
discos,perosihubieraunfallo,elsoftwareencargadodelclusteringpuedetransferirlapropiedaddeun
disco.Tienelasmismasventajasquelosdiscoscompartidos,peronorequiereaplicacionesespeciales.
Heartbeat: Latido del CoraznParaqueunasolucindeserversenclustersofrezcaaltadisponibilidad,elsoftwaredebesercapazde
automticamente detectar la falla del nodo primario, y transferir sus responsabilidades a un nodo
secundario,sinintervencinhumana.
El mtodo para detectar la muerte de un nododel cluster es chequeando su latido o heartbeat. El
heartbeatesunenlacedealtavelocidadentre losmiembrosdelcluster,atravsdelcual intercambian
informacindeestadoymonitorizanlaactividaddecadauno.Cadanodotienetpicamenteunaplacadered
dedicadaqueseusaparaestaconexin,llamadatrficodeheartbeat,ademsdelaplacaderedconla
cualseconectanalared.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 4/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Qurum
Otrotemaimportante,especialmentecuandohaymasdedosnodosenuncluster,esculdeellosesel
propietariodeunrecursoycualseharcargodelencasodequeelnodoprimariofalle.Unaformade
manejarestoesimplementarelconceptodequrumresource,undiscofsicocompartido.Alleerelqurum,
unservidorsabrqueserviciosestndefinidos,cualeselnodopreferidodondecorren,yencualnodose
estnejecutandoactualmente.
Cuandounnododetectaquelosdemsestncados,puedeintentarreservarelqurum;comoesterecurso
slopuedeserreservadoporunnodo,elnodoquelleguetardealareservadelrecurso,entiendequedebe
abandonarelclusterycedertodossusrecursos.Elqurumesutilizado,simplemente,comomtodode
decisin.Eldiscousadocomoqurumseusaparaguardarellogoregistrosdeaccesoyoperacionesdel
cluster,ylabasededatosparalaadministracindelcluster. Estediscodebetambin soportaruncierre
basadoenelhardware.
Splitbrain
Unacondicinfundamentalqueelsoftwaredelosclustersdebemanejareselsplitbrain.Elsplitbrainocurre
cuandotodosloslinksprivadoscaensimultneamente,perolosnodosdelclustercontinanfuncionando.Si
estoocurre,cadanodoenelclusterpuedecreer,equivocadamente,quelosotrosnoestnfuncionandoe
intentarlevantarlosserviciosquelosotrosnodossiguenprestando.Altenerinstanciasduplicadasdelos
serviciospuedecausarsecorrupcin e inconsistencia dedatosenel almacenamientocompartido. Para
preveniresteproblemalosnodosdeberanusarcomunicacionesredundantesyentrarenunmododeauto
cercadocuandolosotrosnodosaparecencomocados,esdecircorrerenunmodolimitadoparaprevenirla
destruccindedatos.
Otraformaderesolverelsplitbrainesatravsdeunreagrupamiento,enelcualseusaunalgoritmopara
determinarelverdaderoestadodecadaprocesadorenelsistema.Cadaprocesadorcompartesuregistro
delestadodelosdemsnodos,locomparaconeldelosdemsyloactualizadeacuerdoaeso.Sehace
unavotacinluegodelacual,todoslosprocesadorestienenelmismoregistrodelestadodelsistema.Este
reagrupamientosloesposiblesisiguefuncionandoelenlacefsicoentrelosnodos,independientemente
dequelosnodosestnfuncionandoono:siunnodopierdetodassuslineasdecomunicacinconlosotros
nodos, nopodr reagruparse, y permanecer aisladohasta quese restauren las comunicacionesy el
sistemaseareiniciado[5].
Confiabilidad de los Nodos
Losclustersdealtadisponibilidadutilizantodaslastcnicasdisponiblesparahacerquelossistemasyla
infraestructuracompartidasean,individualmente,tanconfiablescomoseaposible.Estastcnicasayudana
minimizarlasoportunidadesdequeserequieraunclusterfailoverentresistemas,yaqueenesasituacin,
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 5/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
aunqueseaporuncortotiempo,elservicioquenormalmenteseprestanoestardisponible;porestemotivo
seprefieretomarmedidasparaevitarlasfallas.Estasmedidasincluyen:
Discosespejados,detalformaquelafalladeundiscointernonoresulteenunacadadel
sistema.
ConexionesdeRedRedundantes,paraquelafalladeunsolocable,switchointerfazde
rednoresulteenunacadadetodalared.
reasdealmacenamientodered(SAN,porsussiglaseningls),paraquelacadadeun
cable, switch o falla en una placa de red no lleve a la prdida de conectividad del
almacenamiento(estoviolaralaarquitecturasharenothing,nadacompartido).
Alimentacinelctricaredundante, endiferentescircuitos, todosprotegidospor UPS,y
unidadesdeprovisindeenergaredundantes,detal formaqueunafallaenuncablede
alimentacin,UPSounidaddeprovisindeenerganolleveaquetodoelsistemasequede
sinalimentacin.
Configuracin de los NodosLaconfiguracinmnimaparauncluster esdedosnodos,porquees loquesenecesitaparaproveer
redundancia,peromuchosclustersconsistendemuchosmasequipos,avecesdocenasdenodos. Las
configuracindeestetipopuedesercategorizadasenunodelossiguientesmodelos:
1. Activo/Activo
Eltrficoqueintentallegaralnodoquefallesdesviadoaunnodoexistenteosucargase
balanceaentrelosnodosrestantes.Esto,usualmente,soloesposiblecuandolosnodosusan
unaconfiguracindesoftwarehomognea.
2. Activo/Pasivo
Proveeunainstanciacompletayredundantedecadanodo,lacualseponeenlneacuando
sunodoprimarioasociadofalla.Estaconfiguracinrequieregrancantidaddehardwareextra.
3. N+1
Proveeunslonodoextraqueseponeenlneaparatomarelroldelnodoquehafallado.En
elcasoenquehayaconfiguracinunaconfiguracinheterogneaentrelosnodosprimarios,
elnodoextradebesercapazdeasumirelroldecualquieradeaquellosquesonsusnodos
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 6/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
primarios(alosquelessirvederespaldo).Estosucedenormalmenteenlosclustersque
tienenmltiplesservicioscorriendosimultneamente;sielservicioesnico,estecasose
transformaenactivo/pasivo.
4. N+M
En los casos en que un slo cluster administra muchos servicios, tener un nico nodo
dedicadoparafailoverpuedenosersuficienteredundancia.Enesoscasos,seincluyemasde
unserverenespera(M),queestndisponiblesparareemplazo.Elnmerodeservidoresde
respaldoesuncompromisoentrelasnecesidadesdeconfiabilidadenelservicioyloscostos.
5. Na1
Permitequeelnodoenesperapaseaseractivotemporalmente,hastaqueelnodooriginal
puedaserreparadoopuestoenlneanuevamente;enesemomentolosserviciosoinstancias
debenserdevueltosalnodooriginalpararestaurarlaaltadisponibilidad.
6. NaN
Esta variante es una combinacin de clusters Activo/Activo y N+M. Los clusters NaN
redistribuyenlosservicios,instanciasoconexionesdelnodoquefallentrelosnodosactivos
restantes,eliminandoentonces(comoenelcasoActivo/Activo)lanecesidaddeunnodoen
espera,perosudesventajaesqueintroducenlanecesidaddecapacidadextraentodoslos
nodosactivos.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 7/18
Figura1:ConfiguracinActivo/ActivoyActivo/Pasivo
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Requerimientos del Diseo de las aplicaciones
Nocualquieraplicacinpuedecorrerenunambientedeclustersdealtadisponibilidad,ydebentomarselas
decisionesnecesariasenetapastempranasdeldiseodesoftware.Lasaplicacionesquecorranenestos
ambientesdebencumplir,porlomenos,lossiguientesrequerimientos
Debe existir una forma relativamente simple de iniciar, detener, detener forzadamente y
chequearelestadodelaaplicacin.Entrminosprcticos,estoquieredecirquelaaplicacin
debe tener una interfaz de linea de comandos o scripts para controlar la aplicacin,
incluyendosoporteparamltiplesinstanciasdelaaplicacin.
La aplicacin debe ser capaz de utilizar almacenamiento compartido (Network Attached
Storage,NASoStorageAreaNetwork,SAN)
La aplicacin debe almacenar su estado, al mayor nivel de detalle posible, en un
almacenamientonovoltilycompartido.Igualmenteimportanteeslahabilidaddereiniciaren
otronodoenelpuntoexactoelmismoestadodondeestabaantesdelafalla,utilizandolos
datosdeestadoqueguardenelalmacenamientocompartido.
Laaplicacinnodebecorromperlosdatossifalla,oalreiniciardesdesuestadoanterior.
Estosltimosdoscriteriossonfundamentalesparalaconfiabilidadenelfuncionamientodelcluster,yson
losmsdifcilesdesatisfacercompletamente.Tambindebetenerseencuentala compatibilidad delas
licenciasdesoftware,alcorrerendistintosequiposendiferentesmomentos.
Barreras de Entrada/Salida (I/O Barriers)Asegurarelmayorniveldeintegridaddelosdatosesunametaimportantedecualquiersoftware,nosoloen
laadministracindeuncluster.Estoimplicatomarmedidasparaasegurarsequelosdistintosnodosno
haganoperacionesdeE/Senlamismaparticindeldiscoenelmismomomento.Durantelaoperacin
normal,estoseconsiguealpermitirqueslounservidormonteunaparticinenunmomentodado;pero
puedenocurrir condicionesdeerror quesuperen las barreraspuestaspor el software del cluster. Por
ejemplo,siunnodoestuvieranodisponibleporuntiemposuficiente,losdemsservidorespodranhacerse
cargodesusaplicaciones;sielservidorcolgadopudierarecuperarsedesucondicindeerror,continuara
corriendosusaplicaciones,sinadvertirquehansidotomadas(failover)porotronodo.Estacondicinse
detectaraunoodossegundosdespus,al intentarusarelqurum,peroenesetiempoesposibleque
algunaaplicacinlanzaraoperacionesdeE/S,loquefcilmenteserasuficienteparacorromperlabasede
datosdelaaplicacin.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 8/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
LasolucinaestetipodeescenariosesunabarreradeE/S,comolaqueusaelsoftwareClusterManager
deRedHat[6].UsandounmecanismodebarreradeE/S,sepuedeprevenirqueunservidorquenoest
funcionandobienpuedareiniciarsusaplicacionesqueyahansidotomadasporotronodo.Paraesto,Cluster
Managerutilizadosmtodos:
Watchdogtimers:untemporizadordeestetipo(seaporhardwareosoftware)esinstaladoencada
nodoyselousaparamonitorizarlaoperacindelnodo.Sielnodofallaenactivareltemporizador
enlaformacorrecta,esteautomticamentedisparaunshutdown/rebootdelservidor.Normalmente,
altemporizadorseloestableceenunvalormasbajoqueelconfiguradoeneladministradorparael
failover, asegurando que un servidor colgado sea reiniciado antes de que ninguna de las
aplicacionesseatomadaporotrosnodos.
Controladoresdeenergaprogramables:Cadanodopuedecontrolarelsuministrodeenergadelos
otrosnodos.Siunnodosecuelga,dejandoderesponder,otronodopuedereiniciarloantesde
dispararunfailoverdeaplicaciones,asegurandoquenovolveralavidayrealizaroperacionesde
E/Sespurias.Adiferenciadelcasoanterior,enconfiguracionesdeestetipocadanodopuedelanzar
operacionesdeshutdown/rebootdelosotrosnodos.
OtrosproductosdeadministracindeclustersimplementanbarrerasdeE/Susandodiferentestcnicas.El
mtodomascomnesusarReservacionesSCSI(SmallComputerSystemInterface).Estopermitequeun
servidorseasigneasimismotodoundisco,detalmaneraqueeldisconoresponderapedidosdeE/Sde
otrosservidores.Sibienestoimpidequemasdeunnodoescribaeneldisco,yporlotantonosecorrompen
los datos, la mayor desventaja de esta tcnica es que muchos controladores de almacenamiento no
implementanreservacionesdeSCSIenformaconfiable,yquesereservatodoeldisconounaparticin
cadavez.Elreservartodoeldiscoparaunsolonodopuedereducirsignificativamentelaflexibilidaddeluso
deaplicacionesenelcluster,especialmentecuandoseusangrandesconjuntosdediscosRAID.
Dispersin Geogrfica Tradicionalmente,losservidoresonodosdeunclusterdebenestarmuycercaelunodelotro,amenudoen
lamismahabitacinunojuntoalotro.Perolaposibilidaddeubicarlosnodosdeunclusterfsicamente
separados tiene ventajas desde el punto de vista de la continuidad de un negocio, por lo cual estas
arquitecturashanidocreciendohastapermitirclustersmetropolitanos(enunreade100kmomenos)e,
inclusive,clusterscontinentales,queusanredesenrutadasycarriersderedcomunesparareplicacinde
datos y comunicacindentro del cluster, para soportar failover de paquetes entre distintos clusters en
diferentescentrosdedatos.Losclusterscontinentalesestnubicados,amenudo,endiferentesciudadeso
diferentespases,ypuedenalcanzarunrangode100a1000km.[7]
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 9/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Losclusterscuyosnodosnosontodoslocales,hanrecibidodiferentesdenominaciones,incluyendo:campus
clusters, metroclusters, geoclusters, stretchclustersyextendedclusters(clustersextendidos). Eneste
trabajo,nosreferiremosindistintamenteaelloscomoclustersdispersosgeogrficamente,clustersdispersos
oEDC(porsussiglaseningls,ExtendedDistanceCluster,esdecirclusterdedistanciaextendida),ynos
limitaremosaanalizarlosclustersmetropolitanos,esdeciraquellosquenosuperanlos100kmdedistancia
comomximo.
Normalmente,enunfailoverclustersetratadeevitaroreducirlospuntos simplesdefalla(SPOF,Single
PoingOfFailure),atravsdenodos,switchesyswitchesdealmacenamientoredundantesenelcluster.Si
setieneunaconfiguracinconunnicoalmacenamientocompartido,elcentrodedatossetransformaens
mismoenunSPOF,cuandoocurrendesastrescomoincendios,terremotosocortesdeenergaelctrica.Un
EDC provee la habilidad de sobrevivir a mltiples puntos de falla, por ejemplo la falla de todos los
componentesdeunsolocentrodedatos,atravsdelacontinuacindeltrabajoencursoconcomponentes
delotrocentrodedatos.
Paraconstruir un clusterdedistanciaextendida,deberahacerseprimeroundiseoparadisponibilidad
local,luegomultiplicaresoscomponentespordosydistribuirlosentredoscentrosdedatos.Luego,conectar
losdoscentrosdedatos(queincluyensistemasdealmacenamientoredundante)conunaredredundantey
enlaces de almacenamiento entre amboscentros de datos, y configurar la administracin de volumen
espejadocomomtododereplicacindedatosparavalidarquecadacentrodedatostieneunacopia
completadelosdatos[8].
Unclusterextendidopresentaalgunosdesafosespecialesmasalldeunfailoverclustertradicional. Los
trescomponentesfundamentalesdeunnododeuncluster,yquedebenseranalizadosendetalleparaun
cluster disperso, son, primero, la conexin de red dedicada, que es la que usan los nodos para
comunicarseentresiymonitorizarsusrespectivosestados(trficodehearbeat).Segundo,laconexinde
red privada, quees laquelosusuariosusanparaaccederalosdatosyaplicaciones, quedeberestar
basada en fibra ptica y usar TCP/IP. Finalmente, el enlace al dispositivo de almacenamiento
compartido,queenlosclustersdispersos,seresuelveutilizandoelmismomediotantoparalosdatosde
almacenamientocomoparalosdatosdeheartbeat; ambossonenviadoalargadistanciaenlaformade
paquetesIP[9],yaquenopodraextenderseuncableSCSIporlargasdistancias.
Unejemplodeconfiguracindehardwareparaunclusterdispersogeogrficamentecumplelasreglasde
arquitecturagenerales:
Lamitaddelosnodosencadacentrodedatos
Lamitaddelalmacenamientoencadacentrodedatos
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 10/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Cadacentrodedatostienealtadisponibilidadporsimismo
Mltiplesnodossiesposible
Almacenamientodealtadisponibilidad
Redyconfiguracionesdelcanaldefibraredundantes
Elserviciodequrumestprovistoporunsistemaenunaterceralocacinindependiente
Losenlacesredundantesentresitios(redyalmacenamiento)seruteanpordistintoscaminosfsicos.
Cundo usar un Failover Cluster Disperso Geogrficamente? Cuandoserequiereunaproteccinimportantefrenteadesastres,comoprdidadeenerga
elctricalocal,cadadeunavin,inundacinoincendioenunedificiodelaempresa.
Otrosdesastres,comoterremotos,huracaneseinundacionesregionales,puedenafectarun
reaimportante.Deberahacerseunanlisisparadeterminarsilosdistintossitiosdelcluster
puedenserafectadosporelmismodesastre.
Cuandosequierehacerunusocompletodelosrecursos:elsercapazdedistribuircualquier
trabajoentretodoslosnodos,incluyendoelcorrercomounanicacargadetrabajoentodoel
cluster,permitelamayorflexibilidadenelusoderecursos.
Recuperacinrpidafrenteafallas.Siunsitiocae, todoeltrabajopuedeyserruteadoal
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 11/18
Figura2:EjemplodeconfiguracinparaunEDC
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
sitioremanente,quepuedehacerserpidamentecargodelprocesamiento(enmenosde12
minutos).
Porejemplo,enelcasoenqueunaempresatuvieradosedificios,incluidosenuncluster
disperso.Siunodelosedificiosfueradestruidoporfuego,ountornado,ounainundacin,el
negociocontinuaraenoperacionesporqueel nododelotroedificioseguirafuncionando.
Aunquesienelesquemadelclusterhayunsolodispositivodealmacenamientocompartido,y
esteesteneledificioafectado,todoelclustercaera.
Enempresasquenopuedenestarfueradelneaydebenprestarunserviciooaccederasus
datosenunabasede24/7(24horas,7dasporsemana),porlocualnopuedenpermitirse
unafallaensussistemas.
Enempresas multinacionales, que operan en mltiples pases en los cinco continentes,
necesitan tener todo el trabajo altamente sistematizado, por lo que la imposibilidad de
accederalainformacin,anporunperododepocashoras,impidealasempresasfacturar,
tomarpedidos,manipularinventarios,yrealizarlasfuncionesmselementales.
Proveedores de software para Clusters DispersosExistennumerososproveedoresdesolucionespara implementar clustersdispersos, con productosque
tienendiferentesnivelesdeprestacionesyqueseadecuanadiferentessituacionesaresolver.Entreellos
podemosmencionarelproductoRedHatClusterSuite,deRedHatInc.,elRealApplicationClusters(RAC)
deOracle,MetroclusteryContinentalclustersdeHewlettPackard,oDoubleTakeGeoClusterparaIBMAIX,
deVisionSolutions.Analizaremoslosrequerimientosdeunaimplementacindeestetipoendosdeellos.
Metrocluster(HewlettPackard)
Metroclusterest diseadoparausarenunambientedeclustersmetropolitanos,dentrodellmitedelos
100kmdedistancia.UtilizaServiceGuardparaadministrar losserviciosdedatosdelcluster,ytodoslos
nodosdebenperteneceraunnicocluster.Soportadosconfiguraciones:
Unnicocentrodedatossinrbitro(qurum),porlocualnoestoleranteafallas.
Unaarquitecturacondoscentrosdedatosyunaterceraubicacinconunoodossistemasde
rbitroounsistemadeservidordequrum.
Especficamenteparatener tolerancia frenteadesastres, losclustersdeServiceguardo loscentrosde
datospuedentambinserconfiguradosendiferentessubredes,aumentandolaescalabilidadyaquelos
operadorespuedenconfigurarmayornmerodenodosconmasdireccionesIP.Parconfigurarelclustera
travsdesubredes,debetenerseencuentaque:
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 12/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Todoslosnodosdelclusterdebenperteneceralmismodominio.
Elperododelatenciaenlareddeheartbeatqueseconfiguraenlassubredesdebeser
menosa200milisegundos.
Debenconfigurarseporlomenosdosredesdeheartbeatparatodoslosnodosdelcluster.
Cadasubreddeheartbeatenunnododebeserruteadausandounarutafsicadiferenteala
otrasubreddeheartbeatenelotronodo.
Debencablearseseparadamenteredesfsicasredundantesentre lossitiosparamantener
altadisponibilidad.
Cadasubredqueesusadaporunpaquetedebeestarconfiguradaconunainterfazdeespera
enlaredlocal.
Esta configuracin del producto cumple con los requerimientos de una arquitectura tolerante frente a
desastres.Enestetipodearquitectura,seesperaquecadacentrodedatosestautocontenido,demanera
quelaprdidadeuncentrodedatosnocauselacadadelclustercompleto.Esimportantequetodoslos
puntos simples de falla (SPOF) sean eliminados, de forma que los sistemas supervivientes continen
ejecutandosusaplicacionesenelcasoenqueunoomassistemasfallen.Tambinseesperaquelasredes
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 13/18
Figura3:DoscentrosdeDatosyunaterceraubicacinconArbitrators(Metrocluster)
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
entreloscentrosdedatosseanredundantesyruteadasdetalformaquelaprdidadealgncentrodedatos
nocausequelaredentreloscentrosdedatossupervivientesfalle.
ExtendedRAC(Oracle)
ElRAC(RealApplicationClusters)deOraclehaprobadoserunmecanismoeficientedealtadisponibilidad
paraaplicacionesdebasededatos.Fuediseadoparasoportarclustersresidentesenunsolocentrode
datosfsico,peroamedidaquelatecnologaavanz,losclientesbuscaronlaviabilidaddeusarloencentros
distantesgeogrficamente. RACpuedeser usadoen formaextendida, yproveeunarecuperacinmuy
rpidafrenteacadasdeunsitio,perodebeentendersecrticamenteenqucasosesadecuadoteniendo
encuentadistancia,latenciayelgradodeproteccinqueprovee[10].
Elgranimpactodelalatencia,yporlotantodeladistancia,creaalgunaslimitacionesprcticasdednde
puedeusarseestaarquitectura.Lasituacinidealesdedoscentrosdedatosubicadosrelativamentecerca
(menosde100km)ydondelosextremadamentecaroscostosdeestablecercablesdirectosconcanales
dedicadosentrelossitiosyasehantomado.
LaimplementacindeRACenunEDCesmuysimilaraladeunsitionico.Paraconstruirunabasede
datosRACenunambienteEDC,necesitar:
UbicarunconjuntodenodosenelSitioA.
UbicarelotroconjuntodenodosenelSitioB.
Usarconectividadrpidaydedicadaentrelosnodos/edificiosparacomunicacindelasinstancias
cruzadasdeRAC.(DWDM,DenseWavelenghtDivisionMultiplexingoDarkFiberesopcional).Los
requerimientosde redesparauncluster dispersosonmayoresqueparaunaWAN(WideArea
Network)queseusaparaRecuperacindeDesastres.
Usarespejadobasadoenhostsoarreglos dediscos parapermitirelalojamientodelosdatosen
ambossitiosymantenerlossincronizadosenespejo.Pordefinicin,RACenEDCtienemltiples
instancias activas en nodos en distintas locaciones. Por razones de disponibilidad, los datos
necesitanserubicadosenambossitios,yporlotantosenecesitabuscaralternativasparaespejar
elalmacenamiento.LaconfiguracinrecomendadaesunespejadobasadoenHost,esdecirun
almacenamientoActivo/Activo.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 14/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
ElusodeRACrequierequelainterconexindelclustertengaunareddedicadadebajalatencia.Estoesas
paraasegurartiemposderespuestaconsistentesyevitarlaprdidadelheartbeatdelcluster,loquepuede
causarquelosnodosseansacadosdelcluster.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 15/18
Figura4:ConfiguracinpropuestaparaRACenunClusterDispersoGeogrficamente
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
ConclusionesLosclustersofrecenunaalternativadecomputacindealtorendimiento,juntoconsistemasmasconfiables
atravsdelaimplementacinderedundancia.Elelegirlaarquitecturadelhardwareeselpasoinicialenla
construccindeunclustertil,debenconsiderarselasaplicaciones,laoptimizacindelrendimiento,ytemas
asociadosalaadministracindelsistema.
MuchasdelassolucionesdesoftwareparaFailoverClustersDispersosGeogrficamentesoncaras,ylos
requerimientos para el hardware redundante suman a los costos. De todas formas, si se consideran
aplicacionesderedquedeben,absolutaypositivamenteestardisponiblesenunabasediaria,lostiempos
muertospuedentenerunaltoimpactoenelnegocio,porlocualsehaceimperativoevaluarestetipode
solucinenelentornodeaplicacindeuncasopuntual.
Lasprdidasestimadasenlaproductividadylasgananciasaltenerlosdatosysistemasdemisincrtica
fueradelinea,comparadasconelcostodeimplementarunasolucinbasadaenunfailovercluster,puede
serunabuenaformadedescubrirqueloscostosnosontanaltoscomoseespera.Dependiendodeltamao
de laempresaoamplituddel negocioqueseevala,unashorasodasfueradeserviciopuedenser
igualeseinclusiveexcederelcostodecrearunasolucindeAltaDisponibilidadparalared.
Sincontarlatranquilidadqueconllevaelpoderasegurarlosserviciosqueseprestan,frenteagrancantidad
dedesastrespotencialesquepuedenafectareldesarrollodeunnegocio.
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 16/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Bibliografa
[1] Deb Shinder. (2001) Get IT Done: Use server clustering as a high availability solution. http://www.techrepublic.com/article/get-it-done-use-server-clustering-as-a-high-availability-solution/1057300 (26/11/2011)
[2] High-availability cluster. Source: http://en.wikipedia.org/w/index.php?oldid=461787126 (28/11/2011)
[3] Underwood Tod. (2001). Let Linux clusters share the server load. CNET. http://www.techrepublic.com/article/let-linux-clusters-share-the-server-load/1031408 (27/11/2011)
[4] Mitchell, Bradley. (2011) Cluster Network Computing Architecture. About.com Guide. http://compnetworking.about.com/od/networkdesign/l/aa041600a.htm (27/11/2011)
[5] Jardine Robert, Basavaiah Murali, Krishnakumar Karoor. (1999) Method and apparatus for split-brain avoidance in a multi-processor system. Tandem Computers INC. http://worldwide.espacenet.com/publicationDetails/biblio?CC=US&NR=5991518&KC=&FT=E&locale=en_EP (28/11/2011)
[6] Red Hat. (2003). Delivering High Availability Solutions with Red Hat Cluster Suite. Revision 3c - September 2003 . https://www.redhat.com/whitepapers/rhel/RHEL3ClustrSuiteWPPdf.pdf
[7] Hewlett-Packard Development Company, L.P (2008). Designing Disaster Tolerant HA Clusters Using Metrocluster and Continentalclusters . http://h20000.www2.hp.com/bc/docs/support/SupportManual/c02038175/c02038175.pdf (22/11/2011)
[8] Hewlett-Packard Development Company . (2008). HP Serviceguard Extended Distance Cluster (EDC) with VxVM/CVM mirroring on HP-UX: Best Practices.http://h20000.www2.hp.com/bc/docs/support/SupportManual/c02056222/c02056222.pdf?HPBCMETA::contentarea=manuals&publisher=Product+Manuals&productclass=10007&productclass=10004&productclass=10005&productclass=10008&keywords=high+availability%2C+cluster%2C+serviceguard%2C+edc%2C+sg-edc-vxvm-cvm%2C+13795&sitewide_search=yes& (27/11/2011)
[9] Posey, Brien M. (2003) Get IT done: Lay the foundation for long-distance clustering. Tech Republic. http://www.techrepublic.com/article/get-it-done-lay-the-foundation-for-long-distance-clustering/5032897 (28/11/2011)
[10] Oracle. (2006) Oracle Real Application Clusters on Extended Distance Clusters: Updated for Oracle RAC 10g Release 2. An Oracle White Paper. http://www.oracle.com/technetwork/database/enterprise-edition/extendedrac10gr2-131186.pdf (27/11/2011)
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 17/18
-
SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente
Paredes, Juan Pedro. (2001) Alta disponibilidad para Linux. http://www.ibiblio.org/pub/linux/docs/LuCaS/Presentaciones/200103hispalinux/paredes/pdf/LinuxHA.pdf (27/11/2011)
Hewlett-Packard Company (2001) HP IA-32 Server Long Distance Cluster Interconnect for Windows . Phase 1: up to 500m . http://h20000.www2.hp.com/bc/docs/support/SupportManual/lpn14611/lpn14611.pdf (22/11/2011)
Vision Solutions (2010). Breakthrough Data Recovery for IBM AIX Environments : How New Technologies Are Making Data Protection, Recovery and High Availability Easier and More Affordable . http://www.visionsolutions.com/Downloads/Whitepapers/WP_AIXBreakthrough_E.pdf(22/11/2011)
Lakshman, Avinash; Malik , Prashant . (2009) Cassandra - A Decentralized Structured Storage System . Facebook. http://www.cs.cornell.edu/projects/ladis2009/papers/lakshman-ladis2009.pdf (22/11/2011)
Quest Software, Inc . (2011) Planning for and Managing the Future of Your Network : A Look at Network Essentials and Network Management . Quest Software. http://i.zdnet.com/whitepapers/Quest_PlanningforandManagingtheFutureofYourNetwork.pdf (22/11/2011)
Zimmerman, Tim (2011) Clients That Don't Segment Their Network Infrastructure Will Have Higher Costs and Increased Vendor Lock-in . Gartner Inc. http://docs.media.bitpipe.com/io_25x/io_25581/item_412428/GARTNER%20REPORT-%20Clients%20That%20Don%27t%20Segment%20Their%20Network%20Infrastructure%20Will%20Have%20Higher%20Costs%20and%20Increased%20Vendor%20Lock-in.pdf(22/11/2011)
Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 18/18