failover clustering disperso geograficamente

Upload: vvbotto9174

Post on 13-Oct-2015

24 views

Category:

Documents


0 download

TRANSCRIPT

  • SISTEMAS INFORMATICOS DISTRIBUIDOS

    1 Parcial

    FAILOVER CLUSTERING DISPERSO GEOGRFICAMENTE

    2011

    Botto, Vernica Leg. 46068 Hevia, Ezequiel Leg. 46058

    Lugo, Jos Leg. 34111

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    ndice de contenidoIntroduccin................................................................................................................................3Funcionamiento de un Failover Cluster .....................................................................................3

    Compartir Discos..........................................................................................................3Heartbeat: Latido del Corazn......................................................................................4Qurum.........................................................................................................................5Splitbrain.......................................................................................................................5

    Confiabilidad de los Nodos.........................................................................................................5Configuracin de los Nodos........................................................................................................6Requerimientos del Diseo de las aplicaciones..........................................................................8Barreras de Entrada/Salida (I/O Barriers)...................................................................................8Dispersin Geogrfica ................................................................................................................9Cundo usar un Failover Cluster Disperso Geogrficamente?................................................11Proveedores de software para Clusters Dispersos.....................................................................12

    Metrocluster (Hewlett Packard)..................................................................................12Extended RAC (Oracle)..............................................................................................14

    Conclusiones.............................................................................................................................16Bibliografa...............................................................................................................................17

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 2/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    IntroduccinUn cluster deservidores, a veces llamadogranja deservidores (server farm), consiste de doso mas

    computadorasquefuncionan,sonadministradasyparecen,para losusuariosdelared,comounasola

    entidad.Cadaunadelascomputadorasquepertenecenalclustersellamannodos[1].

    Losfailoverclustersoclustersdealtadisponibilidad (HighAvalilability,HAporsussiglaseningls), son

    grupos de computadoras que dan soporte a aplicaciones de servidor que pueden ser utilizadas

    confiablementeconunmnimodetiempofueradeservicio.Operan con computadorasredundantes,en

    gruposoclustersqueproveenserviciocontinuocuandofallanloscomponentesdelsistema.Sinlosclusters,

    siunservidorcorriendounaaplicacinen particular falla,laaplicacinnoestardisponiblehastaqueel

    servidor sea arreglado. El clustering de alta disponibilidad remedia esta situacinal detectar fallas de

    hardwareosoftware,einmediatamentereinicialaaplicacinenotrosistema,sinrequeririntervencindel

    administradordelsistema,unprocesollamadofailover [2].Comopartedeesteproceso,elsoftwaredel

    clusterpuedeconfigurarelnodoantesdecomenzarlaaplicacinenl.Porejemplo,sepuedenimportary

    montarlos sistemasdearchivosapropiados, configurarseel hardwaredered,y ejecutar aplicacionesde

    soporte.

    LosclustersdealtadisponibilidadseusanamenudoparaBasesdeDatoscrticas,paracompartirarchivos

    enunared,aplicacionesdenegocios,yserviciosaclientescomositioswebdecomercioelectrnico.

    Funcionamiento de un Failover Cluster Paraimplementarclusters,sedebecontarconalmenosdosservidoresqueestnconectadosalamisma

    redycorransoftwareespecfico.Dependiendodelmtodoqueseuse,tambinsepuedenecesitarundisco

    compartidoounarreglodediscos,aloscualesseconectanambosservidores.

    Cuandounrecursodelclusterfalla,sedicequeocurreunfailover.Siloquefallesunasolaaplicacin,el

    serviciodelclusterintentareiniciarlaprimeroenelmismonodoyluego,siesonofunciona,enotronodo.Si

    elnodoprimarioeselquefalla,elsoftwaredelclusterdetectaunfailoverdetodaslasaplicacionesque

    estaban corriendo. Esto ocurre en forma automtica, aunque los administradores pueden iniciar,

    manualmente,unprocesodefailover.Lahabilidaddelsoftwaredelcluster,luegodeunfailover,derestaurar

    losrecursosalnodoquelosproveaoriginalmente,unavezqueesteestenlineanuevamente,sellama

    failback. Los administradores del cluster pueden, a travs del software de administracin, establecer

    polticasparadeterminarcundoelfailbackestpermitido.

    Compartir DiscosHaytresmtodosparaquelainformacinestdisponibleaplicaciones,datosdeusuarioparatodoslos

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 3/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    servidoresdeuncluster, ysuincidenciaesenelniveldelhardwaredelcluster.Elprimerodeellos esel

    llamadosistemadearchivosdered,dondeseusaunserverdealmacenamientobasadoenlared.Coneste

    enfoquetodoslosnodosdelclustermontanelsistemadearchivosusandounprotocolodeterminadoytiene

    accesoalmismoconjuntodearchivos.Estoofreceventajascomosimplicidadyfacilidaddeimplementacin,

    pero a cambio hay una gran desventaja: el cluster tiene un nico punto de falla. Si el servidor de

    almacenamientosaledelinea,caetodoelcluster[3].Adems,dealgunamaneraserreduceelrendimiento

    altenerqueusarunadministradordebloqueoylospotencialescuellosdebotellaquegeneralmentese

    producenenelhardwarecompartido.

    Otromtodousareplicacinatravsdediscosespejados.Cadaunodelosservidorestieneundiscofsico

    separado.Elsoftwaredeclusteringcopiatodoslosdatosescritoseneldiscodeunservidoralosdiscosde

    losotrosnodos.Losdiscosespejadosproveenunagranredundancia,perosoncomplicadosdeadministrar

    ymantener.Lamayordesventajadeestemtodoesque,duranteelmomentoquesetardaenreplicarlos

    datosalosotrosdiscos,losnodosnotendrninformacinidntica;siocurrieraunafallaexactamenteen

    esepunto,estoseraunproblema.Lareplicacinpuedeserunabuenasolucinparasitiospequeos,pero

    parasitiosmuygrandes,losservidoresdealmacenamientosiguensiendounasolucinconfiable.

    Otroenfoqueprovienedelmtodollamadonadacompartido(sharednothing),porquenoinvolucraaccesos

    concurrentesaldiscodesdemultiplesnodos.Enotraspalabras,nohacefaltaunadministradordebloqueo.

    Entre los proveedores que incluyenesta solucinest Microsoft Cluster Server (MSCS), que usa una

    conexinSCSIentrelosnodos,perosolamenteunservidornecesitaeldiscoenunmomentodeterminado,

    porlocualnohayaccesosconcurrentesalosdatos[4].Enesteesquema,cadanodotienesuspropios

    discos,perosihubieraunfallo,elsoftwareencargadodelclusteringpuedetransferirlapropiedaddeun

    disco.Tienelasmismasventajasquelosdiscoscompartidos,peronorequiereaplicacionesespeciales.

    Heartbeat: Latido del CoraznParaqueunasolucindeserversenclustersofrezcaaltadisponibilidad,elsoftwaredebesercapazde

    automticamente detectar la falla del nodo primario, y transferir sus responsabilidades a un nodo

    secundario,sinintervencinhumana.

    El mtodo para detectar la muerte de un nododel cluster es chequeando su latido o heartbeat. El

    heartbeatesunenlacedealtavelocidadentre losmiembrosdelcluster,atravsdelcual intercambian

    informacindeestadoymonitorizanlaactividaddecadauno.Cadanodotienetpicamenteunaplacadered

    dedicadaqueseusaparaestaconexin,llamadatrficodeheartbeat,ademsdelaplacaderedconla

    cualseconectanalared.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 4/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Qurum

    Otrotemaimportante,especialmentecuandohaymasdedosnodosenuncluster,esculdeellosesel

    propietariodeunrecursoycualseharcargodelencasodequeelnodoprimariofalle.Unaformade

    manejarestoesimplementarelconceptodequrumresource,undiscofsicocompartido.Alleerelqurum,

    unservidorsabrqueserviciosestndefinidos,cualeselnodopreferidodondecorren,yencualnodose

    estnejecutandoactualmente.

    Cuandounnododetectaquelosdemsestncados,puedeintentarreservarelqurum;comoesterecurso

    slopuedeserreservadoporunnodo,elnodoquelleguetardealareservadelrecurso,entiendequedebe

    abandonarelclusterycedertodossusrecursos.Elqurumesutilizado,simplemente,comomtodode

    decisin.Eldiscousadocomoqurumseusaparaguardarellogoregistrosdeaccesoyoperacionesdel

    cluster,ylabasededatosparalaadministracindelcluster. Estediscodebetambin soportaruncierre

    basadoenelhardware.

    Splitbrain

    Unacondicinfundamentalqueelsoftwaredelosclustersdebemanejareselsplitbrain.Elsplitbrainocurre

    cuandotodosloslinksprivadoscaensimultneamente,perolosnodosdelclustercontinanfuncionando.Si

    estoocurre,cadanodoenelclusterpuedecreer,equivocadamente,quelosotrosnoestnfuncionandoe

    intentarlevantarlosserviciosquelosotrosnodossiguenprestando.Altenerinstanciasduplicadasdelos

    serviciospuedecausarsecorrupcin e inconsistencia dedatosenel almacenamientocompartido. Para

    preveniresteproblemalosnodosdeberanusarcomunicacionesredundantesyentrarenunmododeauto

    cercadocuandolosotrosnodosaparecencomocados,esdecircorrerenunmodolimitadoparaprevenirla

    destruccindedatos.

    Otraformaderesolverelsplitbrainesatravsdeunreagrupamiento,enelcualseusaunalgoritmopara

    determinarelverdaderoestadodecadaprocesadorenelsistema.Cadaprocesadorcompartesuregistro

    delestadodelosdemsnodos,locomparaconeldelosdemsyloactualizadeacuerdoaeso.Sehace

    unavotacinluegodelacual,todoslosprocesadorestienenelmismoregistrodelestadodelsistema.Este

    reagrupamientosloesposiblesisiguefuncionandoelenlacefsicoentrelosnodos,independientemente

    dequelosnodosestnfuncionandoono:siunnodopierdetodassuslineasdecomunicacinconlosotros

    nodos, nopodr reagruparse, y permanecer aisladohasta quese restauren las comunicacionesy el

    sistemaseareiniciado[5].

    Confiabilidad de los Nodos

    Losclustersdealtadisponibilidadutilizantodaslastcnicasdisponiblesparahacerquelossistemasyla

    infraestructuracompartidasean,individualmente,tanconfiablescomoseaposible.Estastcnicasayudana

    minimizarlasoportunidadesdequeserequieraunclusterfailoverentresistemas,yaqueenesasituacin,

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 5/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    aunqueseaporuncortotiempo,elservicioquenormalmenteseprestanoestardisponible;porestemotivo

    seprefieretomarmedidasparaevitarlasfallas.Estasmedidasincluyen:

    Discosespejados,detalformaquelafalladeundiscointernonoresulteenunacadadel

    sistema.

    ConexionesdeRedRedundantes,paraquelafalladeunsolocable,switchointerfazde

    rednoresulteenunacadadetodalared.

    reasdealmacenamientodered(SAN,porsussiglaseningls),paraquelacadadeun

    cable, switch o falla en una placa de red no lleve a la prdida de conectividad del

    almacenamiento(estoviolaralaarquitecturasharenothing,nadacompartido).

    Alimentacinelctricaredundante, endiferentescircuitos, todosprotegidospor UPS,y

    unidadesdeprovisindeenergaredundantes,detal formaqueunafallaenuncablede

    alimentacin,UPSounidaddeprovisindeenerganolleveaquetodoelsistemasequede

    sinalimentacin.

    Configuracin de los NodosLaconfiguracinmnimaparauncluster esdedosnodos,porquees loquesenecesitaparaproveer

    redundancia,peromuchosclustersconsistendemuchosmasequipos,avecesdocenasdenodos. Las

    configuracindeestetipopuedesercategorizadasenunodelossiguientesmodelos:

    1. Activo/Activo

    Eltrficoqueintentallegaralnodoquefallesdesviadoaunnodoexistenteosucargase

    balanceaentrelosnodosrestantes.Esto,usualmente,soloesposiblecuandolosnodosusan

    unaconfiguracindesoftwarehomognea.

    2. Activo/Pasivo

    Proveeunainstanciacompletayredundantedecadanodo,lacualseponeenlneacuando

    sunodoprimarioasociadofalla.Estaconfiguracinrequieregrancantidaddehardwareextra.

    3. N+1

    Proveeunslonodoextraqueseponeenlneaparatomarelroldelnodoquehafallado.En

    elcasoenquehayaconfiguracinunaconfiguracinheterogneaentrelosnodosprimarios,

    elnodoextradebesercapazdeasumirelroldecualquieradeaquellosquesonsusnodos

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 6/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    primarios(alosquelessirvederespaldo).Estosucedenormalmenteenlosclustersque

    tienenmltiplesservicioscorriendosimultneamente;sielservicioesnico,estecasose

    transformaenactivo/pasivo.

    4. N+M

    En los casos en que un slo cluster administra muchos servicios, tener un nico nodo

    dedicadoparafailoverpuedenosersuficienteredundancia.Enesoscasos,seincluyemasde

    unserverenespera(M),queestndisponiblesparareemplazo.Elnmerodeservidoresde

    respaldoesuncompromisoentrelasnecesidadesdeconfiabilidadenelservicioyloscostos.

    5. Na1

    Permitequeelnodoenesperapaseaseractivotemporalmente,hastaqueelnodooriginal

    puedaserreparadoopuestoenlneanuevamente;enesemomentolosserviciosoinstancias

    debenserdevueltosalnodooriginalpararestaurarlaaltadisponibilidad.

    6. NaN

    Esta variante es una combinacin de clusters Activo/Activo y N+M. Los clusters NaN

    redistribuyenlosservicios,instanciasoconexionesdelnodoquefallentrelosnodosactivos

    restantes,eliminandoentonces(comoenelcasoActivo/Activo)lanecesidaddeunnodoen

    espera,perosudesventajaesqueintroducenlanecesidaddecapacidadextraentodoslos

    nodosactivos.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 7/18

    Figura1:ConfiguracinActivo/ActivoyActivo/Pasivo

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Requerimientos del Diseo de las aplicaciones

    Nocualquieraplicacinpuedecorrerenunambientedeclustersdealtadisponibilidad,ydebentomarselas

    decisionesnecesariasenetapastempranasdeldiseodesoftware.Lasaplicacionesquecorranenestos

    ambientesdebencumplir,porlomenos,lossiguientesrequerimientos

    Debe existir una forma relativamente simple de iniciar, detener, detener forzadamente y

    chequearelestadodelaaplicacin.Entrminosprcticos,estoquieredecirquelaaplicacin

    debe tener una interfaz de linea de comandos o scripts para controlar la aplicacin,

    incluyendosoporteparamltiplesinstanciasdelaaplicacin.

    La aplicacin debe ser capaz de utilizar almacenamiento compartido (Network Attached

    Storage,NASoStorageAreaNetwork,SAN)

    La aplicacin debe almacenar su estado, al mayor nivel de detalle posible, en un

    almacenamientonovoltilycompartido.Igualmenteimportanteeslahabilidaddereiniciaren

    otronodoenelpuntoexactoelmismoestadodondeestabaantesdelafalla,utilizandolos

    datosdeestadoqueguardenelalmacenamientocompartido.

    Laaplicacinnodebecorromperlosdatossifalla,oalreiniciardesdesuestadoanterior.

    Estosltimosdoscriteriossonfundamentalesparalaconfiabilidadenelfuncionamientodelcluster,yson

    losmsdifcilesdesatisfacercompletamente.Tambindebetenerseencuentala compatibilidad delas

    licenciasdesoftware,alcorrerendistintosequiposendiferentesmomentos.

    Barreras de Entrada/Salida (I/O Barriers)Asegurarelmayorniveldeintegridaddelosdatosesunametaimportantedecualquiersoftware,nosoloen

    laadministracindeuncluster.Estoimplicatomarmedidasparaasegurarsequelosdistintosnodosno

    haganoperacionesdeE/Senlamismaparticindeldiscoenelmismomomento.Durantelaoperacin

    normal,estoseconsiguealpermitirqueslounservidormonteunaparticinenunmomentodado;pero

    puedenocurrir condicionesdeerror quesuperen las barreraspuestaspor el software del cluster. Por

    ejemplo,siunnodoestuvieranodisponibleporuntiemposuficiente,losdemsservidorespodranhacerse

    cargodesusaplicaciones;sielservidorcolgadopudierarecuperarsedesucondicindeerror,continuara

    corriendosusaplicaciones,sinadvertirquehansidotomadas(failover)porotronodo.Estacondicinse

    detectaraunoodossegundosdespus,al intentarusarelqurum,peroenesetiempoesposibleque

    algunaaplicacinlanzaraoperacionesdeE/S,loquefcilmenteserasuficienteparacorromperlabasede

    datosdelaaplicacin.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 8/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    LasolucinaestetipodeescenariosesunabarreradeE/S,comolaqueusaelsoftwareClusterManager

    deRedHat[6].UsandounmecanismodebarreradeE/S,sepuedeprevenirqueunservidorquenoest

    funcionandobienpuedareiniciarsusaplicacionesqueyahansidotomadasporotronodo.Paraesto,Cluster

    Managerutilizadosmtodos:

    Watchdogtimers:untemporizadordeestetipo(seaporhardwareosoftware)esinstaladoencada

    nodoyselousaparamonitorizarlaoperacindelnodo.Sielnodofallaenactivareltemporizador

    enlaformacorrecta,esteautomticamentedisparaunshutdown/rebootdelservidor.Normalmente,

    altemporizadorseloestableceenunvalormasbajoqueelconfiguradoeneladministradorparael

    failover, asegurando que un servidor colgado sea reiniciado antes de que ninguna de las

    aplicacionesseatomadaporotrosnodos.

    Controladoresdeenergaprogramables:Cadanodopuedecontrolarelsuministrodeenergadelos

    otrosnodos.Siunnodosecuelga,dejandoderesponder,otronodopuedereiniciarloantesde

    dispararunfailoverdeaplicaciones,asegurandoquenovolveralavidayrealizaroperacionesde

    E/Sespurias.Adiferenciadelcasoanterior,enconfiguracionesdeestetipocadanodopuedelanzar

    operacionesdeshutdown/rebootdelosotrosnodos.

    OtrosproductosdeadministracindeclustersimplementanbarrerasdeE/Susandodiferentestcnicas.El

    mtodomascomnesusarReservacionesSCSI(SmallComputerSystemInterface).Estopermitequeun

    servidorseasigneasimismotodoundisco,detalmaneraqueeldisconoresponderapedidosdeE/Sde

    otrosservidores.Sibienestoimpidequemasdeunnodoescribaeneldisco,yporlotantonosecorrompen

    los datos, la mayor desventaja de esta tcnica es que muchos controladores de almacenamiento no

    implementanreservacionesdeSCSIenformaconfiable,yquesereservatodoeldisconounaparticin

    cadavez.Elreservartodoeldiscoparaunsolonodopuedereducirsignificativamentelaflexibilidaddeluso

    deaplicacionesenelcluster,especialmentecuandoseusangrandesconjuntosdediscosRAID.

    Dispersin Geogrfica Tradicionalmente,losservidoresonodosdeunclusterdebenestarmuycercaelunodelotro,amenudoen

    lamismahabitacinunojuntoalotro.Perolaposibilidaddeubicarlosnodosdeunclusterfsicamente

    separados tiene ventajas desde el punto de vista de la continuidad de un negocio, por lo cual estas

    arquitecturashanidocreciendohastapermitirclustersmetropolitanos(enunreade100kmomenos)e,

    inclusive,clusterscontinentales,queusanredesenrutadasycarriersderedcomunesparareplicacinde

    datos y comunicacindentro del cluster, para soportar failover de paquetes entre distintos clusters en

    diferentescentrosdedatos.Losclusterscontinentalesestnubicados,amenudo,endiferentesciudadeso

    diferentespases,ypuedenalcanzarunrangode100a1000km.[7]

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 9/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Losclusterscuyosnodosnosontodoslocales,hanrecibidodiferentesdenominaciones,incluyendo:campus

    clusters, metroclusters, geoclusters, stretchclustersyextendedclusters(clustersextendidos). Eneste

    trabajo,nosreferiremosindistintamenteaelloscomoclustersdispersosgeogrficamente,clustersdispersos

    oEDC(porsussiglaseningls,ExtendedDistanceCluster,esdecirclusterdedistanciaextendida),ynos

    limitaremosaanalizarlosclustersmetropolitanos,esdeciraquellosquenosuperanlos100kmdedistancia

    comomximo.

    Normalmente,enunfailoverclustersetratadeevitaroreducirlospuntos simplesdefalla(SPOF,Single

    PoingOfFailure),atravsdenodos,switchesyswitchesdealmacenamientoredundantesenelcluster.Si

    setieneunaconfiguracinconunnicoalmacenamientocompartido,elcentrodedatossetransformaens

    mismoenunSPOF,cuandoocurrendesastrescomoincendios,terremotosocortesdeenergaelctrica.Un

    EDC provee la habilidad de sobrevivir a mltiples puntos de falla, por ejemplo la falla de todos los

    componentesdeunsolocentrodedatos,atravsdelacontinuacindeltrabajoencursoconcomponentes

    delotrocentrodedatos.

    Paraconstruir un clusterdedistanciaextendida,deberahacerseprimeroundiseoparadisponibilidad

    local,luegomultiplicaresoscomponentespordosydistribuirlosentredoscentrosdedatos.Luego,conectar

    losdoscentrosdedatos(queincluyensistemasdealmacenamientoredundante)conunaredredundantey

    enlaces de almacenamiento entre amboscentros de datos, y configurar la administracin de volumen

    espejadocomomtododereplicacindedatosparavalidarquecadacentrodedatostieneunacopia

    completadelosdatos[8].

    Unclusterextendidopresentaalgunosdesafosespecialesmasalldeunfailoverclustertradicional. Los

    trescomponentesfundamentalesdeunnododeuncluster,yquedebenseranalizadosendetalleparaun

    cluster disperso, son, primero, la conexin de red dedicada, que es la que usan los nodos para

    comunicarseentresiymonitorizarsusrespectivosestados(trficodehearbeat).Segundo,laconexinde

    red privada, quees laquelosusuariosusanparaaccederalosdatosyaplicaciones, quedeberestar

    basada en fibra ptica y usar TCP/IP. Finalmente, el enlace al dispositivo de almacenamiento

    compartido,queenlosclustersdispersos,seresuelveutilizandoelmismomediotantoparalosdatosde

    almacenamientocomoparalosdatosdeheartbeat; ambossonenviadoalargadistanciaenlaformade

    paquetesIP[9],yaquenopodraextenderseuncableSCSIporlargasdistancias.

    Unejemplodeconfiguracindehardwareparaunclusterdispersogeogrficamentecumplelasreglasde

    arquitecturagenerales:

    Lamitaddelosnodosencadacentrodedatos

    Lamitaddelalmacenamientoencadacentrodedatos

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 10/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Cadacentrodedatostienealtadisponibilidadporsimismo

    Mltiplesnodossiesposible

    Almacenamientodealtadisponibilidad

    Redyconfiguracionesdelcanaldefibraredundantes

    Elserviciodequrumestprovistoporunsistemaenunaterceralocacinindependiente

    Losenlacesredundantesentresitios(redyalmacenamiento)seruteanpordistintoscaminosfsicos.

    Cundo usar un Failover Cluster Disperso Geogrficamente? Cuandoserequiereunaproteccinimportantefrenteadesastres,comoprdidadeenerga

    elctricalocal,cadadeunavin,inundacinoincendioenunedificiodelaempresa.

    Otrosdesastres,comoterremotos,huracaneseinundacionesregionales,puedenafectarun

    reaimportante.Deberahacerseunanlisisparadeterminarsilosdistintossitiosdelcluster

    puedenserafectadosporelmismodesastre.

    Cuandosequierehacerunusocompletodelosrecursos:elsercapazdedistribuircualquier

    trabajoentretodoslosnodos,incluyendoelcorrercomounanicacargadetrabajoentodoel

    cluster,permitelamayorflexibilidadenelusoderecursos.

    Recuperacinrpidafrenteafallas.Siunsitiocae, todoeltrabajopuedeyserruteadoal

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 11/18

    Figura2:EjemplodeconfiguracinparaunEDC

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    sitioremanente,quepuedehacerserpidamentecargodelprocesamiento(enmenosde12

    minutos).

    Porejemplo,enelcasoenqueunaempresatuvieradosedificios,incluidosenuncluster

    disperso.Siunodelosedificiosfueradestruidoporfuego,ountornado,ounainundacin,el

    negociocontinuaraenoperacionesporqueel nododelotroedificioseguirafuncionando.

    Aunquesienelesquemadelclusterhayunsolodispositivodealmacenamientocompartido,y

    esteesteneledificioafectado,todoelclustercaera.

    Enempresasquenopuedenestarfueradelneaydebenprestarunserviciooaccederasus

    datosenunabasede24/7(24horas,7dasporsemana),porlocualnopuedenpermitirse

    unafallaensussistemas.

    Enempresas multinacionales, que operan en mltiples pases en los cinco continentes,

    necesitan tener todo el trabajo altamente sistematizado, por lo que la imposibilidad de

    accederalainformacin,anporunperododepocashoras,impidealasempresasfacturar,

    tomarpedidos,manipularinventarios,yrealizarlasfuncionesmselementales.

    Proveedores de software para Clusters DispersosExistennumerososproveedoresdesolucionespara implementar clustersdispersos, con productosque

    tienendiferentesnivelesdeprestacionesyqueseadecuanadiferentessituacionesaresolver.Entreellos

    podemosmencionarelproductoRedHatClusterSuite,deRedHatInc.,elRealApplicationClusters(RAC)

    deOracle,MetroclusteryContinentalclustersdeHewlettPackard,oDoubleTakeGeoClusterparaIBMAIX,

    deVisionSolutions.Analizaremoslosrequerimientosdeunaimplementacindeestetipoendosdeellos.

    Metrocluster(HewlettPackard)

    Metroclusterest diseadoparausarenunambientedeclustersmetropolitanos,dentrodellmitedelos

    100kmdedistancia.UtilizaServiceGuardparaadministrar losserviciosdedatosdelcluster,ytodoslos

    nodosdebenperteneceraunnicocluster.Soportadosconfiguraciones:

    Unnicocentrodedatossinrbitro(qurum),porlocualnoestoleranteafallas.

    Unaarquitecturacondoscentrosdedatosyunaterceraubicacinconunoodossistemasde

    rbitroounsistemadeservidordequrum.

    Especficamenteparatener tolerancia frenteadesastres, losclustersdeServiceguardo loscentrosde

    datospuedentambinserconfiguradosendiferentessubredes,aumentandolaescalabilidadyaquelos

    operadorespuedenconfigurarmayornmerodenodosconmasdireccionesIP.Parconfigurarelclustera

    travsdesubredes,debetenerseencuentaque:

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 12/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Todoslosnodosdelclusterdebenperteneceralmismodominio.

    Elperododelatenciaenlareddeheartbeatqueseconfiguraenlassubredesdebeser

    menosa200milisegundos.

    Debenconfigurarseporlomenosdosredesdeheartbeatparatodoslosnodosdelcluster.

    Cadasubreddeheartbeatenunnododebeserruteadausandounarutafsicadiferenteala

    otrasubreddeheartbeatenelotronodo.

    Debencablearseseparadamenteredesfsicasredundantesentre lossitiosparamantener

    altadisponibilidad.

    Cadasubredqueesusadaporunpaquetedebeestarconfiguradaconunainterfazdeespera

    enlaredlocal.

    Esta configuracin del producto cumple con los requerimientos de una arquitectura tolerante frente a

    desastres.Enestetipodearquitectura,seesperaquecadacentrodedatosestautocontenido,demanera

    quelaprdidadeuncentrodedatosnocauselacadadelclustercompleto.Esimportantequetodoslos

    puntos simples de falla (SPOF) sean eliminados, de forma que los sistemas supervivientes continen

    ejecutandosusaplicacionesenelcasoenqueunoomassistemasfallen.Tambinseesperaquelasredes

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 13/18

    Figura3:DoscentrosdeDatosyunaterceraubicacinconArbitrators(Metrocluster)

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    entreloscentrosdedatosseanredundantesyruteadasdetalformaquelaprdidadealgncentrodedatos

    nocausequelaredentreloscentrosdedatossupervivientesfalle.

    ExtendedRAC(Oracle)

    ElRAC(RealApplicationClusters)deOraclehaprobadoserunmecanismoeficientedealtadisponibilidad

    paraaplicacionesdebasededatos.Fuediseadoparasoportarclustersresidentesenunsolocentrode

    datosfsico,peroamedidaquelatecnologaavanz,losclientesbuscaronlaviabilidaddeusarloencentros

    distantesgeogrficamente. RACpuedeser usadoen formaextendida, yproveeunarecuperacinmuy

    rpidafrenteacadasdeunsitio,perodebeentendersecrticamenteenqucasosesadecuadoteniendo

    encuentadistancia,latenciayelgradodeproteccinqueprovee[10].

    Elgranimpactodelalatencia,yporlotantodeladistancia,creaalgunaslimitacionesprcticasdednde

    puedeusarseestaarquitectura.Lasituacinidealesdedoscentrosdedatosubicadosrelativamentecerca

    (menosde100km)ydondelosextremadamentecaroscostosdeestablecercablesdirectosconcanales

    dedicadosentrelossitiosyasehantomado.

    LaimplementacindeRACenunEDCesmuysimilaraladeunsitionico.Paraconstruirunabasede

    datosRACenunambienteEDC,necesitar:

    UbicarunconjuntodenodosenelSitioA.

    UbicarelotroconjuntodenodosenelSitioB.

    Usarconectividadrpidaydedicadaentrelosnodos/edificiosparacomunicacindelasinstancias

    cruzadasdeRAC.(DWDM,DenseWavelenghtDivisionMultiplexingoDarkFiberesopcional).Los

    requerimientosde redesparauncluster dispersosonmayoresqueparaunaWAN(WideArea

    Network)queseusaparaRecuperacindeDesastres.

    Usarespejadobasadoenhostsoarreglos dediscos parapermitirelalojamientodelosdatosen

    ambossitiosymantenerlossincronizadosenespejo.Pordefinicin,RACenEDCtienemltiples

    instancias activas en nodos en distintas locaciones. Por razones de disponibilidad, los datos

    necesitanserubicadosenambossitios,yporlotantosenecesitabuscaralternativasparaespejar

    elalmacenamiento.LaconfiguracinrecomendadaesunespejadobasadoenHost,esdecirun

    almacenamientoActivo/Activo.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 14/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    ElusodeRACrequierequelainterconexindelclustertengaunareddedicadadebajalatencia.Estoesas

    paraasegurartiemposderespuestaconsistentesyevitarlaprdidadelheartbeatdelcluster,loquepuede

    causarquelosnodosseansacadosdelcluster.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 15/18

    Figura4:ConfiguracinpropuestaparaRACenunClusterDispersoGeogrficamente

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    ConclusionesLosclustersofrecenunaalternativadecomputacindealtorendimiento,juntoconsistemasmasconfiables

    atravsdelaimplementacinderedundancia.Elelegirlaarquitecturadelhardwareeselpasoinicialenla

    construccindeunclustertil,debenconsiderarselasaplicaciones,laoptimizacindelrendimiento,ytemas

    asociadosalaadministracindelsistema.

    MuchasdelassolucionesdesoftwareparaFailoverClustersDispersosGeogrficamentesoncaras,ylos

    requerimientos para el hardware redundante suman a los costos. De todas formas, si se consideran

    aplicacionesderedquedeben,absolutaypositivamenteestardisponiblesenunabasediaria,lostiempos

    muertospuedentenerunaltoimpactoenelnegocio,porlocualsehaceimperativoevaluarestetipode

    solucinenelentornodeaplicacindeuncasopuntual.

    Lasprdidasestimadasenlaproductividadylasgananciasaltenerlosdatosysistemasdemisincrtica

    fueradelinea,comparadasconelcostodeimplementarunasolucinbasadaenunfailovercluster,puede

    serunabuenaformadedescubrirqueloscostosnosontanaltoscomoseespera.Dependiendodeltamao

    de laempresaoamplituddel negocioqueseevala,unashorasodasfueradeserviciopuedenser

    igualeseinclusiveexcederelcostodecrearunasolucindeAltaDisponibilidadparalared.

    Sincontarlatranquilidadqueconllevaelpoderasegurarlosserviciosqueseprestan,frenteagrancantidad

    dedesastrespotencialesquepuedenafectareldesarrollodeunnegocio.

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 16/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Bibliografa

    [1] Deb Shinder. (2001) Get IT Done: Use server clustering as a high availability solution. http://www.techrepublic.com/article/get-it-done-use-server-clustering-as-a-high-availability-solution/1057300 (26/11/2011)

    [2] High-availability cluster. Source: http://en.wikipedia.org/w/index.php?oldid=461787126 (28/11/2011)

    [3] Underwood Tod. (2001). Let Linux clusters share the server load. CNET. http://www.techrepublic.com/article/let-linux-clusters-share-the-server-load/1031408 (27/11/2011)

    [4] Mitchell, Bradley. (2011) Cluster Network Computing Architecture. About.com Guide. http://compnetworking.about.com/od/networkdesign/l/aa041600a.htm (27/11/2011)

    [5] Jardine Robert, Basavaiah Murali, Krishnakumar Karoor. (1999) Method and apparatus for split-brain avoidance in a multi-processor system. Tandem Computers INC. http://worldwide.espacenet.com/publicationDetails/biblio?CC=US&NR=5991518&KC=&FT=E&locale=en_EP (28/11/2011)

    [6] Red Hat. (2003). Delivering High Availability Solutions with Red Hat Cluster Suite. Revision 3c - September 2003 . https://www.redhat.com/whitepapers/rhel/RHEL3ClustrSuiteWPPdf.pdf

    [7] Hewlett-Packard Development Company, L.P (2008). Designing Disaster Tolerant HA Clusters Using Metrocluster and Continentalclusters . http://h20000.www2.hp.com/bc/docs/support/SupportManual/c02038175/c02038175.pdf (22/11/2011)

    [8] Hewlett-Packard Development Company . (2008). HP Serviceguard Extended Distance Cluster (EDC) with VxVM/CVM mirroring on HP-UX: Best Practices.http://h20000.www2.hp.com/bc/docs/support/SupportManual/c02056222/c02056222.pdf?HPBCMETA::contentarea=manuals&publisher=Product+Manuals&productclass=10007&productclass=10004&productclass=10005&productclass=10008&keywords=high+availability%2C+cluster%2C+serviceguard%2C+edc%2C+sg-edc-vxvm-cvm%2C+13795&sitewide_search=yes& (27/11/2011)

    [9] Posey, Brien M. (2003) Get IT done: Lay the foundation for long-distance clustering. Tech Republic. http://www.techrepublic.com/article/get-it-done-lay-the-foundation-for-long-distance-clustering/5032897 (28/11/2011)

    [10] Oracle. (2006) Oracle Real Application Clusters on Extended Distance Clusters: Updated for Oracle RAC 10g Release 2. An Oracle White Paper. http://www.oracle.com/technetwork/database/enterprise-edition/extendedrac10gr2-131186.pdf (27/11/2011)

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 17/18

  • SID1Parcial2.Investigacin:FailoverClusterdispersogeogrficamente

    Paredes, Juan Pedro. (2001) Alta disponibilidad para Linux. http://www.ibiblio.org/pub/linux/docs/LuCaS/Presentaciones/200103hispalinux/paredes/pdf/LinuxHA.pdf (27/11/2011)

    Hewlett-Packard Company (2001) HP IA-32 Server Long Distance Cluster Interconnect for Windows . Phase 1: up to 500m . http://h20000.www2.hp.com/bc/docs/support/SupportManual/lpn14611/lpn14611.pdf (22/11/2011)

    Vision Solutions (2010). Breakthrough Data Recovery for IBM AIX Environments : How New Technologies Are Making Data Protection, Recovery and High Availability Easier and More Affordable . http://www.visionsolutions.com/Downloads/Whitepapers/WP_AIXBreakthrough_E.pdf(22/11/2011)

    Lakshman, Avinash; Malik , Prashant . (2009) Cassandra - A Decentralized Structured Storage System . Facebook. http://www.cs.cornell.edu/projects/ladis2009/papers/lakshman-ladis2009.pdf (22/11/2011)

    Quest Software, Inc . (2011) Planning for and Managing the Future of Your Network : A Look at Network Essentials and Network Management . Quest Software. http://i.zdnet.com/whitepapers/Quest_PlanningforandManagingtheFutureofYourNetwork.pdf (22/11/2011)

    Zimmerman, Tim (2011) Clients That Don't Segment Their Network Infrastructure Will Have Higher Costs and Increased Vendor Lock-in . Gartner Inc. http://docs.media.bitpipe.com/io_25x/io_25581/item_412428/GARTNER%20REPORT-%20Clients%20That%20Don%27t%20Segment%20Their%20Network%20Infrastructure%20Will%20Have%20Higher%20Costs%20and%20Increased%20Vendor%20Lock-in.pdf(22/11/2011)

    Botto,Vernica.Hevia,Ezequiel.Lugo,Jos 18/18