Informe T´ecnico / Technical Report · DEPARTAMENTO DE SISTEMAS INFORMATICOS Y COMPUTACI´ ON´ UNIVERSIDAD POLITECNICA DE VALENCIA´ P.O. Box: 22012 E-46071 Valencia (SPAIN) Informe

DEPARTAMENTO DE SISTEMAS INFORMATICOS Y COMPUTACIONUNIVERSIDAD POLITECNICA DE VALENCIA

P.O. Box: 22012 E-46071 Valencia (SPAIN)

Informe Tecnico / Technical Report

Ref. No.: DSIC-II/14/05 Pages: 34Title: Aplicacion de las Librerıas Numericas Paralelas

de PETSc y pARMS a la Resolucion de los Sistemas deEcuaciones Lineales relacionados con la Ecuacion delos Modos Lambda

Author(s): O. Flores-SanchezDate: 1 de Noviembre, 2005Keywords: Grandes Sistemas Lineales Dispersos,

Metodos Iterativos, Precondicionadores,Computacion Paralela y Distribuida

Vo Bo

Leader of research Group Author(s)Vicente Hernandez Garcıa O. Flores-Sanchez

Aplicacion de las Librerıas NumericasParalelas de PETSc y pARMS a la Resolucion

de los Sistemas de Ecuaciones Linealesrelacionados con la Ecuacion de los Modos

Lambda

Omar Flores Sanchez

REPORTE TECNICODEPARTAMENTO DE SISTEMAS INFORMATICOS Y

COMPUTACIONUniversidad Politecnica de Valencia

Indice

1. Introduccion 4

2. Planteamiento del Problema 5

3. Plataforma de Computacion 9

4. Metodologıa 104.1. PETSc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104.2. pARMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

5. Descripcion de los casos de estudio 125.1. Reactor Leibstadt . . . . . . . . . . . . . . . . . . . . . . . . . 135.2. Reactor Ringhals I . . . . . . . . . . . . . . . . . . . . . . . . 15

6. Tolerancia y pruebas de convergencia 16

7. Resultados 177.1. Caso Leibstadt . . . . . . . . . . . . . . . . . . . . . . . . . . 177.2. Caso Ringhals 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7.2.1. Aplicacion de PETSc. . . . . . . . . . . . . . . . . . . 197.2.2. Resolucion con pARMS . . . . . . . . . . . . . . . . . 24

7.3. Desempeno paralelo . . . . . . . . . . . . . . . . . . . . . . . . 257.3.1. Tiempos de ejecucion . . . . . . . . . . . . . . . . . . . 267.3.2. Aceleracion y Eficiencia . . . . . . . . . . . . . . . . . 267.3.3. Convergencia y precision . . . . . . . . . . . . . . . . . 28

8. Conclusiones 32

1. Introduccion

La modelizacion matematica de muchos fenomenos fısicos involucra lautilizacion de ecuaciones en derivadas parciales (EDPs). Uno de los fenome-nos fısicos que se busca modelar es la difusion de neutrones en el interior delnucleo de un reactor, especialmente reactores de agua en ebullicion, tambienllamados reactores BWR (del Ingles Boiling Water Reactor), en donde seprecisa la resolucion numerica rapida y eficiente de la Ecuacion de DifusionNeutronica para su simulacion.

De la Ecuacion de Difusion Neutronica se derivan dos calculos distintos,aunque complementarios. Un primer tipo de calculos que determinan la con-figuracion estatica del reactor en un instante de tiempo, y que toma la formade un problema de valores propios generalizado. El otro tipo de calculo serealiza para el estudio de un transitorio a partir de una perturbacion efec-tuada sobre una configuracion estatica del reactor, utilizando para ello laEcuacion de la Difusion Neutronica en su forma dependiente del Tiempo.

La forma comun de resolver la EDN1 es discretizandola, es decir, aproxi-mando las EDPs mediante ecuaciones algebraicas que involucran un nume-ro finito de incognitas. La utilizacion de metodos de discretizacion permitereducir el problema original a la resolucion de un problema algebraico desistemas de ecuaciones lineales cuya matriz de coeficientes es generalmentede gran tamano y dispersa.

Los metodos nodales han sido muy utilizados para realizar calculos esta-ticos y dinamicos de reactores, entre ellos estan los metodos nodales avan-zados analıticos (ANMs)[1], y los metodos nodales basados en desarrollos(NEMs)[2]. Otros metodos son los basados en el desarrollo del flujo neu-tronico en polinomios cuyos coeficientes se calculan mediante una tecnica depesado de residuos[3]. Se han desarrollado metodos nodales consistentes parael calculo de transitorios que hacen uso de desarrollos de los flujos neutronicosy de los flujos transversales de cada nodo en terminos de polinomios de Le-gendre [4]. Dentro de las propiedades importantes de este ultimo metodo decolocacion nodal es que es identico al metodo de diferencias finitas centradasen las caras de la red [5].

Dentro de los metodos para resolver numericamente los sistemas de ecua-ciones lineales resultado de la discretizacion de las EDPs se encuentran losmetodos directos y los metodos iterativos. La mayorıa de los metodos directospara el caso disperso, ejecutan una factorizacion LU sobre la matriz originaly tratan de reducir el costo mediante la minizacion del relleno (fill-in), es

1En adelante, se utilizara las siglas EDN para referirse a la Ecuacion de Difusion Neu-tronica

4

decir, la introduccion de elementos distintos de cero durante el proceso deeliminacion en posiciones donde inicialmente habıan ceros.

La solucion directa tıpica para matrices dispersas consiste de cuatro fa-ses. Primero, aplicacion de un preordenamiento para tratar de reducir elrelleno (dos metodos populares son grado mınimo, y diseccion anidada). Se-gundo, se aplica una factorizacion simbolica. Tercero, la factorizacionnumerica en la cual los factores L y U formados, son procesados. Final-mente los procesos de sustitucion hacia adelante y hacia atras[6, 7].Los metodos directos hasta hace poco se habıan estado utilizando preferen-temente sobre los metodos iterativos dada su robustez y comportamientopredecible; sin embargo, los metodos iterativos han demostrado buena com-petencia dada la aparicion de tecnicas de precondicionado, que combinadascon iteraciones sobre subespacios de Krylov han proporcionado procedimien-tos de proposito general eficientes y sencillos. Los metodos iterativos tienentambien la particularidad de que pueden implementarse sobre computadoresde alto desempeno mas facilmente que los metodos directos[8].

Ası pues, para obtener y predecir con precision el comportamiento estati-co y dinamico de los reactores BWR, se hace necesario aplicar y desarro-llar metodos computacionales que permitan reducir los costes asociados ala resolucion numerica de la ecuacion de difusion neutronica en su formaestacionaria y dependiente del tiempo.

Dada la aparicion de nuevas arquitecturas de computacion paralelas,ası como nuevas herramientas de computacion cientıficas, se hace necesarioestudiar y analizar sus prestaciones para poder aplicarlas a la modelizacionde fenomenos fısicos reales tales como la difusion de neutrones en el interiordel nucleo de un reactor del tipo BWR.

Este reporte muestra un estudio comparativo entre los paquetes compu-tacionales de PETSc [9, 10, 11] y pARMS [12, 13, 14], desde perspectivascomo rapidez, precision y eficiencia, apoyandose en pruebas experimentalesen la resolucion de los sistemas de ecuaciones lineales asociados al problemade la EDN en su forma estacionaria para clusters de PC’s, y que se planteaa continuacion.

2. Planteamiento del Problema

Los problemas de estabilidad de los reactores tipo BWR han sido una granpreocupacion desde los primeros experimentos de su diseno alrededor del ano1950. Generalmente estos reactores producen oscilaciones en la potencia y elcaudal, durante su arranque o parada. Tanto en pruebas de estabilidad comoen algunos sucesos de inestabilidad, se han observado oscilaciones, las cuales

5

hacen necesario detectar y predecir para mejorar aspectos de seguridad yestabilidad.

En particular se suele utilizar la ecuacion de la difusion neutronica en laaproximacion de dos grupos de energıa, en donde se supone que los neutronesse producen en el grupo rapido de energıa y no hay transporte de neutronesdel grupo termico al rapido. Este modelo consiste en un conjunto de sistemasde ecuaciones en derivadas parciales lineales con coeficientes variables que hayque integrar para la geometrıa del nucleo del reactor.

Un primer problema asociado con este modelo es la resolucion de la ecua-cion de los modos lambda, el cual es un problema parcial de valores propios ge-neralizado asociado a un operador diferencial no auto adjunto. La obtencionde los valores propios dominantes y las correspondientes funciones propiasasociadas, tanto a este problema como al problema adjunto es de interes yaque el valor propio dominante, conocida como constante efectiva del reactor,proporciona una idea de la distancia de la configuracion estudiada del reac-tor de una configuracion crıtica en la que la reaccion en cadena se mantiene.La correspondiente funcion propia o modo fundamental, describe el estadoestacionario del reactor para la configuracion dada, y es por tanto, el puntode partida para cualquier transitorio que se quiera estudiar [15].

Para estudiar la distribucion de flujo neutronico en estado estacionario delnucleo de un reactor de potencia nuclear, y los modos subcrıticos responsablesde las inestabilidades regionales producidas en los reactores, es necesarioobtener los λ-autovalores y sus correspondientes autovectores asociados conun sistema de ecuaciones diferenciales parciales de la forma

−~∇ ·Dg(~r)~∇φg(~r) +r∑g

φg(~r)−G∑

g 6=g′

s∑gg′

φg′(~r) =1

λxg

G∑g′=1

v

f∑g′

φg′(~r) (1)

con g = 1, 2, . . . , G, y donde G representa el numero de grupos de energıa.La condicion de frontera para el problema es φg|Γ = 0, en la que Γ es el bordedel reactor. Este problema es conocido como la EDN estatica multigrupo[16].

Si la ecuacion (1) es modelada con dos grupos de energıa, entonces elproblema a tratar es encontrar los autovalores y autofunciones de

Lφi =1

λi

Mφi, (2)

la cual se conoce como ecuacion de los modos lambda, en donde

L =

[−~∇ · (D1

~∇) +∑

a1 +∑

12 0

−∑

12 −~∇ · (D2~∇) +

∑a2

], (3)

6

M =

[v1

∑f1 v2

∑f2

0 0

], y φi =

[φfi

φti

](4)

Tras discretizar la ecuacion e imponer las condiciones de continuidad y decontorno adecuadas, este se transforma en el siguiente problema algebraicode valores propios generalizado

Lψn =1

kn

Mψn (5)

donde L y M son matrices de dimension 2N, con la siguiente estructura abloques N-dimensionales[

L11 0−L21 L22

] [ψ1n

ψ2n

]=

1

kn

[M11 M12

0 0

] [ψ1n

ψ2n

](6)

Dependiendo de las condiciones de continuidad del flujo que se imponenentre las celdas en que se ha discretizado el nucleo del reactor, las matricesL11 y L22 pueden ser o no simetricas, y siempre son simetricas en estructu-ra. Ademas, son diagonal dominantes y definidas positivas. Por otra parte,bajo ciertas condiciones, el bloque nulo del operador L puede ser una matrizdiagonal como lo son L21,M11 o M12. Todas las matrices son dispersas y degran dimension.

Dado que las matrices L y M en muchas aplicaciones tienen una estructu-ra a bloques procedecente del significado fısico subyacente, se pueden realizarmanipulaciones algebraicas que lleven a una expresion en la que las matricesque aparecen tengan mejores propiedades espectrales que las originales.

Uno de los enfoques utilizados para la resolucion del problema de va-lores propios generalizado de dimension 2n representado en (6) y que ha sidoresuelto con exito en tecnicas como la Iteracion del Subespacio[17] o el metodode Arnoldi con Reinicio Explıcito[18] y que se utilizara en este trabajo, esreducirlo a un problema ordinario de dimension n. Ası pues, de la ecuacion(6) se deducen las dos siguientes,

L11ψ1n =1

kn

(M11ψ1n +M12ψ2n), (7)

−L21ψ1n + L22ψ2n = 0. (8)

Si se despeja ψ2n en la ecuacion (8) y se sustituye su valor en (7), seobtiene la siguiente expresion

Sψ1n = knψ1n , (9)

7

1 Inicio : Elegir un vector v1de norma 1.2 Iterar : for j = 1, 2, . . . ,m calcular:3 hi,j = (Svj, vi), i = 1, 2, . . . , j,

4 wj = Svj −∑j

i=1 hijvi,5 hj+1,j =‖ wj ‖2 , if hj+1,j = 0 parar.6 vj+1 = wj/hj+1,j.

Algoritmo 1: Metodo de Arnoldi.

1 w1 = L21v2 w2 = L−1

22 w1

3 w3 = M12w2

4 w4 = M11v5 r = L−1

11 (w3 + w4)

Algoritmo 2: Calculo del producto Sv.

donde la matriz S viene dada por

S = L−111 (M11 +M12L

−122 L21). (10)

Para resolver el problema de autovalores ordinario dados por las ecuacio-nes (9) y (10), un posible metodo de calculo de autovalores es el Metodo deArnoldi (Algoritmo 1), en donde la operacion mas costosa esta representa-da por una operacion matrix-vector (lınea 3); sin embargo, dado que no secuenta con la matriz S en forma explıcita, es necesario realizar los pasos delAlgoritmo 2, que consiste de tres operaciones Matriz Diagonal-Vector, unasuma de vectores, y la resolucion con los sistemas de ecuaciones lineales L22

y L11. Estas ultimas operaciones (pasos 2 y 5), son las mas costosas, por loque su resolucion eficiente, significarıa una mejora proporcional al procesodel calculo de autovalores establecido por (9).

En ambas estrategias, la matriz S no debe construirse explıcitamente, porlo que cada vez que se requiera el producto de S por un vector aparece lanecesidad de resolver sistemas de ecuaciones lineales con las matrices de coe-

8

ficientes L11 y L22. Ası por ejemplo, en la aplicacion de la primera estrategiaes necesario realizar tres productos matriz diagonal por vector, la resolucionde dos sistemas de ecuaciones lineales y la suma de dos vectores2.

Dado que abordar el problema de manera generalizada o reducirlo al pro-blema ordinario involucra la resolucion de sistemas de ecuaciones linealesgrandes y dispersos, se hace necesario contar con herramientas computacio-nales que obtengan soluciones a dichos sistemas de manera rapida y eficiente.

En este trabajo se muestra un estudio comparativo entre herramientascomputacionales como PETSc (Portable, Extensible Toolkit for ScientificComputation) y pARMS (Parallel Algebraic Recursive Multilevel Solver). Porun lado, PETSc ofrece interfaces y codigos paralelos o solvers tanto directoscomo iterativos (en su mayorıa metodos iterativos basados en subespacios deKrylov), ası como una serie de precondicionadores; por otro lado, pARMSofrece un conjunto de aceleradores iterativos y precondicionadores dirigidosa la solucion de sistemas lineales dispersos generales con base en la solucionde los sistemas resultantes del complemento de Schur. Este estudio permi-tira observar las ventajas del uso de computo paralelo y precondicionadoresen parametros como aceleracion, eficiencia y precision.

3. Plataforma de Computacion

Las distintas pruebas fueron hechas en uno de los clusters del GRYCAP(Grupo de Redes y Computacion de Altas Prestaciones) de la UniversidadPolitecnica de Valencia. Dicho cluster consta de 20 nodos biprocesadoresPentium Xeon a 2.0 Ghz, interconectados mediante una red SCI con topologıade Toro 2D en malla de 4x5. Cada nodo tiene 1 Gigabyte de memoria RAM.2

Entre los programas y librerıas numericas presentes en la plataforma, seencuentran:

SLEPc. Librerıa para el calculo de Valores Propios de Matrices Dis-persas de gran dimension.

PETSc. Librerıa para la resolucion numerica de aplicaciones cientıficasmodeladas mediante ecuaciones en derivadas parciales.

PSPASES. Librerıa para la resolucion, por metodos directos, de sis-temas de ecuaciones cuya matriz de coeficientes es dispersa, simetricay definida positiva.

2Para las pruebas realizadas en este reporte, no se habilito la caracterıstica que permiteusar los dos elementos de procesamiento

9

Metodo Opcion PETScGradiente Conjugado KSPCGGradiente Bi-Conjugado KSPBICGResiduo Mınimo Generalizado KSPGMRESGradiente Bi-Conjugado Estabilizado KSPBCGSGradiente Conjugado Cuadrado KSPCGSQuasi-Mınimo Residuo Libre-Transpuesto KSPTFQMRResiduo Conjugado KSPCR

Tabla 1: Metodos iterativos de PETSc.

MPICH. Implementacion del estandar de paso de mensajes desarro-llada por el Laboratorio Argonne.

PARMETIS. Librerıa paralela para el particionado de grafos y mallas,ası como para el calculo de reordenamiento de matrices dispersas paraminimizar el relleno sufrido tras una factorizacion.

pARMS. Paquete paralelo para la resolucion de sistemas lineales dis-persos generales basado en la solucion de los sistemas distribuidos re-sultantes del complemento de Schur.

Para efecto de las pruebas de este reporte, se ha utilizado la librerıanumerica de PETSc en su version 2.2.0; y el paquete pARMS version 0.2.Ambos paquetes, usan el estandar MPI para las comunicaciones mediantepaso de mensajes [19].

4. Metodologıa

A continuacion se describen las herramientas computacionales a utilizar,para resolver los sistemas de ecuaciones lineales asociados a la Ecuacion deDifusion Neutronica.

4.1. PETSc

Los metodos iterativos mas populares basados en subespacios de Krylovque contempla PETSc se muestran en la Tabla 1.

Los metodos iterativos, suelen proporcionar mejores resultados cuandose combinan con tecnicas de precondicionado, por lo que PETSc tambienproporciona precondicionadores como los mostrados en la Tabla 2.

10

Precondicionador Opcion PETScJacobi PCJACOBIJacobi a Bloques PCBJACOBIMetodo Aditivo de Schwarz PCASM

Tabla 2: Precondicionadores de PETSc

Tipo Basado en Basado enSchwarz Aditivo Complemento de Schur Complemento de Schur

con Extensionesadd ilu0 lsch ilu0 sch gilu0add ilut lsch ilut sch sgsadd iluk lsch ilukadd arms lsch arms

rsch ilu0rsch ilutrsch ilukrsch arms

Tabla 3: Precondicionadores en pARMS

Se ha probado tambien un metodo directo de factorizacion dispersa quePETSc proporciona mediante una interfaz a las librerıas de SuperLU [20] ySuperLU Distribuido [21].

4.2. pARMS

pARMS (Parallel Algebraic Recursive Multilevel Solver) [14], ofrece unconjunto de aceleradores iterativos distribuidos y precondicionadores loca-les, enfocados a la solucion de sistemas generales dispersos. Las tecnicas decomplemento de Schur Multinivel disponibles en pARMS estan basadas entecnicas que explotan conjuntos indepedientes a bloques como los descritosen [12] para el precondicionador ARMS secuencial. Ası pues, pARMS contie-ne precondicionadores del tipo Scharwz Aditivo, basados en el complementode Schur, y basados en complemento de Schur con extensiones. Las Tablas 3y 4 muestran los precondicionadores y aceleradores disponibles en pARMS.

En la Tabla3, add X indica precondicionador Scharwz aditivo con pre-condicionador local X, donde X puede ser ILU0, ILUT o ARMS. lsch X indi-ca precondicionador del complemento de Schur por la izquierda con X como

11

Aceleradoresfgmresddgmresdbcgstabd

Tabla 4: Aceleradores en pARMS

precondicionador local. rsch X indica precondicionador del complemento deSchur por la derecha con X como precondicionador local. sch gilu0 se adop-ta para el precondicionador ILU0 distribuido sobre los nodos de interface, ypor ultimo, sch sgs significa precondicionador Gauss-Seidel sobre los nodosde interface. Para efectos de este estudio, se consideraron unicamente los pre-condicionadores tipo add ilu0, add ilut e add iluk, ya que las matrices nosurgen de la descomposicion del dominio ni tienen conjuntos independientesa bloques.

Actualmente en pARMS hay tres aceleradores distribuidos implementa-dos, y que fueron utilizados para los resultados experimentales del presentetrabajo:

1. fgmresd, que es una version distribuida de GMRES flexible, que per-mite iteraciones en la aplicacion del precondicionador.

2. dgmresd, que es una version distribuida de GMRES deflactado, queutiliza deflacion de los autovalores, y

3. bcgstabd que es una version distribuida de bi-CG estabilizado.

Las pruebas paralelas se realizaron con 1, 4, 8 y 10 procesadores.

5. Descripcion de los casos de estudio

Para el analisis de los modos lambda, es necesario realizar una mode-lizacion del nucleo del reactor. El nucleo, en la mayorıa de los casos, es uncilindro en cuyo interior se alojan las barras del combustible nuclear. Laenergıa se genera por la reaccion en cadena que se produce en el combusti-ble a partir de una cierta masa crıtica. Las denominadas barras de controlcontienen un absorbente neutronico que se pueden insertar entre las barrasde combustible para mantener dicha reaccion en los niveles apropiados deseguridad.

12

Para la discretizacion del problema, el nucleo se divide axialmente en va-rios niveles, y radialmente en celdas que se corresponden con los elementosde combustible. Habitualmente, se utilizan varios tipos de elementos com-bustibles de composicion diferente. Para cada composicion se define un juegocompleto de coeficientes de difusion y secciones eficaces macroscopicas deabsorcion, fision y dispersion, en funcion de la densidad del moderador y dela temperatura del combustible. Mediante una tabla bidimensional que tieneen cuenta la dependencia de las secciones eficaces y las variables anteriores,y utilizando un esquema de interpolacion lineal, se obtienen las seccioneseficaces totales apropiadas para las condiciones del reactor a modelar.

Para los resultados mostrados en este trabajo, se han usado como casosde estudio los reactores comerciales de Leibstadt en Suiza, y la central nu-clear Rhingals I en Suecia. El primero de estos se ha discretizado utilizandopolinomios de Legendre grado 5 y el segundo con polinomios de Legendregrado 2.

5.1. Reactor Leibstadt

El primer caso de estudio es el reactor de la central nuclear de Leibstadt, elcual es del tipo de agua en ebullicion (BWR). Dicho reactor se ha discretizadode forma tridimensional en 3 planos axiales de 15.24 cm. A su vez, cada unode los planos axiales se divide en celdas de 15.24 cm por 15.24 cm dispuestascomo se muestra en la Figura 1.

Figura 1: Esquema de discretizacion del reactor Leibstadt.

La discretizacion 3D de la EDN asociada a este reactor, da origen a unproblema algebraico cuya estructura se muestra en la matriz de la Figura 2.Dicha matriz tiene dimension n =4410 con nnz =80,478 elementos diferentes

13

de cero. La forma matricial asociada al operador M se muestra en la Figura3.

Figura 2: Matriz L asociada al operador L del reactor Leibstadt.

Figura 3: Matriz M, asociada al operador M del reactor Leibstadt.

Como se ha mencionado anteriormente, tanto L como M muestran unaestructura a bloques. El bloque de la matriz L de este reactor, designado porL11 se presenta en la Figura 4

La matriz M, tambien tiene una estructura a bloques formada por M11,y M12; los restantes bloques (M21 y M22) son nulos.

Dado que la dimension del sistema de Ecuaciones Lineales al que da lugarla discretizacion de la EDN para este reactor es muy pequena, se presentaransolo resultados experimentales del caso secuencial.

14

Figura 4: Bloque L11 para Leibstadt.

5.2. Reactor Ringhals I

El reactor de la central nuclear sueca de Ringhals 1, es tambien del tipode agua en ebullicion (BWR), y se ha discretizado de forma tridimensional en27 planos axiales de 14.72 cm de longitud, 25 correspondientes al combustibley un plano superior y otro inferior correspondientes al reflector. A su vez,cada uno de los planos axiales se divide en celdas de 15.275 cm por 15.275cm dispuestas como se muestra en la Figura 5. Cada una de las celdas tienepropiedades neutronicas distintas [22].

Figura 5: Esquema de discretizacion del reactor Ringhals I.

Utilizando un esquema de numeracion natural para la malla de discreti-zacion, el patron de elementos no nulos resultante para las matrices L11 yL22 es de tipo banda, como se muestra en la Figura 6.

15

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

Figura 6: Bloque L11 del caso Ringhals.

6. Tolerancia y pruebas de convergencia

PETSc contiene una prueba de convergencia por defecto, de nombreKSPDefaultConverged(), la cual esta basada en la l2-norma del residuo[10].La convergencia (o divergencia), esta decidida por tres cantidades: el de-cremento relativo de la norma del residuo rtol , la magnitud absoluta dela norma del residuo atol y el incremento relativo en el residuo dtol. Laconvergencia se detecta en la iteracion k si

‖rk‖2 < max(rtol ∗ ‖r0‖2, atol),

donde rk = b− Axk. La divergencia se detecta por la prueba

‖rk‖2 > dtol ∗ ‖r0‖2.

PETSc proporciona una rutina KSPSetTolerances() con la que se pue-den modificar estos parametros, ası como el maximo numero de iteracionespermitidas. PETSc permite mantener los valores de esos parametros con susopciones por defecto, los cuales son rtol=10−5, atol=10−50, dtol=105, ymaxits=105. Estos parametros pueden indicarse en la lınea de comandosmediante las opciones -ksp rtol <rtol>, -ksp atol <atol>, -ksp divtol

<dtol>, y -ksp max it <its>.

Para efectos de las pruebas, se ha modificado el parametro rtol con unvalor de 10−15. Los demas parametros han quedado sin cambio. En el caso depARMS, las pruebas se han realizado tambien con una tolerancia de 10−15.

16

Metodos PC NONE PC JAC PC BJAC PC ASMCG 0.071 0.067 0.080 0.086BICG 0.161 0.142 0.133 0.154GMRES 0.164 0.139 0.106 0.120BCGS 0.096 0.093 0.091 0.105CGS 0.086 0.089 0.082 0.096TFQMR 0.094 0.091 0.085 0.099CR 0.078 0.072 0.079 0.093

Tabla 5: Tiempos caso Leibstadt varios precondicionadores.

7. Resultados

Como se planteo en la Seccion 2, la matriz S no existe en forma explıcita,por lo que para realizar el producto Sv, es necesario resolver los sistemas deecuaciones lineales L11 y L22 (Vease Algoritmo 2 pasos 2 y 5) lo mas rapida-mente posible, por lo que esta seccion muestra los experimentos numericosobtenidos.

Para el caso del reactor Leibstadt, las pruebas solo se han realizado parael caso secuencial (p = 1) dado que su dimension no permitira apreciarlas ventajas del uso de arquitecturas paralelas. En el reactor Ringhals, laspruebas se han realizado tanto en secuencial (p = 1) como en paralelo (p > 1).

7.1. Caso Leibstadt

Figura 6: Grafica de tiempos de PETSc caso Leibstadt (p = 1).

Los tiempos registrados por la aplicacion de los metodos y precondicio-

17

Precondicionador Aceleradoresbcgstabd dgmresd fgmresd

add ilu0 0.122 0.154 0.131add ilut 0.155 0.170 0.154add iluk 0.227 0.192 0.157

Tabla 6: Tiempos caso Leibstadt con pARMS (p = 1).

Figura 7: Grafica de tiempos de pARMS caso Leibstadt (p = 1).

nadores de la librerıa PETSc al caso del reactor Leibstadt se muestran en laTabla 5, donde se aprecia que los metodos iterativos con menores tiempos deejecucion son el Gradiente Conjugado (CG) y el Residuo Conjugado (CR).En estos metodos, el precondicionador de Jacobi (PC JAC) logra disminuirlos tiempos de ejecucion, respecto del tiempo sin precondicionado (PC NO-NE), del Gradiente Conjugado en un 6%, y en un 8% el tiempo del metodoResiduo Conjugado. La Figura 6 grafica los tiempos de ejecucion de la Ta-bla 5.

De los precondicionadores y aceleradores de pARMS utilizados para rea-lizar la prueba secuencial (p = 1), se observo que el precondicionador detipo add ilu0 y acelerador bcgstabd, fue la combinacion que menor tiemporegistro. De los precondicionadores probados, ha resultado que el precondicio-nador peor es el precondicionado add iluk. La Tabla 6 reproduce los tiemposregistrados por los metodos add ilu0, add ilut y add iluk en combinacioncon los metodos iterativos de pARMS. La Figura 7 muestra la grafica corres-pondiente a estos tiempos.

Los metodos directos en su mayorıa efectuan una factorizacion LU sobrela matriz original y tratan de reducir el costo mediante la minimizacion del

18

p Precision Tp

1 2.22E-12 4.750

Tabla 7: Tiempos SuperLU caso Leibstadt (p = 1).

relleno (fill-in). PETSc permite el uso de metodos directos tanto para elcaso secuencial como para el caso paralelo proporcionando una interfaz a laslibrerıas de SuperLU [20] y SuperLU Distribuido [21]. La Tabla 7 muestra eltiempo obtenido de aplicar SuperLU al caso del reactor Leibstadt para p = 1procesador, donde se observa que el tiempo invertido es mayor que el tiemporegistrado por un metodo iterativo. Por ejemplo, en el caso de usar pARMSse ha obtenido un tiempo de 0.122 segundos (Tabla 6), lo que significa unareduccion en el tiempo del 97%. Para el caso en que se usa PETSc (Tabla 5),el tiempo es de 0.067 segundos, lo que significa una reduccion en casi un 99%respecto al tiempo del metodo directo.

Como puede observarse, de las pruebas secuenciales hechas para el reactorLeibstadt discretizado con polinomios de Legendre grado 5, el uso de metodositerativos combinados con precondicionadores, puede resultar en un tiempode respuesta menor en el calculo de la solucion, respecto al uso de un metododirecto.

7.2. Caso Ringhals 1

Esta subseccion muestra los resultados experimentales obtenidos de laaplicacion de los metodos contenidos en PETSc (tanto iterativos como direc-tos), y los contenidos en pARMS al caso del Reactor Ringhals I discretizadocon polinomio de Legendre grado 2.

7.2.1. Aplicacion de PETSc.

La Tabla 8, muestra los tiempos invertidos por los metodos de PETSc,sin el uso de precondicionador (PCNONE) al reactor Ringhals, tanto parael caso secuencial (p = 1) como en el paralelo (p > 1). A pesar de no usarprecondicionadores para acelerar la rapidez de convergencia en la resolucionde los sistemas de ecuaciones lineales de prueba, hay que notar que el tiempode computo se ve reducido por el uso de varios procesadores3. Por ejemplo,de un tiempo de 2.015 segundos registrados por el metodo del GradienteConjugado (CG) sin precondicionar en el caso secuencial (p = 1), pasamos a

3Las graficas se muestran para los casos de p =1,4,8 y 10 procesadores

19

Metodos p = 1 p = 4 p = 8 p = 10CG 2.015 0.635 0.377 0.330BICG 3.938 1.263 0.730 0.628GMRES 4.423 1.256 0.633 0.554BCGS 2.670 0.815 0.475 0.439CGS 2.602 0.791 0.469 0.412TFQMR 2.910 0.866 0.493 0.431CR 2.230 0.692 0.415 0.363

Tabla 8: Tiempos de caso Ringhals sin precondicionador.

un tiempo de 0.330 segundos, lo que representa una disminucion en el tiempode computacion de casi 84% (Vease la grafica de tiempos de ejecucion de laFigura 8 para el caso del metodo del Gradiente Conjugado (CG)).

Figura 8: Grafica de tiempos Gradiente Conjugado (Sin Precondicionador)caso Ringhals .

Los tiempos obtenidos de la aplicacion del precondicionador tipo Jacobi(PC JACOBI) al caso del reactor Ringhals se muestra en la Tabla 9. Comopuede observarse, el tiempo de computo se ha reducido aun mas que en el casodonde no se usa precondicionado. Esto se debe a la combinacion de tecnicasde precondicionado y tecnicas de paralelismo. Por ejemplo, de un tiempode 1.419 segundos invertidos por el caso secuencial (p = 1), se pasa a untiempo de 0.242 en el caso paralelo (p = 10), lo que significa una reduccionen el tiempo secuencial de casi un 83%. En la Figura 9 se aprecia mejorcomo los tiempos de ejecucion disminuyen conforme se aumenta el numero deprocesadores para el metodo del Gradiente Conjugado (CG) precondicionadocon Jacobi.

20


Tabla 9: Tiempos de caso Ringhals con precondicionador de Jacobi.

Figura 9: Grafica de Tiempos Gradiente Conjugado (PC JACOBI) CasoRinghals.

21


Tabla 10: Tiempos de ejecucion con precondicionador Jacobi a Bloques CasoRinghals.

Figura 10: Grafica de tiempos Gradiente Conjugado (PC BJACOBI) casoRinghals .

Al aplicar el precondicionador de Jacobi a bloques para el caso Ringhalsse obtienen los tiempos mostrados en la Tabla 10, donde se aprecia unamejora mas sobre los tiempos registrados por el precondicionador de Jacobiy por supuesto, sobre el caso sin precondicionar. Por ejemplo, de un tiempode 0.242 segundos registrados por el precondicionado de Jacobi con p = 10procesadores, pasamos a un tiempo de 0.211 segundos con el precondicionadode Jacobi a bloques con el mismo numero de procesadores, lo que significauna reduccion de un 13%. La Figura 10 muestra los tiempos de ejecucionpara el caso del Gradiente Conjugado combinado con Precondicionador deJacobi a bloques, donde se aprecia la disminucion del tiempo de computo porel uso de precondicionado y paralelismo.

Al combinar el precondicionador tipo Additive Scharwz Method (PCASM) al caso del reactor Ringhals con polinomio de Legendre grado 2, se

22


Tabla 11: Tiempos con el precondionador ASM caso Ringhals.

Figura 11: Grafica de tiempos Gradiente Conjugado (PC ASM) caso Ringhals.

obtuvieron los tiempos de la Tabla 11, en la que se aprecia que al menospara el caso secuencial (p = 1), mejoran los tiempos respecto al caso sin pre-condicionar; no ası para los casos en que se usan mas procesadores (p > 1).En general, los tiempos registrados por la aplicacion de este precondiciona-dor no han sido muy buenos; sin embargo, el uso del paralelismo muestra susventajas como puede observarse en la Figura 11.

Para esta aplicacion en particular, se observa que los metodos mas com-petitivos son el Gradiente Conjugado (CG) y el Residuo Conjugado (CR).

La Tabla 12 muestra los tiempos del metodo directo SuperLU distribuidoal caso del reactor Ringhals4. La Figura 12 grafica los tiempos de la Tabla 12donde tambien se observa una disminucion del tiempo de computo por el usode mas de un procesador. Sin embargo, los tiempos de calculo de la solucionson prohibitivos, puesto que se requiere de rapidez de respuesta para los

4La aplicacion de SuperLU al caso p = 1, falla por memoria insuficiente

23

p Precision Tp

2 3.62E-12 9.734 3.62E-12 5.006 3.64E-12 3.678 3.65E-12 2.95

10 3.64E-12 2.48

Tabla 12: Tiempos (minutos) de SuperLU caso Ringhals.

Figura 12: Grafica de tiempos SuperLU caso Ringhals.

problemas de seguridad.

7.2.2. Resolucion con pARMS

De la aplicacion de pARMS al caso Ringhals, se muestran los tiemposobservados para los aceleradores y precondicionadores respectivos utilizandoconfiguraciones de p = 1, 4, 8, 10 procesadores.

En el caso de utilizar p = 1 procesadores, la combinacion del precondi-cionador add ilu0, y el metodo bcgstabd (Tabla 13), es el que observa unmenor tiempo. Al aplicar el metodo add iluk, no se obtuvieron los tiemposcorrespondientes por memoria insuficiente en la creacion del precondiciona-dor.

Para el caso donde p = 4 (Tabla 14), la combinacion de precondicionadory acelerador que menores tiempos registraron fueron add ilu0 y fgmresd,respectivamente. El peor tiempo lo registra el precondicionador basado en

5M.I. indica Memoria Insuficiente

24


add ilu0 1.765 2.067 1.954add ilut 2.333 2.274 2.494add iluk M.I.5 M.I. M.I.

Tabla 13: Tiempos caso Ringhals con pARMS (p = 1).




add iluk, debido a que el coste de la construccion del precondicionador esalto.

En general, se puede decir, que para la mayorıa de las ejecuciones y prue-bas realizadas, el precondicionado tipo add ilu0, combinado con fgmresd,es el que ha proporcionado menores tiempos de respuesta para resolver lossistemas de ecuaciones lineales asociados al problema de la Ecuacion de Difu-sion Neutronica, al utilizar una configuracion con p = 8 y p = 10 procesadores(Tabla 15 y 16 respectivamente).

7.3. Desempeno paralelo

A continuacion se presentan diversos parametros de desempeno paraleloscomo aceleracion, eficiencia y convergencia.




25




7.3.1. Tiempos de ejecucion

El uso de precondicionado tanto al utilizar recursos basados en PETSccomo de pARMS, para el caso del reactor Leibstadt discretizado con polino-mios de grado 5, permite reducir el tiempo de la resolucion de los sistemas deecuaciones lineales asociados con la EDN, aunque no de manera significativa.

En el caso del reactor Ringhals con los metodos de PETSC, se observatambien la influencia que tiene el uso de precondicionado, sobre la veloci-dad de convergencia de los metodos basados en Subespacios de Krylov. Porejemplo, de un tiempo de 2.015 segundos para el caso secuencial (p = 1 pro-cesador) ( Vase Tabla 8) sin precondicionador (PC NONE) registrado por elmetodo del Gradiente Conjugado (CG), se puede pasar a un tiempo de 1.199segundos (Tabla 10), lo que implica una reduccion de aproximadamente un40%.

Tambien se reduce el tiempo de solucion por el uso de paralelismo sobreel tiempo secuencial precondicionado, pues de un tiempo de 1.199 segundos(Tabla 10), podemos pasar a un tiempo de 0.211 segundos (Tabla 10), lo quesignifica una reduccion de casi el 90%.

De la aplicacion de los metodos contenidos en pARMS, tambien se ob-serva la influencia de los precondicionadores y las ventajas de usar computoparalelo sobre el tiempo de resolucion de los sistemas de ecuaciones linealesasociados con la EDN del reactor Ringhals, ya que de un tiempo secuen-cial de 1.765 segundos (Cuadro 13), pasamos a un tiempo de 0.389 segundos(Tabla 16) cuando se usan p = 10 procesadores, lo que representa una dis-minucion respecto del tiempo secuencial de aproximadamente 78%.

7.3.2. Aceleracion y Eficiencia

La aceleracion (speed-up) y eficiencia obtenida por el uso de la compu-tacion paralela en el caso de Leibstadt, no es significativa por lo que no sepresentan comentarios relacionados con este.

En el caso del reactor Ringhals, la aceleracion y eficiencia obtenidas de

26

p Tp Sp Ep

1 1.199 1.00 100.00%2 0.783 1.53 76.58%4 0.447 2.68 67.04%6 0.292 4.11 68.55%8 0.238 5.04 63.01%10 0.211 5.68 56.76%

Tabla 17: Prestaciones paralelas con PETSc caso Ringhals.

Figura 13: Grafica de Aceleracion en PETSc caso Ringhals.

la aplicacion del metodo con menores tiempos de computacion en general(que en este caso ha sido el metodo del Gradiente Conjugado (CG) conprecondicionado de Jacobi a Bloques), se presentan en la Tabla 17. De laTabla 17 se deriva la Figura 13, donde se muestran ındices aceptables deaceleracion al usar computo paralelo. Por ejemplo, al usar p = 2 procesadoresse obtiene una aceleracion de 1.53, lo que significa una reduccion respecto altiempo secuencial del 35% aproximadamente. Al usar p = 10 procesadores,se obtiene una reduccion mayor en el tiempo del 82% aproximadamenterespecto al secuencial.

La eficiencia con el uso de la computacion paralela se ve reflejada en laFigura 14, que indica una eficiencia del 76.58% en el caso de usar p = 2procesadores. Puede observarse que conforme se usan mas procesadores enel calculo, la eficiencia se va reduciendo debido a que los procesadores tienenmenor carga de datos sobre los que tiene que realizar calculos. En general, sepuede decir que las prestaciones paralelas obtenidas con PETSc son buenas.

La aceleracion y eficiencia obtenida de la aplicacion de PARMS al caso

27

Figura 14: Grafica de Eficiencia en PETSc caso Ringhals.

p Tp Sp Ep

1 1.765 1.00 100.00%4 0.771 2.29 57.23%8 0.466 3.79 47.36%10 0.389 4.53 45.32%

Tabla 18: Prestaciones paralelas con PARMS caso Ringhals.

Ringhals se muestra en la Tabla 18. El menor tiempo secuencial que se hatomado es 1.765 segundos (Tabla 13), y los parametros se obtienen en fun-cion de la mejor combinacion acelerador-precondicionador, que en el caso deRinghals ha resultado ser el metodo fgmres combinado con precondicionadoradd ilu0.

Para el caso en que se ha aplicado pARMS, se observa que los parame-tros de aceleracion y eficiencia no son muy buenos, respecto a los obtenidoscon PETSc. Por ejemplo, al usar p = 4 procesadores, PETSc reporta unaeficiencia del 67.07%; en cambio, pARMS reporta una eficiencia de 57.23%.

7.3.3. Convergencia y precision

A continuacion se muestra el numero de iteraciones realizadas para lasmejores combinaciones metodo-precondicionador tanto en PETSc como enpARMS, para el reactor Ringhals con p = 1 y p = 10 procesadores.

La Tabla 19 muestra que para el caso donde se usa p = 1 procesador, tan-to PETSc como pARMS requieren de mas iteraciones para resolver el sistemaL11, que para resolver el sistema L22. En el caso en que se usan p = 10 proce-

28

Figura 15: Grafica de Aceleracion en PARMS caso Ringhals.

Figura 16: Grafica de Eficiencia en PARMS caso Ringhals.

Librerıa Iteracs. Precision Iteracs. PrecisionL11 Alcanzada L22 Alcanzada

PETSc 27 6.37×10−11 15 6.75×10−12

pARMS 28 3.20×10−11 21 8.78×10−12

Tabla 19: Convergencia y precision Caso Ringhals (p=1).

29

Librerıa Iteracs. Precision Iteracs. PrecisionL11 Alcanzada L22 Alcanzada

PETSc 41 6.39×10−11 18 7.14×10−12

pARMS 51 4.46×10−11 32 8.21×10−12

Tabla 20: Convergencia y precision caso Ringhals (p=10).

Figura 17: Convergencia caso Ringhals Sistema L11 con PETSc (p = 1).

sadores (Tabla 20), tanto PETSc como pARMS, alcanzan el mismo numerode dıgitos de precision, la cual es comparable con la precision alcanzada porun metodo directo como SuperLU (vease Tabla 12); sin embargo, para es-ta aplicacion, los metodos ofrecidos por PETSc y pARMS resultan ser masrapidos. La diferencia en el numero de iteraciones para resolver cada uno delos sistemas Lii en este caso, se debe a la influencia que tienen los precondi-cionadores locales sobre los bloques de datos de la matriz contenidos en cadaprocesador.

PETSc permite monitorear, la velocidad de convergencia, por lo que lagrafica de la Tabla 19 se presenta en las Figuras 17, y 18. Las graficas 19y 20 muestran la rapidez de convergencia para el caso donde se usan p = 10procesadores (Tabla 20).

Puede observarse, que la velocidad de convergencia para el sistema L11

(Figura 17) es casi lineal.

30



Figura 20: Convergencia caso Ringhals Sistema L22 con PETSc(p = 10).

31

8. Conclusiones

En este trabajo se han utilizado las librerıas numericas de PETSc yPARMS, para resolver los sistemas de ecuaciones asociados al problema dela Ecuacion de Difusion Neutronica en el caso estacionario, y dado los resul-tados arrojados por las distintos experimentos realizados, se observa que lalibrerıa PETSc presenta una implementacion eficiente y rapida, por lo quesus parametros de desempeno son buenos. pARMS por su lado, resulta sertan preciso como PETSc; sin embargo, presenta coeficientes de aceleracion yeficiencia no tan buenos como PETSc.

Para el caso en que se ha aplicado PETSc, se observa que el metodo masrapido en terminos generales ha sido el metodo del Gradiente ConjugadoCG, combinado con precondicionador tipo Jacobi a Bloques.

Para el caso de pARMS, el precondicionado que menores tiempos decomputacion presento fue add ilu0. De los aceleradores proporcionados porpARMS, el que resulto mas competitivo en general, ha sido el metodo GM-RES flexible (fgmresd).

El uso de precondicionadores en los metodos iterativos ayuda a acelerar larapidez de convergencia en la solucion de los sistemas de ecuaciones lineales,por lo que se hace necesario seguir investigando y mejorando tecnicas deprecondicionado. Tambien es importante destacar el efecto que tiene el usode recursos paralelos, que permiten reducir el tiempo de computacion en lasolucion de un problema dado.

Los metodos directos basados en la factorizacion LU dispersa, han mostra-do que para sistemas de ecuaciones lineales dispersos y de dimension pequena,pueden ser una buena eleccion, dada su exactitud; sin embargo, cuando seaplican a sistemas de ecuaciones lineales de gran dimension como ha sidoen el caso de este trabajo, muestra limitaciones, debido a los grandes reque-rimientos de memoria que imponen, y por otro lado, las demandas de poderde procesamiento para los algoritmos subyacentes.

En el caso de la aplicacion de PETSc a los sistemas de ecuaciones linealesde la Ecuacion de Difusion Neutronica, se han obtenido prestaciones paralelasaceptables; no ası para el caso de pARMS, en el que estas han sido regulares.

32

Referencias

[1] Shober R.A., Sims R.N., and Henry A.F. Nuclear Science and Enginee-ring, 1977.

[2] Jae W. S. and Jong-Kyung K. Nuclear Technology, 1993.

[3] Langenbuch S., Maurer W., and Werner W. Coarse-mesh flux-expansionmethod for the analysis of space-time effects in large lightwater reactorcores. Nuclear Science and Engineering, 63:437–456, 1977.

[4] Verdu G., Ginestar D., Vidal V., and Munoz-Cobo J.L. A consistentmultidimensional nodal method for transient calculation. Ann. Nucl.Energy, 22(6):395–410, 1995.

[5] Hebert A. Development of the nodal collocation method for solving theneutron diffusion equation. Ann. Nucl. Energy, 14(10):527–541, 1987.

[6] George J.A. and Liu J.W. Computer Solution of Large Sparse DefiniteSystems. Prentice-Hall, Englewood Cliffs, NJ, 1981.

[7] Duff I.S., Erisman A.M., and Reid J.K. Direct Methods for Sparse Ma-trices. Clarendon Press, Oxford, 1986.

[8] Saad Y. Iterative Methods for Sparse Linear Systems. PWS PublishingCompany, Boston, MA, 1996.

[9] Satish Balay, William D. Gropp, Lois C. McInnes, and Barry F. Smith.Petsc home page. http://www.mcs.anl.gov/petsc, 2001.

[10] Satish Balay, William D. Gropp, Lois C. McInnes, and Barry F. Smith.Petsc users manual. Technical Report ANL-95/11 - Revision 2.1.5, Ar-gonne National Laboratory, 1997.

[11] Satish Balay, William D. Gropp, Lois C. McInnes, and Barry F. Smith.Efficient management of parallelism in object oriented numerical soft-ware libraries. In E. Arge, A.M. Bruaset, and H.P. Langtangen, editors,Modern Software Tools in Scientific Computing, pages 163–202. Nirk-hauser Press, 1997.

[12] Y. Saad and B. Suchomel. Arms: An algebraic recursive multilevel sol-ver for general sparse linear systems. Technical Report UMSI-99-107,Minnesota Supercomputer Institute, University of Minnesota, 1999.

33

[13] Y. Saad and M. Sosonkina. Parms: A package for the parallel itera-tive solution of general large sparse linear systems. Technical report,Minnesota Supercomputer Institute, University of Minnesota, 2003.

[14] Z. Li, Y. Saad, and M. Sosonkina. Parms: A parallel version of thealgebraic recursive multilevel solver. Technical Report UMSI-2001-100,Minnesota Supercomputer Institute, University of Minnesota, 2001.

[15] Vidal Gimeno Vicente E. Metodos Numericos para la Obtencion de losModos Lambda de un Reactor Nuclear. Tecnicas de Aceleracion y Pa-ralelizacion. PhD thesis, Universidad Politecnica de Valencia, Valencia,Espana, 1997.

[16] Weston J.R. and Stacey M. Space-Time Nuclear Reactor Kinetics. Aca-demic Press, 1969.

[17] Vidal V., Verdu G., Ginestar D., and Munoz-Cobo J.L. Variationalacceleration for subspace iteration method. application to nuclear powerreactors. International Journal for Numerical Methods in Engineering,41:391–436, 1998.

[18] Hernandez V., Roman J.E., Vidal A.M., and Vidal V. Calculation oflambda modes of a nuclear reactor: a parallel implementation using theimplicitly restarted arnoldi method. In Springer, editor, VECPAR’98 -3rd International Conference on Vector and Parallel Processing, volume1573 of Lecture Notes in Computer Science, pages 43–57, 1999.

[19] Groupp W., Lusk E., and Skjellum A. Using MPI: Portable ParallelProgramming with Message Passing Interface. MIT Press, 1994.

[20] Demmel J.W., Gilbert J.R., and Xiaoye S. L. Superlu users’ guide.Technical Report ANL-44289, Lawrence Berkeley National Laboratory,2003.

[21] Xiaoye S. Li and Demmel J.W. Superlu dist: A scalable distributed-memory sparse direct solver for unsymmetric linear systems. TechnicalReport LBNL-49388, Lawrence Berkeley National Laboratory, 2002.

[22] Lefvert T. Ringhals 1 stability benchmark - final report. TechnicalReport NEA/NSC/DOC(96)22, OECD Nuclear Energy Agency, Paris,France, 1996.

34

Documents

Informe T´ecnico / Technical Report · DEPARTAMENTO DE SISTEMAS INFORMATICOS Y COMPUTACI´ ON´ UNIVERSIDAD POLITECNICA DE VALENCIA´ P.O. Box: 22012 E-46071 Valencia (SPAIN) Informe