Cristiane Mariana Dasilva

Embed Size (px)

Citation preview

  • Universidade de So Paulo

    Escola Superior de Agricultura Luiz de Queiroz

    Uso do teste de Scott-Knott e da anlise de agrupamentos, na

    obteno de grupos de locais para experimentos com

    cana-de-acar

    Cristiane Mariana Rodrigues da Silva

    Dissertao apresentada, para obteno do ttulo de

    Mestre em Agronomia, rea de concentrao:

    Estatstica e Experimentao Agronmica

    Piracicaba 2007

  • Cristiane Mariana Rodrigues da Silva

    Uso do teste de Scott-Knott e da anlise de agrupamentos, na obteno de

    grupos de locais para experimentos com cana-de-acar

    Orientador:

    Prof. Dr. DCIO BARBIN

    Dissertao apresentada, para obteno do ttulo de

    Mestre em Agronomia, rea de concentrao: Estatstica

    e Experimentao Agronmica

    Piracicaba 2007

  • Dados Internacionais de Catalogao na Publicao (CIP)

    DIVISO DE BIBLIOTECA E DOCUMENTAO - ESALQ/USP

    Rodrigues da Silva, Cristiane Mariana Uso do teste de Scott-Knott e da anlise de agrupamentos, na obteno de grupos de

    locais para experimentos com cana-de-acar / Cristiane Mariana Rodrigues da Silva. - - Piracicaba, 2007.

    48 p. : il.

    Dissertao (Mestrado) - - Escola Superior de Agricultura Luiz de Queiroz, 2007. Bibliografia.

    1. Anlise de conglomerados 2. Cana-de-acar I. Ttulo

    CDD 633.61

    Permitida a cpia total ou parcial deste documento, desde que citada a fonte O autor

  • DEDICATRIA

    Dedico este trabalho, primeiramente, Ms. Maria Izalina F. Alves in memorian, de

    quem partiu o incentivo para que eu pudesse come-lo.

    Dedico tambm ao meu marido Valter Jos de Moraes, minha filha Daniela B. de

    Moraes e aos demais familiares, pela compreenso e pacincia, principalmente por

    minha ausncia.

    No poderia deixar de dedicar Prof. Dra. Clarice Garcia Borges Demtrio, por todo

    apoio e incentivo, sem o qual talvez eu no conclusse mais esta etapa da minha vida, e

    Solange Sabadin, tambm por todo o incentivo, dedicao, companheirismo e sincera

    amizade.

    E aos amigos que me acompanharam e me incentivaram muito durante todo esse

    processo, mas sem citar nomes, pois poderia cometer injustias, esquecendo-me de

    algum.

  • AGRADECIMENTOS

    Agradeo, primeiramente, meu orientador Prof. Dr. Dcio Barbin, que alm de

    desempenhar muito bem seu papel de orientador, um amigo de valor inestimvel.

    Agradeo ao Prof. Dr. Carlos Tadeu dos Santos Dias, sempre disposto a me orientar

    nas anlises multivariadas, com muita ateno e dedicao.

    Agradeo ao Ms. Rubens L. do Canto Braga Jr, pela disposio em me orientar quando

    necessrio e pela compreenso frente a todos os problemas encontrados e, ao Centro

    de Tecnologia Canavieira (CTC), pela oportunidade de trabalhar com esses dados, e

    acesso a esse grupo de grandes colaboradores.

    Aos amigos, Ms. Vanderly Janeiro, Ms. Lcio Borges de Arajo, e Ms. ngela Coelho,

    pelo auxlio em momentos de dvidas, e principalmente pela sincera amizade.

    E principalmente Deus, pelas oportunidades e pessoas maravilhosas apresentadas

    em minha vida.

  • O que antes parecia impossvel torna-se possvel quando algum

    se sente apto a transpor todos os obstculos,

    conhecendo a sua verdadeira grandeza interior.

    Nada mais importante que viver o momento presente intensamente,

    porque essa a verdadeira vida.

    Nuno Cobra

  • SUMRIO

    RESUMO....................................................................................................................................... 6

    ABSTRACT................................................................................................................................... 7

    LISTA DE FIGURAS.................................................................................................................... 8

    LISTA DE TABELAS ................................................................................................................... 9

    LISTA DE QUADROS ...............................................................................................................10

    LISTA DE ABREVIATURAS.....................................................................................................11

    1 INTRODUO.......................................................................................................................12

    2 DESENVOLVIMENTO..........................................................................................................14

    2.1 Reviso Bibliogrfica ..........................................................................................................14

    2.1.1 Teste de Scott-Knott ......................................................................................................14

    2.1.2 Anlise de Agrupamentos .............................................................................................17

    2.1.3 Anlise conjunta de Experimentos em Blocos Casualizados com alguns

    Tratamentos Comuns ....................................................................................................23

    2.1.4 Consideraes sobre a cana-de-acar.....................................................................26

    2.1.5 Programas de Melhoramento de cana-de-acar ....................................................29

    2.2 Material e Mtodos .............................................................................................................30

    2.3 Resultados e Discusso ....................................................................................................34

    3 CONSIDERAES FINAIS ................................................................................................45

    REFERNCIAS..........................................................................................................................46

  • 6

    RESUMO

    Uso do teste de Scott-Knott e da anlise de agrupamentos, na obteno de

    grupos de locais para experimentos com cana-de-acar

    O Centro de Tecnologia Canavieira (CTC), situado na cidade de Piracicaba, uma associao civil de direito privado, criada em agosto de 2004, com o objetivo de realizar pesquisa e desenvolvimento em novas tecnologias para aplicao nas atividades agrcolas, logsticas e industriais dos setores canavieiro e sucroalcooleiro e desenvolver novas variedades de cana-de-acar. H 30 anos, so feitos experimentos, principalmente no estado de So Paulo onde se concentra a maior parte dessas unidades produtoras associadas. No ano de 2004 foram instalados ensaios em 11 destas Unidades Experimentais dentro do estado de So Paulo, e h a necessidade de se saber se possvel a reduo deste nmero, visando aos aspectos econmicos. Se se detectarem grupos de Unidades com dados muito similares, pode-se reduzir o nmero destas, reduzindo-se, conseqentemente, o custo dessas pesquisas, e atravs do teste estatstico de Scott-Knott e da Anlise de Agrupamento, que essa similaridade ser comprovada. Este trabalho tem por objetivo, aplicar as tcnicas da Anlise de Agrupamento ("Cluster Analisys") e o teste de Scott-Knott na identificao da existncia de grupos de Unidades Industriais, visando diminuio do nmero de experimentos do Centro de Tecnologia Canavieira (CTC) e, por conseguinte, visando ao menor custo operacional. Os mtodos de comparao mltipla baseados em anlise de agrupamento univariada, tm por objetivo separar as mdias de tratamentos que, para esse estudo foram mdias de locais, em grupos homogneos, pela minimizao da variao dentro, e maximizao entre grupos e um desses procedimentos o teste de Scott-Knott. A anlise de agrupamento permite classificar indivduos ou objetos em subgrupos excludentes, em que se pretende, de uma forma geral, maximizar a homogeneidade de objetos ou indivduos dentro de grupos e maximizar a heterogeneidade entre os grupos, sendo que a representao desses grupos feita num grfico com uma estrutura de rvore denominado dendrograma. O teste de Scott-Knott, um teste para Anlise Univariada, portanto, mais indicado quando se tem apenas uma varivel em estudo, sendo que a varivel usada foi TPH5C, por se tratar de uma varivel calculada a partir das variveis POL, TCH e FIB. A Anlise de Agrupamento, atravs do Mtodo de Ligao das Mdias, mostrou-se mais confivel, pois possua-se, nesse estudo, trs variveis para anlise, que foram: TCH (tonelada de cana por hectare), POL (porcentagem de acar), e FIB (porcentagem de fibra). Comparando-se o teste de Scott-Knott com a Anlise de Agrupamentos, confirmam-se os agrupamentos entre os locais L020 e L076 e os locais L045 e L006. Conclui-se, portanto, que podem ser eliminadas dos experimentos duas unidades experimentais, optando por L020 (Ribeiro Preto) ou L076 (Assis), e L045 (Ribeiro Preto) ou L006 (Regio de Ja), ficando essa escolha, a critrio do pesquisador, podendo assim, reduzir seu custo operacional. Palavras-chave: Anlise de Conglomerados; Cana-de-acar

  • 7

    ABSTRACT

    Scott-Knott test and cluster analysis use in the obtainment of placement groups

    for sugar cane experiments

    The Centre of Sugar Cane Technology (CTC), placed at the city of Piracicaba, is a private right civilian association, created in August of 2004, aiming to research and develop new technologies with application in agricultural and logistic activities, as well as industrial activities related to sugar and alcohol sectors, such as the development of new sugar cane varieties. Experiments have been made for 30 years, mainly at the state of So Paulo, where most of the associated unities of production are located. At the year of 2004, experiments were installed in 11 of those Experimental Unities within the state of So Paulo, and there is the need to know if it is possible the reduction of this number, aiming at the economical aspects. If it were detected groups of Unities with very similar data, it would be possible to eliminate some of these Unities, diminishing, consequently, the researches cost, and it is through the Scott-Knott statistical test and the Cluster Analysis that this similarity may be corroborated. This work aims to apply the Cluster Analysis techniques and the Scott-Knott test to the identification of the existence of groups of Industrial Unities, aiming at the reduction of the CTCs experiments number and, consequently, aiming at the smaller operational cost. The methods of multiple comparison based on univariate cluster analysis aim to split the treatments means in homogenous groups, for this work were used the placement groups means, through the minimization of the variation within, and the maximization amongst groups; one of these methods is the Scott-Knott test. The cluster analysis allows the classification of individual or objects in excludent groups; again, the idea is to maximize the homogeneity of objects or individual within groups and to maximize the heterogeneity amongst groups, being that these groups are represented by a tree structured graphic by the name of dendogram. The Scott-Knott test is a Univariate Analysis test, therefore is appropriate for studies with only one variable of interest. The Cluster Analysis, through the Linkage of Means Method, proved to be more reliable, for, in this case, there were three variables of interest for analysis, and these were: TCH (weight, in tons, of sugar cane by hectare), POL (percentage of sugar) and FIB (percentage of fiber). By comparing the Scott-Knott test with the Cluster Analysis, two pairs of clustering are confirmed, these are: placements L020 and L076; and L045 and L006. Therefore it is concluded that two of the experimental unities may be removed, one can choose from L020 (Ribeiro Preto) or L076 (Assis), and L045 (Ribeiro Preto) or L006 (Regio de Ja), the choice lies with the researcher, and it can diminish the operational cost. Keywords: Cluster Analysis; Sugar Cane

  • 8

    LISTA DE FIGURAS

    Figura 1 Dendrograma da anlise de agrupamentos realizada a partir dos dados

    apresentados na Tabela 2 ....................................................................................... 22

    Figura 2 Sistema radicular da cana planta estabelecido.................................................... 27

    Figura 3 Poro basal de uma touceira ................................................................................ 27

    Figura 4 Cana-planta no estgio inicial de brotao com os dois tipos de razes ......... 28

    Figura 5 Cana-planta em brotao mostrando dois tipos de razes................................. 28

    Figura 6 Rizomas de cana-de-acar formadores de touceiras em cana soca e

    ressoca ....................................................................................................................... 28

    Figura 7 Delineamento experimental em uma Unidade Experimental utilizado pelo

    Centro de Tecnologia Canavieira (CTC)............................................................... 31

    Figura 8 Dendrograma do processo hierrquico de agrupamentos de Locais,

    atravs das variveis TCH, POL e FIB Mtodo de Ligao das Mdias ..... 40

    Figura 9 Dendrograma do processo hierrquico de agrupamentos de Locais,

    atravs da varivel TPH5C Mtodo de Ligao das Mdias ......................... 42

  • 9

    LISTA DE TABELAS

    Tabela 1 Distncia Euclidiana entre 10 pares de empresas pblicas americanas ...... 21

    Tabela 2 Dados coletados de 10 empresas pblicas americanas, no ano de 1975 .... 21

    Tabela 3 Anlise Conjunta de Varincia da Varivel TCH............................................... 35

    Tabela 4 Anlise Conjunta de Varincia da Varivel POL ............................................... 35

    Tabela 5 Anlise Conjunta de Varincia da Varivel FIB ................................................. 36

    Tabela 6 Anlise Conjunta de Varincia da Varivel TPH5C .......................................... 36

    Tabela 7 Matriz de Similaridades entre Locais, para as variveis TCH, POL e FIB,

    obtida atravs da Distncia Euclidiana ............................................................... 39

    Tabela 8 Matriz Cofentica baseada no dendrograma da Figura 8 ................................ 41

    Tabela 9 Matriz de Similaridades entre Locais, para a varivel TPH5C, obtida

    atravs da Distncia Euclidiana ........................................................................... 42

    Tabela 10 Matriz Cofentica baseada no dendrograma da Figura 9 ............................... 43

  • 10

    LISTA DE QUADROS

    Quadro 1 Matrizes de dados brutos e padronizados ou relativizados............................. 19

    Quadro 2 Frmulas utilizadas na anlise dos ensaios pelo CTC..................................... 33

    Quadro 3 Anlise de Agrupamentos para Locais, atravs das variveis TCH, POL e

    FIB, realizada atravs do programa SAS ........................................................... 40

    Quadro 4 Anlise de Agrupamentos para Locais, atravs da varivel TPH5C,

    realizada atravs do programa SAS.................................................................... 43

  • 11

    LISTA DE ABREVIATURAS

    CTC Centro de Tecnologia Canavieira

    MMD Mtodo das Mdias das Distncias

    MLS Mtodo da Ligao Simples

    MLC Mtodo da Ligao Completa

    TCH Tonelada de Cana por Hectare

    POL Porcentagem de acar da cana

    FIB Porcentagem de fibra da cana

    TPH5C Tonelada de Pol por Hectare estimada para 5 cortes

  • 12

    1 INTRODUO

    O Centro de Tecnologia Canavieira (CTC), situado na cidade de

    Piracicaba, uma associao civil de direito privado, criada em agosto de 2004, com o

    objetivo de realizar pesquisa e desenvolvimento em novas tecnologias para aplicao

    nas atividades agrcolas, logsticas e industriais dos setores canavieiro e sucroalcooleiro

    e desenvolver novas variedades de cana-de-acar.

    O Melhoramento Gentico de Cana-de-acar integra um dos 11

    programas de pesquisa, que esto em desenvolvimento no CTC, com o objetivo de

    obter variedades mais produtivas, resistentes s principais doenas e pragas e com

    maior teor de sacarose.

    Esse programa de Melhoramento Gentico em Cana-de-acar, segundo

    Tecnologias CTC (2006), consiste em ensaios de competio em cerca de 20 usinas,

    perfazendo 13 anos a cada ciclo ou srie, desde o cruzamento at a liberao

    comercial, incluindo os testes de reao s principais pragas e doenas e

    caracterizao quanto adaptao aos diversos ambientes de produo e poca de

    colheita, com fases de seleo nas estaes experimentais de Piracicaba e Ja. Cada

    variedade liberada, destaca-se por produtividade, precocidade, teor de sacarose, poca

    de colheita da safra, resistncia s principais pragas e doenas, ambientes de

    produo, florescimento e/ou isoporizao.

    Existem hoje, mais de 150 associados (unidades industriais produtoras de

    cana, acar e lcool e plantadores de cana-de-acar e suas respectivas associaes)

    ao CTC inseridos nessas pesquisas, nos estados da regio Centro-Sul (Paran, So

    Paulo, Mato Grosso, Mato Grosso do Sul, Minas Gerais, Gois e Esprito Santo).

    H 30 anos, so feitos experimentos, principalmente no estado de So

    Paulo onde se concentra a maior parte dessas unidades produto ras associadas.

    No ano de 2004 foram instalados ensaios em 11 dessas Unidades

    Experimentais dentro do estado de So Paulo, e h a necessidade de se saber se

    possvel a reduo desse nmero, visando aos aspectos econmicos.

    Se se detectarem grupos de Unidades com dados muito similares, pode-

  • 13

    se reduzir o nmero destas, reduzindo-se, conseqentemente, o custo dessas

    pesquisas, e atravs dos testes estatsticos de Scott-Knott e Anlise de Agrupamento,

    que essa similaridade ser verificada.

    Sendo assim, este trabalho tem por objetivo, aplicar as tcnicas da Anlise

    de Agrupamento ("Cluster Analisys") e o teste de Scott-Knott na identificao da

    existncia de grupos de Unidades Industriais, visando diminuio do nmero de

    experimentos do Centro de Tecnologia Canavieira (CTC) e, por conseguinte, visando ao

    menor custo operacional.

  • 14

    2 DESENVOLVIMENTO

    2.1 Reviso Bibliogrfica

    Os pesquisadores tm facilidade em utilizar os testes de comparaes

    mltiplas, pois a bibliografia extensa e a disponibilidade nos programas

    computacionais grande. Porm, nos procedimentos de comparaes de mdias mais

    comuns, como o Teste de Tukey, Duncan, LSD, entre outros, apresentam resultados de

    difcil interpretao, devido a ambigidade apresentada. A ambigidade ocorre quando

    dois tratamentos, tidos como diferentes entre si, no diferem de um terceiro. Os

    mtodos de comparao mltipla baseados em anlise de agrupamento univariada,

    eliminam este tipo de problema, pois tm por objetivo separar as mdias de tratamentos

    em grupos homogneos, pela minimizao da variao dentro, e maximizao entre

    grupos e um desses procedimentos o teste de Scott-Knott (SANTOS, 2000).

    A quantidade de mtodos de comparaes mltiplas grande, sendo que

    sua aplicao basicamente consiste em examinar um conjunto de mdias e ver quais

    delas possuem diferenas significativas entre si, mas dois ou trs mtodos so os mais

    comuns, tais como o Mtodo de Ligao Simples, Mtodo de Ligao Completa e

    Mtodo de Ligao Mdia, que so mtodos hierrquicos de agrupamento.

    2.1.1 Teste de Scott-Knott

    Segundo Ramalho, et all (2000), o procedimento de Scott-Knott utiliza a

    razo de verossimilhana para testar a significncia de que n tratamentos podem ser

    divididos em dois grupos que maximizem a soma de quadrados entre grupos. Sejam,

    por exemplo, 3 tratamentos, A, B e C. O processo consiste em determinar uma partio,

    em dois grupos, que maximize a soma de quadrados, sendo que o nmero de parties

    possvel dado por ( )12 1 --n . Nesse exemplo, so possveis ( ) ( )( ) ( ) 3141212 131 =-=-=- --n grupos, isto , A vs B e C, B vs A e C e C vs A e B. Com

  • 15

    um nmero pequeno de tratamentos como o do exemplo, fcil obter todos os grupos.

    Contudo, quando o nmero de tratamentos grande, o nmero de grupos cresce

    exponencialmente, dificultando a aplicao do teste. Para atenuar esse problema, basta

    ordenar as mdias dos tratamentos.

    Fisher (1958) demonstrou, que necessrio considerar apenas ( )1-p parties obtidas pela ordenao das mdias e sua diviso entre duas parties

    sucessivas. Esta simplificao torna possvel a aplicao do teste, por meio de uma

    calculadora, at com 11 ou 12 tratamentos. Aps encontrar a melhor separao entre

    dois grupos, repete-se o processo em cada subgrupo. A partir da, prossegue-se com a

    subdiviso at que os grupos resultantes sejam considerados estatisticamente iguais

    pelo teste de 2c .

    Segundo Scott-Knott (1974), uma vez ordenadas as mdias, procede-se

    do seguinte modo, fazendo inicialmente o nmero de tratamentos ng = :

    i. Determinar a partio entre dois grupos que maximize a soma de quadrados entre

    grupos. Essa soma de quadrados ser definida por B0, e ser estimada da

    seguinte forma: sejam T1 e T2 os totais dos dois grupos com k1 e k2 tratamentos em

    cada um.

    ( )21

    221

    2

    22

    1

    21

    0 kkTT

    kT

    kT

    B++

    -+=

    ( )=

    =1

    11

    k

    iiYT e ( )

    +=

    =g

    kiiYT

    12

    1

    em que ( )iY a mdia do tratamento da posio ordenada i. Os dois grupos

    devero ser identificados por meio da inspeo das somas de quadrados das g 1

    parties possveis, sendo g o nmero de tratamentos envolvidos no grupo de

    mdias considerado.

    ii. Determinar o valor da estatstica l da seguinte forma:

    ( ) 200

    22 s

    -pp

    =lB

    em que 20s o estimador de mxima verosimilhana de 2Ys .

  • 16

    Seja r

    QMEsY =

    2 o estimador no viesado de 2Ys e v os graus de liberdade

    associados a este estimador.

    ( )( )

    +-

    +=s

    =

    g

    iYi vsYYvg 1222

    0

    1

    iii. Se ( )( )2

    2/; -pacl g , rejeita-se a hiptese de que os dois grupos so idnticos em favor

    da hiptese alternativa de que os dois grupos diferem.

    iv. No caso de rejeitar essa hiptese, os dois subgrupos formados sero,

    independentemente, submetidos aos passos (i) a (iii), fazendo, respectivamente, g

    = k1 e g = k2. O processo em cada subgrupo se encerra ao aceitar H0 no passo (iii)

    ou se cada subgrupo contiver apenas uma mdia.

    Segundo Silva (1998), a grande vantagem deste teste a ausncia de

    ambigidade presente nos procedimentos de comparaes mltiplas. Para 3=p (3

    tratamentos considerados), necessrio repartir as mdias ordenadas, em dois grupos,

    envolvendo as duas mdias de maior amplitude para determinar qual a partio que

    maximiza B0.

    Ainda segundo esse mesmo autor, para um experimento com p ou n = 5

    tratamentos, com as mdias ordenadas, A, B, C, D e E, existem ( ) ( )( ) 151212 151 =-=- --n parties possveis destas 5 mdias em dois grupos distintos. Pela simplificao de

    Fisher (1958) necessrio considerar as (5 1) = 4 parties das mdias ordenadas,

    em dois grupos distintos:

    1 partio: A versus B C D E

    2 partio: A B versus C D E

    3 partio: A B C versus D E

    4 partio: A B C D versus E

    Na aplicao do teste, quando muitas mdias so consideradas,

    dificilmente a operao termina com apenas uma partio. Aps encontrar a melhor

    separao entre dois grupos, repete -se o processo em cada subgrupo. A partir da,

    prossegue-se com a subdiviso at que os grupos resultantes sejam considerados

    estatisticamente iguais pelo teste de 2c .

  • 17

    Suponha, como ilustrao, que a 2 partio, que maximiza B0, foi

    considerada estatisticamente diferente pelo teste de 2c e as demais foram

    consideradas estatisticamente iguais. Tomando-se ento o primeiro subgrupo A B,

    formam-se novos subgrupos se a partio A versus B for significativa, caso contrrio A

    e B pertencero ao mesmo grupo.

    Em seguida, procede-se a partio do segundo subgrupo C D E da

    seguinte forma:

    1. C versus D E

    2. C D versus E

    Busca-se a partio que maximize B0 e calcula-se a estatstica l ,

    verificando se esta foi significativa ou no, em um nvel preestabelecido. Se foi

    significativa, repete-se o processo nos subgrupos formados. Os grupos que forem

    classificados como estatisticamente iguais recebero as mesmas letras.

    2.1.2 Anlise de Agrupamentos

    Para Bussab, et all (1990), a Anlise de Agrupamentos (A.A.) engloba

    uma variedade de tcnicas e algoritmos cujo objetivo encontrar e separar objetos em

    grupos similares e segundo Santos (2000), os procedimentos baseados em anlise de

    agrupamento eliminam as ambigidades dos resultados de comparaes de

    tratamentos, uma vez que nesses mtodos trabalha-se com partio de grupos de

    mdias, e no mais com comparaes de mdias duas a duas, como nos testes mais

    conhecidos.

    Usualmente, pretende-se agrupar objetos semelhantes, segundo suas

    caractersticas (variveis), mas nada impede que o interesse seja o de agrupar

    variveis segundo os valores obtidos pelos objetos, sendo muito importante a definio

    do objeto, e a varivel correspondente (BUSSAB, et all, 1990).

    As tcnicas de anlise multivariada avaliam, segundo Demtrio (1985),

    simultaneamente, um conjunto de caractersticas, levando-se em considerao as

    correlaes existentes entre elas, o que permite que inferncias sobre o conjunto de

  • 18

    caractersticas sejam feitas em um nvel de significncia conhecido.

    A anlise de agrupamento permite classificar indivduos ou objetos em

    subgrupos excludentes, em que se pretende, de uma forma geral, maximizar a

    homogeneidade de objetos ou indivduos dentro de grupos e maximizar a

    heterogeneidade entre os grupos, sendo que a representao desses grupos feita

    num grfico com uma estrutura de rvore denominado dendrograma (FERRAUDO,

    2006).

    A estrutura bsica da aplicao de tcnicas de A.A. (Anlise de

    Agrupamento), segundo Bussab, et all (1990), pode ser decomposta nas seguintes

    etapas:

    (i.) Definio de objetivos, critrios, escolha de variveis e objetos;

    (ii.) Obteno dos dados;

    (iii.) Tratamento dos dados;

    (iv.) Escolha de critrios de similaridade ou dissimilaridade (parecena);

    (v.) Adoo e execuo de um algoritmo de A.A.;

    (vi.) Apresentao dos resultados;

    (vii.) Avaliao e interpretao dos resultados.

    Como essas etapas no so independentes, s vezes, torna-se

    necessrio voltar a etapas anteriores para corrigir e aprimorar etapas posteriores.

    i. Definio de objetivos, critrios, escolha de variveis e objetos:

    Aps investigar o assunto, o pesquisador deve concluir quais as variveis

    que sero indicadores prximos da sua caracterstica de interesse. Assim, o objetivo

    operacional passa a ser o de agrupar os indivduos da populao alvo segundo s

    variveis mais facilmente mensurveis.

    Esta a fase mais importante da A.A., a de fixao dos critrios de

    homogeneidade, que depende dos objetivos a serem alcanados.

    ii. Obteno dos dados:

    A matriz de dados o material bsico para a aplicao das tcnicas de

    Anlise de Agrupamentos, que indica os valores das caractersticas por objetos de

  • 19

    interesse, convencionadas, geralmente, por indicar os objetos nas linhas e as variveis

    nas colunas. Observa-se no Quadro 1, que se pode trabalhar com os dados brutos ou

    padronizados.

    Quadro 1 Matrizes de dados brutos e padronizados

    (a) Brutos (b) Padronizados

    =

    npnn

    p

    p

    n

    p

    xxx

    xxxxxx

    o

    oo

    X

    XXX

    LMOMM

    LL

    M

    L

    21

    22221

    11211

    2

    1

    21

    =

    npnn

    p

    p

    zzz

    zzzzzz

    Z

    LMOMM

    LL

    21

    22221

    11211

    Geralmente, pretende-se agrupar objetos semelhantes segundo suas

    variveis (caractersticas), mas pode-se agrupar variveis segundo os valores obtidos

    pelos objetos, se este for o interesse.

    iii. Tratamento dos dados:

    As tcnicas de A.A. podem ser aplicadas a qualquer conjunto de dados,

    brutos ou padronizados, sendo que a escolha depende dos objetivos, mas evidente

    que os resultados so distintos, e dependendo das variveis envolvidas, o uso dos

    dados originais pode tornar muito difcil a interpretao do conceito de homogeneidade.

    Ento, o objetivo desta etapa a padronizao da matriz de dados. Segundo Ferraudo

    (2006), as unidades associadas aos atributos podem, arbitrariamente, afetar o grau de

    similaridade entre os objetos e com a padronizao o efeito dessa arbitrariedade

    eliminado, pois esta faz com que os atributos contribuam com o mesmo peso no clculo

    do coeficiente de similaridade entre objetos.

    iv. Escolha de critrios de similaridade ou dissimilaridade (parecena):

    Segundo Johnson & Wichern (2002), quando objetos so agrupados, a

    proximidade est indicada, geralmente, por alguma medida de similaridade e segundo

    Ferraudo (2006), a escolha de um coeficiente que quantifique o quanto dois objetos so

    similares um conceito fundamental. Tm-se ento, duas categorias para esse

  • 20

    conceito: medidas de similaridade e medidas de dissimilaridade.

    Segundo Bussab, et all (1990), uma medida de similaridade muito utilizada

    o coeficiente de correlao, pois quanto maior seu valor maior a associao, e uma

    medida de dissimilaridade, tambm muito utilizada, a distncia euclidiana, pois quanto

    menor seu valor, mais prximo est um do outro. Para verificar se um objeto A mais

    parecido com B ou com C, e se o nmero de atributos envolvidos for pequeno, a

    inspeo visual, ou seja, uma representao grfica da matriz Z, pode responder.

    Seguindo-se o conceito natural de distncia, usar-se- a distncia euclidiana entre os

    objetos A e B para um espao bidimensional, definida por:

    ( ) ( )( ) ( ) ( )( )[ ] 21222211 BzAzBzAzd -+-= (1)

    Generalizando essa distncia euclidiana para um espao de dimenso p,

    tem-se:

    ( ) ( ) ( )( )2

    1

    1

    2 /,

    -=

    =

    p

    iii pBzAzBAd (2)

    Segundo Ferraudo (2006), a Distncia Euclidiana a mais utilizada, mas

    tem-se ainda a Distncia Euclidiana Mdia, a Distncia de Manhattan, a Distncia de

    Chebychev, a Distncia de Potncia etc.

    A Tabela 1, ilustra como esses agrupamentos podem ser realizados,

    simplesmente reorganizando uma matriz de distncias, baseada nos dados alistados na

    Tabela 2, depois que foram padronizados.

  • 21

    Tabela 1 Distncia Euclidiana entre 10 pares de empresas pblicas americanas

    Empresa Ariz Bost Loui Comm

    Cons Flor Hawa Idah Kent Madi

    Ariz 0,00

    Bost 3,10 0,00

    Loui 3,68 4,92 0,00

    Comm 2,46 2,16 4,11 0,00

    Cons 4,12 3,85 4,47 4,13 0,00

    Flor 3,61 4,22 2,99 3,20 4,60 0,00

    Hawa 3,90 3,45 4,22 3,97 4,60 3,35 0,00

    Idah 2,74 3,89 4,99 3,69 5,16 4,91 4,36 0,00

    Kent 3,25 3,96 2,75 3,75 4,49 3,73 2,80 3,59 0,00

    Madi 3,10 2,71 3,93 1,49 4,05 3,83 4,51 3,67 3,57 0,00 Fonte: Adaptado de Johnson & Wichern, 2002, p.672.

    Tabela 2 Dados coletados de 10 empresas pblicas americanas, no ano de 1975

    Variveis

    Empresa X1 X2 X3 X4 X5 X6 X7 X8

    Ariz Arozina Public Service 1,06 9,2 151 54,4 1,6 9077 0,0 0,628

    Bost Boston Edison Co. 0,89 10,3 202 57,9 2,2 5088 25,3 1,555

    Loui Central Louisiana Eletric Co. 1,43 15,4 113 53,0 3,4 9212 0,0 1,058

    Comm Commonwealth Edison Co. 1,02 11,2 168 56,0 0,3 6423 34,3 0,700

    Cons Cons olidated Edison Co. (N.Y.) 1,49 8,8 192 51,2 1,0 3300 15,6 2,044

    Flor Florida Power & Light Co. 1,32 13,5 111 60,0 -2,2 11127 22,5 1,241

    Hawa Hawaiian Eletric Co. 1,22 12,2 175 67,6 2,2 7642 0,0 1,652

    Idah Idaho Power Co. 1,10 9,2 245 57,0 3,3 13082 0,0 0,309

    Kent Kentucky Utilities Co. 1,34 13,0 168 60,4 7,2 8406 0,0 0,862

    Madi Madison Gas & Eletric Co. 1,12 12,4 197 53,0 2,7 6455 39,2 0,623

    Fonte: Adaptado de Johnson & Wichern, 2002, p.687.

    Em que X1: Proporo analisada (Rendimentos/Dbitos);

    X2: Taxa de retorno de capital;

    X3: Custo por capacidade de quilowatt no pas;

    X4: Fator anual de carga;

    X5: Crescimento demanda em kWh de 1974 para 1975;

    X6: Vendas (uso do kWh/ano);

    X7: Percentual nuclear; e X8: Custos total de combustvel (centavos/kWh)

  • 22

    v. Adoo e execuo de um algoritmo de Anlise de Agrupamento:

    A escolha de um particular algoritmo de agrupamento exige o

    conhecimento de suas propriedades aliado aos objetivos da pesquisa. Citam-se dentre

    muitos, o Mtodo das Mdias das Distncias (MMD), Mtodo da Ligao Simples ou do

    Vizinho Mais Prximo (MLS) e o Mtodo da Ligao Completa, ou do Vizinho Mais

    Longe (MLC), que so Mtodos Hierrquicos de Agrupamento. Tm-se ainda, os

    Mtodos No Hierrquicos de Agrupamento que so mais sensveis a partio inicial,

    em que iniciando-se o processo com parties diferentes, obtm-se solues diferentes.

    vi. Apresentao dos resultados:

    Dificilmente dois objetos sero considerados exatamente iguais, mas

    sendo condescendentes no critrio de igualdade, pode-se aceitar que sejam

    parecidos.

    Geralmente, apresentam-se os dados em uma tabela resumo, que possui

    uma representao grfica muito usada em Anlise de Agrupamento, conhecida por

    dendrograma (grfico com uma estrutura de rvore).

    Figura 1 Dendrograma da anlise de agrupamentos, de empresas pblicas americanas, realizada a partir dos dados apresentados na Tabela 2

  • 23

    vii. Avaliao e interpretao dos resultados:

    O dendrograma pode ser considerado a representao simplificada da

    matriz de similaridade, mas questiona-se se esta ou no uma boa simplificao.

    Para responder a esta questo, verifica-se a capacidade do dendrograma em reproduzir

    a matriz de similaridade, construindo uma matriz cofentica, que a matriz de

    distncias entre os objetos obtidos a partir do dendograma.

    Segundo Bussab, et all (1990), o Coeficiente de Correlao Cofentica o

    coeficiente de correlao entre os valores da matriz de similaridade e os

    correspondentes da matriz de cofentica produzida por uma classificao hierrquica, e

    quanto mais prximo da unidade melhor ser a representao, e quanto mais prximo

    de zero ser pior.

    2.1.3 Anlise Conjunta de Experimentos em Blocos Casualizados com alguns

    Tratamentos Comuns

    Segundo Pimentel Gomes (1990), o fato se terem apenas alguns

    tratamentos comuns a todos os experimentos analisados, no impede que a anlise

    conjunta seja realizada, mas exige a utilizao de mtodos adequados.

    O autor apresenta um exemplo para a montagem do Esquema da Anlise

    de Varincia deste tipo de experimento, considerando 40 novos hbridos de milho a

    ensaiar, que se deseja comparar com trs variedades ou hbridos j conhecidos, tidos

    como padres, A, B e C. Repartindo-se os novos hbridos em 4 grupos de 10, agregam-

    se as variedades A, B e C, obtendo-se ento, os seguintes grupos:

    1 grupo: 1, 2, , 10, A, B, C;

    2 grupo: 11, 12, , 20, A, B, C;

    3 grupo: 21, 22, , 30, A, B, C;

    4 grupo: 31, 32, , 40, A, B, C.

    Obter-se- de cada grupo, um ensaio em blocos casualizados, com 3

    repeties, por exemplo. Para cada um destes grupos, teremos, pois, o seguinte

    esquema da anlise da varincia.

  • 24

    Causa de variao G.L.

    Blocos 2

    Tratamentos 12

    Resduo 24

    Total 38

    Aps realizada a anlise de cada grupo individualmente, verificam-se os

    valores do maior (QM1) e do menor (QM2) quadrado mdio do resduo. Para realizar a

    anlise conjunta destes experimentos, o quociente entre estes valores, segundo

    Pimentel Gomes (1990), deve ser menor que 7, ou seja,

    72

    1