Exemplo: dados qualitativos em FMI

Ativando o pacote

Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função library ou require

library(MultivariateAnalysis)

Abrindo o conjunto de dados

Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.

Uma possibilidade é utilizando a função read.table. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função data.

Este exemplo trata-se de dados multicategóricos em Famílias de Meios Irmãos.

data("Dados.FMI.Quali")
head(Dados.FMI.Quali)
#>   Parcela Tratamento Planta Bloco avaliador Angulodafolha Formatodolimbofoliar
#> 1      27    F11B3P2      1     1         1             1                    2
#> 2      27    F11B3P2      2     1         1             1                    6
#> 3      27    F11B3P2      3     1         1             2                    1
#> 4      27    F11B3P2      4     1         1             2                    1
#> 5      27    F11B3P2      5     1         1            NA                   NA
#> 6      27    F11B3P2      6     1         1             2                    2
#>   Divisaofoliar Divisaofoliarincisao Formatodoapice
#> 1             4                    4              4
#> 2             4                    2              4
#> 3             4                    3              6
#> 4             4                    3              6
#> 5            NA                   NA             NA
#> 6             4                    2              4

#Obtendo a porcentagem de cada classificação em nível de tratamento.

Fator=Dados.FMI.Quali$Tratamento
DadosQuali=Dados.FMI.Quali[,6:10]
Dados2=ApplyDissimilaridade(Dados = DadosQuali,Factor = Fator)
(head(Dados2))
#>         Angulodafolha_1 Angulodafolha_2 Angulodafolha_3 Angulodafolha_4
#> F11B3P2       0.2181818       0.5272727       0.1454545      0.10909091
#> F11B3P4       0.2363636       0.3636364       0.3272727      0.07272727
#> F12B1P1       0.1509434       0.5660377       0.2830189      0.00000000
#> F12B1P2       0.1403509       0.5614035       0.2982456      0.00000000
#> F12B1P5       0.1020408       0.3877551       0.3469388      0.16326531
#> F12B2P2       0.2173913       0.5869565       0.1521739      0.04347826
#>         Angulodafolha_5 Formatodolimbofoliar_2 Formatodolimbofoliar_6
#> F11B3P2               0              0.5000000             0.03030303
#> F11B3P4               0              0.2096774             0.00000000
#> F12B1P1               0              0.2833333             0.00000000
#> F12B1P2               0              0.4218750             0.03125000
#> F12B1P5               0              0.3500000             0.00000000
#> F12B2P2               0              0.3877551             0.00000000
#>         Formatodolimbofoliar_1 Formatodolimbofoliar_3 Formatodolimbofoliar_5
#> F11B3P2              0.2575758              0.1666667             0.03030303
#> F11B3P4              0.4838710              0.2258065             0.08064516
#> F12B1P1              0.1833333              0.4666667             0.05000000
#> F12B1P2              0.1562500              0.3281250             0.04687500
#> F12B1P5              0.2500000              0.3333333             0.05000000
#> F12B2P2              0.3061224              0.1632653             0.10204082
#>         Formatodolimbofoliar_4 Formatodolimbofoliar_7 Divisaofoliar_4
#> F11B3P2             0.01515152                      0      0.56666667
#> F11B3P4             0.00000000                      0      0.03389831
#> F12B1P1             0.01666667                      0      0.00000000
#> F12B1P2             0.01562500                      0      0.15000000
#> F12B1P5             0.01666667                      0      0.00000000
#> F12B2P2             0.04081633                      0      0.04081633
#>         Divisaofoliar_2 Divisaofoliar_3 Divisaofoliar_5 Divisaofoliar_7
#> F11B3P2       0.3000000       0.1166667      0.01666667      0.00000000
#> F11B3P4       0.7966102       0.1694915      0.00000000      0.00000000
#> F12B1P1       0.6724138       0.3275862      0.00000000      0.00000000
#> F12B1P2       0.5666667       0.2666667      0.01666667      0.00000000
#> F12B1P5       0.6896552       0.2931034      0.00000000      0.01724138
#> F12B2P2       0.4693878       0.4693878      0.00000000      0.00000000
#>         Divisaofoliar_1 Divisaofoliar_0 Divisaofoliar_6 Divisaofoliarincisao_4
#> F11B3P2      0.00000000               0               0             0.45000000
#> F11B3P4      0.00000000               0               0             0.01666667
#> F12B1P1      0.00000000               0               0             0.00000000
#> F12B1P2      0.00000000               0               0             0.08333333
#> F12B1P5      0.00000000               0               0             0.00000000
#> F12B2P2      0.02040816               0               0             0.04081633
#>         Divisaofoliarincisao_2 Divisaofoliarincisao_3 Divisaofoliarincisao_1
#> F11B3P2              0.4500000             0.10000000              0.0000000
#> F11B3P4              0.7666667             0.11666667              0.1000000
#> F12B1P1              0.8620690             0.05172414              0.0862069
#> F12B1P2              0.7833333             0.08333333              0.0500000
#> F12B1P5              0.8793103             0.01724138              0.0862069
#> F12B2P2              0.8367347             0.02040816              0.1020408
#>         Divisaofoliarincisao_0 Divisaofoliarincisao_11 Divisaofoliarincisao_8
#> F11B3P2             0.00000000                       0                      0
#> F11B3P4             0.00000000                       0                      0
#> F12B1P1             0.00000000                       0                      0
#> F12B1P2             0.00000000                       0                      0
#> F12B1P5             0.01724138                       0                      0
#> F12B2P2             0.00000000                       0                      0
#>         Divisaofoliarincisao_6 Divisaofoliarincisao_7 Divisaofoliarincisao_5
#> F11B3P2                      0                      0                      0
#> F11B3P4                      0                      0                      0
#> F12B1P1                      0                      0                      0
#> F12B1P2                      0                      0                      0
#> F12B1P5                      0                      0                      0
#> F12B2P2                      0                      0                      0
#>         Formatodoapice_4 Formatodoapice_6 Formatodoapice_8 Formatodoapice_2
#> F11B3P2       0.37500000        0.6250000       0.00000000        0.0000000
#> F11B3P4       0.13725490        0.6470588       0.03921569        0.1764706
#> F12B1P1       0.07843137        0.6666667       0.09803922        0.1568627
#> F12B1P2       0.14000000        0.5600000       0.14000000        0.1600000
#> F12B1P5       0.01851852        0.5740741       0.14814815        0.2407407
#> F12B2P2       0.20000000        0.5777778       0.02222222        0.1777778
#>         Formatodoapice_1 Formatodoapice_5 Formatodoapice_0 Formatodoapice_3
#> F11B3P2       0.00000000                0                0                0
#> F11B3P4       0.00000000                0                0                0
#> F12B1P1       0.00000000                0                0                0
#> F12B1P2       0.00000000                0                0                0
#> F12B1P5       0.01851852                0                0                0
#> F12B2P2       0.02222222                0                0                0

Obtenção de medidas de dissimilaridade

Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao Distancia (?Distancia).

Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento Metodo dentro da função Distancia:

Dados quantitativos

1 = Distancia euclidiana.

2= Distancia euclidiana media.

3 = Quadrado da distancia euclidiana media.

4 = Distancia euclidiana padronizada.

5 = Distancia euclidiana padronizada media.

6 = Quadrado da distancia euclidiana padronizada media.

7 = Distancia de Mahalanobis.

8 = Distancia de Cole Rodgers.

#distancia euclidiana padronizada
Dist=Distancia(Dados2,Metodo = 4)

Informações importantes podem ser obtidas dessa matriz com a função SummaryDistancia:

resumo=SummaryDistancia(Dist)

resumo
#>            Medio Minimo Maximo   sd MaisProximo MaisDistante
#> F11B3P2    10.48   6.13  13.16 1.64     F22B1P5   Portuguesa
#> F11B3P4     7.20   4.05  12.40 1.98      F8B1P4       F5B1P4
#> F12B1P1     6.47   2.17  12.51 2.52    Manteiga       F5B1P4
#> F12B1P2     7.61   4.12  11.80 2.03     F12B2P4       F5B1P4
#> F12B1P5     9.16   6.76  13.85 1.71     F14B4P3       F5B1P4
#> F12B2P2     7.39   3.93  11.85 2.00     F22B1P1       F5B1P4
#> F12B2P3     7.41   4.28  11.86 1.91     F23B4P4       F5B1P4
#> F12B2P4     7.33   3.57  12.80 2.24     F12B1P1       F5B1P4
#> F12B3P1     6.95   3.35  12.60 2.17     F17B1P5       F5B1P4
#> F12B4P3    10.66   9.03  14.35 1.37     F12B3P1       F5B1P4
#> F14B1P1     7.24   3.90  10.92 2.04     F12B1P1       F5B1P4
#> F14B1P5     9.34   6.67  14.46 1.76     F12B3P1       F5B1P4
#> F14B2P3     6.86   3.56  12.37 2.25     F23B4P4       F5B1P4
#> F14B3P2     6.69   3.09  12.59 2.36     F17B1P5       F5B1P4
#> F14B4P1     7.99   6.00  12.55 1.78     F23B4P4       F5B1P4
#> F14B4P3     6.52   3.03  12.26 2.35    Manteiga       F5B1P4
#> F14B4P4    11.21   9.26  14.42 1.38     F14B1P1       F5B1P4
#> F17B1P5     6.54   3.09  12.07 2.20     F14B3P2       F5B1P4
#> F18B3P2    10.62   8.48  14.02 1.38     F17B1P5       F5B1P4
#> F18B3P3     9.59   7.69  14.05 1.58     F12B3P1       F5B1P4
#> F21B3P4     6.55   3.15  12.65 2.45     F14B3P2       F5B1P4
#> F22B1P1     7.16   3.93  12.42 2.17     F12B2P2       F5B1P4
#> F22B1P5    10.79   6.13  13.40 1.47     F11B3P2      F14B4P4
#> F22B4P2     7.15   4.58  12.82 2.11     F21B3P4       F5B1P4
#> F23B4P4     6.51   2.87  11.54 2.26      F8B1P4       F5B1P4
#> F24B1P5     7.06   4.36  11.85 2.00     F14B2P3       F5B1P4
#> F4B1P4     10.68   9.03  13.94 1.42     F14B4P3   Portuguesa
#> F4B2P3      8.67   5.99  12.99 1.72      F9B2P3       F5B1P4
#> F5B1P4     12.77   9.81  14.59 1.14     F22B1P5   Portuguesa
#> F7B4P1      9.44   7.15  14.32 1.70     F14B4P3       F5B1P4
#> F8B1P2      9.47   7.24  13.77 1.74     F14B4P3       F5B1P4
#> F8B1P4      7.21   2.87  12.34 2.14     F23B4P4       F5B1P4
#> F9B2P3      7.47   4.65  12.79 2.03    Manteiga       F5B1P4
#> Georgia     8.66   3.87  13.80 2.07  Portuguesa       F5B1P4
#> Manteiga    6.72   2.17  12.95 2.48     F12B1P1       F5B1P4
#> Portuguesa 10.30   3.87  14.59 2.05     Georgia       F5B1P4

A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um dendograma com o auxilio da função dendograma. Varios algoritimos podem ser utilizados para a construção deste dendograma. Para isso, deve-se indicar no argumento Metodo:

1 = Ligacao simples (Metodo do vizinho mais proximo).

2 = Ligacao completa (Metodo do vizinho distante).

3 = Ligacao media entre grupo (UPGMA).

4 = Metodo de Ward.

5 = Metodo de ward (d2).

6= Metodo da mediana (WPGMC).

7= Metodo do centroide (UPGMC).

8 = Metodo mcquitty (WPGMA).

#Dendograma com o metodo UPGMA
Dendo=Dendograma(Dist,Metodo=3)

Dendo$SigCorrelCofenetica
#> 
#>             Mantel's permutation test
#> 
#> Correlation: 0.9116587
#> p-value: 0.001, based on 999 matrix permutations
#> Alternative hypothesis: true correlation is greater than 0
Dendo$MojenaCorte
#>    k=1.25       k=2 
#>  9.668663 11.670184

Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função Tocher:

#Dendograma com o metodo UPGMA
To=Tocher(Dist,corPlot = FALSE)
To$Tocher
#> [[1]]
#> [[1]]$`cluster 1`
#>  [1] F12B1P1  Manteiga F14B4P3  F14B3P2  F21B3P4  F17B1P5  F23B4P4  F12B3P1 
#>  [9] F14B2P3  F22B4P2  F24B1P5  F11B3P4  F8B1P4   F22B1P1  F12B2P4  F14B1P1 
#> [17] F12B2P2  F9B2P3   F12B2P3  F12B1P2  F14B4P1  F4B2P3   Georgia  F12B1P5 
#> [25] F14B1P5  F7B4P1   F8B1P2   F18B3P3 
#> 
#> [[1]]$`cluster 2`
#> [1] F11B3P2 F22B1P5
#> 
#> [[1]]$`cluster 3`
#> [1] F12B4P3 F4B1P4  F18B3P2
#> 
#> [[1]]$`cluster 4`
#> [1] F14B4P4
#> 
#> [[1]]$`cluster 5`
#> [1] F5B1P4
#> 
#> [[1]]$`cluster 6`
#> [1] Portuguesa
To$DistanciaIntraInterCluster
#>           cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 cluster 6
#> cluster 1  13.64428 26.737082  24.59465  27.71830  37.69456  23.62712
#> cluster 2  26.73708  9.567888  20.02904  20.41873  19.87172  23.15905
#> cluster 3  24.59465 20.029043  17.63681  19.96198  24.89993  20.65265
#> cluster 4  27.71830 20.418730  19.96198   0.00000  23.63660  19.71823
#> cluster 5  37.69456 19.871717  24.89993  23.63660   0.00000  28.16095
#> cluster 6  23.62712 23.159053  20.65265  19.71823  28.16095   0.00000
To$CorrelacaoCofenetica
#> 
#>             Mantel's permutation test
#> 
#> Correlation: 0.8548593
#> p-value: 1e-04, based on 9999 matrix permutations
#> Alternative hypothesis: true correlation is greater than 0

Outra possibilidade é o estudo da dispersão da matriz de dissimilaridade pelas técnica de coordenadas principais:


CO=CoordenadasPrincipais(Dist)

Logo, quando se tem dados quantitativos faz mais sentido utilizar os componentes principais que coordenadas principais em situações quando irá se considerar a distância euclidiana padronizada.