Distantie en similariteit

Uit testwiki
Naar navigatie springen Naar zoeken springen

Met distantie en similariteit wordt de mate van verschil de mate en van overeenkomst in kenmerken of attributen van multivariate objecten bedoeld zoals deze berekend kunnen worden op grond van de gemeten variabelen, dus van attributen of kenmerken, van multivariate objecten.

Distanties of dissimilariteiten zijn de verschillen die bepaald worden op grond van waarden (of responsies) voor de kenmerken of attributen bij verschillende objecten. De meest bekende distantie is de euclidische afstand.

Similariteiten zijn juist de overeenkomsten tussen variabelen of tussen objecten. Dergelijke gegevens ten behoeve van de berekening worden weergegeven in tabellen (matrix) met rijen en kolommen voor de variabelen en de objecten. De meest bekende similariteit-maten zijn de correlatiecoëfficienten.

Bij de multivariate objecten gaat het bijvoorbeeld om vogeltellingen, steekproeven, hydrobiologische monsters of vegetatieopnamen, waarbij de attributen bestaan uit de waargenomen soorten, en de waarden bestaan uit waarnemingen van de af- of aanwezigheid of de aantallen voor elke vogel- of plantensoort.

Gebruik

Distanties en similariteiten worden wel gebruikt bij multivariate statistische methoden als clusteranalyse en bij ordinatie van biologische en ecologische gegevens.

Voorafgaand aan de gegevensverwerking is het vaak nodig eerst de distanties of similariteiten tussen de objecten te berekenen, na voorafgaande standaardisatie of normalisatie van de basisgegevens.

Bij een dergelijke berekening gaan de oorspronkelijke data van de variabelen verloren.

Er zijn ook 'directe' analysemethoden beschikbaar, waar deze voorafgaande berekeningen niet nodig zijn.

Indexen

Sjabloon:TekstAchtergrondRandn×m tabel met m objecten (kolommen), n attributen (rijen) en responsies (cellen)Sjabloon:Einde
m objecten (monsters, samples) randtotalen
variabelen
ObjectSjabloon:Sub ObjectSjabloon:Sub ObjectSjabloon:Sub ObjectSjabloon:Sub ObjectSjabloon:Sub
n
afhankelijke
variabelen

y1 t/m yn
Variabele1
y1
y11 y12 y1f y1g y1m k=1my1k
Variabele2
y2
y21 y22 y2f y2g y2m k=1my2k
Variabelei
yi
yi1 yi2 yif yig yim k=1myik
Variabelej
yj
ySjabloon:Sub yj2 yjf yjg yjm k=1myjk
Variabelen
yn
yn1 yn2 ynf yng ynm k=1mynk
randtotalen voor
de objecten
h=1nyh1 h=1nyh2 h=1nyhf h=1nyhg h=1nyhm h=1nk=1myhk

Voor een objecten-bij-attributentabel zijn voor het berekenen van indexen of coëfficiënten voor distantie en similariteit (verschil en overeenkomst) van de objecten of van de attributen een groot aantal verschillende indexen beschikbaar. Voor de elk van attributen is er slechts één variabele. Als er meer variabelen zijn worden deze gecombineerd tot slechts één variabele.

Similariteiten kunnen vaak worden omgerekend tot distanties en omgekeerd. De rol van objecten en variabelen kan in sommige gevallen worden omgewisseld, zodat niet alleen de distanties en similariteiten tussen de objecten kunnen worden berekend, maar ook tussen attributen of variabelen.

Meetschaal

De keuze van de index hangt af van de meetschaal van de gegevens. Vaak is een mogelijkheid de waarden van de ene schaal te transformeren naar een andere schaal.

Voorbeeld: Bij vegetatieopnamen (de objecten) volgens de Braun-Blanquet-methode worden voor de soorten (de attributen) de variabelen voor bedekking en voor talrijkheid samengevoegd tot een gecombineerde schatting (de variabelen) en ten behoeve van numerieke verwerking daarna getransformeerd.

Men onderscheidt de volgende niveaus waarop gemeten wordt: Sjabloon:Stamboom2 Sjabloon:Stamboom2/einde aftakking

Sjabloon:Stamboom2/einde

De bovenstaande zijn niveaus van gegevens in de genoemde volgorde van toenemende complexiteit en omvat een volgend genoemd niveau steeds de eerdere. Circulaire gegevens zijn hier verder buiten beschouwing gelaten, deze worden hier verder niet besproken. Voorbeelden daarvan zijn: dag van de week, maand van het jaar, het seizoen (voorjaar/zomer/herfst/winter), waterhoogte (eb/vloed), tijdstip op de dag, windrichting.

Waarnemingen nominale variabelen

Waarnemingen met nominale variabelen kunnen ten behoeve van de ggevensverwerking getransformeerd worden in binaire variabelen, door met voor elke nominale waarde een dummy-variabele met 0-1 waarden (binair) aan te maken.

Voorbeeld: de variabele "Oogkleur" (mogelijke waarden: bruin,blauw en zwart) wordt getransformeerd in de variabelen "Oogkleur bruin" (mogelijke waarden: 1/0), "Oogkleur blauw" (mogelijke waarden: 1/0) en "Oogkleur zwart" (mogelijke waarden: 1/0).
Transformatie van 1 nominale naar 3 binaire variabelen
Van 1 nominale variabele
Oogkleur
naar 3 binaire variabelen:
Bruine ogen Blauwe ogen Zwarte ogen
bruin 1 0 0
blauw 0 1 0
zwart 0 0 1

Waarnemingen ordinale variabelen

Waarnemingen met ordinale variabelen kunnen worden getransformeerd in binaire variabelen

Voorbeeld: de variabele "Score" (mogelijke waarden van hoog naar laag: goud, zilver en brons) wordt getransformeerd in de variabelen Score brons (waarde=1 als Score=brons, anders waarde=0), Score zilver (waarde=1 als Score=brons of Score=zilver, anders waarde=0) en Score goud (waarde=1 als Score=brons of Score=zilver of Score=goud).
Transformatie van 1 ordinale naar 3 binaire variabelen
Van 1 ordinale variabele
Score
naar 3 binaire variabelen:
Score goud Score zilver Score brons
goud 1 0 0
zilver 1 1 0
brons 1 1 1

Sjabloon:Clearboth

Waarnemingen binaire variabelen

Een binaire variabele is een variabele die slechts twee, elkaar uitsluitende waarden kan aannemen, zoals Sjabloon:Nowrap, Sjabloon:Nowrap, Sjabloon:Nowrap, of Sjabloon:Nowrap. Bij vergelijking van objecten met binaire variabelen worden de waarnemingen zo nodig getransformeerd naar 0 - 1 waarden en kunnen de formules vereenvoudigd worden, afhankelijk van het al of niet meerekenen van de 'dubbel-afwezige' (dubbel 0, dubbel Afwezig, dubbel Nee) overeenkomsten.

Indien gewenst kunnen ook attributen of variabelen met elkaar vergeleken worden, met vergelijkbare formules (deze zijn hier niet uitgeschreven).

Sjabloon:TekstAchtergrondRandVergelijking van Objectf en Objectg met n binaire variabelenSjabloon:Einde
Sjabloon:TekstAchtergrondRandmet meerekenen van de 'dubbel-afwezigen'Sjabloon:Einde   Sjabloon:TekstAchtergrondRandmet uitsluiting van de 'dubbel-afwezigen'Sjabloon:Einde
objecten Objectg randtotalen
waarden
1,
Aanwezig,
+,
Ja
0,
Afwezig,
—,
Nee
Objectf 1, Aanwezig,
+, Ja
A B A + B
0, Afwezig,
—, Nee
C D C + D
randtotalen → A + C B + D N = A + B + C + D
objecten Objectg randtotalen
waarden
1,
Aanwezig,
+,
Ja
0,
Afwezig,
—,
Nee
Objectf 1, Aanwezig,
+, Ja
c a - c a
0, Afwezig,
—, Nee
b - c ø
('dubbel-afwezig')
b - c
randtotalen → b a - c m = a + b - c
waarin: yhf en yhg hebben de waarden 0 of 1
A = h=1n(yhfyhg), B = h=1n(yhf(1yhg)),
C = h=1n(1(yhf)yhg) en D = h=1n(1yhf)(1yhg)
 
waarin: yhf en yhg hebben de waarden 0 of 1
a = h=1myhf, b = h=1myhg en c = h=1m(yhfyhg)
ø: Onder 'dubbel-afwezig' verstaat men de situatie dat beide
binaire variabelen de waarde 0 (—, Afwezig, Nee) hebben.
In sommige gevallen hebben deze geen zinvolle betekenis.

Similariteiten

Voorbeelden van similariteiten zijn correlaties en cosinus. Correlatiecoëfficiënten nemen waarden aan van -1 tot +1, waarbij bij de hoogste waarde staat voor de hoogste mate van overeenkomst (similariteit) en de kleinste distantie (dissimilariteit). Om als distantiemaat te kunnen fungeren moeten ze dus getransformeerd worden.

Sjabloon:Afkorting naam formule waarin: range
r Pearsons
product-moment
correlatiecoëfficiënt

 
(algemene formule)
rij=mk=1myikyjkk=1myikk=1myjkmk=1myik2(k=1myik)2mk=1myjk2(k=1myjk)2 rij = correlatie
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal waarden
[-1,+1]
ρS Spearmans
rangcorrelatiecoëfficiënt
ρij=16k=1m(yikyjk)2m(m21) ρij = rangcorrelatiecoëfficiënt
ySjabloon:Sub en ySjabloon:Sub zijn rangnummers
binnen de variabelen YSjabloon:Sub en YSjabloon:Sub
[-1,+1]
phi, φ puntcorrelatie,
associatiecoëfficiënt
φij=BCAD(A+B)(A+C)(B+C)(C+D) φij = puntcorrelatie
ySjabloon:Sub en ySjabloon:Sub zijn presenties: 0 of 1
[-1,+1]
cos cosinus van de hoek α
tussen de vectoren
door de oorsprong
cosij=k=1m(yikyjk)k=1m(yik)k=1m(yjk)
voor binaire variabelen wordt de formule: Cosij=cab
cosij = cosinus
yik = waarde voor object i en variabele k
yjk = waarde voor object j en variabele k
m = aantal waarden
[-1,+1]

Een andere correlatiecoëfficiënt is de punt-biseriële correlatiecoëfficiënt, evenals de puntcorrelatie een variant van de Pearsons product-momentcorrelatiecoëfficiënt.

Overige maten voor similariteit, zoals de coëfficiënten van Jaccard, Sörensen, Whittaker en Motyka worden besproken bij de distanties.

Distanties

Voorbeelden van indices voor distanties.

afkorting naam coëfficiënt formule waarin:
m = aantal variabelen
range
MD Minkowski distance,
 geïnduceerd door de Lr-norm
 
(algemene formule)
MDij=(k=1myikyjkr)1r MDSjabloon:Sub = distantie tussen objecten i en j

ySjabloon:Sub = waarde voor object i en variabele k
ySjabloon:Sub = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
r is een constante (1 of 2)
CBD city block distance,
Manhattan-metriek
CBDij=k=1myikyjk [0, ∞)
ED Sjabloon:Sorteer EDij=(k=1m(yikyjk)2)12 [0, ∞)
MCD mean character distance MCDij=1mk=1myikyjk [0, ∞)
GE gemiddelde euclidische afstand
euclidische vorm van MCD
GEij=1m(k=1m(yikyjk)2)12 [0, ∞)
DM distance metric
 
(algemene formule)
DMij=(k=1myikyjkr(yik+yjk)r)1r DMSjabloon:Sub = distantie tussen objecten i en j

ySjabloon:Sub = waarde voor object i en variabele k
ySjabloon:Sub = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
r is een constante (1 of 2)
CM Canberra metric CMij=k=1myikyjk(yik+yjk) [0, ∞)
HM Hodson's metric,
euclidische vorm van CM
HMij=(k=1m(yikyjk)2(yik+yjk)2)12 [0, ∞)
CD coefficient of divergence CDij=1m(k=1m(yikyjk)2(yik+yjk)2)12 [0, 1]
M Sjabloon:Sorteer
 
(algemene formule)
Mij=k=1myik+k=1myjk2k=1mmin(yik,yjk)k=1myik+k=1myjk MSjabloon:Sub = distantie tussen objecten i en j

ySjabloon:Sub = waarde voor object i en variabele k
ySjabloon:Sub = waarde voor object j en variabele k
m = aantal attributen met positieve waarden
[0, 1]
S Sjabloon:Sorteer Sij=a+b2ca+b [0, 1]
W Sjabloon:Sorteer Wij=k=1myik+k=1myjk2k=1mmin(yik,yjk)k=1myik+k=1myjkk=1mmin(yik,yjk) [0, 1]
J Sjabloon:Sorteer Jij=a+b2ca+bc [0, 1]
H heterogeniteit Hij=k=1myikyjk ySjabloon:Sub en ySjabloon:Sub zijn numerieke waarden [0, ∞)
Hij=a+b2c a, b en c: zie hierbovenstaande tabel
SM' Sjabloon:Sorteer SMij=A+DA+B+C+D A, B, C en D: zie hierbovenstaande tabel [0, 1]
YC Yule-coefficient YCij=ADBCAD+BC [-1, 1]
χ2 Chi-kwadraat afstand χij2=(A+B+C+D)(ADBC)2(A+B)(C+D)(A+C)(B+D) [0, ∞)

Distantiematrix

Een distantiematrix is een vierkante, symmetrische matrix met voor elk paar van objecten de onderlinge distanties. Een dergelijke matrix is symmetrisch, omdat de distantie tussen objecten a en b gelijk is aan de distanties tussen de objecten b en a. Op de diagonaal staan de distanties van de objecten tot zichzelf: 0.

Distantiematrices worden onder andere gebruikt bij ordinatietechnieken op basis van een distantiematrix,[1] zoals polaire ordinatie (PO), principal coordinates analysis, PCoA of metric multidimensional scaling, en nonmetric multidimensional scaling (NMDS).

Een matrix met similariteiten in plaats van distanties wordt ook wel resemblance matrix genoemd.

Sjabloon:Appendix

Sjabloon:Navigatie ordinatie