Słowniczek z systemami uczącymi się: grupowanie

Ta strona zawiera terminy z glosariusza grupowania. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.

O

grupowanie aglomeracyjne

#clustering

Zobacz sekcję Grupowanie hierarchiczne.

C

centroid

#clustering

Środek klastra określony za pomocą algorytmu średnich k lub mediany k. Na przykład jeśli k to 3, algorytm k-średnich lub k-mediany znajduje 3 centroidy.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów klastrowania, która porządkuje dane w klastry niehierarchiczne. k-średnie to najpopularniejszy algorytm grupowania oparty na centroidach.

W przeciwieństwie do algorytmów klastrowania hierarchicznego.

grupowanie

#clustering

Grupowanie powiązanych przykładów, zwłaszcza w przypadku nauczania nienadzorowanego. Po zgrupowaniu wszystkich przykładów człowiek może opcjonalnie nadać znaczenie każdej grupie.

Istnieje wiele algorytmów grupowania. Na przykład przykłady klastrów algorytmów k-średnich na podstawie ich odległości od centroida, jak na tym diagramie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona jako szerokość drzewa, a oś Y – wysokość drzewa. Wykres zawiera 2 centroidy i kilkadziesiąt punktów danych. Punkty danych są klasyfikowane na podstawie ich odległości. Oznacza to, że punkty danych najbliżej jednego centrum są klasyfikowane jako klaster 1, a punkty bliższe drugiego – jako klaster 2.

Osoba badawcza może następnie przeanalizować klastry i na przykład oznaczyć klaster 1 jako „drzewa karłowate”, a grupę 2 jako „pełnowymiarowe drzewa”.

Innym przykładem jest algorytm grupowania oparty na odległości od punktu środkowego przykładu przedstawionego w następujący sposób:

Dziesiątki punktów danych są rozmieszczonych w koncentrycznych okręgach, prawie jak otwory wokół środka tarczy. Najbardziej wewnętrzny pierścień punktów danych jest klasyfikowany jako klaster 1, środkowy pierścień jest przypisany do klastra 2, a najbardziej zewnętrzny – jako klaster 3.

D

grupowanie przez podział

#clustering

Zobacz sekcję Grupowanie hierarchiczne.

H

grupowanie hierarchiczne

#clustering

Kategoria algorytmów klastrowania, które tworzą drzewo klastrów. Klastry hierarchiczne dobrze nadają się do danych hierarchicznych, takich jak taksonomie botaniczne. Istnieją 2 rodzaje algorytmów klastrowania hierarchicznego:

  • Klastry aglomeracyjne najpierw przypisują każdy przykład do własnego klastra, a potem iteracyjnie scalają najbliższe klastry w celu utworzenia drzewa hierarchicznego.
  • Grupowanie dzielone najpierw grupuje wszystkie przykłady w jeden klaster, a następnie dzieli klaster w drzewo hierarchiczne.

Porównaj z grupowaniem na podstawie cenroidów.

K

k-średnich

#clustering

Popularny algorytm klastrowania, który grupuje przykłady w uczeniu nienadzorowanym. Algorytm k-średnich wykonuje w zasadzie te działania:

  • iteracyjne określanie najlepszych punktów środkowych (nazywanych centroidami).
  • Przypisuje każdy przykład do najbliższego centrum. Te przykłady najbliższe temu samemu centroidowi należą do tej samej grupy.

Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować skumulowany kwadrat odległości od każdego przykładu do najbliższego centrum.

Weźmy na przykład ten wykres wzrostu i szerokości psa:

Wykres kartezjański z kilkoma dziesiątkami punktów danych.

Jeśli wartość k=3, algorytm k-średnich określi trzy centroidy. Każdy przykład jest przypisywany do najbliższego centrum, co daje 3 grupy:

Ten sam wykres kartezjański co na poprzedniej ilustracji, z wyjątkiem dodanych 3 centroidów.
          Poprzednie punkty danych są grupowane w 3 odrębne grupy, z których każda reprezentuje punkty danych najbliżej określonego centrum.

Załóżmy, że producent chce określić optymalne rozmiary dla małych, średnich i dużych sweterów dla psów. Te 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w gromadzie. Producent sweterów powinien więc zastosować rozmiar swetra w tych trzech centroidach. Pamiętaj, że środek transportu klastra nie jest zwykle przykładem klastra.

Na poprzednich ilustracji widać wartości k – w przykładach tylko 2 cechy (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady dla wielu cech.

mediana k

#clustering

Algorytm grupowania ściśle powiązany ze średnimi k. Praktyczna różnica między nimi jest następująca:

  • W przypadku wartości k centroidy są określane przez zminimalizowanie sumy kwadratów odległości między kandydatem do centroidu a każdym z jego przykładów.
  • W medianie k centroidy są określane przez zminimalizowanie sumy odległości między kandydatem a każdym z jego przykładów.

Zauważ, że również definicje odległości również są różne:

  • Wartość k-średnia zależy od odległości euklidesowej od centrum do przykładu. (W dwóch wymiarach odległość euklidesowa oznacza obliczenie przeciwprostokątnej przy użyciu twierdzenia Pitagorasa). Na przykład odległość k-średnia między (2,2) a (5,–2) będzie wynosić:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Mediana k zależy od odległości od centrum Manhattanu do przykładu. Jest to suma bezwzględnych delta w poszczególnych wymiarach. Na przykład odległość k-mediana między (2,2) a (5,-2) będzie wynosić:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

miara podobieństwa

#clustering

W algorytmach klastrowania wskaźnik służący do określenia, na ile podobne są (jak podobne) są 2 przykłady.

szkicowanie

#clustering

W nienadzorowanych systemach uczących się jest to kategoria algorytmów, które przeprowadzają wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania korzystają z funkcji haszującej zależnej od lokalizacji, aby identyfikować punkty, które z dużym prawdopodobieństwem są podobne, a następnie grupować je w zasobniki.

Szkicowanie skraca obliczenia wymagane przy obliczaniu podobieństwa w dużych zbiorach danych. Zamiast obliczać podobieństwo dla każdej pojedynczej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zasobniku.

T

analiza ciągów czasowych

#clustering

Podkategoria systemów uczących się i statystyk, która analizuje dane tymczasowe. Wiele typów problemów związanych z systemami uczącymi się wymaga analizy ciągów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy ciągów czasowych, aby przewidzieć przyszłą sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.

U

nienadzorowane systemy uczące się

#clustering
#fundamentals

Trenowanie model służącego do znajdowania wzorców w zbiorze danych, zwykle bez etykiety.

Najpopularniejszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może grupować utwory według różnych właściwości muzyki. Utworzone w ten sposób klastry mogą stać się danymi wejściowymi dla innych algorytmów systemów uczących się (np. usługi rekomendacji muzycznych). Grupowanie może być przydatne, gdy przydatnych etykiet brakuje lub w ogóle nie ma w nich przydatnych etykiet. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc użytkownikom lepiej zrozumieć dane.

Porównaj je z nadzorowanymi systemami uczącymi się.