{ "cells": [ { "cell_type": "markdown", "id": "f34d9b58-8b0e-4936-a75e-3da3104354b8", "metadata": {}, "source": [ "# Métodos de _clustering_" ] }, { "cell_type": "markdown", "id": "3f2b0f9c-2446-41c7-a3c7-c27776a5f653", "metadata": {}, "source": [ "Da mesma forma que podemos especificar diferentes métricas de distância, podemos também especificar diferentes métodos de agregação, que com base na distância entre os vários pontos vão determinar de que forma podem ser agrupados: de que forma se determina a ligação entre eles.\n", "\n", "O valor por omissão usado pela função `linkage` o da ligação `single`, determinada pela distância mínima entre os pontos mais próximos $ \\min \\,\\{\\,d(a,b):a\\in A,\\,b\\in B\\,\\} $; uma alternativa bastante comum e que determina os _cluster_ com base na distância média é o `average` (também conhecido por UPGMA), e outra é o método de Ward `{cite}`pennsylvaniastateuniversity14WardMethod`\n", "\n", "Podemos ver a diferença entre os três com o seguinte exemplo; adicionamos um partido (\"B\") normalmente se abstem mas vota duas vezes de forma diferente, ambas em sentido oposto ao partido \"A\"." ] }, { "cell_type": "code", "execution_count": 2, "id": "d3543e05-114f-4603-b903-96cfd1ec8e53", "metadata": { "tags": [ "remove-cell" ] }, "outputs": [], "source": [ "import pandas as pd\n", "from scipy.spatial.distance import squareform\n", "from scipy.spatial.distance import pdist\n", "import matplotlib.pyplot as plt\n", "import matplotlib as mpl\n", "import seaborn as sns\n", "import scipy.spatial as sp, scipy.cluster.hierarchy as hc\n", "%matplotlib inline" ] }, { "cell_type": "code", "execution_count": 3, "id": "34edba64-7478-4012-a3d2-7d1439167d68", "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
FABC
F0.0000004.5825763.4641026.324555
A4.5825760.0000003.3166253.000000
B3.4641023.3166250.0000003.464102
C6.3245553.0000003.4641020.000000
\n", "
" ], "text/plain": [ " F A B C\n", "F 0.000000 4.582576 3.464102 6.324555\n", "A 4.582576 0.000000 3.316625 3.000000\n", "B 3.464102 3.316625 0.000000 3.464102\n", "C 6.324555 3.000000 3.464102 0.000000" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "v5=[[1,1,1,1,1,1,1,1,1,1],[0,0,0,1,0,-1,0,-1,-1,-1],[0,0,0,-1,0,0,0,0,0,1],[-1,-1,-1,-1,-1,-1,-1,-1,-1,-1]]\n", "\n", "v5_df = pd.DataFrame(v5, columns=[\"v1\",\"v2\", \"v3\",\"v4\",\"v5\",\"v6\",\"v7\",\"v8\",\"v9\",\"v10\"], index=[\"F\",\"A\",\"B\" ,\"C\"])\n", "v5_distmat=pd.DataFrame(squareform(pdist(v5)), columns=v5_df.index, index=v5_df.index)\n", "v5_distmat" ] }, { "cell_type": "markdown", "id": "5b49084d-4720-4e14-9021-8ef2be6f5a2c", "metadata": {}, "source": [ "## _Single (Nearest Point)_\n", "\n", "Usando o método _single_ obtemos o seguinte dendograma:" ] }, { "cell_type": "code", "execution_count": 4, "id": "7f259b78-b342-46e3-ad9e-f9045d0c48f2", "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "v5_distmat_link = hc.linkage(pdist(v5_df))\n", "\n", "sns.clustermap(\n", " v5_distmat,\n", " annot = True,\n", " cmap=sns.color_palette(\"Reds_r\"),\n", " linewidth=1,\n", " row_linkage=v5_distmat_link,\n", " col_linkage=v5_distmat_link,\n", " figsize=(4,4)\n", ")\n", "plt.title('Simple clustering method')\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "a1018a9b-0898-4e3b-9b0f-2db71f99853a", "metadata": {}, "source": [ "## _Average (UPGMA)_\n", "\n", "Usando UPGMA não há alterações (neste caso muito simples, porque o mais provável é existirem quando aplicadas a dados reais com maior número de observações e dimensões); os agrupamentos tendem a ser feitos de forma recursiva, por separação de elementos individuais até à identificação de um par final:" ] }, { "cell_type": "code", "execution_count": 8, "id": "a007b172-160b-4e32-a028-b9b3a9588f90", "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "v5_distmat_link = hc.linkage(pdist(v5_df), method=\"average\")\n", "\n", "sns.clustermap(\n", " v5_distmat,\n", " annot = True,\n", " cmap=sns.color_palette(\"Reds_r\"),\n", " linewidth=1,\n", " row_linkage=v5_distmat_link,\n", " col_linkage=v5_distmat_link,\n", " figsize=(4,4)\n", ")\n", "plt.title('Average (UPGMA) clustering method')\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "076f87d0-c033-4b6c-baf2-84e50bbd560c", "metadata": {}, "source": [ "## Método de Ward\n", "\n", "Com o método de Ward o resultado não é muito diferente mas tende a agrupar em _clusters_ de número e dimensões iguais e é por isso uma escolha muito popular *(Morse 1980)*; neste caso cria dois grupos de dois elementos, agrupando o novo partido pela consideração que faz das destâncias entre todos:" ] }, { "cell_type": "code", "execution_count": 9, "id": "c9e0626e-1534-4281-a41a-dcefca1f9f42", "metadata": { "tags": [ "hide-input" ] }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "v5_distmat_link = hc.linkage(pdist(v5_df), method=\"ward\")\n", "\n", "sns.clustermap(\n", " v5_distmat,\n", " annot = True,\n", " cmap=sns.color_palette(\"Reds_r\"),\n", " linewidth=1,\n", " row_linkage=v5_distmat_link,\n", " col_linkage=v5_distmat_link,\n", " figsize=(4,4)\n", ")\n", "plt.title('Ward clustering method')\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "4a0bf55e-aa94-4aaa-9527-3fa3abbb0e62", "metadata": {}, "source": [ "Servem estes exemplos para mostrar que a forma como se procede ao agrupamento é resultado de várias decisões, e se em geral o resultado é o mesmo para valores mais distantes, podem ter resultados diferentes para diferenºas mais pequenas." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.12" } }, "nbformat": 4, "nbformat_minor": 5 }