Aprendizaje y clasificación basados en criterios de vecindad. Métodos alternativos y análisis comparativo.
Neighbourhood-based learning and classification: alternative methods and comparative analysis.

Tesis Doctoral

Presentada por: J.S. Sánchez
Dirigida por: Filiberto Pla Bañón and F.J. Ferri i Rabasa


Resumen

El contenido de esta Tesis incide directamente sobre un conjunto de técnicas de clasificación y aprendizaje basadas en criterios de vecindad sobre espacios métricos, algunas de las cuales (por ejemplo, la regla de los k-Vecinos más Próximos) han estado consideradas como aproximaciones cuasi-óptimas para un gran número de problemas de estimación, convirtiéndose además en punto de referencia para el desarrollo de otros muchos procedimientos. A lo largo de este trabajo, proponemos un conjunto de conceptos y métodos alternativos a las aproximaciones clásicas basadas en criterios de vecindad, con el objetivo de superar ciertas deficiencias derivadas básicamente de la pérdida de efectividad a medida que la cantidad y la calidad de la información que utilizan disminuye, así como del elevado coste temporal que su aplicación práctica puede suponer. Los esquemas introducidos en cada apartado son empíricamente comparados con las principales técnicas convencionales, en aras de evaluar y valorar las ventajas e inconvenientes del comportamiento exhibido por cada uno de ellos. Como conclusión podemos decir que, en general, los resultados permiten garantizar una superioridad de los nuevos métodos aplicados sobre problemas reales, conservando además el comportamiento óptimo en el caso asintótico, es decir, disponiendo de un infinito número de muestras.



1. MOTIVACIÓN Y OBJETIVOS GENERALES

La calidad de un clasificador puede medirse desde muy diferentes puntos de vista pero, sin embargo, quizás las dos propiedades que mejor puedan definir la superioridad de una cierta regla de clasificación sobre otras son su eficacia y su eficiencia, es decir, porcentaje de aciertos y coste, respectivamente. Teniendo en cuenta esta doble perspectiva, la presente Tesis Doctoral supone un análisis sobre la calidad de algunos métodos de clasificación basados en criterios de vecindad. Tradicionalmente, el interés por este tipo de reglas se ha debido, no sólo a su simplicidad conceptual o a su sencillez de implementación y aplicación, sino también al hecho de mostrar un comportamiento asintóticamente óptimo en términos del error de Bayes (es decir, suponiendo un número ilimitado de muestras). Sin embargo, a pesar de todos los aspectos positivos que de alguna forma se les podría atribuir, estas aproximaciones no paramétricas presentan también algunos inconvenientes prácticos. Por una parte, su aplicación supone un elevado coste temporal, tanto más importante cuanto mayor es el número de muestras disponibles. Por otra parte, si intentamos aliviar esta carga computacional a partir de una reducción del número de muestras, se puede producir un considerable deterioro en su comportamiento.
En consecuencia, podríamos decir que el objetivo general de esta tesis hace referencia a un intento por mejorar la calidad de las reglas de clasificación basadas en criterios de vecindad. En primer lugar, nos centraremos en la efectividad real de estos métodos, es decir, en su comportamiento sobre problemas prácticos. Para ello, estudiaremos el concepto de vecindad que tradicionalmente han venido utilizando la mayor parte de estos esquemas de clasificación y, posteriormente, propondremos unas definiciones alternativas, que globalmente llamaremos vecindad envolvente. A continuación, se formularán diferentes reglas de clasificación a partir de la utilización de aquellos conceptos de vecindad, comprobando experimentalmente que su tasa de aciertos resulta generalmente superior a la de las técnicas basadas en una clásica definición de vecindad. Por último, respecto a aspectos de eficacia, implementaremos un conjunto de procedimientos para la selección de prototipos mediante la aplicación de aquellas nuevas reglas de clasificación, obteniendo igualmente unos resultados mejores que con los principales algoritmos de edición y condensado.
Siguiendo con los aspectos de calidad, en segundo lugar, estudiaremos la eficiencia de los métodos de clasificación basados en criterios de vecindad. De hecho, en la literatura afín a esta disciplina, podemos encontrar numerosas propuestas que tratan de aumentar la velocidad de clasificación. Por una parte, podemos mencionar diferentes algoritmos eficientes para el cálculo del vecino más próximo, entre los que cabe destacar aquellos que utilizan la técnica algorítmica de "ramificación y poda", así como también los esquemas basados en la construcción previa de alguna estructura espacial (fundamentalmente, el diagrama de Voronoi). Por otra parte, diversas propuestas (conocidas, en general, como técnicas de condensado) intentan disminuir la correspondiente carga computacional mediante una reducción controlada del número de muestras, sin que ello suponga un excesivo deterioro de la efectividad de la regla de clasificación. En esta tesis, definiremos algunos procedimientos de condensado a partir del concepto alternativo de vecindad y, por otra parte, propondremos el diseño y la aplicación de una estructura rápida en forma de árbol de decisión que permitirá simular eficientemente el resultado de la regla del vecino más próximo. Por consiguiente, podríamos resumir los objetivos fundamentales de esta Tesis Doctoral en los siguientes cuatro puntos (cada uno de ellos enmarcado en un capítulo de la memoria de Tesis Doctoral):
- Definición de conceptos alternativos de vecindad dentro de un contexto de clasificación: Capítulo 4.
- Análisis, desarrollo y evaluación de clasificadores no paramétricos basados en aquellos criterios de vecindad alternativos: Capítulo 4.
- Diseño, implementación y validación de métodos de aprendizaje (selección de prototipos, en general) para la regla de clasificación del vecino más próximo: Capítulo 5.
- Mejora de la velocidad de clasificación con la regla del vecino más próximo a través de una estructura equivalente y, generalmente, más eficiente: Capítulo 6.
A partir de aquí, este artículo intenta dar una visión global del contenido de cada capítulo de la memoria de tesis, incidiendo en las principales aportaciones y destacando sus principales resultados. Obviamente, debido al escaso espacio disponible para el artículo, no se podrán incluir los detalles de cada apartado sino que, por el contrario, tan sólo se hará una referencia del capítulo en el que aparece el desarrollo teórico y el análisis empírico completos de cada aspecto.

2. CLASIFICACIÓN POR CRITERIOS DE VECINDAD

Entre los clasificadores estadísticos no paramétricos, cabe destacar las aproximaciones basadas en criterios de vecindad, sobre las cuales se ha centrado el presente trabajo. Bajo esta perspectiva, los esquemas de clasificación únicamente exigirán la definición de una cierta medida de disimilitud entre los distintos elementos del espacio de representación, es decir, que éste sea métrico (o pseudo- métrico).
Dentro de las diferentes ventajas que previamente ya hemos comentado para la clasificación basada en criterios de vecindad respecto a otros métodos no paramétricos, la más inmediata hace referencia a su simplicidad conceptual, que podría resumirse de la siguiente manera: la clasificación de un nuevo punto del espacio de representación se puede estimar en función de la clasificación conocida de los puntos dentro de un entorno suficientemente pequeño de aquel punto. Cabe señalar que la métrica del espacio de representación a la que nos referíamos en el párrafo anterior es necesaria, precisamente, para definir aquel "entorno suficientemente pequeño" del punto a clasificar.
En general, cualquier problema de clasificación abordado desde un enfoque basado en criterios de vecindad se podrá caracterizar del siguiente modo: 1) Se dispone de un conjunto de N prototipos (o muestras pre-clasificadas) en un espacio de representación E, llamado conjunto de entrenamiento o diseño, y que escribiremos como {X, ?} = {(x1, ?1), (x2, ?2), ..., (xN, ?N)}, donde ?i hace referencia a la clase verdadera de la muestra xi entre las M posibles clases del problema; 2) Tenemos que clasificar una nueva muestra, x, estadísticamente independiente del conjunto {X, ?}; 3) No hay ninguna otra información adicional acerca de la distribución de los parámetros estadísticos asociados al conjunto de entrenamiento; 4) Existe alguna métrica entre las distintas muestras disponibles definida en el espacio de representación E.
Siguiendo estas premisas, obviamente se debe asumir la absoluta corrección de la técnica empleada para asignar una etiqueta de clase a cada uno de los prototipos del conjunto de entrenamiento, puesto que de ello depende en gran medida la efectividad de cualquier clasificador. No obstante, en la práctica, esta asunción no siempre será totalmente cierta de manera que, en la mayoría de los casos, se requerirá la aplicación de algún proceso previo a la clasificación que, de algún modo, elimine del conjunto de entrenamiento todos los prototipos erróneamente etiquetados (estos procedimientos se conocen, generalmente, como edición del conjunto de entrenamiento y, conjuntamente con los ya mencionados esquemas de condensado, forman las denominadas técnicas de Selección de Prototipos). Si bien son muchas y muy variadas las reglas de clasificación que podrían encuadrarse dentro de los clasificadores basados en criterios de vecindad, en el Capítulo 3 de la memoria de tesis sólo se han mencionado las más interesantes (ya sea por lo que respecta a su desarrollo teórico o por lo que se refiere a sus resultados prácticos). En este artículo, no dedicamos ningún apartado de introducción a dichos clasificadores debido a la escasez del espacio disponible.

3. VECINDAD ENVOLVENTE

Anteriormente, hemos comentado que algunas reglas basadas en el clásico concepto de vecindad (por ejemplo, la regla k-NN) presentan un excelente comportamiento asintótico en cuanto al error de clasificación pero, sin embargo, cuando el número de prototipos disponibles en el conjunto de entrenamiento no es suficientemente grande, los resultados tienden, en general, a sufrir un importante deterioro. Consecuentemente, para determinados problemas reales (es decir, con un número finito de muestras e incluso, en muchas ocasiones, un número relativamente pequeño), la aplicación de estas reglas podría entenderse como una solución poco apropiada debido a los pobres resultados, es decir, a la baja tasa de aciertos en el correspondiente proceso de clasificación. Este problema se acentúa todavía más cuando el número de muestras es pequeño comparado con la dimensionalidad intrínseca del espacio de representación, lo cual responde a una situación práctica bastante habitual.
Esta pérdida en la efectividad asociada a la regla k-NN y, en general, a la mayor parte de los clasificadores basados en criterios de vecindad puede fundamentarse en el hecho de que, bajo las condiciones descritas en el párrafo anterior, la información obtenida a partir del concepto de vecindad utilizado por estos esquemas puede llegar a resultar insuficiente o inadecuada para estimar de forma precisa la clase de las nuevas muestras. En este sentido, puesto que las estimaciones de estos clasificadores se basan exclusivamente en aspectos de proximidad, considerada ésta como la mínima distancia (Euclídea) de una muestra a un determinado número (k) de prototipos, parece claro que ignoran cualquier otro tipo de información que pudiera contener ciertas propiedades relativas a la distribución geométrica o espacial de las muestras.
A partir de estas ideas generales, podríamos considerar que una apropiada definición de vecindad debería satisfacer fundamentalmente dos condiciones o criterios complementarios: a) criterio de distancia: los vecinos deben estar tan próximos a la muestra analizada como sea posible b) criterio de simetría: los vecinos deben estar tan homogéneamente distribuidos alrededor de dicha muestra como sea posible. La regla k-NN sólo tiene en cuenta la primera de estas propiedades, de modo que la muestra en cuestión podría no estar suficientemente rodeada por sus correspondientes vecinos, en el caso de que los prototipos del conjunto de entrenamiento no se encontraran homogéneamente distribuidos en el espacio de representación.
A continuación, definiremos las tres propuestas utilizadas en esta tesis, las cuales nos permiten materializar el concepto de vecindad envolvente que acabamos de introducir.

3.1. Vecindad de Centroide más Próximo

Supongamos un conjunto de N puntos, X = {x1, x2, ..., xN}, y sea p un cierto punto para el que queremos buscar sus k vecinos en X. A partir de la primera definición de vecindad envolvente, que recibe el nombre de Vecindad de Centroide más Próximo (Nearest Centroid Neighbourhood, NCN), el criterio de simetría consiste en exigir que el centroide de los k vecinos se encuentre tan próximo a p como sea posible.
Resultará posible satisfacer ambas condiciones mediante un sencillo procedimiento recursivo en el que el primer vecino del punto p corresponde a su vecino más próximo, mientras que los sucesivos vecinos se tomarán de manera que minimicen la distancia entre p y el centroide de todos los vecinos seleccionados hasta el momento. Así, si calculamos el k-ésimo vecino a partir de los k ? 1 vecinos previamente elegidos por el principio de centroide más próximo, conseguiremos cumplir con los criterios de distancia y simetría. En realidad, la condición de distancia se satisface por el hecho de tomar el vecino más próximo como el punto de partida para el cálculo de los posteriores k-1 vecinos.

3.2. Vecindad de Grafo

El tipo de vecindad que propondremos en esta sección establecerá también aquellas mismas restricciones aunque, en este caso, a partir de una serie de estructuras ampliamente estudiadas en el campo de la Geometría Computacional, y repetidamente aplicadas en otras muchas áreas del Reconocimiento de Formas. En concreto, introduciremos dos definiciones de vecindad envolvente a partir de dos casos de grafos de proximidad: el Grafo de Gabriel (Gabriel Graph, GG) y el Grafo de Vecindad Relativa (Relative Neighbourhood Graph, RNG).
Tanto en el caso del GG como del RNG, dos puntos serán vecinos de grafo si entre ellos se puede definir una cierta zona de influencia vacía, es decir, si existe una cierta región del espacio que no contenga a ningún otro punto en su interior. En el caso del GG, la representación geométrica de esta zona de influencia entre dos vecinos de grafo (denominados vecinos de Gabriel), p y q, corresponde a una hiperesfera diametral, (p,q), de centro el punto medio entre ambos vecinos, y cuyo diámetro es igual a la distancia entre ellos.
De forma análoga, para el caso del RNG, la representación geométrica de la vecindad relativa entre dos puntos, p y q, se fundamenta en la definición de una hiperluna, (p,q), formada por la intersección entre dos hiperesferas, cuyos centros se sitúan sobre ambos vecinos y cuyos radios corresponden a la distancia entre ellos.

4. CLASIFICACIÓN POR CRITERIOS DE VECINDAD ENVOLVENTE

En el Capítulo 4 de la memoria de esta tesis, se presenta un conjunto de nuevas reglas de clasificación no paramétricas basadas en las tres definiciones de vecindad envolvente que acabamos de introducir. El objetivo global de todas ellas se centra, fundamentalmente, en la posibilidad de estimar la clase de una nueva muestra, teniendo en cuenta no sólo los aspectos de proximidad (condición de distancia) propios de los clásicos clasificadores basados en criterios de vecindad, sino también aquellas propiedades relacionadas con la distribución espacial de los prototipos (condición de simetría). A partir de esta doble información, se pretende obtener un modelo de clasificación eficaz, fundamentalmente, para los ya mencionados problemas caracterizados por disponer de un reducido número de prototipos respecto a la elevada dimensionalidad intrínseca del espacio de representación.
Los clasificadores que proponemos se basan en la idea general de estimar la clase de una muestra a partir de la votación de un determinado número de vecinos, pero utilizando para ello una métrica que permita analizar la distribución de estos prototipos alrededor de la muestra. Para conseguir este objetivo, las diferentes alternativas consistirán en la utilización de los conceptos de NCN, vecindad de Gabriel y vecindad relativa durante el proceso de clasificación, dando lugar a sendas reglas de decisión basadas en criterios de vecindad envolvente, y que denominamos regla k-NCN, regla GN y regla RN, respectivamente. En cuanto a la talla de las correspondientes vecindades, cabe decir que para la regla k-NCN se encuentra fijada por un cierto parámetro k (de igual manera que ocurre en la regla k-NN), mientras que en las otras dos propuestas, este tamaño de la vecindad viene determinada por las propias definiciones de grafos.
Si bien estas reglas pretenden, básicamente, ser una solución para problemas de talla finita, debemos destacar también el hecho de que el comportamiento asintótico de estos esquemas envolventes puede asimilarse al de la regla k-NN puesto que, en este caso, ambos modelos de vecindad tienden a ser idénticos. Teniendo en cuenta los resultados de convergencia obtenidos para el análisis asintótico de la regla k-NN, resulta trivial comprobar que el k-ésimo vecino envolvente de un punto x también converge a dicho punto con probabilidad 1. De igual modo, por grande que sea el valor de la talla de los k vecinos envolventes, éstos convergerán al punto x si se cumple que N tiende a infinito y k/N tiende a 0.
Los principales aspectos positivos de estas reglas de clasificación envolventes se pueden resumir en dos propiedades básicas. Por una parte, el vecino más próximo siempre formará parte de la vecindad envolvente (bajo la forma de cualquiera de los conceptos introducidos), lo cual permitirá fijar la estimación de la clase de una muestra sobre una región suficientemente próxima a ella. En segundo lugar, pese a que el espacio que abarca la vecindad envolvente será, en general, mayor que el de la vecindad clásica o vecindad en términos de mínima distancia, aquella tenderá a estar distribuido simétricamente alrededor de la muestra. Por último, los resultados de los diversos experimentos presentados en el Capítulo 4 de la tesis nos permiten formular algunas conclusiones de especial relevancia. Así, en primer lugar, se puede observar como la tasas de aciertos de los esquemas de clasificación basados en los diferentes conceptos de vecindad envolvente se sitúan por encima de los resultados de la regla k-NN. Por consiguiente, parece factible afirmar que estas definiciones alternativas permiten efectuar unas estimaciones más precisas y ajustadas que la vecindad por mínima distancia, utilizada por la clásica regla k-NN. No obstante, también cabe decir que, dentro de las nuevas aproximaciones, la estructura del GG no parece constituir la solución más apropiada para emplearla como método de clasificación puesto que, en general, sus resultados son inferiores a las tasas de aciertos obtenidas por el resto de los esquemas. Este aspecto puede explicarse por el hecho de que la talla de la vecindad de Gabriel en la regla GN, como queda reflejado en la Sección 5 del Capítulo 4, resulta mucho más elevada que el valor de la vecindad considerada en cualquier otro modelo de clasificación.

5. SELECCIÓN DE PROTOTIPOS POR VECINDAD ENVOLVENTE

Los métodos de edición y condensado, o globalmente, Selección de Prototipos para la regla NN constituyen dos técnicas complementarias y fuertemente relacionadas que, de forma genérica, intentan obtener un conjunto reducido de prototipos sin que existan solapamientos entre regiones de clases distintas. En consecuencia, la finalidad de estos procedimientos parece evidente: aumentar la tasa de aciertos resultante del proceso de clasificación y, al mismo tiempo, simplificar la carga computacional asociada a la regla de decisión NN. Obviamente, para poder reducir la talla del conjunto de entrenamiento de una manera correcta y eficaz, deberemos "limpiar" previamente el correspondiente conjunto de entrenamiento, en el sentido de descartar aquellos puntos que pudieran inducir a error en la posterior aplicación de algún procedimiento de condensado, es decir, aquellos prototipos cuya probabilidad de pertenencia a su clase se vea superada por la probabilidad de pertenencia a otra clase distinta. En resumen, lo que se persigue a partir de la edición de los prototipos es la obtención de un conjunto de entrenamiento en el que las clases se encuentren perfectamente separadas y, por tanto, resulten unas fronteras de decisión suficientemente sencillas. De este modo, la posterior aplicación de alguna de las técnicas de condensado dará lugar a un conjunto reducido de prototipos, en el que el resultado de la clasificación podrá aproximarse al resultado de aplicar la regla NN sobre la totalidad del conjunto de entrenamiento.
Los algoritmos de edición propuestos en el Capítulo 5 consisten, básicamente, en aplicar las reglas de clasificación envolventes que acabamos de presentar, utilizando el método de estimación leaving-one-out. En general, las razones que nos impulsaron a seguir este esquema se pueden resumir en el hecho de centrar nuestra atención sobre problemas con pocos prototipos comparado con la dimensionalidad intrínseca del espacio de representación. Teniendo en cuenta este objetivo, puesto que los clasificadores envolventes superaban a la regla k-NN, parece lógico pensar que también en la edición podrán obtener mejores resultados. En cuanto al método de estimación, cabe destacar que utilizaremos el estimador leaving-one-out porque, para los casos que nos preocupan (pocas muestras frente a la dimensionalidad del espacio), los métodos de edición basados en particiones (como, por ejemplo, el conocido algoritmo Multiedit) obtienen unos resultados extremadamente pobres.
En cuanto a las técnicas de condensado, podemos decir que básicamente se proponen dos aproximaciones combinadas de edición-condensado. Por una parte, la aplicación del esquema de edición por NCN conjuntamente con el algoritmo de condensado de Hart y, por otro lado, la utilización del GG y el RNG en las dos etapas de la Selección de Prototipos (es decir, edición y condensado). Fijándonos en esta segunda propuesta, cabe destacar que en el Capítulo 5 de la tesis se presenta además un algoritmo que permite reconstruir la correspondiente estructura de grafo "dañada" después de la edición para, posteriormente, poder aplicar el procedimiento de condensado. Este esquema de actualización del grafo permite obtener un considerable ahorro en tiempo de cálculo, puesto que el tiempo total (construcción + reconstrucción) prácticamente coincidirá con el tiempo necesario para construir la estructura una única vez. Cabe señalar que, a partir de este algoritmo de reconstrucción, el tiempo necesario para la actualización del grafo depende, básicamente, del número de prototipos marcados que hayan resultado eliminados durante la etapa de edición, puesto que éste será el factor que determinará para cuántos pares de nodos se necesitará realizar alguna comprobación nueva (es decir, comprobar si dos puntos son vecinos de grafo o no). Dado que el número de prototipos descartados en la edición siempre resulta bastante pequeño, se deduce que el número de nuevas búsquedas, comparado con el número total de posibles pares de nodos en la nueva estructura, será también bastante reducido.
A la vista de los resultados obtenidos en el Capítulo 5, se puede afirmar que los esquemas de Selección de Prototipos por vecindad envolvente permiten, en general, superar a los métodos tradicionales. No obstante, se ha podido observar que las diferencias entre los distintos algoritmos analizados resultan más o menos significativas en función de las características particulares de cada problema. De entre las distintas propuestas, todo parece indicar que las más apropiadas corresponden a los procedimientos de edición y edición-condensado basados en el concepto de NCN. En primer lugar, podemos destacar el hecho de que estas alternativas siempre consiguen situar su tasa de aciertos entre la de los mejores esquemas y, además, utilizando para ello un muy reducido número de prototipos. Por otra parte, resulta también interesante destacar que la carga computacional asociada a los algoritmos por NCN es inferior al coste requerido por las aproximaciones basadas en grafos de proximidad.
Dentro de los métodos de Selección de Prototipos por vecindad de grafo, podemos hablar de dos aspectos fundamentalmente relevantes. Por una parte, la utilización de la vecindad de Gabriel como técnica de edición no parece erigirse como la solución más idónea, puesto que su tasa de aciertos es, en general, sensiblemente inferior a la del resto de aproximaciones (salvo en el caso del algoritmo Multiedit, cuyos resultados se encuentran incluso por debajo de los obtenidos por los esquemas basados en GG). El segundo hecho a destacar viene determinado por el escaso número de prototipos eliminados mediante el uso de los procedimientos basados en grafos de proximidad (GG o RNG), comparado con el número de prototipos descartados por el resto de técnicas (especialmente, aquellas que utilizan el concepto de NCN). No obstante, a pesar de estos inconvenientes, cabe añadir que la aplicación de estas propuestas puede resultar útil en determinados problemas concretos: en alguno de los problemas tratados y analizados en esta tesis, la tasa de aciertos conseguida mediante la edición por vecindad relativa supera a la de cualquiera de los otros esquemas de edición probados.

6. ÁRBOL DE DECISIÓN EQUIVALENTE A LA REGLA NN

En el Capítulo 6 de la tesis, se hace referencia al problema de la eficiencia de los clasificadores basados en criterios de vecindad y, en particular, de la regla de decisión NN. En este sentido, después de analizar las principales alternativas presentes en la literatura para incrementar la velocidad de clasificación, se introduce un algoritmo que permite diseñar un árbol de decisión equivalente al clasificador NN, mediante el cual podremos estimar la clase de una nueva muestra en función de la región del espacio de representación que ocupa. La solución propuesta en esta tesis corresponde a aquellas aproximaciones que aceleran la clasificación a partir de la utilización de una estructura "rápida", capaz de simular el comportamiento de la regla NN.
Con esta misma filosofía, podemos mencionar, básicamente, dos líneas de trabajo. Por una parte, un procedimiento (algoritmo de Bose) para definir una red neuronal cuya clasificación es análoga al resultado de aplicar directamente la regla NN y se construye a partir de la totalidad de los hiperplanos que definen el diagrama de Voronoi. En segundo lugar, una configuración en forma de árbol de decisión, denominada k-d tree, construida mediante hiperplanos paralelos a los ejes del espacio de características y que, por tanto, sólo pueden clasificar "aproximadamente" igual que la regla NN. En este último caso, las limitaciones parecen claras puesto que, en muchos casos, obtendremos una clasificación distinta a la que resultaría de utilizar un clasificador NN convencional.
Tomando como principal punto de referencia la solución de la red neuronal, la propuesta que aparece en el Capítulo 6 consiste en la utilización de un pequeño subconjunto de los hiperplanos que conforman el diagrama de Voronoi para llegar a un clasificador NN en forma de árbol de decisión. En concreto, los hiperplanos que se consideran en este algoritmo son los correspondientes a las fronteras de Voronoi, es decir, aquellos hiperplanos que se encuentran separando regiones de Voronoi pertenecientes a clases distintas. De este modo, las reglas de decisión de los nodos no terminales corresponderán a las ecuaciones de dichos hiperplanos, mientras que las hojas de la estructura de árbol harán referencia a las distintas clases del problema. Mediante esta técnica, se evita la necesidad de calcular distancias de una muestra a todos los prototipos del conjunto de entrenamiento (esta tarea es, precisamente, la que implica el elevado coste computacional asociado a la regla NN), puesto que la clasificación simplemente consistirá en recorrer la estructura del árbol, comparando dicho punto con la ecuación de los hiperplanos que forman las fronteras de Voronoi, es decir, con las reglas de decisión de cada nodo no terminal, hasta alcanzar una hoja y, finalmente, asignar al punto la clase correspondiente a dicha hoja. Cabe mencionar que, en el caso de los árboles de decisión, el número máximo de comparaciones a realizar será igual a la altura del árbol y, por consiguiente, este número representa una cota superior para el coste de la clasificación de una muestra.
En principio, el hecho de utilizar sólo un reducido número de hiperplanos ya constituye una importante ventaja sobre el mencionado algoritmo de Bose para construir la red neuronal. Además, resulta evidente que un árbol de decisión representa una configuración, en general, bastante más intuitiva y fácil de comprender que una red neuronal. Por último, cabe mencionar la existencia de algoritmos que permiten transformar un árbol de decisión en una red neuronal equivalente de modo que, en cualquier caso, siempre tendremos la posibilidad de llegar a un clasificador en forma de red neuronal. En este caso, comparando la red neuronal que obtendremos a partir del árbol con respecto a la resultante del algoritmo de Bose, podemos añadir que la primera capa de nuestra red neuronal transformada contendrá un menor número de neuronas que la correspondiente a la obtenida mediante la totalidad de los hiperplanos del diagrama de Voronoi, lo cual supone otra interesante ventaja en cuanto a los respectivos tiempos de clasificación.