La LSI o indexación semántica latente se basa en el principio de que las palabras que se utilizan en los mismos contextos tienden a tener un significado similar. Una característica clave de LSI es su capacidad para extraer el contenido conceptual de un cuerpo de texto mediante el establecimiento de asociaciones entre los términos que aparecen en contextos similares.
Esta definición sobre indexación semántica latente o LSI es la que me ha parecido más sencilla de entender, pero creo que aún es más fácil de entender con un sencillo ejercicio que te permita razonarlo por ti mismo, ¿jugamos?
si te vas al diccionario, blanco es un adjetivo: “es el color de la luz solar, no descompuesta en los varios colores del espectro (es, por ejemplo, el color de la leche o la nieve)”. Pero le siguen 22 definiciones más como: “objetivo situado lejos para ejercitarse en el tiro y puntería” o “fin u objeto a que se dirigen deseos o acciones”…luego, ¿de qué te voy a hablar entonces si sólo tienes la palabra “blanco”?.
En este momento es cuando piensas “¿qué otras palabras acompañarán a “blanco” en lo que me quiere decir Jose B. Moreno?, ¿cuál será el contexto en el la utilizará?
En ninguno de los 4 ejemplos te he indicado a qué me refería, pero estoy -casi- seguro de que te ha quedando claro cuál es cada tema y has llegado a conclusiones diferentes en función a esas palabras que acompañan a “blanco”, ¿verdad?.
Hace tiempo que se sospecha que Google utiliza LSI en su algoritmo, pero mira lo que aparece en Webmaster Tools:
En principio afecta en 2 temas básicos: