TF-IDF para la optimización SEO
El TF-IDF es un algoritmo estadístico para la minería de texto que calcula la frecuencia de las palabras en un documento y su importancia en función de la frecuencia con la que aparecen en otros documentos.
La frecuencia del término, o TF para abreviar, es un valor que tiene en cuenta el número de ocurrencias que tiene un término o palabra en un texto determinado.
Trabajo para conseguir optimizar tu presupuesto y mejorar la página web de tu negocio de la manera más eficiente posible.
La métrica TF se calcula en función de la frecuencia con la que aparece una palabra en un documento. Cuantas más veces aparezca, mayor será su TF. Esto refleja de manera matemática el concepto establecido en SEO de que un término que aparece muchas veces en un documento es más importante que uno que aparece pocas.
Por otra parte, la IDF, o frecuencia de documento inversa, sirve para reflejar algorítmicamente la idea de que un término que aparece en pocos documentos discrimina mejor que uno que aparece en muchos.
El TF-IDF se usa para identificar palabras que son representativas de temas dentro de un conjunto de contenidos. Aprende a optimizar tu página web usando el análisis TF-IDF https://t.co/0xHVWQ5T3o #seo #tfidf pic.twitter.com/ESIo93oGnH
— José B. Moreno (@jbmoreno) March 6, 2022
TF significa frecuencia del término y se calcula con la ecuación TF = n/d
, o lo que es lo mismo dividiendo el número de veces que aparece un término en un documento (n) por el número total de palabras (d).
El IDF se calcula con la ecuación IDF = log10(N/n)
, donde N representa el número total de documentos y n representa a todos esos documento del corpus que contienen el término de búsqueda. La IDF es una función inversa, lo que significa que cuando aumenta, el poder de discriminación de un término disminuye.
El TF-IDF se calcula multiplicando la frecuencia de términos por la frecuencia de documento inversa TF-IDF = (n/d) x log10(N/n)
.
=ARRAYFORMULA(IF($A2:A="";"";$D2:$D/$C2:$C))
=ARRAYFORMULA(IF($A2:$A="";"";LOG10(COUNTA($C:$C)/COUNTIF($D:$D;">0"))))
=ARRAYFORMULA(IF($A2:$A="";"";$F2:$F*$G2:$G))
=QUERY('Listado HTML'!A:H;"SELECT E, A, B, H WHERE H > 0 ORDER BY H DESC";1)El resultado es una lista de páginas que contienen la palabra clave objetivo (indicando cuál es tu página campeona) y que está ordenada por el valor de TF-IDF de manera descendente.
El libro «Information Retrieval Models: Foundations and Relationships (Synthesis Lectures on Information Concepts, Retrieval, and Services)» ha sido escrito por Thomas Roelleke; en él, se explican los modelos de recuperación de información (IR) como componente central de la investigación de documentos.