Una herramienta para detectar el contenido duplicado es vital para optimizar el SEO de un proyecto web.
Google se ha propuesto organizar toda la información disponible que pueda en el mundo y hacerla accesible (forma parte del ADN de la empresa).
Para conseguirlo, tiene que destinar unos recursos descomunales para procesar y almacenar dicha información; eso es MUUUUCHO dinero. Por ese motivo, es lógico que no les guste malgastar recursos en almacenar información que ya ha procesado de una o de otra forma: el contenido duplicado.
Trabajo para conseguir optimizar tu sitio web con el objetivo de obtener la máxima visibilidad en Google cuando tus clientes potenciales buscan los servicios que ofreces
Cuando hoy en día se habla de contenido duplicado, ya no sólo nos referimos de duplicado literal exacto. Lo algoritmos actuales son capaces de comparar la información y calificarla con diferentes grados de similaridad.
El contenido duplicado o con alta similaridad puede tiene dos facetas:
Ambas acciones provocan el desperdicio de recursos de Google.
Aunque en este post comentaré cómo he integrado el reporting de auditoría de contenidos internos, quiero cerrar el círculo sobre este tipo de problemas recomendando las siguiente herramientas de detección de contenido duplicado externo y plagio:
Desde que en el año 2016 se lanzó, hasta febrero de este 2021, SAFECONT ha sido otra de esas herramientas que me ha ayudado a marcar la diferencia; era una tool que te hace crecer como profesional con sólo entenderla.
Básicamente, SAFECONT era un SAAS para detectar contenidos de baja calidad que pudieran causar problemas en un proyecto web. Integraba un crawler que -tras rastrear un sitio- mostraba dónde amenazaban los problemas por culpa de contenidos thin content o por alta similaridad.
Con su cierre, me he quedado «huérfano»… y me he tenido que «buscar la vida». Desde este fin de semana, he integrado en mi dashboard SEO una funcionalidad que reporta los problemas de cada proyecto SEO relacionados con los contenidos. Sí, me he inspirado en SAFECONT (pero pienso que si hay que copiar, mejor copiar de los buenos como dice la filosofía del funky business del libro que recomiendo al final del artículo).
Obviamente, no tengo la capacidad de usar IA ni Machine Learning, pero -si hay algo que creo que me caracteriza- es el uso «creativo» de las herramientas con las que trabajo habitualmente.
Lo que he hecho en este caso es aprovecharme de la funcionalidad clásica de detección de Thin Content y de una de las últimas que ha incorporado SCREAMING FROG: la búsqueda de contenidos duplicados.
Como tengo toda la información de mis proyectos almacenada en mi BBDD puedo hacer con mucha facilidad y rapidez las medias estadísticas de los niveles de similaridad de los diferentes proyectos que he gestionado y gestiono para poder establecer ciertos límites y alertas. El resultado es algo como esto:
Una vez detectados los hubs con problemas (y dependiendo de la identificación de las diferentes tipologías y casuísticas que los ocasionan, sólo hay que poner orden con instrucciones como este ejemplo:
El libro «Funky business» ha sido coescrito por los profesores de la Escuela de Economía de Estocolmo: Jonas Ridderstrale y Kjell Nordstrom. Su principal argumento es que la sociedad está cambiando. Lo que ellos llaman «funk power» (la globalización, la tecnología, los cambios institucionales, los nuevos valores y el conocimiento son los factores clave de la competitividad…); esto ha llevado a un mundo más complejo e inestable («Funky Village»), en el que las nuevas reglas del juego nos han dejado a nosotros, individuos («TúFunky») y empresas («Funky SA») atrás y convertido en paradigma, y si no queremos tener éxito, pero solo queremos adaptarnos, debemos adoptar una nueva actitud.
Y tú, ¿analizas los problemas de contenido duplicado con otras herramientas?, ¿te ha dejado «huérfano» el cierre de SAFECONT?, ¡te leo en los comentarios!
6 Comments
Y por copiar contenido sin trascendencia como una sinopsis de una película o algo similar? Sabes si te puede penalizar en los rankings?
Pues dependerá, probablemente, del resto de contenidos que complementen el que copias para hacerlo diferente (valoraciones, comentarios generados por los usuarios, etc.). Pero -en general- no suele ser una buena idea (o dicho de otra manera, copiar contenido y que no te penalice…NO ES FÁCIL).
Disculpa pero Google SÍ penaliza. Directamente borra las URL’s. Gracias por el post pero por favor no lleves a la gente a confusión. Penaliza tanto por contenido duplicado entre tus propios posts como por contenido de otras webs.
Lo que ocurre es que no es una penalización normal de las que aparece en el Search Console sino que directamente deja de mostrar la URL en resultados.
Creo que el que confunde penalización y ausencia de optimización eres tú. Penalización implica «mala fe». Al menos, esa es mi opinión.
Buenas!! A ver si me podeis echar un cable (Soy bastante novato en SEO) Estoy en proceso de solucionar el tema del contenido duplicado o grado de similitud alta que me he encontrado en mi web, ya que algunas partes deben de ser casi por obligación, textos oficiales y en otras son especificaciones muy concretas, que todo el sector debe usar, para estos casos he dejado de indexar páginas enteras, o partes concretas de las mismas. También he empezado a no indexar páginas que tengo sin demasiado contenido, etc.
Indagando en este aspecto, he llegado a páginas que me indican el % de similitud con urls internas, también. Mi pregunta es, ¿Qué % de similitud es aceptado por Google para no penalizar, porque tengo un grueso del contenido de mi web entre un 10 y un 30% de similitud?
Y otra pregunta sería ¿Qué web me recomiendan para conocer un dato similar, pero de urls externas?
Te recomiendo la herramienta SAFECONT para ese análisis