Contenido duplicado: la herramienta de análisis, ya en mi dashboard SEO

Publicado por José B. Moreno Suárez en 30/05/2021

Categorías

Etiquetas

Herramienta de contenido duplicado

Una herramienta para detectar el contenido duplicado es vital para optimizar el SEO de un proyecto web.

Google se ha propuesto organizar toda la información disponible que pueda en el mundo y hacerla accesible (forma parte del ADN de la empresa).
Para conseguirlo, tiene que destinar unos recursos descomunales para procesar y almacenar dicha información; eso es MUUUUCHO dinero. Por ese motivo, es lógico que no les guste malgastar recursos en almacenar información que ya ha procesado de una o de otra forma: el contenido duplicado.

¿Quieres saber cómo puedo ayudarte con el SEO de tu proyecto?

Trabajo para conseguir optimizar tu sitio web con el objetivo de obtener la máxima visibilidad en Google cuando tus clientes potenciales buscan los servicios que ofreces

Solicita presupuesto SEO

Cuando hoy en día se habla de contenido duplicado, ya no sólo nos referimos de duplicado literal exacto. Lo algoritmos actuales son capaces de comparar la información y calificarla con diferentes grados de similaridad.

A los sitios con problemas de contenido se les llama «webs bambú» porque son la comida del Panda.

El contenido duplicado o con alta similaridad puede tiene dos facetas:

Contenido copiado (o muy “inspirado”) de otros sitios: por ejemplo, cuando alguien “fusila” nuestro contenido en su página
Información duplicada en el mismo sitio (diversas URLs que ofrecen el mismo contenido): por ejemplo, un listado de productos que puede ordenarse por orden alfabético o por precio, o una mala gestión de tags que son iguales a categorías (bastante común), etc

¿Penaliza Google por contenido duplicado?

Por no saber gestionar bien el contenido duplicado que tu propio sitio genera NO PENALIZA, pero esto del SEO va de optimizar y un sitio con este problema -si no se gestiona correctamente- no lo está haciendo bien y puede mejorarse porque causa ineficiencias de rastreo y desperdicio de Pagerank interno o también de crawl budget
Si no eres tú quien copia… tampoco te va a penalizar

Ambas acciones provocan el desperdicio de recursos de Google.

Algunas herramientas para detectar el contenido duplicado externo

Aunque en este post comentaré cómo he integrado el reporting de auditoría de contenidos internos, quiero cerrar el círculo sobre este tipo de problemas recomendando las siguiente herramientas de detección de contenido duplicado externo y plagio:

COPYSCAPE

Una de las herramientas más conocidas para detectar quién te está plagiando y “fusila” y duplica tu contenido, es COPYSCAPE

Te recomiendo que implementes el microdato rel=”author” y que procures negociar con quien localices que te plagia para que modifique y te enlace (“un link es un link“), y -si no se viene a razones, denuncia el contenido duplicado en el formulario de WMT

SIMILAR PAGE CHECKER

Una herramienta que te permitirá comparar el grado de similitud entre dos contenidos con URLs distintas es SIMILAR PAGE CHECKER

Para evitar que la estructura de URLs de tu sitio muestre contenido duplicado, te recomiendo: especifica la versión canónica de cada URL, utiliza inteligentemente el archivo
em>robots.txt para que no se indexen los filtros de listados, etc.

EDUBIRDIE

Otra herramienta para detectar la similaridad de los contenidos es EDUBIRDIE (detector de plagio).

Esta herramienta está más orientada a la detección de plagio (aunque el funcionamiento es similar a las otras).
Puedes configurarla para analizar la web, CV, ensayos y trabajos universitarios, etc

https://twitter.com/jbmoreno/status/1401543636706336781

El análisis y reporting de contenido duplicado interno

Desde que en el año 2016 se lanzó, hasta febrero de este 2021, SAFECONT ha sido otra de esas herramientas que me ha ayudado a marcar la diferencia; era una tool que te hace crecer como profesional con sólo entenderla.
Básicamente, SAFECONT era un SAAS para detectar contenidos de baja calidad que pudieran causar problemas en un proyecto web. Integraba un crawler que -tras rastrear un sitio- mostraba dónde amenazaban los problemas por culpa de contenidos thin content o por alta similaridad.

Con su cierre, me he quedado «huérfano»… y me he tenido que «buscar la vida». Desde este fin de semana, he integrado en mi dashboard SEO una funcionalidad que reporta los problemas de cada proyecto SEO relacionados con los contenidos. Sí, me he inspirado en SAFECONT (pero pienso que si hay que copiar, mejor copiar de los buenos como dice la filosofía del funky business del libro que recomiendo al final del artículo).

Obviamente, no tengo la capacidad de usar IA ni Machine Learning, pero -si hay algo que creo que me caracteriza- es el uso «creativo» de las herramientas con las que trabajo habitualmente.

Lo que he hecho en este caso es aprovecharme de la funcionalidad clásica de detección de Thin Content y de una de las últimas que ha incorporado SCREAMING FROG: la búsqueda de contenidos duplicados.

Como tengo toda la información de mis proyectos almacenada en mi BBDD puedo hacer con mucha facilidad y rapidez las medias estadísticas de los niveles de similaridad de los diferentes proyectos que he gestionado y gestiono para poder establecer ciertos límites y alertas. El resultado es algo como esto:

Una vez detectados los hubs con problemas (y dependiendo de la identificación de las diferentes tipologías y casuísticas que los ocasionan, sólo hay que poner orden con instrucciones como este ejemplo:

Vídeo sobre contenido duplicado en la herramienta del dashboard SEO para clientes de JBMoreno.es

Algo de lectura sobre copiar lo que ya existe

El libro «Funky business» ha sido coescrito por los profesores de la Escuela de Economía de Estocolmo: Jonas Ridderstrale y Kjell Nordstrom. Su principal argumento es que la sociedad está cambiando. Lo que ellos llaman «funk power» (la globalización, la tecnología, los cambios institucionales, los nuevos valores y el conocimiento son los factores clave de la competitividad…); esto ha llevado a un mundo más complejo e inestable («Funky Village»), en el que las nuevas reglas del juego nos han dejado a nosotros, individuos («TúFunky») y empresas («Funky SA») atrás y convertido en paradigma, y si no queremos tener éxito, pero solo queremos adaptarnos, debemos adoptar una nueva actitud.

¡Quiero este libro sobre mejorar negocios copiando!

Y tú, ¿analizas los problemas de contenido duplicado con otras herramientas?, ¿te ha dejado «huérfano» el cierre de SAFECONT?, ¡te leo en los comentarios!

José B. Moreno Suárez

Soy consultor especialista en posicionamiento web en buscadores y marketing online desde el año 2000. Aquí escribo sobre marketing online en general: analítica web, usabilidad, campañas y mucho más, pero lo que más publico es sobre SEO en particular. Como responsable de este sitio web, puedes conocerme mejor aquí.

6 Comments

Alan dice:
03/09/2017 a las 07:43
Y por copiar contenido sin trascendencia como una sinopsis de una película o algo similar? Sabes si te puede penalizar en los rankings?

Responder
- José B. Moreno Suárez dice:
  04/09/2017 a las 10:48
  Pues dependerá, probablemente, del resto de contenidos que complementen el que copias para hacerlo diferente (valoraciones, comentarios generados por los usuarios, etc.). Pero -en general- no suele ser una buena idea (o dicho de otra manera, copiar contenido y que no te penalice…NO ES FÁCIL).
  
  Responder
Manu dice:
22/02/2019 a las 15:51
Disculpa pero Google SÍ penaliza. Directamente borra las URL’s. Gracias por el post pero por favor no lleves a la gente a confusión. Penaliza tanto por contenido duplicado entre tus propios posts como por contenido de otras webs.

Lo que ocurre es que no es una penalización normal de las que aparece en el Search Console sino que directamente deja de mostrar la URL en resultados.

Responder
- José B. Moreno Suárez dice:
  22/02/2019 a las 15:58
  Creo que el que confunde penalización y ausencia de optimización eres tú. Penalización implica «mala fe». Al menos, esa es mi opinión.
  
  Responder
alex dice:
24/03/2020 a las 11:32
Buenas!! A ver si me podeis echar un cable (Soy bastante novato en SEO) Estoy en proceso de solucionar el tema del contenido duplicado o grado de similitud alta que me he encontrado en mi web, ya que algunas partes deben de ser casi por obligación, textos oficiales y en otras son especificaciones muy concretas, que todo el sector debe usar, para estos casos he dejado de indexar páginas enteras, o partes concretas de las mismas. También he empezado a no indexar páginas que tengo sin demasiado contenido, etc.

Indagando en este aspecto, he llegado a páginas que me indican el % de similitud con urls internas, también. Mi pregunta es, ¿Qué % de similitud es aceptado por Google para no penalizar, porque tengo un grueso del contenido de mi web entre un 10 y un 30% de similitud?
Y otra pregunta sería ¿Qué web me recomiendan para conocer un dato similar, pero de urls externas?

Responder
- José B. Moreno Suárez dice:
  09/05/2020 a las 14:22
  Te recomiendo la herramienta SAFECONT para ese análisis
  
  Responder

Herramienta de contenido duplicado integrada en mi Dashboard SEO