Cráneo Previlegiado » Blog SEO de Cráneo Previlegiado » Contenido duplicado ¿Cómo detectarlo y resolverlo?

Contenido duplicado ¿Cómo detectarlo y resolverlo?

Como en la vida en general, es más fácil tener claro qué no queremos en nuestro futuro a qué queremos. Con el contenido sucede algo similar, es más fácil reconocer uno malo que uno bueno. Pero, ¿cómo podemos saber que un contenido es malo? Hay varios grupos de contenido de baja calidad o mala calidad. Los veremos a lo largo de artículo y también cómo resolver los problemas que provocan. Los principales son:

  • Contenidos duplicados o muy similares. Por ejemplo, sinónimos: guapo, bonito, belleza, etc, esas palabras pertenecerían a un mismo grupo, estarían ubicadas en el mismo sitio y podrían ocasionar un problema, por ejemplo de keyword stuffing. También podemos encontrar el uso excesivo de palabras con los mismos lexemas (árbol, arbolito, arboleda) que provocan un contenido de baja calidad, obviamente detectable a ojos del buscador.
  • Contenido copiado de otros sitios o del nuestro. El contenido copiado o excesivamente similar es de baja calidad siempre que sea copiado, incluso dentro de nuestro propio sitio (que todavía es peor). Veremos algunas casuísticas y cómo resolverlas.
  • Thin content. Contenido escaso o de baja calidad. Es importante destacar que en determinado tipo de sitios web es normal que el contenido sea escaso, sin embargo, no debemos confundir que sea escaso con que tenga baja calidad (webs de cupones, por ejemplo).
  • Estructuras redundantes a nivel de URL… ¡Qué clasicazo!

Contenido duplicado:

¡Vamos al tema! Tener contenido duplicado NO significa tener una penalización per se pero sí puede provocar pérdidas masivas de tráfico y problemas de todo tipo. ¿Por qué los problemas de contenido sabemos, entre otros, que no son una penalización? Porque no lastran el proyecto ad infinitum (otra locución latina en un mismo párrafo; stuffing latino), una vez que los resolvemos, al poco tiempo (habitualmente) se recupera el tráfico perdido.

Mayor contenido duplicado implica mayor probabilidad de crear patrones en un sitio web. Si usamos un determinado CMS y Google determina que una URL está mal o aglutina contenido malo, probablemente todas las URLs generadas en ese CMS estarán mal pues siguen el mismo patrón de errores (por ejemplo, problemas con etiquetas). Como los problemas de contenido son difíciles de detectar, podríamos creer que nuestro sitio web está bien pero que el nicho es muy complicado o la competencia es muy fuerte y eso nos provoca caídas de tráfico o nos impide subir. Creemos que es el nicho pero no, somos nosotros. Por eso, lo más importante es: detectar el problema y ponerle solución. El contenido de baja calidad (duplicado, etc.) no solo nos puede hacer perder tráfico sino que nos impide ganarlo… podríamos llamar a esto: El coste de oportunidad del contenido de baja calidad.

¿Qué debemos hacer si tenemos contenido duplicado?

  • Lo primero es reconocer el contenido duplicado si lo tenemos dentro del sitio web (podría estar fuera). Es difícil saberlo tanto si gestionamos un sitio pequeño, más cuando tenemos miles de URLs. Un ejemplo típico es no saber ni cuantas URLs tiene nuestro sitio web (indexables, noindex, canonicals, etc.), pero podemos descubrirlo mediante herramientas más allá del clásico «site:» que acierta más o menos, o menos o más.
  • Es importante determinar cuál es la URL preferente (cuando hay varias muy similares o de contenido similar). Saber la que mejor posiciona, la que tiene más tráfico, la que recibe enlaces… etc. es fundamental porque será la que salvemos.
  • Ser consistente a lo largo del sitio. Llevar una misma estrategia para todo el sitio web. Igual que los problemas suelen seguir patrones, las resoluciones han de llevar el mismo camino (siempre podemos usar laboratorios de pruebas por clusters pero al final debemos ser consistentes).
  • Utilizar las redirecciones fundamentalmente permanentes 301 cuando sea necesario y posible.
  • Implementar el rel=»canonical» cuando sea posible o cuando debamos usarlo (clásico canonical a la misma URL). Es frecuente que haya muchos problemas con los canonical.
  • Fíjate en si tienes URLs parametrizadas, etc. porque suelen indicar que estás generando e indexando URLs que no deberías.

Reconocimiento de contenido duplicado (o de baja calidad):

Lo primero para resolver un problema, es saber que se tiene (filosofía de botica). Por tanto, tenemos que plantearnos algunas cuestiones:

  • ¿Tengo contenido duplicado?
  • ¿Dónde tengo contenido duplicado?
  • ¿Qué tipo de contenido duplicado tengo?
  • ¿Es peligroso ese contenido duplicado?

Tener muchos contenidos iguales o muy similares en nuestro sitio web, nos puede acarrear un problema de posicionamiento que solventaremos reduciendo la cantidad del contenido pernicioso. En cambio, cuando los problemas son de thin content lo que podemos hacer es enriquecer ese contenido.

¿Qué es el contenido de mala calidad?:

  • Mal contenido principal (Main Content como lo denominan en las Guidelines de Google). Por ejemplo, un artículo.
  • Que el contenido no responda a lo que el usuario quiere.
  • Que los anuncios sean molestos (como el clásico anuncio que nos va persiguiendo por todo el sitio web, el pop-up, o los que están por encima del H1 y son muy intrusivos).
  • Reputación negativa (no va en relación con redes sociales). Por ejemplo, reputación negativa podría ser un enlace hacia nuestro sitio desde un foro, con un sentimiento malo o hablando mal de nosotros.

Ejemplos habituales de contenido de mala calidad:

Para responder a algunas búsquedas, siempre será mejor tener una sola URL que muchas.

Ejemplo de edredones de contenido duplicado o muy similar visto con Safecont

En este ejemplo, /edredon, /edredones, /funda-nordica y /ropa-de-cama, nos presentan un contenido igual o muy similar, lo que puede generar patrones que ocasionen problemas. Crear URLs con diccionarios e intentar solapar todas las queries con URLs iguales, ¡Mal!

En un caso como este, veremos qué URL es la que tiene más tráfico (en general), para mantener sólo esa. Si las otras tienen tráfico y enlaces haríamos una redirección 301 a la URL que queremos conservar. También será más positivo que exista una sola página a la hora de conseguir enlaces, ya que solamente serán necesarios para una URL (unifica y vencerás).

Los problemas de contenido pueden afectar a nivel del contenido principal, el suplementario o los anuncios.
Google funciona con patrones, usa machine learning (desde octubre de 2015 públicamente). Aprende mediante un montón de ejemplos con los que entrena a sus algoritmos. Tener una única URL con muy poco contenido o contenido de baja calidad no es un problema (y suele ser muy común en la páginas de contacto, quiénes somos, etc…), pero cuando tenemos muchas URLs así (contenido escaso y de baja calidad), se está generando un patrón redundante en el sitio, eso sí se consideraría thin content y habría que tomar medidas (estas medidas sobre thin content las veremos en un ejemplo más adelante).

Tipos de contenido duplicado:

Textos de URL duplicados:
Si tenemos dos URLs distintas con el mismo contenido (o muy similar), Google entiende, por ejemplo, que le hacemos perder el tiempo rastreando dos veces lo mismo. Para darnos cuenta de que tenemos ese problema y poder solucionarlo podemos utilizar un excel y abrir todas las URLs e ir comparando a ojo tras abrirlas en texto plano o podemos usar Safecont, esperar un rato y que nos diga cuales son las URLs indexables de nuestro sitio que tienen contenido duplicado y cuáles son más peligrosas para nuestro posicionamiento para así atacar el problema con efectividad y rápido.

Ejemplo Kukuxumusu duplicidad de textos de URLs al 100% visto con Safecont

El ejemplo de arriba era un problema en el sitio web de Kukuxumusu visto con Safecont. Existía el mismo contenido en la URL con barra / y sin barra. Este tipo de situaciones son muy típicas: URLs repetidas con www. o sin ellas, con https o con http. La solución: redirección.

URLs generadas por IDs, parametrizadas, etc:

Ejemplo de URLs generadas por IDs obtenido con Safecont

Las URLs con parámetros dan muchísimos problemas. En la imagen superior se pueden observar problemas de similaridad de contenido (Similarity) y riesgo de las páginas (PageRisk). Si tenemos un sistema de generar URLs, y se están generando mal, probablemente nos las va a hacer mal a lo largo de todo el sitio. Son problemas, por tanto, recurrentes. No indexar este tipo de URL es primordial (un ejemplo típico sería indexar las búsquedas del sitio).

Thin content:

Ejemplo de thin content extraído con Safecont del sitio web de Moz

Moz thin content

Ejemplo de thin content extraído con Safecont del sitio web de Moz. Las URLs anteriores están vacías de contenido. Son unas URLs que no hacen nada, no tienen contenido y están lastrando la arquitectura de todo el sitio web. ¿Qué hacemos? Borrarlas. Porque esas URLs que no aportan nada están evitando que otras del sitio posicionen bien.

Boiler-plate:

Ejemplo de contenido duplicado tipo Boiler-plate con dos fichas casi iguales

Ejemplo de dos fichas creadas en las que sólo se ha cambiado el nombre y la fecha. Este tipo de contenido duplicado es muy típico en los ecommerce con las fichas de producto (mismo producto en colores diferentes y fichas idénticas cambiando algún dato). Esto es punible a ojos de Google. Recordamos que un mayor contenido duplicado implica mayor probabilidad de crear patrones en un sitio web.

Importante: relacionar arquitectura y contenido para solventar penalizaciones y optimizar los sitios web. La arquitectura y el contenido siempre van de la mano.

Ejemplo de arquitectura deficiente extraído con Safecont

Un ejemplo de lo que pasa cuando limpias tu sitio de contenido de baja calidad:

Ejemplo de arquitectura deficiente (sacado con Safecont) de un ecommerce con 10 niveles de profundidad.
Como el contenido duplicado no es una penalización, cuando resolvemos el problema, podemos volver a recuperar el tráfico rápidamente. Aquí debajo un ejemplo:

Subida en el tráfico tras solucionar los problemas de contenido

Ejemplo de problema de contenido en el que Google ataca solo algunos clusters de URLs, con lo que el tráfico del sitio baja un poco, con el paso del tiempo se ataca a otros clusters, etc, hasta que ha caído el tráfico de toda la web. Lo que se debió hacer era solucionar los problemas de contenido cuando fueron surgiendo.

En resumen, motivos del contenido duplicado:

  • HTTP y HTTPS
  • www y no-www
  • Parámetros y navegación facetada
  • Sesión IDs
  • Slashes /
  • Index pages
  • Versiones Alternate como m. o AMP
  • Entornos Dev/hosting
  • Paginación
  • Scrapers
  • Versiones país/idioma

Habrá que ver dónde está el problema y atajarlo desde ahí.

Resolución de problemas por contenido duplicado:

  • Eliminación de páginas de baja calidad:
    • ¿Son necesarias? Si no lo son, las eliminamos.
    • ¿Reciben tráfico? Sí -> Redirección hacia las páginas buenas; No ->Eliminación.
    • ¿Reciben enlaces? Si los tiene, puede que nos vengan bien por la distribución del PageRank y que nos esté mejorando otras URLs o keywords (y en tal caso quizá no deberíamos eliminarla).
  • Fusión de páginas en una sola más útil. A lo mejor esas dos nos están lastrando el posicionamiento, pero si las fusionamos tendríamos un contenido de buena calidad y me haría subir mucho más. Para eso veríamos:
    • ¿Cuál de las páginas posiciona mejor?
    • ¿Cuál tiene más contenido duplicado? -> ¿Agregamos la de mayor contenido en la menor? Habría que verlo.
    • ¿Reciben enlaces? Los enlaces son difíciles de conseguir, si una página los recibe, es mejor pensárselo mucho antes de eliminarla.
  • Mejora del contenido de las páginas de baja calidad. Más contenido no implica mayor calidad.
  • Mover las páginas de baja calidad a dominio diferente.
  • Otros…

Por tanto:

Primero: saber si tenemos el problema y luego actuar sobre las páginas más peligrosas (o sobre los clusters de URLs más peligrosos que tienen el mismo patrón).
Segundo: los problemas suelen ser recurrentes. Seguramente, si tengo problemas de contenido, los tendré a lo largo de todo el sitio web.
Mantener los sitios optimizados y limpios es la clave para no recibir una penalización o caída considerable de tráfico.

¡Menos es más!

Twitter: @eCesarAparicio