Hace una semana Matt Cutts hizo unas declaraciones sobre las mejoras de calidad de los resultados de la búsqueda natural de Google. Decía que pese a las mejoras realizadas en los último años seguian apareciendo en buenas posiciones páginas de mala calidad o spammers.

En su post comentaba el spam radical que existe en los comentarios de los blogs (en éste recién inaugurado cada día llega una docena de comentarios de páginas rusas o de pastillas azules).

Pero también hacia una referencia muy clara a las páginas que se dedicaban a replicar el contenido de otras webs y encima conseguían mejores posiciones en el buscador que las originales.

Contenido duplicado

En concreto habla de dos actualizaciones que hicieron en Google para penalizar a las “content farms” o granjas de contenido que no son más que agregadores de automáticos de noticas o post realizados en otras páginas.

Pero, qué es realmente el contenido duplicado?

Google lo define en su blog de la siguiente forma “El contenido duplicado generalmente hace referencia a bloques de contenido considerables en varios dominios que coinciden completamente o que son muy parecidos.”

Con esa definición encotramos que todas las páginas tienen contenidos duplicados:

Un footer con bastante texto que se repita en todas las páginas

Pies legales en artículos o contenidos con un tamaño considerable

Una página que tenga su versión para imprimir

Una página que tenga su versión en PDF

Versiones de la web para móvil con contenido muy similar

Páginas iguales en diferentes dominios locales (.com y .es, por ejemplo)

Existe otra fuente muy habitual de contenido duplicado en páginas que generan URLs distintas en base a parámetros de sesión o según la página desde la que se acceda. Algunos ejemplos típicos son:

Idiomas por defecto y cuando llega a la misma página por el menú de idiomas:

www.miweb.com

www.miweb.com?id=Esp

Cuando accedes a un producto o servicio vía filtro o vía el menú principal (caso típico de los e-commerce o directorios)

www.miweb.com/tiendas/barcelona

www.miweb.com/tiendas.php?filter=barcelona

Tambien debemos vigilar con hacernos eco de noticias copiando gran parte de su contenido o al revés, enviar de notas de prensa iguales a decenas de medios.

¿Pero cuál es el límite para ser penalizado?

Google no da muchas pistas, sólo dice que penalizará “algunos casos donde se duplique deliberadamente el contenido en varios dominios en un intento de manipular las clasificaciones de los motores de búsqueda o para obtener un mayor volumen de tráfico”.

Eso deja una puerta abierta para aquellas páginas duplicadas por temas de programación, existen muchas voces que aseguran que no existen graves penalizaciones, simplemente dejan de indexar aquellas que considera que no son las originales pero por la palabras de Matt de estos últimos días desde Thatzad creemos que es mejor tener nuestro contenido bien ordenado.

¿Cómo evitar ser penalizado por tener contenido duplicado?

Si su site contiene páginas con bloques de contenido idéntico, existen distintos métodos para indicar su URL preferida a Google. A esto se le conoce como «canonicalización».

La más efectiva es tener una política ordenada de URLs con redireccionamientos 301 para evitar que un link nos lleve a una página duplicada y nos lleve directamente a la original.

Como eso no siempre es factible o sencillo de hacer con páginas muy grandes existen otras opciones:

Una es decirle mediante el archivo Robots.txt que no rastree esas páginas duplicadas, esta opción no es la más recomendada por Google, asegura que es mejor permitirle el paso a las arañas de restreo para que idexen esas páginas (y links interiores, importante) y que se identifiquen como contenido duplicado.

Otra similar pero menos radikal es utilizar la meta etiqueta “No index” (<META NAME=»robots» CONTENT=»noindex,nofollow»>) en la página que no sea la original.

Pero existe otra mejor que sí recomienda Google y es marcar como duplicadas mediante el elemento de enlace rel=»canonical». José Linares nos explica de una de sus post cómo implementar correctamente este parámetro.

Así que os invitamos a todos detectar con la herramienta Google webmaster tools las posibles páginas duplicadas que tengáis en vuestra web y le deis una posible solución.