-   - 

PageRank sculpting con nofollow y noindex

¿Es de utilidad utilizar los atributos nofollow y/0 noindex para PageRank sculpting? Lo explicamos aquí con pelos y señales.

“[…]usted aprende
y usa lo aprendido
para volverse lentamente sabio
para saber que al fin el mundo es esto
en su mejor momento una nostalgia
en su peor momento un desamparo
y siempre siempre
un lío[…]”

 

A la hora de orquestar la arquitectura interna de enlaces de un sitio web son muy comunes los temas relacionados con la utilidad del nofollow. En muchas ocasiones, envueltas en un halo de elucubraciones misteriosas con más o menos fundamento. En el artículo de hoy vamos a desmitificar al atributo nofollow para comprender qué supone su uso de una manera genérica que valga para cualquier situación, siempre y cuando utilicemos un poco nuestros cerebros (hasta la fecha, la herramienta más potente y una de las menos valoradas). Y, por si fuera poco, también incluiremos en la ecuación al atributo noindex pues de lo que vamos a hablar en definitiva es de PageRank sculpting.

Aviso a navegantes, este artículo implica pensar (vamos lo que hace un SEO que sea SEO) pero como el tema a veces es complicado, incluiré miniresúmes de cada apartado en unas líneas en negrita (por darle un toque). Así que, si quieres ir al grano, ve a la negrita, si te mola el SEO y entender de verdad cómo funciona internet o un sitio web para ser, competitivamente hablando, mejor de lo que eras ayer (soy de la opinión que para mejorar hay que compararse con uno mismo y no tanto con los demás), te recomiendo leértelo todo.

Comenzamos, poquito a poco, explicando la fórmula del PageRank* y cómo se calcula:

Google calcula el PageRank de todo Internet en su conjunto (de cada URL). Estamos acostumbrados a conocer datos de PageRank de un sitio web concreto, sin embargo, este es un cálculo sesgado pues el PageRank de una URL no solo depende de las URLs del dominio en el que está sino de aquellas que le enlazan aunque sean externas y así sucesivamente a lo largo y ancho de internet.

Uno de los grandes méritos de Google fue y es su capacidad de calcular el PageRank de todas las URLs que tiene en su índice de modo que todos los PageRanks están relacionados entre sí. El PageRank se calcula tanto si se transmite desde una URL de mi propio sitio web como si es de una de un sitio externo.

La fórmula:

PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))

Siendo =>

  • PR (A): PageRank de la página A.

 

  • d: Damping factor (0,85).

 

  • T1: Sitios que apuntan a A (citaciones).

 

  • PR(T1): PageRank de la página que cita a A.

 

  • C(T1): Número de enlaces salientes del sitio que me está enlazando (a A).

 

Cuestiones a destacar detrás la fórmula inicial:

El PageRank de un nodo/URL (nodo significan lo mismo que URL) depende exclusivamente de los PageRanks de los nodos o URLs que le enlacen. Tanto internos como externos. Se calcula de todos los nodos/URLs (visibles) de Internet.

La suma de todos los PageRanks, por tanto, es 1. Esto es así tanto si es de todo Internet, como si es de un conjunto de nodos; un sitio web.

 

Aproximación al PageRank; Cadenas de Markov:

Estas cadenas de Markov vienen a decir que la probabilidad de un que ocurra un evento depende solamente del evento inmediatamente anterior. En lo que al PageRank se refiere, el Pagerank de una URL depende exclusivamente del PageRank de aquellas URLs que la enlazan.

• Son un proceso estocástico (variables aleatorias que evolucionan en función de otra variable) discreto (divisibles un número finito de veces) en el que la probabilidad de un evento depende del evento inmediatamente anterior. Es decir, para predecir el tiempo que hará mañana pienso en el que ha hecho hoy, pero no en el que hizo ayer ni antesdeayer.

• Las cadenas de Markov sirven para calcular la probabilidad de situarnos en un nodo/URL al azar sin tener en cuenta sucesos pasados.

• En función de los enlaces y la relevancia de enlaces que recibe un sitio, éste tiene más probabilidades de ser visitado por un usuario al azar.

Utilizar la aproximación al PageRank con Cadenas de Markov muestra la probabilidad de que un usuario llegue a una página de manera casual: Mayor probabilidad = Mayor PageRank, y un mayor PageRank significa también una mayor probabilidad de que una página sea encontrada por casualidad.

Vamos a calcular el PageRank con un ejemplo simple donde los círculos son URLs (nodos) y las flechas (aristas) son enlaces (donde la dirección de la fecha indica si son salientes o entrantes, por ejemplo, A —> B quiere decir que de A sale un enlace hacia B):

Sitio web con nodos y aristas

El grafo anterior es una representación de la matriz que hay a continuación. Esta matriz tiene unas características concretas:

• Columnas igual a 1.
• Entradas mayores o iguales a 0.
• Existe un eigenvalue igual a 1 y un eigenvector con eigenvalue 1.

Esto es un sitio web en el que tenemos los nodos/URLs: A, B, C, D, E. Podemos ver que de A sólo sale un enlace a B, de aquí la el segundo valor de la columna A sea 1. Del mismo modo vemos que del nodo/URL B hay dos enlaces salientes uno hacia A y otro hacía C, como el valor de la columna ha de sumar uno (recordemos la fórmula del Pagerank: PR(T1)/C(T1)) B envía tanto a A como a C la mitad de su PageRank).

matriz de transición

La matriz anterior es la Matriz de transición del grafo que la precede, en la que cada columna tiene que sumar 1.
¿Cómo se calcula? Si A enlaza a B (y sólo a B) el valor será 1. Si B enlaza a A y a C, el valor será 1/2. Si C enlaza a A, E y D, el valor será 1/3… Etc.

Para obtener el valor final del PageRank tenemos que iterar la matriz de transición hasta alcanzar la distribución estacionaria (es decir, por resumir, por mucho más que iteremos los valores de la matriz se mantienen fijos)

Distribución estacionaria

Con esta aproximación (y el vector marcado con rayas rojas en la matriz de distribución estacionaria) vemos la relevancia de un nodo/URL indiferentemente de a dónde llegue el usuario. Es decir, si empezamos a hacer iteraciones, dar vueltas por todos esos enlaces, llegará a un punto en que obtendremos la probabilidad de que un usuario que llega al sitio web aterrice con mayor o menor probabilidad en la URL A, en B, en C, en D o E.

En el ejemplo anterior con un simple cálculo sabríamos el PageRank de cada página: A tendría un PageRank de 0,33 mientras que D es la URL que menos PageRank tiene. ¿Por qué? Porque sólo recibe un enlace de C que está enviando 3 enlaces distintos, con lo que divide el PR entre los 3.

IMPORTANTE y donde está el detalle y la magia del PageRank y su distribución cuando modificamos la arquitectura de enlazado en un sitio web: A y B tienen el mismo PageRank a pesar de que A recibe tres enlaces entrantes y B solo uno. Tener lo anterior en cuenta es primordial a la hora del SEO… Primordial. ¡Aquí está la magia!

El vector traspuesto π𝑡 es el que me está diciendo el PageRank de cada nodo:
π𝑡=0.3333, 0.3333, 0.1667, 0.0556, 0.1111

 

PageRank sculpting utilizando nofollow:

Tendríamos que descartarlo para hacer Pagerank Sculpting. No se puede orientar el PageRank haciendo nofollow.

Sitio web con nofollowPageRank sculpting con nofollow

Cuando hacemos PR sculpting con un nofollow, tal y como vemos en el ejemplo de arriba y basándonos en la misma manera de calcular que en ejemplo del nofollow, no se le va a pasar ese 0.25 que le correspondería a D. Al estar el nofollow, A también va a bajar en su PageRank, porque como ya hemos visto, el PR de una URL se basa exclusivamente en el de la URL que le está enlazando directamente. Es decir, el PageRank de C se calcularía con la transmisión de A y de B, si de C a D pongo un nofollow, D no recibe PR.
Es decir, utilizar nofollow no sólo implica que la URL inmediata que estamos enlazando no tenga PR directo, sino que además cambia toda la distribución de PageRank del sitio.

 

PageRank sculpting utilizando noindex:

¿Este sí podemos utilizarlo para hacer PageRank sculpting?

Sitio web con noindex

La curiosidad residía en saber si el nodo/URL que tiene el noindex tiene PageRank o no. Entendemos que con el nodo de noindex le estamos diciendo a Google que no la indexe. Pero, si no calculara el PR de C, tampoco lo haría de D, E y F, porque reciben el PageRank a partir de los enlaces salientes del nodo anterior (C). Por tanto, lo cuenta (en Google lo afirman), categoriza, le da el PageRank que le corresponde aunque sea noindex, lo traspasa y lo descuenta del índice. Así que podemos utilizar categorizaciones usando noindex, porque el PageRank sí se traspasa. Es decir, Google le da a la URL C el Pagerank que le corresponde para poder calcular el PageRank de D, E y F y luego la desindexa, por tanto, el noindex sí traspasa PageRank.

En los ejemplos anteriores falta añadir la no baladí cuestión del Damping factor, cosa que nos reservamos para el artículo de la semana que viene.

Twitter: @eCesarAparicio

Suscríbete al blog de Cráneo Previlegiado