Blog de Página Web Leon

Algoritmo Pagerank

Seguramente has usado el motor de búsqueda de Google y conoces a la perfección su objetivo, ya sabrás que te sirve para cuestionar la red y obtener la información que buscas en forma de lista finita. Como te has de dar cuenta, el tiempo en realizar tu búsqueda es mucho menor a un segundo y te ofrece varias opciones en su respuesta. ¿Te has puesto a pensar lo que hace este motor para entregarte la información tan rápido y eficientemente?, existen billones de sitios web en la red y para recolectar la información más adecuada se encuentra el algoritmo Pagerank que en realidad es un conjunto de otros algoritmos para garantizar los resultados más óptimos a tus búsquedas.

Indexación de páginas y sitios

Google tiene un robot de indexación que se envía a la red para agregar a su gran lista de búsquedas, la información básica de las nuevas páginas que han surgido o actualizar dicha lista con los cambios que se han hecho a los sitios ya existentes es el propósito del Googlebot, nombre con el que se le conoce al robot. Se envía cada mes aproximadamente porque es el tiempo que tarda en gestionar todos los sitios o la mayoría de estos que existen en la red de redes. Lo que Googlebot busca en cada sitio en su ardua travesía, es la información del título, el nombre de la página, una fracción de contenido de ésta, sus encabezados, las letras en negrita, el menú de navegación del sitio, imágenes, idioma, ubicación del servidor del sitio y lo más importante: los enlaces que hace el sitio hacia otras páginas ya sean ligas locales o externas además que es el camino que sigue el robot para gestionar toda la red. Toda esta información la envía a una base de datos de la empresa Google, dicha información será procesada posteriormente, a todo este asunto se le conoce como indexación.

Clasificación de la información

Cuando el robot envía la información a la base de datos, automáticamente se organiza por idioma, por posición geográfica y por importancia del sitio. Las páginas categorizadas de importancia mayor, serán las primeras en aparecer en la lista de tu búsqueda. Por ejemplo, si vas al Google y escribes Traductor, la primera página que te aparece es la considerada la más importante bajo ese argumento de búsqueda, precisamente para ésta búsqueda, el primer y el segundo enlace van hacia el traductor de Google, y el tercer enlace de la lista va hacia el sitio de elmundo.es

¿Cómo determina la importancia de un sitio?

Esta pregunta la resuelve uno de los algoritmos más importantes del PageRank, entre más enlaces apunten hacia un mismo sitio, más importante lo hacen, algo así como una votación democrática donde los enlaces son los votos. La clasificación del PageRank va en escala de 0 a 10 donde el 10 es otorgado a sitios muy populares.  Las páginas importantes pueden hacer a otra página importante cuando sale un enlace, es decir, si un enlace de www.youtube.com apuntara a una página con un pagerank de 0, el valor de importancia aumentaría de ésta última ya que Youtube tiene un enlace hacia éste.

La fórmula se actualiza constantemente y no es de dominio público por lo que sería difícil obtenerla, sin embargo, una de las primeras estructuras de la fórmula se publicó en la universidad de Standford y aquí está el prototipo:

Fig. 1.1 Fórmula para calcular el Pagerank, corazón de indexación de Google

Fig. 1.1 Fórmula para calcular el Pagerank, corazón de indexación de Google

Donde:

  • PR(A): PageRank de la página A
  • d: Factor de amortiguación entre 0 y 1
  • PR(i): PageRank de las páginas i que enlazan a A
  • C(i): Total de enlaces salientes de i
 Veamos un ejemplo:

Se tienen 7 páginas y se desea calcular el PageRank de la página D. En la figura, vemos que las páginas A, B y C apuntan a D, la página E apunta a A, la página C apunta a F y la página B apunta hacia G. Los Pagerank de las páginas del ejemplo son diferentes, por lo que no habrá confusión en las operaciones.

Fig. 1.2 Ejemplo para ilustrar el funcionamiento del algoritmo Pagerank

Fig. 1.2 Ejemplo para ilustrar el funcionamiento del algoritmo Pagerank

Apliquemos la fórmula, para esto, la dividiremos en dos partes ya que tiene dos términos, el primer término esprimer_termino_de_la_formula_PageRank mientras que el segundo es  segundo_termino_de_la_formula_PageRankque corresponde a la parte de la sumatoria, suponiendo que se tiene un factor de amortiguación de 0.26 apliquemos primeramente el segundo término, vemos que las páginas que enlazan a D son A, B y C, de este modo tenemos:

= (0.26)(6/1) + (0.26)(3/2) + (0.26)(4/2)

= 1.56 + 0.39 + 0.52 

= 2.47

Ahora apliquemos la operación del primer término de la fórmula:

1 – 0.26 = 0.74

La operación entre el primer término más el segundo completa la fórmula

0.74 + 2.47 = 3.21

De esta forma, tenemos que el Pagerank de la página D es de

3.21

Analizando el resultado

Nótese que gracias al Pagerank de la página A, la página D tuvo una buena reputación en la indexación, si el Pagerank de A hubiese sido 0, la página D bajaría a 1.65, tal vez la diferencia sea mínima pero si consideramos que entre una unidad y otra de la escala de 0 al 10 es una notación logarítmica, la diferencia se vuelve enorme. A los administradores de sitios web les es de suma importancia que hagan referencia a sus páginas, eso aumenta la reputación y mejora la posición en la búsqueda, si dicha página es un sitio donde se comercializa algún producto, tendrá la oportunidad de ser visitado por más personas y mejorará la oportunidad de venta.

Manejo de sitios con alto PageRank

Cuando se identifica que un sitio es actualizado constantemente o que el volumen de sus páginas es muy pesado se incluye la especialización de dos robots que trabajan bajo la jerarquía del Googlebot. Estos dos robots son DeepBot y FreshBot. DeepBot se especializa en gestionar más a conciencia los sitios con un alto PageRank y obtener mayor información de éstos, en tal caso se encuentra el sitio Wikipedia que por el volumen de su contenido y la importancia de sus páginas requiere un trabajo de análisis más profundo. El FreshBot se especializa en determinar la visita a un sitio determinado por la periodicidad de la actualización de su contenido, como ejemplo podemos mencionar el portal de noticias de CNN puesto que la actualización de su contenido se realiza varias veces al día. Por este motivo, FreshBot también lo visita varias veces al día para actualizar la información de las bases de datos de Google, otros sitios que están catalogados con actualizaciones no tan frecuentes, son visitados una vez a la semana, una vez cada dos semanas o incluso una vez al mes.

El beneficio de estos sitios de alta importancia, como ya se había mencionado es aparecer en los primeros lugares de una búsqueda, regularmente son los que más visitas tienen al día a nivel mundial.

Conclusión

Pagerank es el corazón de Google empresa más importante en el mundo de éste rubro y motor fundamental de las búsquedas. Desde el año de 1999 a revolucionado el internet con su poderoso algoritmo de clasificación de sitios y ha contribuido en la vida de millones de usuarios para mejorar la experiencia en la web. Las decisiones de la empresa repercuten en el uso de internet y la publicidad por este medio.

 

Dejar un comentario