Hay un nuevo bot por ahi, es el uberumbot !!!!

Llevo unos dias en los que he bajado un poco el ritmo de publicacion y se que estoy fallando en algunos "compromisos" que tenia, pero estoy enfrascado en unos pequeños "inventos" que me han cautivado y me estan divirtiendo un monton. Pero no queria tampoco que pensarais que habia bajado el ritmo por dejadez o cansancio, es que simplemente no doy a todo y ahora mismo estoy dedicando mucho de mi tiempo a este asuntillo. Ya he hablado un poco así por encima con Fabian así que cuando vea sus estadisticas o logs no se sorprendera, pero a lo mejor mas de uno levanta una ceja con cierta perplejidad. A ver , me explico mas que me parece que no se me entiende, si al revisar vuestros logs o estadisticas, y mas en concreto los "bots" que os visitan puede que os lleveis alguna sorpresa alguno al ver entradas como esta:

... HTTP/1.1" 301 307 "-" "uberumbot/0.01"

Pues si, soy yo, en los ultimos dias he estado desempolvando mis conocimientos de programacion, HTTP, bases de datos y otras cosillas de esas informaticas para jugar a ser programador y me he dedicado a crear unos ridiculos scripts para "capturar" informacion referente a los blogs y páginas webs para procesarla y almacenarla en una base de datos (PostgreSQL , por supuesto), no es que le vaya a hacer la competencia a Google, mas bien se la voy a hacer a Technorati (ahora es el momento de las risas enlatadas..era un chiste).

He de decir que con algunos me costo un buen rato entender que pasaba, como por ejemplo el amigo Manuel Almeida de Mangas Verdes, que sospecho debe tener algún sistema que evita que ciertos tipos de bots recorran su página ya que hasta que le puse de nombre "uberumbot" al mío siempre obtenia una respuesta 403. Asi pues el nombre del bot es merito suyo. Entiendo por que lo hizo como a buen seguro otros también lo haran. es normal dado la cantidad de ellos y lo "brutos" que son. Con el mío podeis estar tranquilos, no tengo intencion de gastar demasiado ancho de banda.

Como primer minusculo paso tengo un pequeño sistema que a modo de araña recolecta informacion a partir de blogs, y como ejemplo (se lo dedico a Victor que creo le interesan mas los resultados ) vaya esta tabla de un pequeño muestreo de los CMS mas usados:

cms numero
WordPress 351
Blogger 140
WordPress.com 58
Typepad 38
Drupal 28
Joomla 22
Movable Type 17

¿ que para que vale esta tabla ? Pues para nada, los resultados no son muy exactos, puesto que habría que aún tengo que filtrar mejor quien es un blog y quien no, versiones, nombres de CMS, y por supuesto, tomar una muestra muchismio mayor, mi sistema permite rastrear unos cuantos miles en un par de horas, así que cuando lo perfeccione un poco voy a rastrear toda la blogosfera hispana... ¿ en un par de dias puede ser ?

Y no, por el momento la base de datos no es "publica", realmente todo es muy cutre y no hay nada de colorines que enseñar, para que veais lo que es aquí teneis un ejempl o de una consulta para saber que páginas hablan de "dinero" ya sea en su título o description:


demeter=> select urlbase from t_webs where description ilike '%dinero%' or title ilike '%dinero%';

urlbase
------------------------------------------
http://www.dinerofair.com
http://www.publico.es
http://www.paypal.es
http://ganardinerocontublog.blogspot.com
http://www.exponsor.com
http://blogs.publico.es
http://santabolsa.com
http://puntobaires.blogspot.com
http://www.vuelosbaratos.es
http://alexseo.com
http://www.leepubli.com


Si te ha gustado este articulo dale tu voto

Jo ...

Yo me he quedado pasmada!! Como no tengo conocimientos de programación (sólo algo de Fortran de mi época universitaria y ya entonces era obsoleto,jeje) estas cosas me parecen admirables.

Imagen de uberum

Tengo rastreado ya miles, y

Tengo rastreado ya miles, y esto cada vez se va perfeccionando mas, quiero decir, que mis scripts son cada vez mas habiles en detectar y clasificar los CMS usados, el idioma, etc (desde luego los meta keyword no son mucho de fiar)

WordPress | 1050
Blogger | 577
WordPress.com | 271
Typepad | 139
Microsoft FrontPage | 112
Drupal | 89
Joomla | 76
Movable Type | 57
MSHTML | 34
WordPress MU | 21

¿ Que rallos es eso de WordPress MU ? tengo que investigarlo por que supongo que es una version especial del WrodPress ....

Wordpress MU

Puede que a estas alturas ya te hayas enterado pero por si acaso te cuento lo que es Wordpress MU es la versión multiusuario de Wordpress, para poder crear tu propia plataforma de blogs. Está un poco más retrasado que wordpress pero en lo que se refiere a los blogs individuales va heredando las características del WP "normal".

Imagen de uberum

Por cierto, solo con

Por cierto, solo con hacer
select cms,count(*) from t_webs where lang = 'es' group by cms order by 2 desc;

Podria sacar la ,misma lista pero de aquellas paginas escritas en español...

Enhorabuena

Enhorabuena por el trabajo bien hecho, me pareces un crack