2012. június 30., szombat

Magyar blogoszféra 500

Kis híján kigyulladt a számítógépem, de végül mégiscsak sikerült rávenni a Graphviz-t, hogy számolja le a magyar blogoszféra első 500 oldalát. Az előző posztban a graphviz dot parancsával számoltam (ez szép, görbe, csúcsokat gondosan megkerülő éleket rajzol) -- ennek azonban sajnos ára van (lassú). Az fdp parancs egyszerű vonalakkal operál.

fdp teszt500.dot -Tsvg > proba500.svg




 A teljes ábrához kattints ide.

Érdekes, hogy így sokkal szebben látszik a linkek sűrűsége. Pl. az ábra jobb alsó felén az index saját foci-EB blogjai vannak, amelyek minden oldala linkel egymásra, de "kintről" már sokkal kevesebb kapcsolódási pont van. Feljebb, balra, az igazi sűrűben továbbra is a politikai-közéleti blogok uralkodnak.

Egyébként már a 150 oldalas mintán is látszik az 500 oldalas mintán kirajzolódó struktúra: ugyanazok az oldalak a legnépszerűbbek, és hasonlóképpen is rendeződnek egymás mellé.


2012. június 24., vasárnap

Magyar blogoszféra vizualizáció


Kicsit azért ciki, hogy ha beírom a google képkeresőbe a "magyar blogoszféra" kifejezést, Tóta W. Árpád valamint Orbán Viktor képe jelenik meg. Úgyhogy kéne csinálni valami informatívabbat.

Az webet jól lehet ábrázolni gráfként, hiszen minden oldal egy csomó másikra mutat -- minden oldal csúcs, minden link él. Azt is tudjuk a google óta, hogy minnél több oldal mutat egy oldalra, az annál fontosabb.

A rajzolás piszkos munkáját meg lehet spórolni a graphviz programcsomaggal -- amely egy szkriptelhető, gráf-rajzoló rendszer. A lényeg elovasható pl. itt.

Gyorsan írtam egy buta pókot, ami elindul a blog.hu-n, és az ott talált linkeken továbbmászik (hogy csak blogokat találjon, csak a blog.hu-s linkekre figyelünk). Összeszámoljuk, honnan hová mutatnak a linkek. Ez után generálunk egy .dot kimenetet, ami hihetetlenük egyszerű:

digraph blogosphere {
//ezek a csúcsok, vagyis az egyes blogok
blog1 [label="első blog"]
blog2 [label="második blog"]
//satöbbi
// itt jönnek az élek
blog1 -> blog2
blog1 -> blog3
satobbi -> blabla
}

Érdekes kérdés, hogy mennyi idő után tiltja le a blog.hu szervere a pókot -- 500 kérést gyorsan egymás után még kibír, de valószínűleg mindennek van határa...

A fentiek után a .dot file-t megetetjük a graphviz-zel és kész is vagyunk -- minden másról a program gondoskodik. Jó, mi?

dot -Tpng teszt500.dot > teszt500.png



Mivel a graphviz próbálja minnél ésszerűbben elrendezni az éleket, az egymásra gyakran mutató, vagyis tartalmilag közel álló blogok közel kerülnek egymáshoz. Pl. a modoros, dezsőmail és a gyűlölt ellenségeink (ezek vicces blogok, ha valaki nem ismernő) egymáshoz közel, az ábra felső részében helyezkednek el, jobbra lent találhatók a politikus blogok, balra középen pedig a meztelen csajos oldalak helyezkednek el. De vannak itt furcsaságok is: ide került a tévé-sorozatos és a cuki állatos blog is. Hogy mi vannak!





Egyébként, itt egy 150 oldalnál megálló pók útja látható -- 500 oldal egyszerre nem fér fel a lapra (elfogy a memória), de bizonyosan van valami okos megoldás erre is.
Folyt. köv.