Kis híján kigyulladt a számítógépem, de végül mégiscsak sikerült rávenni a Graphviz-t, hogy számolja le a magyar blogoszféra első 500 oldalát. Az előző posztban a graphviz dot parancsával számoltam (ez szép, görbe, csúcsokat gondosan megkerülő éleket rajzol) -- ennek azonban sajnos ára van (lassú). Az fdp parancs egyszerű vonalakkal operál.
fdp teszt500.dot -Tsvg > proba500.svg
A teljes ábrához kattints ide.
Érdekes, hogy így sokkal szebben látszik a linkek sűrűsége. Pl. az ábra jobb alsó felén az index saját foci-EB blogjai vannak, amelyek minden oldala linkel egymásra, de "kintről" már sokkal kevesebb kapcsolódási pont van. Feljebb, balra, az igazi sűrűben továbbra is a politikai-közéleti blogok uralkodnak.
Egyébként már a 150 oldalas mintán is látszik az 500 oldalas mintán kirajzolódó struktúra: ugyanazok az oldalak a legnépszerűbbek, és hasonlóképpen is rendeződnek egymás mellé.
2012. június 30., szombat
2012. június 24., vasárnap
Magyar blogoszféra vizualizáció
Kicsit azért ciki, hogy ha beírom a
google képkeresőbe a "magyar blogoszféra" kifejezést,
Tóta W. Árpád valamint Orbán Viktor képe jelenik meg. Úgyhogy
kéne csinálni valami informatívabbat.
Az webet jól lehet ábrázolni
gráfként, hiszen minden oldal egy csomó másikra mutat -- minden
oldal csúcs, minden link él. Azt is tudjuk a google óta, hogy
minnél több oldal mutat egy oldalra, az annál fontosabb.
A rajzolás piszkos munkáját meg
lehet spórolni a graphviz programcsomaggal -- amely egy
szkriptelhető, gráf-rajzoló rendszer. A lényeg elovasható pl.
itt.
Gyorsan írtam egy buta pókot, ami
elindul a blog.hu-n, és az ott talált linkeken továbbmászik (hogy
csak blogokat találjon, csak a blog.hu-s linkekre figyelünk).
Összeszámoljuk, honnan hová mutatnak a linkek. Ez után generálunk
egy .dot kimenetet, ami hihetetlenük egyszerű:
digraph blogosphere {
//ezek a csúcsok, vagyis az egyes
blogok
blog1 [label="első blog"]
blog2 [label="második blog"]
//satöbbi
// itt jönnek az élek
blog1 -> blog2
blog1 -> blog3
satobbi -> blabla
}
Érdekes kérdés, hogy mennyi idő
után tiltja le a blog.hu szervere a pókot -- 500 kérést gyorsan
egymás után még kibír, de valószínűleg mindennek van határa...
A fentiek után a .dot file-t
megetetjük a graphviz-zel és kész is vagyunk -- minden másról a
program gondoskodik. Jó, mi?
dot -Tpng teszt500.dot >
teszt500.png
Mivel a graphviz próbálja minnél
ésszerűbben elrendezni az éleket, az egymásra gyakran mutató,
vagyis tartalmilag közel álló blogok közel kerülnek egymáshoz.
Pl. a modoros, dezsőmail és a gyűlölt ellenségeink (ezek vicces
blogok, ha valaki nem ismernő) egymáshoz közel, az ábra felső
részében helyezkednek el, jobbra lent találhatók a politikus
blogok, balra középen pedig a meztelen csajos oldalak helyezkednek
el. De vannak itt furcsaságok is: ide került a tévé-sorozatos és
a cuki állatos blog is. Hogy mi vannak!
Egyébként, itt egy 150 oldalnál
megálló pók útja látható -- 500 oldal egyszerre nem fér fel a
lapra (elfogy a memória), de bizonyosan van valami okos megoldás
erre is.
Folyt. köv.
Feliratkozás:
Bejegyzések (Atom)