« いつもググって探すので貼っとこ。 | 最新のページに戻る | Psychometric functionの書き方 »

■ はてなアンテナのリンクはスケールフリーネットワークだった。

pooneil2004-07-21 ガヤ、サンクス。なるほど、scale-free(3/17,3/31,4/6にて言及あり)の話でしたねこれは。というわけで7/20の図1を確率密度分布に変換して(各月の総リンク数で縦軸を割る)、縦軸横軸を両方ともlogスケールにしたものが今日の図3の左です。横軸はあるサイトがアンテナに登録されている数k、縦軸は被リンク数kのサイトの全サイトに占める割合P(k)です*1。7月分重ねてありますがどれも同じ傾向ですので色分けしておりません。きれいな直線的関係(power law)を示しているのがわかります。

ここで解説を。WWWのようなネットワークの個々の頂点vertexが他のvertexと何個繋がっているか(k)の確率密度分布(P(k))は以下のようなpower lawによって説明できることがわかっています。

P(k) ~ k
log10(P(k)) = log10(k) - γ
 (実際にはintersectの項が入るが、WWWでは0になるらしい)

参考文献:Science '99 "Emergence of Scaling in Random Networks."

なお、このpower lawはネットワークが(1)元からあるネットワークに新しい結合が付加されてゆく、(2)新しい結合はランダムに付加されるのではなくて、よりkの大きいところにより多く新しい結合ができる("rich-get-richer phenomenon")、という二つの性質を持っているときに成り立ち、ランダムな結合では成り立ちません。ですので、ryasudaさん、リンクの分布がpoisson-likeであると書いたのは私の早とちりでした。全員がランダムにリンクしたらポワソン分布になるのはその通りだと思います。実際にpoisson分布だったらどんなプロットになるか作ってみたのが図の右側です*2。縦軸横軸は左図と同じです。実際のはてなアンテナのデータではλ=3(kの期待値=2.8より)ですので、それでプロットしたのが赤い線、λを10.^(-10:0.1:1)でふってみたのが青線です。どのようなλであれ、poisson分布の時にはk>100であるような頂点はほとんどありえません(P(k=100) < 10^(-100))。k>100のようなサイトは"rich-get-richer phenomenon"によって形成されるのであって、偶然にはほとんど作りえないということがわかります*3。この二つの対比(左のpower lawと右のpoisson分布)こそがはてなアンテナの被リンク数が上記の(1)(2)の性質を持っていることの証拠となるでしょう。

左の図に戻ります。1月から7月までのそれぞれの月のデータはほとんど同じパターンを作っており、これはガヤが指摘するようなscale-freeであることの証拠といえるのかもしれません。また、各月のデータでlinear regressionして得たslopeからこのネットワークのγを推定することができますが、intersect=0の条件(横軸縦軸ともに10^0を通る)の元で、2.10±0.02 (mean±SD)となります。これは上記のScience '99でのWWWの例でのγが2.1±0.1であるのと劇的な一致を示します。実のところ、はてなアンテナの被リンク数とは、WWWのリンク数のような双方向的なものではなくて、はてなダイアリーを使ってないけどはてなアンテナだけは使っているという人もいるのにもかかわらず。自分で計算しておいて驚いてみたり。

*1:k=0のデータは除外して計算しております。

*2:ネットワークでは結合のない頂点はないものと見なされますので、結合数k=0のものは除いて、1<=k<∞でΣP(k)=1となるようにnormalizeし直してあります。

*3:なお、Watts and StrogatzのNature '98でのsmall-world networkはlocalに繋がったランダムなネットワークの結合のある一定の割合を遠い場所につなぎ直したものですので、この場合P(k)の分布はランダム結合の場合と同じであり、scale-free power lawは成り立たない、ということがScience '99に書かれています。Scale-freeとsmall-worldは似ているようで微妙に違ったものであるようです。

コメントする (4)
# ガヤ

いま実験の待ち時間中。いや、これまたやってくれますね。しかもきれいな図になりました。K=1を見ていなかったので、もしかしたらSingle-Scaleになるかと思いましたが見事です。ところで、あまり詳しく覚えていませんが、上記のScience論文では“rich-get-richer”の部分で、Linearモデルを使っていた(つまりK=100はK=1よりも100倍の「客寄せ効果」がある、といういう単比例で計算していた)と思うのですが、この仮定がおそらく「正しくない」だろうということは、今回の図でもプロットが末広がりになっている(しかも、Kが大きいほど予想される直線よりも右方向にバラけている)ことから想像できます。つまり、K=100はK=1よりも100倍以上は魅力的なサイトだってことですね。この方が我々の直感に合っているかと思うわけです。

# ryasuda

なるほど、面白いですね。Journal citationとかも似たような感じなのかな。

# ガヤ

ryasudaさん、さすが鋭いですね。PNAS 97(2000)11149-11152には「the network of citations of scientific papers are scale-freethat is, they have a distribution of connectivities that decays with a power law tail」という記述がありますよ。

# pooneil

なるほど、「予想される直線よりも右方向にバラけている」、これ面白いですね。まず、この辺の値の全体に占める割合は非常に小さいため(< 10^(-4))、どうしてもバラけるのは本当でしょうね。で、ガヤの言う通りに線形性がないとするとプロットは右曲がりになるというわけですね。ちょっと誤差が大きすぎて本当かどうかわからないけれど、その右方向にバラけているやつはじつは主にid:hatenadiary、つまり<A HREF=”http://d.hatena.ne.jp/hatenadiary/”>「はてなスタッフのはてなダイアリーに関する記述」</A>なのです。よってそのような特殊かつ中心的なステータスにあるサイト(しかもネットワーク形成の一番最初からあったっぽい)がネットワークの中でどんな動態を示すのか、というふうに捉えられるのかもしれません。ほかにもScale-freeの例として俳優の共演ネットワークがScience ’99には挙げられていました。これはsmall worldの方でも挙げられている例です。そうなると、俳優の共演ネットワークはscale-freeなのか、small-worldなのか、それとも両立しうるのか。Scale-freeになるような(1)と(2)の性質を持って自己組織化したネットワークはsmall-worldなのか、というあたりに興味が出てきます。どっかですでに扱われているのでしょうけど。


お勧めエントリ


月別過去ログ