« BEATLESS (長谷敏司)についてメモ | 最新のページに戻る | 「成分調整牛乳、アーメンブレーク、星屑テレパス」(さうして、このごろ2023年11月) »
■ Googleの検索の質が下がっている話について自分の経験を交えて書いてみた
(20231104) ギガジンの記事を経由してTHE VERGEの記事 "The people who ruined the internet"を読んだ。
前半はSEO業者編で、後半はGoogle編という構成なのだけど、Googleはけっして検索結果がクズになったとは認めてない。
ここは具体例が必要そうだ。私は本の題名を検索したときのユーザー・エクスペリエンスが低下したことを不満に思っている。たとえば「ジェフ・ホーキンス 脳は世界をどう見ているのか」と検索したならば、書店の販売情報がずらりと並ぶ。
でも知りたいのは「その本をどうやったら買えるか」なんかではない。そんなのamazonで調べる。そうではなくて、「その本についての感想、考察」を知りたい。
「ジェフ・ホーキンス 脳は世界をどう見ているのか 感想」とすればある程度は感想が増えるけど、honto、読書メーター、ブクログといった集合知サイト(これらはしょうもない断片的な感想ばかりで、使いものにならない)が上位に来て、以前のような面白い個人サイトが見つからなくなった。
私にとってはこれが不満だ。でもこれはGoogleにとっては意図的な方針であって、評価基準E-E-A-T(経験, 専門性, 権威性, 信頼性)を反映したものらしい。
けっきょくのところ、そういう個人サイトは「権威性、信頼」の点で欠けるので、検索順位が下がる、下がるどころか検索結果に出てこなくなった。
私自身はWeb 2.0の思想に賛同してブログを書いているということもあって、そういう「ロングテールを可視化できる」といった強みが消えていく現状に不満をいだいている。
たとえば"The electric Kool-aid acid test"で日本語のページを検索すると38件出てくる。でも、このなかで真っ当にこの本について語っているのは私のページと「サイケデリック漂流記」しかない。
でもこれらは検索の下位に出てくる。pooneilが20位で、サイケデリック漂流記が28位。5位に読書メーターがあるので開いてみると、「感想・レビューがありません」という空白ページが出てくる。
そんなわけで、E-E-A-Tといいつつ、経験、専門性などどうでもよくて、権威性、信頼性、に振っているということがよく分かる。
こうして考えると、検索の順位には「inforrmativeであるかどうか」を考慮すべきなのではないか、というアイデアが浮かぶ。つまり、書店サイトが上位に並んでも、同じ書誌情報が繰り返されるだけで情報が増えない。
そうではなくて、そのサイトにしか書いてないような、情報量を増やすようなもの(しかし信頼性のあるもの)に高い順位を与えるようなアルゴリズムがよりよい検索サイトには必要なのだと思う。
そうすれば、たとえば読書メーターのサイト内でも、感想ゼロの本のページの順位は落ちるし、感想が充実している本のページの順位は高く保たれる。こういうふうにできないものだろうか? 生成AIがクロールして学習する際に、informativeであるかどうかは評価できそうなものだけど。いま出てきている生成AI検索機能がそういう風に増強されないものだろうか。
こうして言語化してみると、自力で書評検索サイト(集合知的なあれではなくて)を作ったらハッピーになれるか、さらにいえば周りの人もハッピーにできるかも、と考えた。自分が興味のある本をWebクローラー使うところから徐々にスケールしていけば実現性もある。定年後にやることのネタ帳につけておく。
(20240217) Google検索の質が低下しているって話題についてはてブ界隈でしばしば見るようになった。わたしも自分の身近な経験(本の題名で検索)について上記の通り書いた。
そのときはGoogleの評価基準E-E-A-Tが(広告収入のために)歪められている可能性をオチにした。
でも最近のmarkezineの記事を読むと、これは「3rd Party Dataから1st Party Dataへの流れ」とリンクしているようだ。
すると「Googleがevilで広告収入集めたいから」なんて悪玉説では不十分なのだな。これは検索エンジンそのものの危機であり、生成AIへの移行が不可避である現状を反映したものであると捉えるのがよさそうだ。
そうすると以前のテッド・チャンの記事「ChatGPTはウェブのぼやけたJPEGだ」への見方も変わってくる。
テッド・チャンの記事「ChatGPTはウェブのぼやけたJPEGだ」
これの結論(というか締めの文章)はこういうものだった。
「もし私たちがインターネットへのアクセスを永久に失い、限られたスペースしかない個人サーバーにコピーを保存しなければならないのであれば、ChatGPTのような大規模な言語モデルは良い解決策かもしれない。しかし、私たちはインターネットへのアクセスを失うわけではない。では、オリジナルがまだあるのに、不鮮明なJPEGがどれほど役に立つのだろうか?」
私はこの結論に無意識的に同意していた。その反映として「検索エンジンが提示する1次データをかき集めて、自分の情報収集能力と編集能力を発揮する」という行動方針を取りつつ、同時に「検索エンジンの劣化を嘆く」という行動を取っていた。でも後者の原因は前者の行動方針にある。
たぶん今後必要なのは「検索エンジンの代わりに生成AIを活用しながら、それでも生成AIが出した答えが怪しいときには適宜1次データに当たって確認できるリテラシーを持つ」ということなのだろう。
私はPubMedの論文片っ端から読んだりする派だったので、まだ体が慣れないのだけど、老害にならないためには必須なことだなと思った。
論旨が紆余曲折したが、雑にまとめると「google検索が劣化したと嘆いてる人は、そのままだと生成AIを使いこなせてない老害になる。」でもこれはさすがに言い過ぎ感があるな。
現時点でgoogle検索が頭に返してくる生成 AIの結果は間違いだらけだったりする。あれで半分知ってることならまだしも、全然知らないことを検索したときに「これは間違ったこと書いてある」と気づくのは簡単ではない。将来的にも程度の差はあれ同じだろう。
そうして考えてみると、google検索で一次資料に当たるリテラシーがない人が生成AIを使いこなせるだろうか?と自分で反論してみる。
結論出せず。