アットローンのサイトです。
終わる 年月日 アルバイト ShockwaveFlash 十分 一覧 債権 urchinTracker 本社 大口 申し込む 掲載 都市 ちゃんと それほど 京都銀行 ライドリボルビング ホーム 運営 マップ 無人 ライブ メリット 特徴 内容 以下 セブン いただき analytics システムズ

回答とは?/ アットローン

[ 110] グーグル先生を超える良回答連発、Powersetを使ってみた − @IT
[引用サイト]  http://www.atmarkit.co.jp/news/200805/15/ps.html

インターネットの検索でエポックメーキングな出来事は2度しか起こっていない。1994年にジェリー・ヤン氏らが立ち上げたヤフーがインターネットに検索をもたらしたときと、1998年にラリー・ペイジ氏らがグーグルを立ち上げ、Webページの重要度を示す「PageRank」という概念を導入したときだ。検索連動広告の発明もビジネス的には大きなステップだったが、使い勝手の向上というユーザー視点での転回点は2つだけだ。いま、ベンチャー企業の米Powersetが注目を集め、3つ目のイノベーションを起こすかどうかが注目されている。
Powersetが解決しようとしている問題を明確にするために、インターネットの検索エンジンの歴史を少しだけ振り返ってみよう。
現在、単純なクローリングで情報を引き出せないWeb上の情報、通称「ディープウェブ」と呼ばれる領域へ手を伸ばす試みが始まっている。グーグルのWebクローラーは、すでにJavaScriptエンジンを搭載したインテリジェントなものに進化しており、簡単なメニュー程度であれば機械的に展開して情報を収集できる。しかし、人間向けに作られた複雑なUIのために、クロールしきれていない情報は、まだ多いとされている。
ディープウェブの議論を置いておけば、もはや検索エンジンのカバー範囲が問題になることは、ほとんどない。インターネットに何十億ページあろうが、そのうちグーグルが何億ページをカバーしていようが、誰も気にしないだろう。グーグルが証明したのは、検索において重要なのは、どれだけたくさんの情報が出てくるかではなく、どれだけ検索キーワードと関連性が高い、重要な情報が上位に出てくるかだということだ。言い換えれば、検索結果に含まれるページの数ではなく、重要なのはページの順位ということだ。ほとんどのユーザーは検索結果の上位の5つぐらいしかクリックしないと言われている。
グーグルとの違いをひと言で言えば、グーグルが検索キーワードに最も関連のある「ページ」を提示してくれるのに対して、Powersetは「情報そのもの」を提示してくれるということだ。
同じ検索文でPowersetで検索した結果。ずばり答えが含まれる部分が表示されている。この例では「36」は正答ではないが、少なくとも数字を聞かれていることを認識してハイライト表示していることは分かる
グーグルはWikipediaのアルカトラズ島の項をトップに持ってきている。答えは当該ページを読めば分かる。脱獄不能と言われたアルカトラズの監獄で本当に脱獄に成功した囚人がいなかったことが分かる。従来の検索エンジンのパラダイムでは、これ以上の答えは望めない。
ただし、ここでは正答は36人ではない。計14回あった脱獄計画に36人の囚人が関わり、誰1人として脱獄に成功していないというのが正答だ。結局人間が読まなければならないという意味では、まだ機械は人間の言葉である自然言語を理解するというレベルにはほど遠いが、それにしてもグーグルとの違いは一目瞭然だ。グーグルではアルカトラズ島の解説ページに飛んで、目でざっと読むか「escape、break、sneak」などいくつかの単語で検索して該当個所を探す必要がある。
グーグルの検索結果トップに来たのはイルカ好きのイギリス人が作った個人サイトの右のようなページだ。イルカたちが、頭のてっぺんにある潮吹き穴で呼吸するということが写真入りで端的に解説されていて、おそらくこれ以上の回答を望む人は少数派だろう。また、グーグルの検索結果では「頭のてっぺんにある潮吹き穴で呼吸する」というセンテンスがずばり検索結果のトップに表示されていて検索結果をクリックするまでもなく答えが分かる。この例ではグーグルとPowersetで差がつかなかった。
グーグルでは、中国で発行される英字新聞チャイナ・デイリーの速報記事にヒットし、答えがレノボ・グループであることが検索結果をクリックするまでもなく分かる。
グーグルを使った検索では、良質な情報を含む「ページ」がたくさん出てくるが、Webブラウザで行きつ戻りつしながら求めている「情報」を目で探すというステップで手間取るケースもある。
これはアルカトラズの監獄の例と同じことだが、重量や寸法といったデータを検索するような例でも、Powersetの威力がよりハッキリと分かる。
記者は先週、サンフランシスコであったJava関連のイベントに出ていたのだが、そこでノロウイルスの感染被害が発生した。イベント会期のど真ん中、70人あまりが腹痛や嘔吐を訴えた。参加者が1万人を超える大イベントなので記者が感染する確率は低かったが、ホテルに戻ってテレビニュースで知って事態の大きさに驚いた。
このくらいであれば、インターネット上のどこかに非常に良く書けた解説が軽く数十は見つかると検索する前から分かっている。そして、かなり読みやすいページがグーグルの検索結果の上位3つに含まれることも分かっている。しかし、それでも検索してから目的の情報(答え)にたどり着くまでに、Webページの構造を把握し、本文や箇条書きから正しいセンテンスを人間が目で見て探し出すというステップは残っている。
PowersetでWikipediaの項目を開くと、以下の画面のような独自インターフェイスが現れる。右側にページ全体の段落構造が表示され、検索にヒットした段落や単語、センテンスが全体のどこにあるかがハイライト表示で示されている。このインターフェイスはFlashではなくJavaScriptで書かれているようだが、非常にスムーズにスクロールする。また本文側をスクロールしても右の段落表示の画面は追随してくるため、自分が全体のどの当たりを読んでいるかが分かりやすくなっている。
Wikipediaの項目をPowersetで表示した画面(クリックで拡大)。検索文字列に該当する箇所が本文でも右側のサマリ表示でもハイライト表示されている。右側のサマリで段落や見出しをクリックすると、本文のほうが該当箇所へジャンプする
Powersetは一般向けベータテスト公開前から大きな注目を集め、マイクロソフトによる買収も噂されている。それはPowersetが単に自然言語による検索が可能というだけでなく(それはどんな検索エンジンでもある程度できる)、概念や文章の構造を理解した上で適切な回答を探すという新しいアプローチが期待されているからだ。
セマンティックWebはアカデミックな世界では盛んに研究されてきたが、まだほとんど普及していない。現在までに概念の階層構造を扱う“オントロジー辞書”や、そのマークアップのための標準的技術仕様、それに対応した処理エンジンなどが作成されているが、インターネットの世界(HTML)を作っているのは研究者たちではなく、エンドユーザーだ。エンドユーザーやWebデザイナーたちが日常的に小難しい新技術を使うと期待するのは無理がある。
トップダウン的に仕様を決め、あらゆるWebページにメタ情報(機械に分かる意味)を付けるのではなく、ボトムアップ的にインターネットをセマンティックにしていこうというのが、最近の流れだ。
セマンティック・アプリケーションは、ボトムアップ的にインターネットをセマンティック化する動きと見ることができる。すべての人がセマンティック関連技術を利活用するようになるのは、おそらくWeb 2.0やWeb 3.0では無理で、Web 5.0ぐらいになるのではないか。そうではなく、特定領域に絞って適用すれば、それだけでも大きな成果が得られるのだから、今すぐにセマンティック技術を使おう――、それがセマンティック・アプリケーションの発想で、一群のベンチャー企業を生み出している。Powersetも、そうした企業群の1つだ。2010年までにセマンティック技術関連市場は524億ドル規模に拡大するという予測もある(参考記事:基盤が整い普及期に入るセマンティックWeb)。
例えばAmazon.comのようなeコマースサイトを対象にして「最近売れているプログラミング言語の本は何?」というような検索インターフェイスを提供できれば、売る側にも買う側にもメリットがあるだろう。旅行代理店なら「どこか南の島で来月まだ予約できるところは?」というような検索は魅力的だ。
気が利いているのはWikipediaの記述にある重要な動詞と、それに対応する名詞を認識して、それを整理した動的なインターフェイスで提供している点だ。
もう1つ、現在のPowersetがほぼ静的で変更のないデータしか相手にしていないことも忘れてはならない。グーグル検索の良さは、クローリング頻度と、その順位付けにある。
ノロウイルスに続いて再び個人的体験で恐縮だが、以下のような検索ニーズに対してPowersetがどこまで応えられるかはまったく不明だ。
記者は出張中のサンフランシスコで飛び降り自殺を目撃した。正確には目撃する寸前だった。ビルの4階あたりから飛び降りようとする30絡みの男をしばらく人だかりの中で見ていたのが、おそらく1時間経っても飛び降りないだろうと、10分ほどでその場を立ち去った。その晩、別の記者から私が立ち去った5分後に男が飛び降りたと聞かされた。ただ、死なずに済んだのかどうかが分からない。
こうした情報がグーグルの検索ですんなりと出てくるのは、ある種のWebサイトでのクロール頻度が高いからだろう。また、地元新聞のベタ記事にもならないできごとの伝聞情報が、ちゃんと検索で上位に表示されるのは、ページの鮮度を勘案して順位を決定しているからとだろう。「san francisco suicide」の検索に対して、サンフランシスコの自殺予防センターや、過去にゴールデンゲートブリッジから飛び降りた自殺者のリストと、「さっき起こった出来事」を同程度に優先するべき理由はある。グーグルが支持されるのは、そうした順位付けにおける各種アルゴリズムやパラメータのさじ加減が絶妙に感じられるからだろう。とすれば、Powersetのベータ版サービスは、まだこうした領域でグーグルを脅かすだけの力があるかどうか、何も証明していないということになる。
さらに、インターネット全体という巨大なデータを対象に高頻度なクローリングとインデクシングを継続するためには膨大な計算機資源とテクニックが必要だということもある。GFSやMapReduceの名で知られるグローバルな分散ファイルシステムや並列処理技術など、グーグルのインフラ面での優位については簡単に揺らぎそうもない。
Powersetとグーグルでは、もともと目指しているものが異なるのかもしれない。ただ、およそあらゆるインターネット上の検索に対して有効と考えられていた汎用的なグーグル検索に対して、有力なライバルが現れたことだけは間違いないだろう。

 

戻る

アットローンのサイトです。

アットローンのサイトです。