World Wide Web の仕組み(2)

共通科目情報処理(講義)、体育専門学群対象、2002年01月18日

                                       電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/taiiku-kougi-2001/2002-01-18
あるいは、次のページから手繰っていくこともできます。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/
http://www.hlla.is.tsukuba.ac.jp/~yas/index-j.html
http://www.ipe.tsukuba.ac.jp/~yshinjo/

■復習

■今日の重要な話

■欲しい情報を探す

インターネット上にある膨大な情報から、必要な情報を見つけ出すためには、 次のような方法がある。

リンク集 とは、他のページへのリンクを集めたWWWページ。 なにかWWWページを探したい時には、すぐに「キーワード検索」を思い浮か べるかもしれないが、実際には、 FAQ FAQやリンク集の方が速いことがある。

◆検索に必要な考え方

ヒット率と選択率

ヒット率
欲しかった情報のうち、どのくらい見つかったか。
選択率
見つかった情報のうち、どのくらいが本当に欲しかったものか。

図? ヒット率と選択率

図? ヒット率と選択率

あちらを立てればこちらが立たず。 トレードオフ。

3つの論理演算

外枠は、全体(インターネット上の膨大な数のWWWページ)を表す。 色が付いている所が、見つかったデータを表す。

「keyword1」で検索。

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

keyword1 OR keyword2 OR keyword3

図? キーワードを3つ与えた時(OR)

図? キーワードを3つ与えた時(OR)

NOT keyword1

図? キーワードを1つ与えた時(NOT)

図? キーワードを1つ与えた時(NOT)

キーワードを1つ与えた時の NOT は使えない。

NOT keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND,NOT)

図? キーワードを3つ与えた時(AND,NOT)

NOT は、AND といっしょにつかう。 NOT 単独では、使えない。

◆絞込検索

絞込検索(しぼりこみけんさく)のイメージ

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

図? キーワードを2つ与えた時

図? キーワードを2つ与えた時

図? キーワードを3つ与えた時

図? キーワードを3つ与えた時

絞込検索は、実は、AND と同じ。

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時 図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

◆検索エンジンとWWWロボット

検索エンジン(サーチエンジン)
WWWで検索機能を使う時、実際に検索を行うプログラム。 インターネット上のあるWWWサーバで動いていてる。
検索結果は、手元のWWWブラウザの画面に表示される。

検索対象のデータにキーワードを与える方法

自動抽出したものは、ヒット率はよいが選択率が悪い。 人間が整理したものは、選択率はよいがヒット率が悪い。
WWWロボット
WWWページからプログラムでキーワードを自動抽出するプログラム。
WWWロボットの動き
  1. ロボットは、あるURLが与えられると、そのページ を訪れる(ページの内容を得る)。
  2. 得たページの内容を解析して、キーワードを抽出する。
  3. そのページにリンクが含まれていたら、1 に戻って繰り返す。
このような繰り返しの方法を、コンピュータ・サイエンスの用語では 再帰(recursion) とう。ロボットは、世界中の WWWページを歩き回り、キーワードを抽出する。 ただし、一度訪れたことがあるページは記録しておいて、2度訪れないようす る。

◆FAQ

インターネット上の重要な情報源に FAQ がある。 FAQ は、もともとは、 Frequently Asked Questions の略で、「よくある質問」という意味である。 実際には質問だけでなく て答えもいっしょに書かれている。しかも、実用的で非常に品質がよい情報 が集まっていることが多いので、質問したいことがなくても、自分の興味がある 分野の FAQ を探して読むことはよい勉強になる。

FAQ を作る活動は、ネットワーク・ニュースでよく行なわれている。というの も、繰り返しなされる質問をまとめて定期的に投稿することで、記事の質を高 めることができる。インターネットで流通するようなフリー・ソフトウェアで も、マニュアルとは別に FAQ が作られることもよくある。

■実習

◆サーチエンジンの使い分け

自分が欲しい情報を決めなさい。それを、次の2種類のサーチエンジンを 使って検索しなさい。 探したい情報により、どちらを選択すればよいかが違う。

◆よいキーワード

よいキーワードになるものには次のようなものがある。 これを確かめなさい。他にどのようなキーワードがよいか。

固有名詞を例に、類似のデータを引出してみなさい。

◆キーワードの組み合わせ

AND, OR, NOT などの演算で組み合わせてみなさい。

サーチエンジンによっては、これ以外の他の演算子を提供していることがある。

◆課題 WWW検索

自分が探したい情報を決め、それを探してみなさい。 次のような内容を含む電子メールを新城に送りなさい。
  1. 名前、学籍番号、学類
  2. 探したい情報
  3. 選択したサーチエンジン
  4. 検索の方法。キーワードや演算子。
  5. 欲しかったページの割合
電子メールの宛先と題名は、次のようにすること。

To: yas@is.tsukuba.ac.jp
Subject: [ipe-inet] Report3: WWW Search

締め切りは、2002年1月25日金曜日とする。 18日の実習時間中に出すことが望ましい。


↑[もどる] ←[1月11日] ・[1月18日] →[2月1日]
Last updated: 2002/01/18 05:00:18
Yasushi Shinjo / <yas@is.tsukuba.ac.jp>