World Wide Web の仕組み(2)

共通科目情報処理(上級)、インターネットの仕組み、2003年01月24日

                                       電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/taiiku-kougi-2002/2003-01-24
あるいは、次のページから手繰っていくこともできます。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/
http://www.hlla.is.tsukuba.ac.jp/~yas/index-j.html
http://www.ipe.tsukuba.ac.jp/~yshinjo/

■復習

■今日の重要な話

■欲しい情報を探す

インターネット上にある膨大な情報から、必要な情報を見つけ出すためには、 次のような方法がある。

リンク集 とは、他のページへのリンクを集めたWWWページ。 なにかWWWページを探したい時には、すぐに「キーワード検索」を思い浮か べるかもしれないが、実際には、 FAQ FAQやリンク集の方が速いことがある。

◆検索に必要な考え方

ヒット率と選択率

ヒット率
欲しかった情報のうち、どのくらい見つかったか。
選択率
見つかった情報のうち、どのくらいが本当に欲しかったものか。

図? ヒット率と選択率

図? ヒット率と選択率

あちらを立てればこちらが立たず。 トレードオフ。

3つの論理演算

外枠は、全体(インターネット上の膨大な数のWWWページ)を表す。 色が付いている所が、見つかったデータを表す。

「keyword1」で検索。

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

keyword1 OR keyword2 OR keyword3

図? キーワードを3つ与えた時(OR)

図? キーワードを3つ与えた時(OR)

NOT keyword1

図? キーワードを1つ与えた時(NOT)

図? キーワードを1つ与えた時(NOT)

キーワードを1つ与えた時の NOT は使えない。

NOT keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND,NOT)

図? キーワードを3つ与えた時(AND,NOT)

NOT は、AND といっしょにつかう。 NOT 単独では、使えない。

◆絞込検索

絞込検索(しぼりこみけんさく)のイメージ

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

図? キーワードを2つ与えた時

図? キーワードを2つ与えた時

図? キーワードを3つ与えた時

図? キーワードを3つ与えた時

絞込検索は、実は、AND と同じ。

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時 図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

◆検索エンジンとWWWロボット

検索エンジン(サーチエンジン)
WWWで検索機能を使う時、実際に検索を行うプログラム。 インターネット上のあるWWWサーバで動いていてる。
検索結果は、手元のWWWブラウザの画面に表示される。

検索対象のデータにキーワードを与える方法

自動抽出したものは、ヒット率はよいが選択率が悪い。 人間が整理したものは、選択率はよいがヒット率が悪い。
WWWロボット
WWWページからプログラムでキーワードを自動抽出するプログラム。
WWWロボットの動き
  1. ロボットは、あるURLが与えられると、そのページ を訪れる(ページの内容を得る)。
  2. 得たページの内容を解析して、キーワードを抽出する。
  3. そのページにリンクが含まれていたら、1 に戻って繰り返す。
このような繰り返しの方法を、コンピュータ・サイエンスの用語では 再帰(recursion) とう。ロボットは、世界中の WWWページを歩き回り、キーワードを抽出する。 ただし、一度訪れたことがあるページは記録しておいて、2度訪れないようす る。

◆FAQ

インターネット上の重要な情報源に FAQ がある。 FAQ は、もともとは、 Frequently Asked Questions の略で、「よくある質問」という意味である。 実際には質問だけでなく て答えもいっしょに書かれている。しかも、実用的で非常に品質がよい情報 が集まっていることが多いので、質問したいことがなくても、自分の興味がある 分野の FAQ を探して読むことはよい勉強になる。

FAQ を作る活動は、ネットワーク・ニュースでよく行なわれている。というの も、繰り返しなされる質問をまとめて定期的に投稿することで、記事の質を高 めることができる。インターネットで流通するようなフリー・ソフトウェアで も、マニュアルとは別に FAQ が作られることもよくある。

■ファイルと WWW ページの関係

アクセス制御(access control) ユーザ(アクセスの主体) が、ファイルやWWWページなどの資源をアクセスする時、どんな アクセスの仕方なら正しいということを定義して、それがきちんと守られてい ることをということを保証すること。

アクセス制御の対象

アクセス制御の主体

◆作成したWWWページをインターネットに公開する

手引きの178ページ参照。

z:\www\

個人のホーム・ページの URL は、WWWサーバの設定によって違う。 筑波大学教育用計算機システムでは、次のようになっている。

http://www.ipe.tsukuba.ac.jp/~user/index.html

userは、自分のユーザ名(ログイン名)を指定する。

最後の index.html は、ホーム・ページを表わすファイル名としてよく利用されるものの1つ。正 確には、これは、ディレクトリ名だけが指定された時に使われるファイルの名 前である。よって、上の URL は、次のような短い URL でもアクセスできる。

http://www.ipe.tsukuba.ac.jp/~user/

WWW でインターネットに公開するには、WWW 公開用のディレクトリを作る必要 がある。 伝統的に次のような名前がよく使われる。

~/public_html
筑波大学教育用計算機システムでは、次の通り。
Windows 2000
z:\www\
Unix
~/www

◆公開用ディレクトリ以下のファイル名とURLの関係

公開用ディレクトリ ~/public_html 以下のファイルの名前とURLの対応関係をまとめる。
----------------------------------------------------------------------
Windows ファイル	Unix ファイル名		URL
----------------------------------------------------------------------
z:\www\file1.html	~/www/file1.html	http://hostname/~user/file1.html
z:\www\index.html	~/www/index.html	http://hostname/~user/index.html
z:\www\index.html	~/www/index.html	http://hostname/~user/  (省略形)
z:\www\dir1\file1.html	~/www/dir1/file1.html	http://hostname/~user/dir1/file1.html
z:\www\dir1\index.html	~/www/dir1/index.html	http://hostname/~user/dir1/index.html
z:\www\dir1\index.html	~/www/dir1/index.html	http://hostname/~user/dir1/  (省略形)
----------------------------------------------------------------------
筑波大学教育用計算機では、
hostname は、www.ipe.tsukuba.ac.jp と読み替える。

◆公開用ディレクトリのモード(Unixでの注意事項)

公開用ディレクトリ ~/www や、それ以下のディレクトリのモードは、 755(rwxr-xr-x) (少なくとも711 (rwx--x--x)) にして、誰からでもアクセス できるようにする。このディレクトリ以下に作るファイルのモードは、644 (rw-r--r--)にする。また、このディレクトリの親ディレクト リ、つまり、ホーム・ディレクトリのモードも、755(少なくとも 711 (rwx--x--x)) にする。これは、WWWサーバが、これらのファ イルを読み出すことができるようにするためである。

◆許可された操作、ファイルのモード、ls -l と chmod(Unix)

◆ファイルに対する許可された操作(Window 2000)

■実習

◆サーチエンジンの使い分け

自分が欲しい情報を決めなさい。それを、次の2種類のサーチエンジンを 使って検索しなさい。 探したい情報により、どちらを選択すればよいかが違う。

◆よいキーワード

よいキーワードになるものには次のようなものがある。 これを確かめなさい。他にどのようなキーワードがよいか。

固有名詞を例に、類似のデータを引出してみなさい。

◆キーワードの組み合わせ

AND, OR, NOT などの演算で組み合わせてみなさい。

サーチエンジンによっては、これ以外の他の演算子を提供していることがある。

◆課題 WWW検索

締め切りは、2003年1月30日木曜日とする。

◆モードの観察

次のフォルダやその中にあるファイルについて自分や他人からどのようなアク セスの方法が許可されているかを調べなさい。

クライアント(Windows):

Windows で調べる方法

他の人(Everyone) からは、どのような操作ができるか。

クライアント(Unix/Linux)、または、サーバ (Unix/Solaris)

Unix で調べるには、まず、TeraTerm などでサーバに接続するか、 クライアントで Linux で起動して、端末を開く。そして、 ls -l を使う。

ffftp で接続すると、どのように見えるか。


↑[もどる] ←[1月10日] ・[1月24日] →[1月31日]
Last updated: 2003/01/24 02:44:16
Yasushi Shinjo / <yas@is.tsukuba.ac.jp>