インターネット(2)

共通科目情報処理(講義)、生物資源学類対象、2000年10月24日

                                       電子・情報工学系
                                       新城 靖
                                       <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/shigen-kougi-2000/2000-10-24
あるいは、次のページから手繰っていくこともできます。
http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/
http://www.hlla.is.tsukuba.ac.jp/~yas/index-j.html
http://www.ipe.tsukuba.ac.jp/~yshinjo/

■復習

■今日の重要な話

■TCP/IP追加

■TCP/IPによるインターネットの仕組(続き)

◆DNS(Domain Name System)

TCP/IPで通信する時には、通信相手のIPアドレス(32ビットの整数、番号)が 必要になる。IPアドレスは、コンピュータにとって扱いやすいが、人間にとっ て分かりにくい。

人間にとってわかりやすい記号(文字列)を使ったコンピュータの名前から IPアドレスに変換するサービスがあれば便利である。このサービスを、 名前サービス(name service)、 という。 名前サービスを提供するプログラム(プロセス)を、名前サーバという。

名前から名前を指している番号に変換することを 名前解決(name resolution) という。

インターネットで使われている名前サービスは、 DNS(Domain Name System) と呼ばれる。 DNS では、膨大な数のホスト名を含む名前空間を階層的にドメイン(領域)に 分割して管理ている。 この空間の構造は、 ファイル名で使われている木構造とまったく同じものである。

◆データ表現

インターネットでは、コンピュータで扱えるもの、つまり、0と1のビットパ タンで表現できるものならば、何でも送ることができる。 インターネットに接続されて いるコンピュータは、1種類だけではないので、手元のコンピュータに入って いるデータをそのまま相手に送っても、相手がそのデータを解釈するとができ るとは限らない。

通信プロトコルと同様に、 きちんとデータが送れるように、データの表現形 式が決められている。たとえば、電子メールやネットワーク・ニュースでは、 日本語の表現方法として JIS 漢字コードを使うということが決められてる。

文字コードの解釈が間違っていた時には、ある文字を別の文字として画面に表 示してしまうことになります。この状態を、 文字化け という。文字化けは、通信の途中でデータの一部が壊れてしまった時にもおこる。

文字の他に画像や音声の扱いも、インターネットでよく使われるものがいくつ か決まっている。たとえば、WWWでは、インライン・イメージとしては、 GIF や JPEG がよく使われる。

◆IPアドレスを重複させないで設定するには

パソコンを LAN(Local Area Network) に接続する時には、次のような点に注意する。

最近では、DHCP (Dynamic Host Configuration Protocol) という仕掛けを使っ て、自動的に IP アドレスを自動的に設定できるようになっている場合もある。 ただし、「DHCPを使う」とだけは設定しなければならない。

いずれにしても、実際に線をつなぐ前に管理者に問い合わせる必要がある。

電話線経由でダイアルアップで接続する時(PPPによる接続の場合)には、接続 先から送られてくるものが自動的に設定されるようにする。

■通信速度の感覚

情報量の単位。
ビット(bit,b)
コンピュータで扱う情報の最小単位。
バイト(byte,B)
(アメリカなら)1文字を扱える程度の情報量。 1バイトは、8ビットに等しい。 通信速度の単位。
毎秒何ビット、bps、bit per second、bit/second
1秒間に何ビット送れるか
Bytpe/second、毎秒何バイト
1秒間に何バイトビット送れるか。 1 Byte/sec == 8 bps。 情報量の単位と同様に、通信速度にも次のような係数がことがある。
k (キロ、ケイ)
1024 か 1000
M (メガ)
k の 1024 倍か 1000 倍。1,000,000 くらい。
G (ギガ)
M の 1024 倍か 1000 倍。1,000,000,000 くらい。
T (テラ)
G の 1024 倍か 1000 倍。1,000,000,000,000 くらい。
通信速度の感覚
32 k bps - 56 k bps
電話回線経由で接続した時に得られる速度。
32 k bps または 64 k bps
PHS (Personal Handy Phone) で得られる速度
10 k bps
よく普及している携帯電話で得られる速度
64 k bps
ISDN (電話回線と同じ電線でディジタル信号を流す時)
128 k bps
ISDN で2回線同時に使った時。
1500 k bps (1.5 M bps)
ISDN (光ファイバでディジタル信号を流す時)
1500 k bps (1.5 M bps)
音楽用 CD を圧縮しないでまま流す時に必要な速度。
100 k bps
MP3 などで圧縮した音楽を流す時に必要な速度。
10 M bps, 100 M bps, 1000 M bps (1 G bit / second)
イーサネット(LANでよく使われている)
実習室のパソコンは、10M bps で学内LANに接続されている。 学内LANの基幹部分は、100M bps - 600M bps。 学内LANからSINETへの出口は、60M bps。

■クライアントとサーバ

インターネットで通信をプログラムを利用する時、 「クライアント」と「サーバ」という分けて考える。

例:

  • ファイル・サーバ
  • 名前サーバ
  • WWWサーバ
  • メール・サーバ
  • クライアント・パソコン

コンピュータが1台しかない場合、プログラムは1つでよい。通信をする場合 には、プログラム(コンピュータ)が2つになる。そのうちの1つのプログラ ム(またはコンピュータ)を、「クライアント」、もう1つを「サーバ」とい う。

元々の意味

クライアント(client)
サービスを受ける方、顧客
サーバ(server)
サービス(service)を提供する方

図? サービスの授受によるクライアントとサーバの定義

図? サービスの授受によるクライアントとサーバの定義

サービスを提供する方は、1つのプログラム(コンピュータ)で複数の利用者 の面倒をみる。その結果、1台のサーバに複数のクライアントがつながる。

クライアント
一人で使うもの
サーバ
複数人で共有するもの

図? 複数のクライアントによるサーバの共有

図? 複数のクライアントによるサーバの共有

TCP/IP では、通信するプログラムとプログラムの間は、電話で会話をするよ うに通信が行われる。両方同時に話をすることは、(可能ではあるが)あまり 行われない。次のようなことを、繰り返すことになる。

クライアント
先に要求を送る、後で結果を受け取る
サーバ
先に要求を受け取る、後で結果を返す

図? 通信のパタンからみたクライアントとサーバの定義

図? 通信のパタンからみたクライアントとサーバの定義

TCP/IP の通信では、通信を始める前に、まず、通信路を作る作る必要がある。 これは、電話で話をする前に、まず、電話をかける操作を行うことと似ている。
クライアント
電話を掛ける方に相当する
サーバ
電話を待っている方

以上のように、クライアントとサーバは、いろいろな意味で使われる。これら の意味は、多くの場合、一致しているが、一致していないこともある。

◆能動的・受動的

通信を開始するパタンで、コンピュータ、プログラム、人間は、次の2つに分 類される。

能動的(active)
ほっといても自分でメッセージを発信し始める
受動的(passive)、受け身
何か言われると答えるが、自分ではメッセージを発信し始めることはない
クライアントとサーバから作られたシステムは、クライアントが能動的になり、 サーバは、受動的になることが多い。

図? 能動的なクライアントと受動的なサーバ

図? 能動的なクライアントと受動的なサーバ

例:WWWサーバは、WWWクライアントから何か要求が来ない限り、ずっと 黙っている。

コンピュータを使う時には、人間が能動的になり、コンピュータが受動的にな る。

テレビを見ている時には、人間が受動的になり、テレビが能動的になる。

講義形式の授業では、サービスの授受では、教官がサーバで、学生がクライア ントになる。通信の開始の方法では、教官が能動的になり、学生が受動的にな る。

大学以上では、学生は、能動的になることが求められている。

■欲しい情報を探す

インターネット上にある膨大な情報から、必要な情報を見つけ出すためには、 次のような方法がある。

  • 興味のあるWWWページに埋め込まれているリンクを次々と手繰っていく。
  • 特定の分野についてのFAQやリンク集を参考にする。
  • 雑誌やテレビなど、一般のメディアに掲載されたURLを打ち込む。
  • よく整理されたメニュー(ディレクトリ)を次々に選択していく。
  • キーワードを打ち込んで探す(キーワード検索)。 検索対象のデータ(今の場合、WWWページ)にも、キーワードが与えられて いる。キーワード検索とは、利用者から与えられたキーワードを持つ対象デー タを利用者に返すことである。

リンク集 とは、他のページへのリンクを集めたWWWページ。 なにかWWWページを探したい時には、すぐに「キーワード検索」を思い浮か べるかもしれないが、実際には、 FAQ FAQやリンク集の方が速いことがある。

◆検索に必要な考え方

ヒット率と選択率

ヒット率
欲しかった情報のうち、どのくらい見つかったか。
選択率
見つかった情報のうち、どのくらいが本当に欲しかったものか。

図? ヒット率と選択率

図? ヒット率と選択率

あちらを立てればこちらが立たず。 トレードオフ。

3つの論理演算

  • AND、両方)、(&)
  • OR、どちらか、または (|)
  • NOT、否定、ふくまない (!)
外枠は、全体(インターネット上の膨大な数のWWWページ)を表す。 色が付いている所が、見つかったデータを表す。

「keyword1」で検索。

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

keyword1 OR keyword2 OR keyword3

図? キーワードを3つ与えた時(OR)

図? キーワードを3つ与えた時(OR)

NOT keyword1

図? キーワードを1つ与えた時(NOT)

図? キーワードを1つ与えた時(NOT)

キーワードを1つ与えた時の NOT は使えない。

NOT keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時(AND,NOT)

図? キーワードを3つ与えた時(AND,NOT)

NOT は、AND といっしょにつかう。 NOT 単独では、使えない。

◆絞込検索

絞込検索(しぼりこみけんさく)のイメージ

図? キーワードを1つ与えた時

図? キーワードを1つ与えた時

図? キーワードを2つ与えた時

図? キーワードを2つ与えた時

図? キーワードを3つ与えた時

図? キーワードを3つ与えた時

絞込検索は、実は、AND と同じ。

keyword1 AND keyword2 AND keyword3

図? キーワードを3つ与えた時 図? キーワードを3つ与えた時(AND)

図? キーワードを3つ与えた時(AND)

◆検索エンジンとWWWロボット

検索エンジン(サーチエンジン)
WWWで検索機能を使う時、実際に検索を行うプログラム。 インターネット上のあるWWWサーバで動いていてる。
検索結果は、手元のWWWブラウザの画面に表示される。

検索対象のデータにキーワードを与える方法

  • 内容すべてをキーワードと考える(全文検索)
  • 特定のキーワードを与える
    • WWWページを作った人がキーワードを与える
    • 検索エンジンの提供者(人間)がキーワードを与える
    • プログラムでキーワードを自動抽出する
自動抽出したものは、ヒット率はよいが選択率が悪い。 人間が整理したものは、選択率はよいがヒット率が悪い。
WWWロボット
WWWページからプログラムでキーワードを自動抽出するプログラム。
WWWロボットの動き
  1. ロボットは、あるURLが与えられると、そのページ を訪れる(ページの内容を得る)。
  2. 得たページの内容を解析して、キーワードを抽出する。
  3. そのページにリンクが含まれていたら、1 に戻って繰り返す。
このような繰り返しの方法を、コンピュータ・サイエンスの用語では 再帰(recursion) とう。ロボットは、世界中の WWWページを歩き回り、キーワードを抽出する。 ただし、一度訪れたことがあるページは記録しておいて、2度訪れないようす る。

■インターネットの規則、習慣、文化

◆RFC

インターネットで使われている通信プロトコルやその他の規則は、 RFC (Request For Comments) と呼ばれる文書にまとめられている。たとえば、IP については、RFC791、TCP については、RFC793、DNS については、RFC1034, RFC1035 などで記述されて いる。

RFC には、標準や規則の他に、 FYI (For Your Information) が含まれている。RFC として発行されると、世界中の様々な場所にきちんと 管理されて保存される。FYI は、この性質を使っ て、大勢の人が必要とするような文章を提供するものである。

◆AUP

インターネットは、さまざまなネットワークが相互接続されている。普通、 それぞれのネットワークには、資金提供者や管理者がいて、それぞれ独自の AUP を定めている。 AUP(Acceptable Use Policy) とは、「受け入れ可能なネットワークの利用目的」を意味する。 日本語では、否定を使って 「利用制限」と言った方がわかりやすい。

AUP Free とは、利用制限がなく、どんな目的に利用してもいいという意味になる(ただ し、法律の目から逃れられるものではない)。

SINET など、利用が非営利目的に制 限されているネットワークがある。

ネットワークの AUP の他に、ネットワーク・ニュースのニュース・グループ やメーリング・リストにも AUP がある。たとえば、fj.* には、 非営利目的 の記事のみ投稿可能という AUP がある。「非営利」とは、企業からの広告を 禁止しているという意味で、製品の話題をしてはいけないということではない。 たとえば、あるコンピュータのユーザが質問を投稿して、そのメーカ の人が答えることは、問題ないとされている。

◆法律

インターネットを利用する時でも、日本国内にあるコンピュータを通じてイン ターネットを利用する時には、日本国内の法律が適用される。

特に、注意すべき法律は、 著作権法 である。法律については、別の日の講義で述べる。

◆ネチケット

法律や RFC にするにはな じまないが、守りたい礼儀・作法・行儀を、 ネチケット(netiquette) とう。これは、ネットワークとエチケットから作られた言葉である。

ネチケットといっても、それほど特別なことはなく、基本は、「現実社 会の常識は、インターネットでもそのまま通じる」と考えるとよい。

「ネットの前ではみな平等」という考え方もありますが、常に有効というわけ ではなくて、時と場合による。

◆FAQ

インターネット上の重要な情報源に FAQ がある。 FAQ は、もともとは、 Frequently Asked Questions の略で、「よくある質問」という意味である。実際には質問だけでなく て答えもいっしょに書かれている。実用的で非常に品質がよい情報 が集まっていることが多いので、質問したいことがなくても、自分の興味がある 分野の FAQ を探して読むことはよい勉強になる。

FAQ を作る活動は、ネットワーク・ニュースでよく行なわる。 繰り返しなされる質問をまとめて定期的に投稿することで、記事の質を 高めることができる。ソフトウェアの説明書としても、 単に機能を説明したマニュアルとは別に FAQ 形式の説明書が作られることがある。

FAQ を探して読むことは大事だが、FAQ にある質問をしてはいけないというこ とない。

◆インターネットの文化

インターネットには、「このネットワークを活用し発展させる人々のコミュニ ティ」という意味がある。コミュニティーには、当然文化がある。インターネッ トでも独自の文化があります。

Give and Take が大事にされる

お金を払っている客の場合は、take ばかりしていてよい。しかし、インター ネットの参加者としては、take ばかりではなく、自分の得意とする分野につ いて give をすることが大事になる。

主人公は、組織ではなく個人である

電子メールやネットワーク・ニュースの記事の差出人や署名に組織の名前が入っ ていたとしても、メッセージの内容の責任は個人に還元される。 (異論もある)

◆問題点

政府による規制、不正アクセスの問題がある。

続きは、法律の回で。


↑[もどる] ←[10月17日] ・[10月24日] →[10月31日]
Last updated: 2000/10/24 00:56:39
Yasushi Shinjo / <yas@is.tsukuba.ac.jp>