Tải bản đầy đủ

Sử dụng thông tin gần kề vị trí trong khảo duyệt web theo phương thức mạng ngang hàng

i

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÙI THỊ LỆ HẰNG

SỬ DỤNG THÔNG TIN GẦN KỀ VỊ TRÍ TRONG KHẢO
DUYỆT WEB THEO PHƯƠNG THỨC MẠNG NGANG
HÀNG

LUẬN VĂN THẠC SĨ

Hà Nội - 2009


ii

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá nhân. Trong toàn
bộ nội dung của luận văn, những điều đƣợc trình bầy hoặc là của cá nhân hoặc là đƣợc tổng

hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích
dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam
đoan của mình.
Hà Nội, ngày tháng 12 năm 2009
Người cam đoan

Bùi Thị Lệ Hằng


iii

LỜI CẢM ƠN
Trong quá trình học tập và hoàn thành luận văn tốt nghiệp, tôi đã nhận đƣợc rẩt nhiều sự giúp
đỡ, động viên từ thầy cô, gia đình và bạn bè. Tôi muốn bày tỏ sự tri ân sâu sắc của mình tới
tất cả trong quyển luận văn này.
Tôi xin bày tỏ sự cám ơn đặc biệt tới TS Nguyễn Đại Thọ, ngƣời đã định hƣớng cho tôi trong
lựa chọn đề tài, đƣa ra những nhận xét quý giá và trực tiếp hƣớng dẫn tôi trong suốt quá trình
nghiên cứu và hoàn thành luận văn tốt nghiệp.
Tôi xin cảm ơn các thầy cô trong khoa CNTT - Trƣờng Đại học Công nghệ - ĐHQG Hà Nội
đã truyền kiến thức cho tôi trong suốt khoảng thời gian học tập tại trƣờng.
Tôi xin cảm ơn toàn thể bạn bè đồng nghiệp tại Trung tâm Công nghệ Thông tin Ngân hàng
Đầu tƣ và Phát triển Việt Nam, đơn vị mà tôi đang công tác, đã chia sẻ, giúp đỡ tạo điều kiện
cho tôi tham gia khoá học và hoàn thành khoá luận này. Xin cảm ơn tất cả những bạn bè đã
giúp đỡ tôi trong suốt quá trình học tập và công tác.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất tới gia đình của mình, nguồn động viên và cổ
vũ lớn lao, và là động lực giúp tôi thành công trong công việc và trong cuộc sống.
Hà Nội, ngày tháng 12 năm 2009

Bùi Thị Lệ Hằng

MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ .............................................i
DANH MỤC CÁC BẢNG BIỂU ............................................................................. ii
DANH MỤC HÌNH VẼ ........................................................................................... iii
MỞ ĐẦU .................................................................................................................... 5
Chƣơng 1: MẠNG NGANG HÀNG CÓ CẤU TRÚC....... Error! Bookmark not defined.

1.1

Khái quát về mạng ngang hàng ......... Error! Bookmark not defined.


iv
1.2

Mạng ngang hàng có cấu trúc ............ Error! Bookmark not defined.

1.3
CHORD - Mạng ngang hàng dựa có cấu trúc dựa trên DHT .... Error!
Bookmark not defined.
1.4

Kết luận.............................................. Error! Bookmark not defined.

Chƣơng 2: KHẢO DUYỆT WEB THEO KIẾN TRÚC MẠNG NGANG HÀNG
.................................................................................. Error! Bookmark not defined.
2.1.

Giới thiệu chung ................................ Error! Bookmark not defined.

2.2.

Giới thiệu về khảo duyệt web ............ Error! Bookmark not defined.

2.3
Khảo duyệt web theo kiến trúc mạng ngang hàngError! Bookmark
not defined.
2.3.

Kiến trúc khảo duyệt Apoidea ........... Error! Bookmark not defined.

2.4.

Kết luận.............................................. Error! Bookmark not defined.

Chƣơng 3: SỬ DỤNG THÔNG TIN GẦN KỀ VỊ TRÍ TRONG MẠNG NGANG
HÀNG CÓ CẤU TRÚC ........................................... Error! Bookmark not defined.
3.1
defined.

Giới thiệu chung về thông tin gần kề vị tríError!

3.2

Thiết kế mô hình LDHT .................... Error! Bookmark not defined.

3.3

Đánh giá hiệu suất LDHT.................. Error! Bookmark not defined.

3.4

Kết luận.............................................. Error! Bookmark not defined.

Bookmark

not

Chƣơng 4: GIẢI PHÁP SỬ DỤNG THÔNG TIN LIỀN KỀ VỊ TRÍ TRONG
KHẢO DUYỆT WEB NGANG HÀNG .................. Error! Bookmark not defined.
4.1

Mô hình mạng phủ D-Chord ............. Error! Bookmark not defined.

4.2

Kiến trúc hệ thống D-Apoidea .......... Error! Bookmark not defined.

4.3

Ổn định mạng trong D-Chord ........... Error! Bookmark not defined.

4.4

Đánh giá hệ thống D-Apoidea ........... Error! Bookmark not defined.

CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂNError!
defined.

Bookmark

not

TÀI LIỆU THAM KHẢO .......................................................................................... 6


i

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
ASN
Bloom filter
Bootstrap peer

Autonomous System Number
Bloom filter
Bootstrap peer

Crawler

Crawler

Crawling web
Decentralized
P2P system
DHT
Distributed
crawler
DNS
NFS
LDHT

Crawling web
Decentralized P2P system
Distributed Hash Table
Distributed crawler

Overlay network
RTT

Tên miền Name System
Network File System
Locality-aware Distributed
Hash Table
Overlay network
Round trip time

P2P
Peer
Trade-off

peer to peer
Peer
Trade-off

URL
WWW

Uniform Resource Locator
World Wide Web

Số hiệu của nhà cung cấp dịch vụ mạng
Bộ lọc bloom
Là nút môi giới trong mạng bao phủ
dùng để cung cấp các thông tin ban đầu
về cấu hình cho các nút mới gia nhập
vào mạng.
Bộ thu thập thông tin, là một chƣơng
trình tự động duyệt qua các cấu trúc siêu
liên kết để thu thập tài liệu & một cách
đệ quy nó nhận về tất cả tài liệu có liên
kết với tài liệu này
Khảo duyệt web
Hệ thống mạng ngang hàng phi tập
trung
Bảng băm phân tán
Bộ thu thập thông tin phân tán
Là hệ thống phân giải tên miền
Network File System
Tính liền kề vị trí trong DHT
Mạng bao phủ
Là thời gian tính từ khi một gói tin đƣợc
gửi đi cho đến khi bên gửi nhận về ACK
Mạng ngang hàng
Nút
Sự thỏa hiệp, việc cân bằng giữa các yếu
tố khác nhau để đạt đƣợc 1 sự kết hợp
tốt nhất.
Địa chỉ URL
World Wide Web


ii

DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Bảng định nghĩa các trƣờng trong bảng định tuyến của Chord .......... Error!
Bookmark not defined.
Bảng 2 . Độ dài đƣờng đi trung bình (ms) trong LDHTError!
defined.

Bookmark

not

Bảng 3. RDP trung bình trong LDHT ...................... Error! Bookmark not defined.
Bảng 4. Bảng chứa thông tin định tuyến trong D-ChordError!
defined.

Bookmark

not

Bảng 5. Danh sách các nhà cung cấp dịch vụ AS của các nút khảo duyệt ...... Error!
Bookmark not defined.
Bảng 6. Giá trị băm của các nút và tên miền trên thực tếError!
defined.

Bookmark

not


iii

DANH MỤC HÌNH VẼ
Hình 1. Mạng bao phủ .............................................. Error! Bookmark not defined.
Hình 2. Phân loại mạng ngang hàng......................... Error! Bookmark not defined.
Hình 3. Bảng băm phân tán ...................................... Error! Bookmark not defined.
Hình 4. Không gian khoá đƣợc phân hoạch cho 8 nútError!
defined.

Bookmark

not

Hình 5. Mạng Chord với n = 3 ................................. Error! Bookmark not defined.
Hình 6. Lƣu giữ khoá trong mạng Chord ................. Error! Bookmark not defined.
Hình 7. Bảng định tuyến và các khóa lƣu giữ khi 6 tham giaError! Bookmark not
defined.
Hình 8. Bảng định tuyến và các khóa lƣu giữ khi nút 3 rời khỏi mạng ........... Error!
Bookmark not defined.
Hình 9. Bộ lọc bloom có 3 hàm băm........................ Error! Bookmark not defined.
Hình 10. Phân chia công việc trong Apoidea ........... Error! Bookmark not defined.
Hình 11. Kiểm tra trùng lặp nội dung trong ApodieaError!
defined.

Bookmark

not

Hình 12. Kiến trúc hệ thống tại một nút Apoidea .... Error! Bookmark not defined.
Hình 13. Lƣu đồ thực hiện của LDHT ..................... Error! Bookmark not defined.
Hình 14. Mô hình mạng phủ D-Chord ..................... Error! Bookmark not defined.
Hình 15. Ví dụ về danh sách ánh xạ của từng nút .... Error! Bookmark not defined.
Hình 16. Quá trình tìm kiếm trên vòng L-Chord. Nút tìm kiếm là nút A, id = 15
.................................................................................. Error! Bookmark not defined.
Hình 17. Quá trình tìm kiếm trên vòng V-Chord. Nút tìm kiếm là nút A, id = 7
.................................................................................. Error! Bookmark not defined.
Hình 18. Mạng D-Chord trong trƣờng hợp chƣa có nút DError! Bookmark not
defined.
Hình 19. Kết quả sau khi nút D chạy hàm L_init_finger_table(A) .................. Error!
Bookmark not defined.
Hình 20. Kết quả sau khi nút D chạy hàm L_update_others()Error! Bookmark not
defined.
Hình 21. Kết quả sau khi nút D chạy hàm update_other_mapping_list () ....... Error!
Bookmark not defined.


iv
Hình 22. Mô hình hệ thống D-Apoidea.................... Error! Bookmark not defined.
Hình 23. Mô hình phân chia công việc trên vòng V-ChordError! Bookmark not
defined.
Hình 24. Phần mềm Gnuplot .................................... Error! Bookmark not defined.
Hình 25. Không gian định danh khoá với 4 nút ....... Error! Bookmark not defined.
Hình 26. Tổng dung lƣợng khảo duyệt hut.edu.vn theo thời gian từ ở Việt Nam,
Nhật, Anh, Mỹ. ......................................................... Error! Bookmark not defined.
Hình 27. Tổng dung lƣợng khảo duyệt theo thời gian đối với từng tên miền của
Apoidea và D-Apoidea. ............................................ Error! Bookmark not defined.
Hình 28. So sánh tổng dung lƣợng khảo duyệt đƣợc theo thời gian Apoidiea và DApoidea..................................................................... Error! Bookmark not defined.
Hình 29. So sánh băng thông trung bình tại từng nút theo thời gian Apoidiea và DApoidea..................................................................... Error! Bookmark not defined.
Hình 30. So sánh URL trung bình khảo duyệt đƣợc tại từng nút trong 1 giây Error!
Bookmark not defined.
Hình 31. So sánh tổng URL khảo duyệt đƣợc theo thời gianError! Bookmark not
defined.


5

MỞĐẦU
Công nghệ máy tìm kiếm đóng vai trò vô cùng quan trọng trong quá trính lớn mạnh của WWW.
Khả năng tìm kiếm đƣợc nội dung mong muốn giữa một lƣợng lớn dữ liệu khổng lồ giúp ích rất
nhiều trong mọi lĩnh vực. Một thành phần quan trọng trong công nghệ này là chính là quá trình thu
thập thông tin hay còn gọi là khảo duyệt. Quá trình khảo duyệt chính là quá trình xem xét WWW
bằng cách lần theo các hyperlink và lƣu trữ các trang web đã tải về. Hiện nay, hầu hết các hệ thống
khảo duyệt web hiện nay nhƣ Google [5], Mercator [6] đều sử dụng mô hình client/server. Với mô
hình này, việc khảo duyệt đƣợc thực hiện thông qua một hoặc nhiều máy có liên hệ chặt chẽ để
phân chia công việc thu thập và kết quả thu đƣợc sẽ đƣợc quản lý trong hệ thống tập trung. Giải
pháp tập trung hóa đƣợc biết đến có nhiều vấn đề nhƣ tắc nghẽn tại các nút dẫn tới hiện tƣợng thắt
nút cổ chai, điểm duy trì kết nối bị lỗi có thể khiến toàn hệ thống sụp đổ và việc quản trị là khá tốn
kém.
Với sự phát triển thành công của các ứng dụng nhƣ Gnutella, Kazaa, và Freenet,… công nghệ
mạng ngang hàng đã đƣợc nhìn nhận lại ở tầm cao hơn trong một vài năm qua. Các hệ thống ngang
hàng là các hệ thống tính toán phân tán mà trong đó các nút tham gia kết nối trực tiếp với nhau để
thực hiện nhiệm vụ phân phối hoặc trao đổi thông tin hoặc thực thi nhiệm vụ. Mạng ngang hàng
dựa trên DHT là một trong các hệ thống ngang hàng có cấu trúc và đóng vai trò quan trọng trong
quá trình định tuyến. Kiến trúc mạng ngang hàng dựa trên DHT nhƣ Chord [3], CAN [8], Tapestry
[10], Pastry [11] có một số đặc điểm đối lập so với kiến trúc client/server truyền thống, vì kiến trúc
này có khả năng mở rộng trên phạm vi rộng lớn, nên các ứng dụng có đƣợc các đặc tính mong
muốn nhƣ khả năng mở rộng, tự quản lý, tự tổ chức… Mặc dù các ứng dụng nhƣ tên miền chia sẻ
file và hệ thống lƣu trữ đã thu đƣợc nhiều lợi ích từ việc sử dụng kiến trúc mạng ngang hàng
nhƣng vẫn chƣa đạt đến thành các ứng dụng cốt lõi và nhiều dịch vụ sử dụng công nghệ ngang
hàng ở quy mô toàn cầu. Lý do chính ở đây là các hệ thống khó đáp ứng đƣợc cả hai yêu cầu: khả
năng mở rộng, và thông tin gần kề vị trí.
Cân bằng hệ thống là điều kiện cần thiết cho khả năng mở rộng trên mạng dựa trên DHT gồm cân
bằng định tuyến và cân bằng tải. Tính năng cân bằng tải của hệ thống DHT đã đƣợc giới thiệu
trong khá nhiều các nghiên cứu nhƣ [3]. Với yêu cầu thứ hai là khái niệm gần kề vị trí đƣợc hiểu là
nút trong hệ thống DHT phải đƣợc phân bố theo cấu trúc topo mạng. Các nút trong mạng phủ đƣợc
bố trí làm sao có thể phản ánh chính là mô hình trên mạng vật lý thật. Để làm đƣợc điều này, mạng
phủ cần có thông tin về về vị trí và không gian giữa các nút kề nhau. Khái niệm về gần kề vị trí
cũng đã đƣợc đề cập trong [4] đƣợc gọi là LDHT. Tác giả [4]


6

TÀI LIỆU THAM KHẢO
[1] Singh, A., Srivatsa, M., Liu, L., and Miller, T. Apoidea: A decentralized peer-to-peer
architecture for crawling the world wide web. In Proceedings of the SIGIR 2003 Workshop on
Distributed Information Retrieval (Aug. 2003).
[2] Efthymiopoulos Nikolaos, Christakidis Athanasios, Denazis Spiros, Koufopavlou Odysseas,
Enabling locality in a balanced peer-to-peer overlay, Global Telecommunications Conference,
2006.
[3] I. Stoica, R. Morris, D. Karger, M.F. Kaashoek, H. Balakrisnan, “Chord: A Scalable peer-topeer lookup service for Internet applications”, IEEE/ACM Transactions on Networking, 2003
[4] Weiyu WU, Yang Chen, Xinyi Zhang, Xiaohui Shi, Lin Cong, Beixing Deng, Xing Li. LDHT:
Locality-aware Distributed Hash Tables. In Proc. of the International Conference on
Information Networking 2008 (ICOIN’08), Busan, Korea, Jan. 2008
[5] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web máy tìm kiếm.
Computer Networks and ISDN Systems, 1998.
[6] Allan Heydon and Marc Najork. Mercator: A scalable, extensible web crawler. World Wide
Web, 1999.
[7] Burton Bloom. Space/time trade-offs in hash coding with allowable errors. Communications of
the ACM, July 1970.
[8] S. Ratnasamy, P. Francis, M. Handley and R. Karp, “A Scalable Content-Addressable
Network”, In Proceedings of ACM SIGCOMM’01, Aug. 2001
[9] M. Castro, P. Druschel, Y. C. Hu, and A. Rowstron. Exploiting network proximity in peer-topeer overlay networks, 2002. Submitted for publication.
[10] B. Y. Zhao, L. Huang, J. Stribling, S. C. Rhea, A. D. Joseph, and J. D.Kubiatowicz,
“Tapestry: A resilient global-scale overlay for service deployment” IEEE Journal on Selected
Areas in Communications, January 2004.
[11] Antony Rowstron and Peter Druschel, “Pastry: Scalable, decentralized object location and
routing for large-scale peer-to-peer systems” in Proc. IFIP/ACM International Conference on
Distributed Systems Platforms (Middleware’01), 2001.
[12] Jiping Xiong, Youwei Zhang, Peilin Hong and Jinsheng Li, “Chord6: IPv6 based topologyaware Chord,” in Proc. ICNS’05, 2005.
[13] Shuheng Zhou, Gregory R. Ganger and Peter Steenkiste, “Locationbased node IDs: enabling
explicit locality in DHTs,” Carnegie Mellon University, Tech. Rep. CMU-CS-03-171, 2003.
[14]

http://www.cc.gatech.edu/projects/disl/Apoidea/

[15]

http://build.software.informer.com/download-build-p2p-web-crawler-source/


7
[16]

The GT-ITM homepage: http://www.cc.gatech.edu/projects/gtitm/.

[17]

The PlanetLab homepage: http://www.planet-lab.org.

[18] Nguyễn Đại Thọ, Bài giảng công nghệ mạng ngang hàng, Bộ môn Mạng & Truyền thông
Máy tính Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội,
2006-2007Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×