Tải bản đầy đủ

Nghiên cứu ứng dụng của khai phá dữ liệu đồ thị trong phân tích phát hiện cấu trúc cộng đồng trên mạng xã hội

BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SĨ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
ĐỒ THỊ TRONG VIỆC PHÂN TÍCH PHÁT HIỆN CẤU
TRÚC CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI

NGUYỄN MINH DŨNG

HÀ NỘI - 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SĨ
NGHIÊN CỨU ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU
ĐỒ THỊ TRONG VIỆC PHÂN TÍCH PHÁT HIỆN CẤU

TRÚC CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI

NGUYỄN MINH DŨNG
CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018
HƯỚNG DẪN KHOA HỌC: TS. TRƯƠNG TIẾN TÙNG

HÀ NỘI - 2016


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá
nhân tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng
hợp và thực hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một
số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Các số
liệu, chương trình phần mềm và những kết quả trong luận văn là trung
thực và chưa được công bố trong bất kỳ một công trình nào khác.

Hà Nội, ngày

tháng năm 2016

Học viên thực hiện

Nguyễn Minh Dũng

2


LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến TS. Trương Tiến Tùng
người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em trong suốt quá trình làm
luận văn.
Em cũng xin gửi lời cảm ơn đến các thầy cô giảng dạy và các thầy cô
trong Khoa Đào Tạo Sau Đại Học đã truyền đạt những kiến thức và giúp đỡ
em trong suốt quá trình học của mình.
Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và
bạn bè những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để
em có được kết quả như ngày hôm nay.


Hà Nội, ngày

tháng năm 2016

Học viên thực hiện

Nguyễn Minh Dũng

3


MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. 1
LỜI CẢM ƠN .................................................................................................... 3
MỤC LỤC ......................................................................................................... 4
DANH MỤC CÁC TỪ VIẾT TẮT .................................................................... 6
DANH MỤC CÁC HÌNH VẼ ............................................................................ 7
LỜI MỞ ĐẦU .................................................................................................... 9
CHƯƠNG 1. MẠNG XÃ HỘI ......................................................................... 12
1.1. Giới thiệu mạng xã hội ................................................................ 12
1.2. Cộng đồng mạng xã hội ............................................................... 17
1.3. Đồ thị mạng xã hội ...................................................................... 20
1.4. Một số kỹ thuật phát hiện cộng đồng mạng xã hội ....................... 21
1.5. Kết luận ....................................................................................... 23
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI ... 24

2.1. Một số độ đo khoảng cách trên đồ thị mạng xã hội ...................... 24
2.1.1. Độ đo trung gian của đỉnh ...................................................... 24
2.1.2. Độ đo trung gian của cạnh ..................................................... 25
2.2. Thuật toán GIRVAN-NEWMAN (GN) ....................................... 27
2.2.1. Phát hiện cấu trúc cộng đồng mạng xã hội dùng độ đo
khoảng cách trên đồ thị mạng xã hội................................................ 30
2.2.2. Phương pháp tính độ đo trung gian trên đồ thị mạng xã hội ... 32
2.3. Phân tích phát hiện cộng đồng mạng xã hội ................................. 34
2.3.1. Clique .................................................................................... 34
2.3.2. Clique cực đại ........................................................................ 34
2.3.3. K-Cliques............................................................................... 35
2.3.4. Thuật toán phát hiện Clique cực đại ....................................... 36

4


2.4. Kết luận ....................................................................................... 46
CHƯƠNG 3. TRIỂN KHAI THỬ NGHIỆM CHƯƠNG TRÌNH ỨNG DỤNG
PHÂN TÍCH PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI ........................... 47
3.1. Giới thiệu .................................................................................... 47
3.2. Dữ liệu đã được công bố .............................................................. 48
3.3. Phân tích phát hiện cộng đồng mạng xã hội ................................. 48
3.4. Kết quả chương trình ứng dụng ................................................... 53
3.5. Kết luận ....................................................................................... 53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................ 54
TÀI LIỆU THAM KHẢO ................................................................................ 55
PHỤ LỤC ........................................................................................................ 57

5


DANH MỤC CÁC TỪ VIẾT TẮT
TỪ VIẾT TẮT

TIẾNG ANH

TIẾNG VIỆT

SFI

Santa Fe

Viện Santa Fe
Thuật toán

GN

GIRVAN-NEWMAN

BFS

Breadth-First Search

DAG

Directed Acyclic Graph

Đồ thị định hướng

Maximum Clique

Bài toán

Problem

Tối ưu Clique cực đại

MCP

6

GIRVAN-NEWMAN
Phương pháp duyệt theo
chiều rộng


DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mạng xã hội ................................................................................... 12
Hình 1.2 Mạng xã hội Facebook................................................................... 13
Hình 1.3 Mạng xã hội Twitter ...................................................................... 14
Hình 1.4 Mạng xã hội Zing me ..................................................................... 15
Hình 1.5 Mạng xã hội Zalo........................................................................... 15
Hình 1.6 Ví dụ cộng đồng mạng xã hội… .................................................... 17
Hình 1.7 Ví dụ về một đồ thị đơn giản với 3 cộng đồng được giới hạn bằng
nét gạch nối ........................................................................................... 17
Hình 1.8 Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI
……………………………………………………………………………….18
Hình 2.1 Đồ thị có 4 đỉnh và 5 cung ............................................................. 24
Hình 2.2 Đồ thị mạng xã hội đơn giản gồm 7 nút ......................................... 26
Hình 2.3 Bước 1 của thuật toán Girvan-Newman trên đồ thị ........................ 28
Hình 2.4 Bước cuối của thuật toán GN mức 3 và 2....................................... 29
Hình 2.5 Bước cuối của thuật toán GN ......................................................... 30
Hình 2.6 Độ đo trung gian của đồ thị............................................................ 31
Hình 2.7 Tính độ trung gian của các cạnh .................................................... 33
Hình 2.8 Ví dụ chỉ số Clique của đồ thị G .................................................... 35
Hình 2.9 Phân cấp các thuật toán.................................................................. 38
Hình 2.10 Đồ thị G có 16 đỉnh ..................................................................... 44
Hình 3.1 Mạng xã hội LinkedIn ................................................................... 47
Hình 3.2 Giao diện CFinder ......................................................................... 49
Hình 3.3 Cộng đồng mạng được tìm thấy bằng CFinder ............................... 49
Hình 3.4 Kích thước Clique = 3,4,5,6,7 ........................................................ 50
Hình 3.5 Cộng đồng mạng với Clique cực đại k = 3 ..................................... 50
Hình 3.6 Cộng đồng mạng với Clique cực đại k = 4 ..................................... 51

7


Hình 3.7 Cộng đồng mạng với Clique cực đại k = 5 ..................................... 51
Hình 3.8 Cộng đồng mạng với Clique cực đại k = 6 ..................................... 52
Hình 3.9 Cộng đồng mạng với Clique cực đại k = 7 ..................................... 52

8


LỜI MỞ ĐẦU
1. Tính cấp thiết của đề tài
Sự ra đời của dữ liệu lớn đã thúc đẩy sự phát triển các phương pháp, kỹ
thuật khai phá dữ liệu bởi kích thước dữ liệu lớn hơn rất nhiều và thông tin
ngày càng phức tạp đa dạng, thường xuyên biến động mở rộng về bản chất và
nội dung của dữ liệu.
Bài toán khai phá, tìm kiếm tập phổ biến được sử dụng để giải quyết rất
nhiều vấn đề quan trọng trong khai phá dữ liệu nhằm chỉ ra các tính chất ẩn,
các mối tương quan tiềm ẩn quan trọng của tập dữ liệu. Gần đây, các kỹ thuật
khai phá dữ liệu có cấu trúc phát triển nhằm nâng cao hiệu quả ứng dụng
trong những lĩnh vực không truyền thống như tin sinh, tin hóa, hệ thống các
mạng xã hội,… do các kỹ thuật khai phá dữ liệu truyền thống này (phân
lớp/phân cụm, duyệt theo chiều rộng, duyệt theo chiều sâu,...) không còn phù
hợp và hiệu quả, cũng như không thể mô hình yêu cầu của các lĩnh vực này.
Phương pháp đồ thị được sử dụng phổ biến và hiệu quả để biểu diễn dữ
liệu và thể hiện sự tương tác giữa các thành phần của dữ liệu. Dữ liệu đồ thị
giúp ta có thể trực quan, mô hình hóa dữ liệu có cấu trúc và các quan hệ
tương tác vô cùng phức tạp trong dữ liệu lớn. Khai phá dữ liệu đồ thị là việc
trích, rút tri thức hữu ích và mới mẻ từ dữ liệu biểu diễn dưới dạng đồ thị.
Một trong những môi trường được quan tâm nghiên cứu hiện nay là
khai phá dữ liệu trong môi trường mạng xã hội. Mạng xã hội là một tập hợp
các thực thể được kết nối với nhau bằng một tập hợp các mối quan hệ, liên
kết. Ví dụ quan hệ bạn bè, gia đình, cộng sự hay trao đổi thông tin,… Khi đề
cập đến mạng xã hội, người ta thường nghĩ đến mạng Facebook, Twitter,
Google+,… thực chất đó là một loại mạng đại diện cho một lớp rộng hơn của
các mạng được gọi là xã hội. Cấu trúc mạng được cấu tạo nên từ các nút
mạng và các nút liên kết. Nút mạng là một thực thể còn liên kết là mối quan
9


hệ giữa các thực thể tham gia vào mạng. Trong mạng có nhiều kiểu liên kết
như liên kết vô hướng, liên kết một chiều, liên kết hai chiều,… Mạng xã hội
được biểu diễn chủ yếu dưới hai dạng: Đồ thị và ma trận. Trong bài toán phân
tích mạng các biểu diễn mạng dưới dạng đồ thị được sử dụng nhiều hơn.
Trong dữ liệu đồ thị biểu diễn mạng xã hội, các đỉnh là các nút mạng còn các
cạnh được xây dựng dựa trên các liên kết.
Tính chất cộng đồng là tính chất quan trọng của mạng xã hội và được
các nhà khoa học rất quan tâm, nghiên cứu. Theo Simmel (1955) thì cộng
đồng là một nhóm các cá nhân trên mạng, tập các thực thể có tính chất tương
tự nhau và cùng đóng một vai trò trong mạng xã hội. Bài toán phát hiện cộng
đồng trên mạng xã hội cho trước là tìm cấu trúc cộng đồng nằm trong đó và
tìm hiểu về mối liên hệ bên trong các cộng đồng cũng như giữa các cộng đồng
với nhau, mối liên hệ đó ảnh hưởng thế nào đến cấu trúc mạng xã hội. Khai
phá cấu trúc cộng đồng mạng xã hội là một lĩnh vực nghiên cứu mới trong đó
tập trung vào phát hiện và tìm ra đặc tính của cấu trúc mạng đã nhận được
nhiều quan tâm trong những năm qua. Phát hiện cấu trúc cộng đồng tập trung
chủ yếu vào việc từ đồ thị mạng xã hội tìm ra những cụm, nhóm cộng đồng,...
có mối liên hệ chặt chẽ với nhau.
Nhằm giải quyết vấn đề đặt ra trong bối cảnh nêu trên, tôi đề xuất đề tài
“Nghiên cứu ứng dụng của khai phá dữ liệu đồ thị trong việc phân tích
phát hiện cấu trúc cộng đồng trên mạng xã hội” là đề tài nghiên cứu của
mình.
2. Mục tiêu của luận văn
Bài toán tìm kiếm đồ thị con phổ biến là bài toán rất quan trọng trong
lĩnh vực khai phá dữ liệu nhằm chỉ ra các tính chất ẩn, các mối tương quan
tiềm ẩn nhưng cực kỳ quan trọng của tập dữ liệu. Một trong các cách biểu
diễn dữ liệu và thể hiện được sự tương tác giữa các thành phần của dữ liệu
được sử dụng phổ biến ngày nay là phương pháp đồ thị. Biểu diễn dữ liệu
10


bằng đồ thị có thể hỗ trợ tất cả các khía cạnh của tiến trình khai phá dữ liệu và
khai phá dữ liệu đồ thị là một trong những cách tiếp cận hứa hẹn hiệu quả
nhất để khai phá tri thức từ tập dữ liệu lớn. Những mục tiêu nghiên cứu của
tôi trong luận văn này là:
• Tìm hiểu được các kiến thức cơ bản về mạng xã hội, cấu trúc cộng
đồng trên mạng xã hội, các phương pháp tìm cấu trúc cộng đồng trên
mạng xã hội.
• Nghiên cứu được độ đo khoảng cách trên đồ thị mạng xã hội.
• Vận dụng sử dụng độ đo khoảng cách trên đồ thị để tìm được các cấu
trúc cộng đồng trên mạng xã hội.
• Xây dựng được ứng dụng phát hiện cộng đồng trên mạng xã hội.
• Thực hiện được phần đánh giá mạnh yếu của các cấu trúc cộng đồng
mạng xã hội để từ đó dựa vào độ mạnh yếu của các cấu trúc cộng đồng
trên mạng xã hội để đưa ra các tư vấn chính xác.
• Xây dựng ứng dụng phát hiện cộng đồng mạng xã hội ở tập dữ liệu đã
được công bố trên mạng.
Luận văn tập trung nghiên cứu phát triển các kỹ thuật khai phá dữ liệu
đồ thị, các thuật toán phát hiện cấu trúc cộng đồng của mạng xã hội.
3. Bố cục của luận văn
Bao gồm các nội dung chính:
LỜI MỞ ĐẦU
CHƯƠNG 1. MẠNG XÃ HỘI
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI
CHƯƠNG 3. TRIỂN KHAI THỬ NGHIỆM CHƯƠNG TRÌNH ỨNG DỤNG
PHÂN TÍCH PHÁT HIỆN CỘNG ĐỒNG MẠNG XÃ HỘI

11


CHƯƠNG 1. MẠNG XÃ HỘI
1.1. Giới thiệu mạng xã hội
Mạng xã hội là một tập hợp các thực thể được kết nối với nhau bằng
một tập hợp các mối quan hệ, liên kết. Ví dụ quan hệ bạn bè, gia đình, đồng
nghiệp hay trao đổi thông tin,… Khi nói đến mạng xã hội, ta thường nghĩ đến
Facebook, Twitter, Google+, Zalo,…

Hình 1.1. Mạng xã hội
Hiện nay, mạng xã hội trở thành một nhu cầu phổ biến của nhiều người
trên toàn thế giới. Mạng xã hội không chỉ là nơi để con người trao đổi thông
tin, giải trí, kết nối bạn bè, mà theo thời gian mạng xã hội đã nhanh chóng trở

12


thành một kênh cung cấp những tin tức hàng ngày. Mạng xã hội có một số
chức năng như tán gẫu, thư điện tử, phim ảnh, voice chat, chia sẻ file, blog.
Trên thế giới có hàng trăm mạng xã hội khác nhau, với MySpace và
Facebook nổi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu; Orkut và Hi5 tại
Nam Mỹ; Friendster tại Châu Á và các đảo quốc Thái Bình Dương. Mạng xã
hội khác gặt hái được thành công đáng kể theo vùng miền như Bebo tại Anh
Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và Zing me tại Việt Nam.

Hình 1.2. Mạng xã hội Facebook
Mạng xã hội Facebook được coi là mạng xã hội phổ biến nhất hiện nay,
Facebook là một mạng xã hội truy cập miễn phí do công ty Facebook, Inc
điều hành. Người sử dụng có thể tham gia các mạng lưới được tổ chức theo
thành phố, nơi làm việc, trường học và khu vực để liên kết và giao tiếp với
người khác trên thế giới. Mọi người cũng có thể kết bạn và gửi tin nhắn cho
nhau, và cập nhật hồ sơ của mình để thông báo cho bạn bè biết. Tên của
Facebook nhắc tới những cuốn sổ lưu niệm dùng để ghi tên những thành viên

13


của cộng đồng campus mà một số trường đại học và cao đẳng tại Mỹ đưa cho
các sinh viên mới vào trường, phòng ban, và nhân viên để có thể làm quen với
nhau tại khuôn viên trường.

Hình 1.3. Mạng xã hội Twitter
Twitter là một dịch vụ mạng xã hội trực tuyến miễn phí cho phép người
sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweets, một dạng tiểu
blog. Những mẩu tweet được giới hạn tối đa 140 ký tự được lan truyền nhanh
chóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được trưng rộng
rãi cho mọi người. Thành lập từ năm 2006, Twitter đã trở thành một hiện
tượng phố biến toàn cầu. Những tweet có thể chỉ là dòng tin vặt cá nhân cho
đến những cập nhật thời sự tại chỗ kịp thời và nhanh chóng hơn cả truyền
thông chính thống.

14


Hình 1.4. Mạng xã hội Zing me
Zing me là một trong những mạng xã hội được sử dụng phổ biến hiện
nay tại Việt Nam, nó có khả năng kết nối người dùng trên phạm vi rộng lớn,
đồng thời khi sử dụng bạn có thể tham gia các game, tiện ích, tính năng kết
nối cộng đồng mà ứng dụng đang sở hữu.
Ngoài Zing me có thể kể đến mạng xã hội Zalo, Zalo là ứng dụng hỗ
trợ trò chuyện tốt nhất dành cho người sử dụng Việt Nam ở trên nền tảng điện
thoại di động. Zalo giúp bạn gọi điện, nhắn tin miễn phí một cách dễ dàng,
chat chit, kết bạn cùng với mọi người. Tính đến tháng 4 năm 2016 số người
sử dụng Zalo đã đạt mốc 50 triệu người.

Hình 1.5. Mạng xã hội Zalo

15


Mạng xã hội có một số đặc điểm như sau:
• Tồn tại một sưu tập các thực thể tham gia vào mạng. Thực thể có thể là
người, cơ quan, tổ chức, cá nhân,… tham gia vào mạng xã hội.
• Tồn tại ít nhất một mối quan hệ giữa các thực thể với nhau của mạng.
Một số quan hệ có thể tất cả hoặc không là gì cả, như hai người có thể
là bạn bè hoặc không quen biết nhau.
• Tồn tại tính cục bộ, mối quan hệ giữa các thực thể có xu hướng tạo
thành các cụm. Nếu thực thể A có quan hệ với cả B và C, thì khả năng
tồn tại một liên kết sẽ lớn hơn mối quan hệ trung bình giữa B và C.
Trong mạng có nhiều kiểu liên kết như: liên kết vô hướng, liên kết một
chiều, liên kết hai chiều, liên kết nhiều chiều… Ở mức đơn giản nhất, mạng
xã hội được biểu diễn dưới dạng một đồ thị vô hướng mà các mối liên kết phù
hợp giữa các nút. Ta có thể biểu diễn mạng liên kết này bằng một đồ thị mà
các thực thể được biểu diễn bởi các điểm, còn các liên kết được biểu diễn bởi
các đoạn thẳng. Trong đó với hai điểm A và B có cung nối với nhau thể hiện
mối quan hệ giữa chúng.
Trong mạng xã hội, các đỉnh có liên kết chặt chẽ với nhau tạo thành
từng cụm, và giữa các cụm đó được nối với nhau chỉ bằng một vài cung. Tính
chất đó của các mạng trên thực tế được gọi là tính cộng đồng. Đây là một tính
chất quan trọng của mạng xã hội và đang ngày càng được nhiều người quan
tâm nghiên cứu, phân tích cấu trúc cộng đồng của mạng xã hội bởi tầm quan
trọng của chúng.
Khả năng phát hiện và phân tích các cộng đồng sẽ cung cấp cho ta
những sự giúp đỡ vô giá để hiểu biết và hình dung được những cấu trúc này
của mạng.

16


1.2. Cộng đồng mạng xã hội
Cộng đồng mạng xã hội là một nhóm các thực thể có những tính chất
tương tự nhau, liên kết chặt chẽ với nhau hơn và cùng đóng một vai trò nhất
định trong mạng xã hội.

Hình 1.6. Ví dụ cộng đồng mạng xã hội

Hình 1.7. Ví dụ về một đồ thị đơn giản với 3 cộng đồng được giới hạn bằng
nét gạch nối
17


Hình 1.8. Mô hình mạng lưới cộng tác của các nhà khoa học làm việc tại SFI
Hình 1.8. hiển thị các thành phần kết nối lớn nhất trong mạng lưới các
cộng tác nghiên cứu của các nhà khoa học làm việc tại Viện Santa Fe (SFI).
Đồ thị bao gồm 118 đỉnh đại diện cho các nhà khoa học làm việc tại SFI và
các cộng tác viên của họ. Các cung được liên kết giữa các nhà khoa học khi
họ đã công bố cùng với nhau ít nhất một bài báo. Ở mạng này ta quan sát
được một số cộng đồng, mỗi cộng đồng biểu hiện cho những tác giả đã cùng
nhau công bố một hay nhiều bài báo khoa học. Mặt khác ta cũng thấy giữa
các cộng đồng trong mạng trên chỉ có một số ít mối liên kết. Các đỉnh cùng
màu là kết quả phân tích (phân cụm) để phát hiện cộng đồng sử dụng thuật
toán Girvan-Newman [13], kết quả này cũng gần tương tự so với sự phân chia
theo các lĩnh vực nghiên cứu của SFI.
Với sự phát triển nhanh chóng của các cộng đồng trong thời điểm hiện
tại và nhu cầu cần thiết về tìm hiểu tính cộng đồng trong các mạng xã hội, bài
toán phát hiện cộng đồng trở thành một bài toán phổ biến trong các nghiên
cứu về mạng xã hội. Mục tiêu của bài toán là từ các mạng xã hội cho trước,
phát hiện được các cấu trúc cộng đồng nằm trong đó và tìm hiểu về mối liên

18


hệ bên trong các cộng đồng cũng như giữa các cộng đồng với nhau, mối liên
hệ đó có ảnh hưởng thế nào đến cấu trúc của toàn mạng xã hội.
Việc phát hiện cộng đồng có rất nhiều ứng dụng cụ thể. Ví dụ như phân
cụm các Web client có sở thích tương tự nhau và gần nhau về mặt địa lý có
thể cải thiện hiệu suất của việc cung cấp dịch vụ trên World Wide Web, trong
đó mỗi cụm khách hàng được phục vụ bởi một server chuyên dụng.Một ứng
dụng khác đó là việc xác định các cụm khách hàng có chung sở thích trong
một mạng thể hiện quan hệ giữa người mua và sản phẩm trên một trang web
bán hàng trực tuyến có thể giúp xây dựng hệ thống tư vấn mua bán một cách
hiệu quả.
Ngoài ra, việc phát hiện cộng đồng mạng xã hội có ý nghĩa rất quan
trọng vì một lý do khác. Việc xác định các module và ranh giới của chúng cho
phép ta phân lớp các đỉnh dựa trên cấu trúc vị trí của chúng trong module. Từ
đó, các đỉnh ở vị trí trung tâm trong module của chúng (có nhiều kết nối cạnh
đến các đỉnh khác trong module) có thể đóng vai trò quan trọng trong việc
điều khiển và giữ ổn định trong cụm. Mặt khác, các đỉnh ở vùng biên có thể
giữ vai trò quan trọng trong việc dẫn dắt mối quan hệ và giao lưu giữa các
cụm khác nhau trong mạng. Các phân lớp như thế mang một ý nghĩa nhất
định trong việc nghiên cứu mạng xã hội. Cuối cùng, có thể nghiên cứu về đồ
thị rút gọn, trong đó các đỉnh là các cụm và các cạnh là các liên kết giữa các
cụm trong đồ thị ban đầu (nếu có) từ đó thu được một đồ thị biểu diễn mối
quan hệ của các module trong mạng.
Một khía cạnh quan trọng khác nữa trong cấu trúc cộng đồng là cách tổ
chức phân cấp, cách tổ chức này có thể nhìn thấy trong hầu hết các mạng xã
hội trong thực tế. Một mạng trong thực tế thường bao gồm các cộng đồng mà
trong đó mỗi cộng đồng lại được cấu tạo từ một tập các cộng đồng khác, các
cộng đồng con đó lại được cấu tạo bằng một tập các cộng đồng con khác nữa.

19


Việc xác định cộng đồng trong đồ thị cũng là một chủ đề phổ biến
trong khoa học máy tính, trong đó có 2 lĩnh vực điển hình là học máy và khai
phá quan điểm. Ví dụ trong tính toán song song, việc xác định phương pháp
giao các công việc cho các bộ xử lý sao cho giảm thiểu tối đa sự liên lạc giữa
chúng và tối đa hóa hiệu suất tính toán là rất quan trọng. Điều này có thể thực
hiện được bằng cách chia các cụm máy tính thành các nhóm có số lượng bộ
xử lý gần tương tự nhau, như vậy số lượng kết nối vật lý giữa các vi xử lý của
các nhóm khác nhau là tối thiểu.
Riêng trong lĩnh vực khai phá dữ liệu, bài toán khai phá cộng đồng
trong mạng xã hội cũng có một ứng dụng tương đối rộng rãi. Khai phá cộng
đồng ứng dụng trực tiếp vào các bài toán chính của khai phá dữ liệu như nhận
dạng thực thể, phân cụm, xếp hạng thực thể hay phân lớp thực thể, dự đoán
các liên kết hay phát hiện các đồ thị con,… trong đó các nhà khoa học quan
tâm nhất đến phân cụm thực thể và xếp hạng các thực thể có liên quan đến
nhau trong các cụm vừa được phân. Các bài toán này mang lại các lợi ích trực
tiếp trong thực tế như trong các máy tìm kiếm, các dịch vụ phục vụ khách
hàng, hay các trang web buôn bán trực tuyến.
Như vậy, cộng đồng trong các mạng xã hội có một vai trò quan trọng
trong nhiều lĩnh vực của đời sống xã hội, như khoa học máy tính, sinh học,
kinh tế, chính trị,…
1.3. Đồ thị mạng xã hội
Mạng xã hội thường được mô hình hóa dạng đồ thị và được gọi là đồ
thị mạng xã hội. Các thực thể là các nút và cung giữa hai nút là mối liên kết
giữa hai thực thể trên mạng. Thông thường, đồ thị mạng xã hội là đồ thị vô
hướng, ví dụ đồ thị mạng bạn bè trên Facebook, Zalo... Nhưng, cũng có thể là
đồ thị có hướng như: đồ thị mạng xã hội những người theo dõi trên Twitter
hoặc Google+.

20


Định nghĩa cấu trúc cộng đồng
Cho trước đồ thị mạng xã hội G = (V, E), trong đó V là tập các đỉnh và
E là tập các cung. Cấu trúc cộng đồng (gọi tắt là cộng đồng) C là tập con các
đỉnh của V, sao cho với mỗi đỉnh v ∈ C, có nhiều cung kết nối v với những
cung khác trong C và ít cung kết nối v với những đỉnh w khác thuộc V-C. [3]
Có nhiều phương pháp để phát hiện cộng đồng mạng xã hội, nhưng
phần lớn là dựa vào lý thuyết đồ thị như: phát hiện các clique của đồ thị, hay
phân cụm đồ thị,… tất cả đều phải dựa vào độ đo khoảng cách giữa các đỉnh,
cung trên đồ thị.
1.4. Một số kỹ thuật phát hiện cộng đồng mạng xã hội
Santo Fortunato, 2010 [15] đã tổng hợp 1 số phương pháp phát hiện
cộng đồng trong mạng xã hội .
Theo Santo Fortunato, các nhóm phương pháp điển hình là:
− Phương pháp truyền thống
− Thuật toán phân chia
− Phương pháp dựa trên module hóa
− Thuật toán dựa trên phổ
− Thuật toán động
− Phương pháp dựa trên suy luận thống kê
− Phương pháp phát hiện chồng chéo cộng đồng
− Phương pháp nhiều lời giải và hệ thống phân cụm phân cấp
− Phương pháp phát hiện cộng đồng động
Một trong các kỹ thuật thường được sử dụng để phân tích mạng xã hội
là phân cụm phân tầng hay phân cụm cấp. Nguyên tắc chung là tìm cách để
phân chia mạng xã hội thành các nhóm dựa chủ yếu vào các độ đo khác nhau
về độ tương tự hoặc mối liên kết chặt chẽ giữa các đỉnh trên mạng xã hội. Các
thuật toán phân cụm phân cấp được chia chủ yếu thành hai lớp: các gộp, tích

21


tụ dần và thuật toán phân chia [13], tùy thuộc vào chiến lược bổ sung thêm
hay loại bỏ dần các cung của mạng.
Các phương pháp áp dụng thuật toán phân chia đều dựa trên mục đích
là tìm ra được các cạnh nối giữa các đỉnh của các cộng đồng khác nhau, sau
đó loại bỏ chúng khỏi đồ thị. Như vậy các cụm trong đồ thị sẽ bị ngắt kết nối
với nhau, từ đó ta có thể phân đồ thị thành các cộng đồng. Điểm quan trọng
của phương pháp này là xác định được tính chất của các cạnh nối các cộng
đồng trong đồ thị, từ đó ta có thể phát hiện và loại bỏ chúng ra khỏi đồ thị.
Phương pháp áp dụng thuật toán phân chia có thể coi là một kiểu thuật toán
phân cụm phân cấp, chỉ khác là thay vì tìm các cạnh có độ tương đồng cao để
ghép các đỉnh của các cạnh đó thành cộng đồng, thì ở đây người ta tìm cách
loại bỏ các cạnh nối giữa các cộng đồng để thu được từng cộng đồng riêng
biệt. Vì vậy kết quả của các thuật toán chia có thể biểu diễn dưới dạng các mô
hình phân cấp dưới dạng cây.
Thuật toán điển hình nhất trong các thuật toán phân chia này là thuật
toán Girvan-Newman [3]. Thuật toán này mang tính phổ biến cao, vì nó có ý
nghĩa về mặt lịch sử (đánh dấu bước khởi đầu của một thời kỳ mới trong sự
phát triển của phát hiện cộng đồng) cũng như về mặt phương pháp. Do có
nhiều lợi thế, thuật toán Girvan-Newman đã được sử dụng rộng rãi và phát
triển thành nhiều thuật toán cải tiến sau này, tạo thành họ thuật toán GirvanNewman.

22


1.5. Kết luận
Trong nội dung chương này tôi đã trình bày các khái niệm về mạng xã
hội và các đặc điểm của mạng xã hội. Giới thiệu về mạng xã hội và cộng đồng
trên mạng xã hội. Tiếp theo, tôi trình bày vai trò và nhu cầu cần thiết của bài
toán phát hiện cộng đồng trong mạng xã hội trong các lĩnh vực của đời sống
và một số ví dụ về các mạng xã hội với cấu trúc cộng đồng. Ở chương tiếp
theo, luận văn sẽ trình bày thuật toán Girvan-Newman trong phát hiện cộng
đồng mạng xã hội.

23


CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN CỘNG ĐỒNG
MẠNG XÃ HỘI
2.1. Một số độ đo khoảng cách trên đồ thị mạng xã hội
Trước tiên ta định nghĩa được độ đo khoảng cách giữa các đỉnh, cung
của đồ thị. Khi các cung của đồ thị được gắn nhãn thì các nhãn này có thể
được sử dụng như là độ đo khoảng cách tùy thuộc vào những gì mà chúng đại
diện. Nhưng khi các cung không có nhãn, thì cần phải định nghĩa độ đo
khoảng cách giữa các đỉnh. Theo Freeman [9] đề xuất một số độ đo trung tâm
của đồ thị dựa trên khái niệm khoảng giữa.
2.1.1. Độ đo trung gian của đỉnh
Xét một đồ thị G = (V, E) bất kỳ (liên thông hoặc không liên thông).
Xét cặp đỉnh {vi, vj} bất kỳ, không phân biệt thứ tự. Giữa chúng có thể có
đường đi hoặc có một hoặc nhiều đường đi. Nếu có đường đi giữa chúng thì
độ dài đường đi là bằng số cung trên đường đi đó. Trong số các đường đi đó
sẽ có một số đường đi ngắn nhất. Nếu (vi, vj) = (vj, vi) ∈ E, thì đường đi ngắn
nhất sẽ có độ dài là 1. Trường hợp đường đi ngắn nhất lớn hơn 1 thì chắc chắn
phải có ít nhất một đỉnh khác nằm trên đường đi ngắn nhất nối giữa vi với vj
và những đỉnh này có tiềm năng để điều khiển sự liên thông hay truyền thông
giữa các đỉnh vi, vj.
Ví dụ 1. Xét đồ thị ở Hình 2.1. Giữa v1 và v3 có 2 đường đi ngắn nhất
có độ dài là 2, một đi qua v2, còn đường kia đi qua v4 và những đỉnh này có
tiềm năng điều khiển sự liên thông giữa các đỉnh v1, v3.
v3
v2

v4
v1

Hình 2.1. Đồ thị có 4 đỉnh và 5 cung
24


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×