Tải bản đầy đủ

Phát hiện thói quen của con ngườinhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG
NGHỆ

Uông Huy Long

PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/
NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

HÀ NỘI - 2015


Lời cảm ơn

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG
NGHỆ


Trước tiên, tôi xin gửi lời cảm ơn Uôlòng biếtLong sắc nhất
tới Phó Giáo sư Tiến sĩ và ng Huy ơn sâu
Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ
bảo và hướng dẫn tôi
trong suốt quá trình thực hiện
khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện
thuận lợi cho tôi học tập và
nghiên cứu tại trường
Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên
trong nhóm "Khai phá
dữ liệu"PHÁT

HIỆN Trong việc hỗ trợ kiến thức chuyên

NGƢỜI/thành tốt đã giúp tôi rất nhiều HÓI

m

t

QUEN CỦA CON ôn để hoàn
k
NGƢỜI TỪ PHƢƠNG
TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH
CHỦ ĐỀ XÁC SUẤT

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè,
những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện
khóa luận tốt nghiệp.
Tôi xinNgành:
Công nghệ
thông tin chân
thành cảm ơn!
Chuyên
ngành: Hệ
thống thông

tin
M
ã


IN
s

:
6
0
4
8
0
1
0
4

S

inh viên

U
ông Huy Long

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. Nguyễn Việt Cƣờng

L
U

N

H
À

V
Ă
N

N

I

T
H

C

-

S

H

T
H

N
G
T
H
Ô
N
G
T

2
0
1
5


Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự
hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố
trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Uông Huy Long

i


Mục lục

Lời cam đoan ......................................................................................................................i
Mục lục ............................................................................................................................. ii
Danh sách hình..................................................................................................................iv
Danh sách các bảng............................................................................................................v Mở
đầu ...............................................................................................................................1
Chương 1.
1.1.

Giới thiệu.....................................................................................................2

Những thách thức của các trang báo điện tử......................................................2 1.2.
Bài toán tư vấn trên các trang báo điện tử xã hội. .............................................3 1.3.
Cấu trúc của luận văn.........................................................................................5

Chương 2.
2.1.

Một số nghiên cứu liên quan về mô hình hóa người dùng..........................6

Mô hình hóa người dùng....................................................................................6 2.2.
Phương pháp mô hình hóa người dùng..............................................................6

2.2.1.

Phương pháp dựa trên từ khóa có trọng số .................................................6

2.2.2.

Phương pháp dựa trên mạng ngữ nghĩa ......................................................7

2.2.3.

Phương pháp dựa trên cây phân cấp khái niệm ..........................................8

2.3.

Thu thập thông tin về người dùng......................................................................9

2.3.1.

Phương pháp định danh người dùng ...........................................................9

2.3.2.

Các phương pháp thu thập thông tin truyền thống....................................11

2.4.

Thu thập thông tin từ Web truyền thông xã hội...............................................13

2.4.1.

Sử dụng các thông tin thẻ (Tag) ................................................................13

2.4.2.

Nguồn dữ liệu từ blog và microblog .........................................................14

Chương 3.
3.1.

Mô hình đề xuất ........................................................................................17

Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA ..............................17 3.2.
Phân tích thói quen đọc, bình luận tin tức của người dùng .............................20

3.2.1.

Thông tin trong lịch sử bình luận của người dùng....................................20 3.2.2.
Mô hình người dùng..................................................................................22

3.3.

Áp dụng mô hình người dùng vào tư vấn tin tức.............................................23

3.3.1.

Pha phân tích dữ liệu.................................................................................23

3.3.2.

Pha xây dựng mô hình người dùng ...........................................................24

3.3.3.

Pha tư vấn..................................................................................................25

ii


Chương 4.
4.1.

Thực nghiệm và đánh giá ..........................................................................26

Môi trường thực nghiệm ..................................................................................26 4.2.
Dữ liệu và công cụ ...........................................................................................26

4.2.1.

Dữ liệu.......................................................................................................26

4.2.2.

Công cụ .....................................................................................................26

4.3.

Luồng phân tích dữ liệu trong thực nghiệm.....................................................29

4.3.1.

Huấn luyện mô hình phân tích chủ đề.......................................................29 4.3.2.
Phân tích dữ liệu tin tức ............................................................................30

4.3.3.

Mô hình người dùng và đánh giá kết quả..................................................32

Tài liệu tham khảo ...........................................................................................................36
Tiếng Việt .....................................................................................................................36
Tiếng Anh .....................................................................................................................36

iii


Danh sách hình
Hình 1. Chức năng tìm kiếm trên trang vnexpress.net. .....................................................2
Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện.........................................4 Hình
3. Tiến trình mô hình hóa người dùng. .....................................................................6 Hình 4.
Mô hình mối quan tâm người dùng dựa trên từ khóa. ..........................................7 Hình 5. Mô
hình mối quan tâm người dùng dựa trên mạng ngữ nghĩa[9]. .......................8 Hình 6. Mô hình
mối quan tâm người dùng dựa trên mạng khái niệm [24]. ....................9 Hình 7. Các hệ thống
tư vấn dựa trên thông tin người dùng hiện ...................................11 Hình 8. Tài liệu với K chủ
đề ẩn......................................................................................18 Hình 9. Biểu diễn đồ họa
LDA[6]. ..................................................................................19 Hình 10. Ước lượng tham số
tập dữ liệu văn bản............................................................19 Hình 11. Suy diễn chủ đề sử dụng
tập dữ liệu VNExpress[29].......................................20 Hình 12. Mục ý kiến bạn đọc trên
VNExpress................................................................21 Hình 13. Trang hoạt động bình luận
của người dùng......................................................21 Hình 14. Luồng phân tích dữ
liệu ....................................................................................23 Hình 15. Luồng xây dựng mô hình
người dùng ..............................................................25 Hình 16. Luồng tư
vấn.....................................................................................................25 Error! Hyperlink
reference not valid.Hình 18. Nội dung chính của trang
tin ............................................................................29 Hình 19. Tin tức sau khi tiền xử
lý ..................................................................................30 Hình 20. Truy vấn tìm kiếm người
dùng và các trang bình luận.....................................31 Hình 21. Tập hợp các đường dẫn và
bình luận của người dùng......................................31 Hình 22. Biểu đồ độ chính xác của mô
hình ...................................................................34

iv


Danh sách các bảng
Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8]................................................................12
Bảng 2. Thông tin lịch sử hoạt động bình luận của người dùng .....................................22 Bảng
3. Môi trường thực nghiệm. ...................................................................................26 Bảng 4.
Công cụ...............................................................................................................26 Bảng 5. Một
số chủ đề ẩn ................................................................................................30 Bảng 6. Mô hình
người dùng...........................................................................................32 Bảng 7. Top các chủ
đề của tin tức được bình luận gần nhất ..........................................33 Bảng 8. Độ chính xác của
mô hình..................................................................................33

v


Mở đầu
Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily - Chủ tịch
và Dale Dougherty - Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự phát
triển tiếp theo của Web. Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa số vẫn mô
tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các người dùng với
nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin. Các trang Web
truyền thông xã hội (social media websites) dựa trên Web 2.0 như các trang báo điện tử xã
hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát triển như vũ bão và thực sự
đang làm biến đổi thế giới Internet từng ngày, từng giờ. Cùng nhìn vào một đại diện tiêu biểu của
Web truyền thông xã hội, các trang báo điện tử xã hội (social news sites), khái niệm "báo điện
tử" cũng như việc đọc tin tức điện tử đã không còn xa lạ với đa số người dân Việt Nam.
Những thống kê gần đây trên alexa1 về số lượng các trang báo điện tử nằm trong top các trang
Web phổ biến nhất tại Việt Nam hiện nay đang cho thấy nhu cầu cao của xã hội trong lĩnh vực
truyền thông này. Tuy nhiên, một vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin
tức mỗi ngày được cập nhật, người dùng dường như bị chìm ngập trong biển thông tin mà vẫn
không tìm ra được các thông tin phù hợp. Web 2.0 có thể là lời giải cho vấn đề này, những
trang báo điện tử xã hội cho phép người dùng tạo ra nội dung như những bình luận, chia
sẻ,…Đây có thể là một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình
hóa người dùng. Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực
gì (như thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo,
game,…) có thể được suy diễn và tư vấn chính xác, kịp thời. Luận văn đề xuất một phương pháp dựa
trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội nhận diện thói quen,
mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt động bình luận của họ
(Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở các mối quan tâm, vì vậy,
trong luận văn, các khái niệm mô hình hóa người dùng, phân tích mối quan tâm người dùng
hay phân tích thói quen đọc, bình luận của người dùng có thể được sử dụng thay thế cho
nhau). Tính chính xác và khả năng ứng dụng thực tế của mô hình này đã được chứng minh
bằng một số kết quả thực nghiệm ban đầu.

1 http://www.alexa.com/topsites/countries/VN

1


Chƣơng 1. Giới thiệu
1.1.

Những thách thức của các trang báo điện tử
Ngày nay, thông tin trên những trang báo điện tử (như VNExpress 1) hầu như bao

phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự kiện
thể thao, giải trí của cả trong nước và quốc tế. Cùng với thực tế đó là hiện tượng có một lượng
lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời điểm khảo sát có
hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các tin tức về một sự kiện/
chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các thông tin từ những ngày
trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn bài. Vấn đề đặt ra là làm cách
nào những người đọc có thể vừa tiết kiệm được thời gian truy cập vừa không bỏ sót những
nội dung mà họ quan tâm. Những nghiên cứu trước đây gọi đó là vấn đề của sự tràn ngập
thông tin. Một giải pháp phổ biến đó là cung cấp cho người dùng công cụ tìm kiếm. Tuy
nhiên, những công cụ tìm kiếm đôi khi vẫn không đem lại hiệu quả, điều này thường do nghĩa
của từ khoá không rõ ràng hoặc ý nghĩa chính xác của chúng phụ thuộc vào ngữ cảnh của
người dùng. Ví dụ như khi một lập trình viên tìm kiếm với từ khóa "apache", có thể người đó
không muốn nhìn thấy hình ảnh của một loại máy bay trực thăng. Hay nếu người dùng muốn tìm
kiếm về lịch sử của tộc người da đỏ (cũng có tên là apache), nội dung người đó quan tâm
không phải là máy bay trực thăng hay máy chủ web. Một hướng tiếp cận khác được nghiên
cứu là tìm cách xây dựng các hệ thống cá nhân hóa, những hệ thống này cung cấp các kết quả
tư vấn hoặc tìm kiếm khác nhau và được cho là phù hợp với những người dùng khác nhau.

Hình 1. Chức năng tìm kiếm trên trang vnexpress.net.
1 http://vnexpress.net/

2


Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách
xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng. Toàn bộ quá
trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương 2. Hệ
thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc xác định
thêm thông tin có thể hấp dẫn người dùng. Hồ sơ người dùng có thể bao gồm thông tin cá
nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại diện cho các sở
thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là sự ưa thích với các
chủ đề thể thao hay du lịch. Các thông tin này có thể được phân tích dựa vào dữ liệu do người
dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một nguồn dữ liệu mới là từ các
phương tiện xã hội, nội dung này sẽ được luận văn trình bày chi tiết hơn trong chương 2.
1.2.

Bài toán tƣ vấn trên các trang báo điện tử xã hội.
Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số

lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì vậy
luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức trong
chương 3. Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc
trưng chung của người sử dụng tư vấn, có thể được mô tả như sau:
Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp
đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:
 Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng
cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà
xuất bản, tác giả,…
 Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự
kiện, hiện tượng.
 Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không
còn tính thời sự.

3


Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện.
Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng,
một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm: Tại
một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người dùng có thể
quan tâm đến các thông tin về cả thể thao và chính trị.
Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói
quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà
người dùng đã từng bình luận. Các lý do có thể được nêu ra là:
 Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người
dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ của
các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất định. Sử
dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp do mô hình
dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với các tin tức người
dùng đã đọc.
 Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập
hợp các cặp chủ đề và xác suất liên quan.
 Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn
do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã bình
luận chứ không phải là do chọn nhầm.
Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:

4


 Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người
dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin tức
người dùng đã từng bình luận.
 Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của
chúng với những chủ đề trong mô hình người dùng vừa được xây dựng.
1.3.

Cấu trúc của luận văn
Nội dung chính của luận văn được chia làm 4 chương:


Chương 1. Giới thiệu.



Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng.



Chương 3. Mô hình đề xuất.



Chương 4: Thực nghiệm và đánh giá.

5


Chƣơng 2. Một số nghiên cứu liên quan về mô hình hóa ngƣời dùng
2.1.

Mô hình hóa ngƣời dùng
Theo Gauch và các cộng sự [8], một tiến trình mô hình hóa người dùng cho các ứng

dụng hướng cá nhân bao gồm 2 pha cơ bản như minh họa sau:

Hình 3. Tiến trình mô hình hóa ngƣời dùng.
Trong đó, những phương pháp xây dựng mô hình người dùng được mô tả kỹ hơn
trong mục 2.2, các khái niệm và kỹ thuật liên quan đến quá trình chuẩn bị dữ liệu cho mô hình
hóa người dùng được mô tả trong mục 2.3.
2.2.

Phƣơng pháp mô hình hóa ngƣời dùng
Thông thường dựa trên các đặc trưng của dữ liệu thu thập được, có những cách tiếp

cận khác nhau để xây dựng mô hình người dùng. Dữ liệu thu thập từ người dùng có thể được
chia làm hai loại chính là dữ liệu có cấu trúc và không cấu trúc. Các dữ liệu có cấu trúc như
các đánh giá theo điểm, nghề nghiệp, tuổi tác, … Các dữ liệu không cấu trúc là các dữ liệu dạng
văn bản như nội dung của các tin tức đã xem, mô tả của các bộ phim đã
xem, hay các lời nhận xét dưới dạng ngôn ngữ tự nhiên …
Gauch và cộng sự trong [8] mô tả khá chi tiết ba phương pháp xây dựng mô hình
người dùng dựa trên các dữ liệu dạng văn bản là phương pháp dựa trên từ khóa có trọng số,
phương pháp dựa trên các mạng ngữ nghĩa và phương pháp dựa trên cây phân cấp khái
niệm. Đây là các giải pháp mô hình sở thích người dùng thường được sử dụng cho các hệ
thống tư vấn dựa trên nội dung.
2.2.1. Phƣơng pháp dựa trên từ khóa có trọng số
Mối quan tâm được mô tả bằng tập các từ khóa có trọng số. Trong đó, từ khóa được
trích xuất từ tập các dữ liệu người dùng với trọng số thường được đánh giá thông qua mô hình
trọng số tf*idf. Đây là giải pháp được đưa ra sớm nhất và dễ dàng cài đặt nhất, tuy nhiên vấp
phải các trở ngại về vấn đề nhập nhằng ngữ nghĩa và kích thước không gian từ khóa. Ví dụ
điển hình của phương pháp tiếp cận này là WebMate [5], hồ sơ người dùng chứa một vector
từ khóa cho mỗi lĩnh vực quan tâm của người dùng, và một ý tưởng mở

6


rộng của WebMate[5], Alipes [32] sử dụng ba vector từ khóa cho mỗi mối quan tâm
người sử dụng bao gồm: một vector mô tả tính dài hạn, hai vector mô tả tính ngắn hạn: một
tích cực và một tiêu cực.

Hình 4. Mô hình mối quan tâm ngƣời dùng dựa trên từ khóa.
2.2.2. Phƣơng pháp dựa trên mạng ngữ nghĩa
Mối quan tâm được mô tả bằng tập các node (từ khóa hoặc khái niệm) và các cạnh
liên kết. Đầu tiên, các từ khóa cũng được trích xuất từ dữ liệu người dùng. Khái niệm có thể
bao gồm một hoặc nhiều từ khóa liên kết với nhau (ví dụ như: quan hệ đồng nghĩa suy diễn từ
WordNet). Trọng số giữa cạnh được xác định dựa trên sự xuất hiện đồng thời của hai node
hoặc các từ khóa thuộc vào hai node trong cùng một văn bản. Điển hình cho mô hình này là hệ
thống InfoWeb [9], mỗi hồ sơ người dùng được biểu diễn bởi một mạng ngữ nghĩa các khái
niệm. Ban đầu, mạng ngữ nghĩa chứa một tập các node khái niệm không liên kết gọi là các
node hành tinh với một trọng số. Càng nhiều thông tin thu thập được, hồ sơ về người dùng
càng được làm giàu thông qua các từ khóa có trọng số liên kết với các khái niệm. Các từ khóa
được biểu diễn như các node vệ tinh xung quanh các khái niệm chính, trọng số liên kết giữa các
khái niệm tương ứng cũng được thêm vào.

7


Hình 5. Mô hình mối quan tâm ngƣời dùng dựa trên mạng ngữ nghĩa[9].
2.2.3. Phƣơng pháp dựa trên cây phân cấp khái niệm
Mối quan tâm người dùng được mô tả thông qua tập các khái niệm có trọng số. Ban
đầu, các khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các
mục mở ODP (The Open Directory Project1). Dữ liệu người dùng được phân lớp vào một trong
các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi tiết của
mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ chính xác của
các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương pháp này là
OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu tiên của ODP.
Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm phù hợp nhất, các trọng
số khái niệm tương ứng được tăng lên.

1 http://dmoz.org

8


Hình 6. Mô hình mối quan tâm ngƣời dùng dựa trên mạng khái niệm [24].
2.3.

Thu thập thông tin về ngƣời dùng
Bước đầu tiên trong kỹ thuật mô hình hóa người dùng là thu thập các thông tin về

người dùng cá nhân. Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất người
dùng. Nhiệm vụ này sẽ được trình bày trong phần 2.3.1. Các thông tin người dùng được có thể
được thu thập hiện qua việc nhập trực tiếp bởi người dùng, thu thập ẩn thông qua một các tử
phần mềm hoặc thu thập tự động từ các phương tiện truyền thông xã hội. Phụ thuộc vào cách
thức thu thập dữ liệu này mà những dạng dữ liệu khác nhau về người dùng có thể được thu
thập. Một số lựa chọn và ảnh hưởng của các lựa chọn trên được trình bày ở mục 2.3.2 và
2.4. Nhìn chung, phương pháp thu thập tự động từ các phuwong tiện truyền thông xã hội đang
trở thành một hướng tiếp cận mới, tiềm năng bởi khả năng tiếp cận dễ dàng, giàu thông tin và
không đặt gánh nặng cung cấp thông tin lên người dùng.
2.3.1. Phƣơng pháp định danh ngƣời dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [8] liệt kê ra 5 cách tiếp
cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng nhập
(login), proxy server, cookie và phiên duyệt Web(session). Mỗi phương pháp đều có những
ưu, nhược điểm riêng.

9


Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của
người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu thập
thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp này có độ
tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các giao thức. Nó
cũng có khả năng thu thập được nhiều thông tin nhất vì có quyền truy cập tới nhiều hơn các
nguồn thông tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của người dùng để cài đặt
phần mềm, đó là một cản trở không dễ chịu. Giải pháp có độ tin cậy thứ hai là dựa trên việc đăng
nhập. Bởi vì người dùng định danh chính họ thông qua đăng nhập, cách định danh này
thường chính xác và có thể sử dụng để xác định người dùng dùng nhiều máy khách khác
nhau. Mặt trở ngại của phương pháp này là người dùng cần thực hiện một tiến trình đăng kí và
thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng. Ở giải pháp thứ ba, một proxy server
sẽ làm nhiệm vụ thu thập thông tin người dùng, phương pháp này hữu ích khi cần thu thập
thông tin về một nhóm người dùng hoặc một người dùng sử dụng nhiều máy tính, tương tự
như hai giải pháp trên, nó yêu cầu người
dùng tham gia bằng cách đăng kí cùng một điạ chỉ proxy cho tất cả các máy họ sử dụng.
Hai phương pháp sau, cookie và phiên duyệt Web không yêu cầu bất cứ sự tham gia
nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống, một
userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng truy cập
vào cùng một trang Web được xác định là duy nhất nếu cùng một userid được sử dụng. Tuy
nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình duyệt, sẽ có
những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác nhau. Hơn nữa,
giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một máy, hoặc trường
hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt Web, trở ngại cũng tương tự khi có
nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt,
nhưng nó không lưu trữ userid giữa những lần duyệt. Một người dùng bắt đầu với một phiên
duyệt Web mới, thông tin trong phiên duyệt Web lưu lại vết các hành vi người dùng tương tác
với hệ thống trong một lần duyệt Web của họ ví
dụ danh sách các pageview, thời gian dành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt Web là nó không
đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư
(tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật
cookie ở trình duyệt.

10


2.3.2. Các phƣơng pháp thu thập thông tin truyền thống
Thông thường, các kỹ thuật thu thập thông tin được phân theo tính chất của dữ liệu
thu thập được. Theo đó, tương ứng với hai kiểu thông tin người dùng ẩn và hiện, có hai
phương pháp thu thập thông tin người dùng.
2.3.2.1.

Phƣơng pháp thu thập thông tin ngƣời dùng hiện

Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu
thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các form
nhập liệu. Dữ liệu thu thập có thể là các thông tin như ngày sinh, tình trạng hôn nhân,
nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [22] tư vấn các trang Web dựa
vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill &
Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống còn có thể tạo một truy vấn
tới máy tìm kiếm Lycos1 để trích xuất các trang Web có thể người dùng sẽ ưa thích.
Một vấn đề với các thông tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thông
tin về phía người dùng. Vì vậy, nếu người dùng không muốn phải cung cấp các thông tin riêng
tư, họ sẽ không tham gia hoặc không cung cấp thông tin chính xác. Hơn nữa, vì các hồ sơ
được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói quen,…
khiến cho những hồ sơ này có thể trở nên không chính xác nữa theo thời gian.

Hình 7. Các hệ thống tƣ vấn dựa trên thông tin ngƣời dùng hiện

1 http://www.lycos.com/

11


2.3.2.2.

Phƣơng pháp thu thập thông tin ngƣời dùng ẩn

Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin
phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của người
dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Công trình của Gauch và
các cộng sự [8] thống kê tóm tắt các cách tiếp cận của kỹ thuật thu thập thông tin phản hồi ẩn.
Bảng 1. Các kỹ thuật thu thập thông tin ẩn [8]
Kỹ thuật

Thông tin
thu thập

Browser
Cache

Lịch sử
duyệt Web

Proxy
Servers

Hành vi
duyệt Web

Browser
Agents

Hành vi
duyệt Web

Desktop
Agents

Tất cả hành
vi người
dùng

Web
Logs

Hành vi
duyệt Web

Search
Logs

Truy vấn
và Url
được click

Bề rộng
thông
tin

Ưu và Nhược

Ƣu: Người dùng không cần cài đặt bất cứ
thứ gì.
Bất cứ
Nhƣợc: Người dùng phải upload cache
trang
định kì.
Web nào
Ƣu: Người dùng sử dụng các trình duyệt
Bất cứ chính qui.
trang
Nhƣợc: Người dùng phải sử dụng proxy
Web nào server.
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Bất cứ
ứng
dụng
hướng
cá nhân
nào
Các
trang
Web có
log

Ƣu: Các tử có thể thu thập tất cả các hành
vi Web.
Nhƣợc: Cài đặt và sử dụng ứng dụng mới
khi đang duyệt Web.

Ƣu: Tất cả các tập tin và hành vi của
người dùng.
Nhƣợc: Yêu cầu cài đặt phần mềm.
Ƣu: Thông tin về nhiều người dùng.
Nhƣợc: Có thể có ít thông tin vì chỉ từ một
trang Web.

Ƣu: Thu thập và sử dụng thông tin từ
nhiều trang
Các
trang tìm Nhƣợc: Cookies phải được bật và/hoặc
kiếm
yêu cầu đăng nhập.
Nhƣợc: Có thể có rất ít thông tin.

Ví dụ

OBIWAN
[24]

OBIWAN
[24]

WebMate
[5]

Google
Deskto
p

Mobasher
[3]
Misearch

Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành
hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và
thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
12


Trong khi các kỹ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía
người dùng để thu thập và chia sẻ log các hành vi của họ. Các kỹ thuật thu thập thông tin
phía máy chủ (như search log và Web log) thu thập chỉ những thông tin trong quá trình
tương tác của người dùng và hệ thống. Điều này làm cho các thông tin có thể thu thập từ máy
chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như tránh
được các nghi ngại về tính riêng tư của người dùng.
2.4.

Thu thập thông tin từ Web truyền thông xã hội
Các Web truyền thông xã hội ngày nay giúp con người dễ dàng chia sẻ nội dung,

cộng tác với những người khác, kết nối với nhau để tạo ra một cộng đồng nhanh hơn và dễ tiếp
cận hơn. Ở đó, cộng đồng người dùng định hướng và tạo ra nội dung. Người dùng tham gia vào
Web truyền thông xã hội bằng những hoạt động như chia sẻ bookmark, viết blog, chú thích và
bình luận về các thông tin được cung cấp bởi những người khác. Họ tạo ra thông tin, xây dựng
nội dung và thiết lập các cộng đồng trực tuyến (những nội dung do người dùng tạo ra được viết
tắt là UGC - User generated content).
Thu thập thông tin người dùng trên Web truyền thông xã hội là một hướng mới so
với những phương pháp thu thập thông tin truyền thống như đã đề cập ở mục trước, thông tin
thu được do người dùng tạo ra, công khai vì vậy các hệ thống máy tính có thể dễ dàng tự động
thu thập và phân tích. Các UGC có thể bao gồm nhiều loại hình dữ liệu đa phương tiện như
văn bản, âm thanh, hình ảnh,… UGC chứa các thông tin giàu ý nghĩa, vì vậy có tiềm năng trong
phân tích, nắm bắt những kiến thức về người sử dụng, về các mục và về các mối quan hệ giữa
người sử dụng và các mục. Từ những thông tin UGC, chúng ta có thể nắm bắt ý kiến của
người sử dụng, những quan điểm hoặc thị hiếu về các loại mặt hàng hoặc về người dùng
khác. Các nội dung do người dùng tạo ngày càng tăng và có sẵn giúp cho việc xây dựng mô
hình người dùng chính xác hơn so với các kỹ thuật hiện có. Trong phần này, luận văn xem xét
một số hướng tiếp cận cho việc thu thập thông tin từ các Web truyền thông xã hội cho mô hình
người dùng.
2.4.1. Sử dụng các thông tin thẻ (Tag)
Giống như các thông tin do người dùng tạo ra khác, tag đang trở thành một nguồn
thông tin quan trọng để mô hình người dùng cũng như để mô tả nội dung hoặc phân loại
mặt hàng. Tag là một từ khóa được thêm vào một đối tượng số (ví dụ như một trang Web, hình
ảnh hoặc video clip) để mô tả nó, nhưng không phải là một phần của một hệ thống phân loại
chính thức. Các tag là các từ khóa được tự do lựa chọn và chúng là một công cụ đơn giản mà
mạnh mẽ để tổ chức, tìm kiếm và khai thác các nguồn tài nguyên. So với

13


thông tin người dùng ẩn truyền thống khác như dòng nhấp chuột và đăng nhập Web,
thông tin tag có một số lợi thế khác biệt. Một lợi thế quan trọng đó là tag là những từ khóa ngắn
gọn nhưng chứa các thông tin giàu ý nghĩa và được đưa ra bởi người sử dụng một cách rõ
ràng. Lợi thế quan trọng khác đó là các tag độc lập với các nội dung của các mục, và vì vậy mà
chúng có thể được dùng để lọc nội dung cho bất kỳ đối tượng tư vấn nào như các bộ phim,
bài hát,... Thêm vào đó, hành vi gắn tag hình thành một mối quan hệ ba chiều giữa người sử
dụng, các mục và các tag, tạo ra các quan hệ mới giữa người dùng và tag, tag và mục bên cạnh
những mối quan hệ với người sử dụng và mục truyền thống.
Tuy nhiên, vì không có những hạn chế hay ranh giới về lựa chọn những từ khóa cho
các mục được gắn thẻ, các thẻ được gắn tự do bởi người dùng và vì vậy có thể tồn tại
những nhập nhằng về ngữ nghĩa như cùng một thẻ lại có những ý nghĩa khác nhau với
những người dùng khác nhau hay các thẻ khác nhau là những từ đồng nghĩa cần được phải
được hiểu là có ý nghĩa tương tự. Một vấn đề nghêm trọng khác là có tới gần 60% thẻ là thẻ cá
nhân mà chỉ được sử dụng bởi một người dùng [25]. Tất cả những nhược điểm này tạo ra
thách thức về việc làm cách nào để sử dụng thẻ trong mô hình mối quan tâm của người sử
dụng một cách chính xác hoặc mô tả các chủ đề của các mục một cách chính xác.
Công trình của Tso-Sutter và cộng sự [30] mở rộng ma trận người dùng - mục bằng
ma trận người dùng - mục - thẻ nhằm tạo ra các tư vấn dựa trên phương pháp lọc cộng tác.
Tuy nhiên, công trình này đã không xem xét tới nhiễu của các thẻ. Trong các nghiên cứu của
Sen và cộng sự [25], một hàm đánh giá thẻ được sử dụng để xác định sở thích của người sử
dụng dựa trên các thẻ. Các dòng nhấp chuột, lịch sử các từ khóa tìm kiếm của mỗi người dùng
được sử dụng để xác định sở thích của người dùng đối với các mặt hàng thông qua hình thức
suy diễn các thẻ sở thích. Tuy nhiên, nghiên cứu của Sen cần rất nhiều loại thông tin bổ
sung và các hàm đặc biệt, điều này làm cho kết quả khó so sánh được với các nghiên cứu khác
và tạo ra các hạn chế về khả năng ứng dụng của công trình nghiên cứu.
2.4.2. Nguồn dữ liệu từ blog và microblog
Blog là một trang Web đơn giản bao gồm các đoạn văn ngắn gọn về các ý kiến, các
thông tin, các nhật ký cá nhân, hoặc các liên kết. Mọi người tự do bày tỏ ý kiến, ý tưởng,
kinh nghiệm, mong muốn, suy nghĩ của mình. Một bài blog điển hình có thể kết hợp văn bản,
hình ảnh, và các liên kết đến các blog khác, các trang Web và phương tiện truyền thông khác
liên quan đến chủ đề của nó. Người dùng thể hiện suy nghĩ của họ trong các ý kiến tích cực hay
tiêu cực trên mạng về các sản phẩm hay dịch vụ, cũng như chia sẻ kinh
14


nghiệm tiêu dùng, thương hiệu. Những doanh nghiệp đang ngày càng nhận ra rằng những
ý kiến này có thể gây ảnh hưởng rất lớn trong việc hình thành ý kiến của người tiêu dùng khác
và đầu tư cho lĩnh vực nghiên cứu liên quan [13].
Đã có nhiều công trình phân tích tâm lý tập trung vào đánh giá sản phẩm [33], [34],
[23] trên các blog, các trang Web đánh giá của người dùng (customer review sites), và các trang
Web khác trên internet. Việc khai thác ý kiến và phân tích tâm lý chẳng hạn như tóm tắt ý
kiến của khách hàng [35] và phân tích tâm lý người sử dụng trong các đánh giá [7] có thể
dùng như những mở rộng cho các hệ thống tư vấn [26], như để đưa ra một tư vấn rằng không
nên mua các mặt hàng nhận được nhiều phản hồi tiêu cực. Các nhà nghiên cứu Joshi và
Belsare [16] đã phát triển một chương trình khai thác blog gọi là BlogHarvest, giúp tìm
kiếm và trích xuất những mối quan tâm của một blogger để giới thiệu blog với chủ đề tương
tự. Chương trình sử dụng các kỹ thuật khai phá quan điểm như phân lớp, phân cụm chủ đề
tương tự, gắn thẻ. Ý tưởng cơ bản của nghiên cứu dựa trên giả thuyết rằng các cộng đồng
blog không định hình ngẫu nhiên mà là kết quả của những chia sẻ về mối quan tâm.
Twitter là một dịch vụ microblog cho phép người dùng gửi tin nhắn (gọi là các
tweet) đến một mạng xã hội từ mọi loại thiết bị. Một tweet là một đoạn thông điệp ngắn 140 ký
tự, xấp xỉ chiều dài của một tiêu đề báo điển hình [20]. Các thông điệp ngắn được cho là rất dễ
dàng và thuận tiện cho cả người gửi và người đọc chia sẻ những điều quan tâm và giao tiếp
suy nghĩ của họ bất cứ lúc nào và bất cứ nơi nào trên thế giới. Hiện tại, Twitter đã trở nên
phổ biến bao gồm người sử dụng từ nhiều lĩnh vực khác nhau như những người nổi tiếng
(Lady Gaga, Justin Bieber), các nhà lãnh đạo quốc gia (Barack Obama, Kevin Rudd), các
nhà xuất bản tin tức (CNN, AP) cho công chúng nói chung. Số lượng người dùng của Twitter
đã phát triển nhanh chóng và số lượng tin nhắn được sinh ra trên Twitter hàng ngày là rất lớn.
Theo statisticbrain1, tới tháng Chín năm 2015, Twitter đã có 645 triệu người dùng đăng ký, 289
triệu người dùng thường xuyên, 58 triệu tweet mỗi ngày.
Trong khi các microblog không được coi như một nguồn thông tin đáng tin cậy so
với phương tiện truyền thông truyền thống, một số nghiên cứu về microblog hướng tới phát
hiện các chủ đề đang nổi lên. Điều này có thể đạt được bằng cách thực hiện phân tích xu hướng và
phát hiện chủ đề. Naaman và cộng sự [21] phân tích các đặc điểm của các xu hướng đang nổi
lên trên Twitter và xác định hai loại xu hướng gồm: ngoại sinh (các sự kiện, tin tức, ngày
quan trọng) và nội sinh (các ý tưởng được lan truyền trên mạng, các
1 http://www.statisticbrain.com/twitter-statistics/

15


retweet, các hoạt động). Nghiên cứu này cũng trình bày năm tính năng chính: nội dung,
tương tác, tham gia, thời gian và xã hội để thu thập số liệu thống kê tổng hợp nội dung để phân
tích xu hướng.
Ngoài xác định xu hướng, mô hình chủ đề cũng có thể được sử dụng để hiểu nội
dung tweet. Phân bổ Dirichlet tiềm ẩn (LDA) là một trong những kỹ thuật phổ biến do hiệu
năng và tính linh hoạt của nó [6]. Mỗi tài liệu được coi là một phân bố xác suất của các chủ đề
và sau đó xác suất của chúng có thể ước tính thông qua các phương pháp lấy mẫu.
Tuy nhiên, các nghiên cứu khác nhau cho thấy LDA có thể không hoạt động tốt trên
Twitter do chiều dài ngắn của tweet [14][31].

16


Chƣơng 3. Mô hình đề xuất
Trong khi các kỹ thuật thu thập dữ liệu và biểu diễn mối quan tâm người dùng hiện
còn tồn tại các trở ngại như trình bày trong chương 2 và 3, có thể có một cách tiếp cận
khác cho các vấn đề này, đó là dựa trên phỏng đoán rằng một người dùng A có thể ưa thích
một tin tức X nếu như A đã xem các tin tức cùng chủ đề với X. Hồ sơ người dùng có thể được
biểu diễn dưới dạng một danh sách các chủ đề và mức độ quan tâm của người dùng với chủ đề.
Giả thiết này giải quyết được một trong các vấn đề lớn đối với tư vấn dựa trên nội dung, đó là
việc tư vấn các nội dung quá giống với những nội dung trước đây người dùng đã thích, trong một
số lĩnh vực ứng dụng như với tư vấn tin tức, có thể những tin tức mới đem lại nhiều giá trị hơn.
Ý tưởng sử dụng mô hình người dùng bằng các chủ đề đã từng được chúng tôi đề
cập tới trong [15] và trong các nghiên cứu khác như của Bo Hu và cộng sự [4]. Trong
nghiên cứu trước đây, chúng tôi sử dụng danh sách các tin tức được người dùng đọc trên một
phiên truy cập làm dữ liệu đầu vào cho phân tích. Tuy nhiên, kết quả của phân tích mối quan
tâm người dùng theo phương pháp này chưa chính xác nếu như những tin tức người dùng
chọn nhầm hoặc đã chọn nhưng sau khi đọc thì thấy rằng nội dung tin tức không đáng quan
tâm. Mô hình đề xuất sử dụng nguồn dữ liệu phản ánh tốt hơn mối quan tâm của người dùng
bằng cách phân tích chủ đề của các tin tức người dùng đã từng bình luận trong quá khứ.
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp
không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong các hệ
thống tự động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử dụng phân
tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối xác suất theo chủ
đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều nghiên cứu khẳng định
được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân lớp, phân cụm dữ liệu [29],
bài toán xác định độ phù hợp giữa nội dung một trang Web và
các thông điệp quảng cáo [28],…
Trong các mục sau, luận văn trình bày một giải pháp xác định các mô hình người
dùng theo cách tiếp cận mới này.
3.1.

Phân tích thông tin chủ đề dựa trên mô hình chủ đề LDA
Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trò

quan trọng trong việc "hiểu" và định hướng thông tin trên Web. Khi ta hiểu một trang

17


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×