Tải bản đầy đủ

Nghiên cứu kho dữ liệu chuyên đề và ứng dụng trong việc trích rút thông tin quản lý án hình sự tại viện kiểm sát nhân dân tối cao

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG





Nguyễn Thị Minh Huệ


ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG
DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN
HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO

Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01


TÓM TẮT LUẬN VĂN THẠC SĨ




HÀ NỘI – 2012

Luậnvănđượchoànthànhtại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG


Ngườihướngdẫnkhoahọc: PGS.TS Đỗ Trung Tuấn
Phảnbiện 1: ……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………

Phảnbiện 2: …………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………




LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín
hViễnthông
Vàolúc: giờ ngày tháng năm



Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
1

MỞ ĐẦU
Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở
nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây
dựng.
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng
như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát
triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới,
những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ
trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần


thiết.
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát
nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và
quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám
sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý
thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài
toán cụ thể.
Luận văn bao gồm ba phần:
 Chương I, giới thiệu chung về kho dữ liệu.
 Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.
 Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân
dân tối cao.

2

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu.
1.1. Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ
liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi
đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ
quyết định".
1.1.1. Mục đích của kho dữ liệu
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định,
quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác.
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết
định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…
1.1.2 Các lợi ích của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra
quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
 Dữ liệu lưu trữ tập trung tại một nơi.
 Thông tin luôn được cập nhật.
 Truy xuất nhanh.
 Không giới hạn kích thước.
 Dễ hiểu
 Rõ ràng và đồng nhất.
 Dữ liệu chuẩn hoá.
1.1.3. Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1. Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công
cụ vấn đáp và báo cáo.
2. Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ truy
vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL
thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai.
3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động
thực tiễn, đó chính là công nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.
1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:
3

1.2.1. Hướng chủ thể
1.2.2. Tích hợp
1.2.3. Ít thay đổi
1.2.4. Tích thời gian cụ thể
1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Nguyên lý cơ bản
Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu nhỏ. Những vùng chứa dữ
liệu này được phân loại dựa trên cấu trúc bao gồm :
Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt là
“STG”
Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng
chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở
dữ liệu hoạt động. Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn
được dùng như là cơ sở dữ liệu hoạt động tập trung.
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người
dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay
truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”.
Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất
phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết
các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
1.3.1. Kiến trúc DDS đơn

Hình 3: Kiến trúc DSS đơn
Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này
có thành phần chính là một kho dữ liệu trung tâm.
4

1.3.2. Kiến trúc NDS và DDS
Đây là một kiến trúc khá phổ biến. Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm
một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hoá NDS.


Hình 4: Kiến trúc NDS và DDS
1.3.3. Kiến trúc ODS và DDS
Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS và DDS. Vùng dữ liệu hoạt động này
cũng là một cơ sở dữ liệu dạng chuẩn hoá cao. Tuy nhiên, nó không lưu dữ liệu lịch sử. Vùng dữ liệu hoạt
động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn. Nó đóng vai trò như là
một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó.

Hình 5: Kiến trúc ODS và DDS
1.3.3 Vùng xử lí
Thông thường, trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là vùng xử
lí. Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào.
Người ta có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối.
5


Hình 6 : Vùng xử lý
1.3.4. Cơ sở dữ liệu chuẩn hoá

Hình 7: Mô hình dữ liệu được chuẩn hóa
Đối với kiến trúc NDS và DDS, vùng chứa dữ liệu dạng chuẩn hoá, còn được gọi là cơ sở dữ liệu
chuẩn hoá đóng vai trò là một cơ sở dữ liệu tập trung.
1.3.5. Kho dữ liệu đầu cuối

Hình 8: Kho dữ liệu đầu cuối
Đây là kiểu cấu trúc dựa trên mô hình khối đa chiều. Mỗi khối đa chiều là bao gồm một bảng dữ
kiện và các bảng chiều. Dữ kiện là các độ đo, các số liệu được tính toán từ các chiều. Cấu trúc dữ liệu này có
đặc trưng là phi chuẩn hoá. Đây là một đặc trưng quan trọng của kho dữ liệu mô hình hoá đa chiều.
1.4. Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (DM) là CSDL có những đặc điểm giống với Kho dữ liệu nhưng với quy mô
6

nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Có
thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc
1. Datamart phụ thuộc
2. Datamart độc lập.
1.5. Hệ hỗ trợ quyết định
1.5.1.Khái niệm
Hệ hỗ trợ quyết định là một hệ thống thuộc Hệ thống thông tin quản lý (MIS), có nhiệm vụ cung cấp
các thông tin hỗ trợ cho việc đề ra quyết định ở cấp chiến lược và chiến thuật trở nên dễ dàng, thuận tiện
hơn.
1.5.2. Các thành phần của một hệ thống hỗ trợ ra quyết định

Hình 9: Các thành phần của một hệ thống hỗ trợ ra quyết định
1. Dữ liệu: được trích lọc từ TPS hay MIS để diễn tả cho những sự kiện liên quan đến những vấn đề đang
cần giải quyết.
2. Mô hình: là một dạng dữ liệu đặc biệt dùng để mô tả khái quát các đặc trưng quan trọng nhất của các sự
kiện, vấn đề mà không cần phải diễn tả lại toàn bộ chi tiết. Giá trị của mô hình là để giảm bớt chi phí
nghiên cứu hoặc mô tả chi tiết cho các vấn đề. Tương tự như database, modelbase lưu trữ các mô hình
thống kê, tài chính, toán học mà DSS sử dụng để thực hiện tự động nhiều phân tích khác nhau trên vấn
đề để tìm lời giải.
3. Các phân hệ dựa vào kiến thức: Là bộ máy suy diễn dựa trên các quy tắc và sự kiện đã biết (từ dữ liệu,
mô hình và cơ sở kiến thức tổ chức). Máy tri thức trợ giúp thu thập lưu trữ và sử dụng tri thức để hổ trợ
tự động hoá việc phân tích, suy diễn, tổng hợp các sự kiện hướng đến giải pháp cho vấn đề.
4. Giao diện người dùng: DSS được sử dụng theo phương thức tương tác người – máy ở mức độ cao vì giải
pháp cho các bài toán bán cấu trúc cần được tinh chỉnh từng bước từ phía người sử dụng. Sự giao tiếp
người - máy càng thuận tiện bao nhiêu thì hiệu quả của DSS càng cao bấy nhiêu.
5. Người sử dụng: Người sử dụng của DSS đóng vai trò cung cấp kiến thức, hoặc ra các quyết định cho hệ
thống (tinh chỉnh giải pháp, chọn cách giải quyết) trong suốt quá trình tìm kiếm giải pháp.
1.5.3. Phân loại các hệ trợ giúp quyết định
Hệ xử lý tác vụ: mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được
chính xác. Hệ thống này được xây dựng chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ
7

liệu được ghi nhận là có hợp lệ hay không. Hệ xử lý tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao
tác để CSDL được làm sạch hơn.

Hình 10: Phân loại các Hệ thông tin quản lý
Hệ trợ giúp quyết định: bao gồm những hệ thống được thiết kế để trợ giúp các nhà quản lý ra quyết
định. Khác với hệ xử lý tác vụ phục vụ cho những hoạt động hàng ngày, DSS phục vụ cho những mục tiêu
dài hạn hơn và có thể cần đến một vài ý kiến, phán đoán đóng góp từ các chuyên gia. Hiện nay DSS có thể
được chia thành hai hướng cơ bản. Hướng đầu tiên dựa vào mô hình theo xu hướng của các Hệ trợ giúp
quyết định cũ.
Loại Hệ trợ giúp quyết định thứ hai là loại Hệ trợ giúp quyết định dựa vào dữ liệu. DSS trong cơ chế
vận hành của MIS:
 Điều khiển theo chu kỳ đóng, dựa trên các quy tắc quản lý do tổ chức thiết lập. Quản lý dựa trên các kênh
thông tin nội bộ.
 Điều khiển theo chu kỳ mở, dựa trên các tiêu chuẩn độc lập với tổ chức. Môi trường có tham gia vào hoạt
động quản lý.
1.5.4. Năng lực của hệ hỗ trợ ra quyết định
 Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
 Phù hợp cho cá nhân lẫn nhóm.
 Hỗ trợ cho các quyết định tuần tự, liên thuộc, được đưa ra một lần, vài lần hoặc lặp lại.
 Hỗ trợ cho các giai đoạn của quá trình ra quyết định như tìm hiểu, thiết kế và chọn lựa.
 Phù hợp cho một số các phong cách và quá trình ra quyết định. Dễ dùng và thân thiện với người dùng.
 Có thể tiến hóa theo thời gian.
 Nhằm vào nâng cao tính hiệu dụng (chính xác, thời gian tính, chất lượng) của quyết định thay vì tính hiệu
quả (giá phí của việc ra quyết định).
 Người ra quyết định kiểm soát toàn bộ các bước của quá trình ra quyết định, DSS chỉ trợ giúp, không thay
thế người ra quyết định.
1.6 Các yêu cầu chức năng kho dữ liệu
1. Khả năng cân bằng.
2. Khả năng quản trị
8

3. Khả năng sẵn sàng
4. Khả năng mở rộng
5. Khả năng mềm dẻo
6. Khả năng tích hợp
7. Khả năng truy cập sử dụng được
8. Khả năng tin cậy
1.7. Kết luận
Chương trên trình bày một số khái niệm liên quan đến hệ thống trợ giúp quyết định và kho dữ liệu,
chuẩn bị cho xem xét chi tiết ở chương sau.

9

CHƯƠNG 2. CẤU TRÚC KHO DỮ LIỆU VÀ MÔ HÌNH DỮ LIỆU
Chương này sẽ trình bày về cấu trúc và các cách lựa chọn để tiến hành xây dựng kho dữ liệu. Mặc dù
không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho dữ liệu trước khi bắt đầu tiến hành.
Cấu trúc có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành.
2.1 Các lựa chọn về cấu trúc
2.1.1. Cấu trúc kho dữ liệu tổng thể
Cấu trúc dữ liệu tổng thể được trình bầy ở dưới đây là một cấu trúc hỗ trợ cho tất cả, hoặc một phần
lớn của một đơn vị có nhu cầu về một kho dữ liệu tích hợp đầy đủ với mức độ truy nhập cao và được sử dụng
xuyên suốt các ban ngành hoặc ngành nghề kinh doanh.
2.1.2. Cấu trúc kho dữ liệu chuyên đề độc lập

Hình 13: Cấu trúc kho dữ liệu chuyên đề độc lập
Cấu trúc kho dữ liệu chuyên đề độc lập có nghĩa là các kho dữ liệu chuyên đề đứng độc lập một
mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thể và được xây dựng duy nhất
để đáp ứng các nhu cầu.
2.1.3. Cấu trúc Kho dữ liệu chuyên đề phụ thuộc
Một cấu trúc kho dữ liệu chuyên đề phụ thuộc là hệ thống các kho dữ liệu chuyên đề có trao đổi
thông tin chặt chẽ. Mặc dù các kho dữ liệu chuyên đề riêng biệt được thực hiện trong các nhóm làm việc, ban
ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng cũng có thể được tích hợp, liên kết với nhau để tạo
ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty.
2.2 Các lựa chọn thực hiện
2.2.1. Thực hiện từ trên xuống.
Thực hiện từ trên xuống đòi hỏi phải lập kế hoạch và công việc thiết kế hoàn thành trước khi bắt đầu
dự án.
Việc thực hiện từ trên xuống có thể tạo ra những xác định về dữ liệu thích hợp và việc thực hiện các
quy tắc kinh doanh xuyên xuốt đơn vị ngay từ khi bắt đầu. Tuy nhiên, chi phí cho việc lập kế hoạch và thiết
kế ban đầu là tương đối đáng kể. Nó là một quá trình đòi hỏi tiêu tốn nhiều thời gian và có thể làm trì hoãn
các hoạt động thực tế, lợi nhuận, và đầu tư có lợi tức. Phương thức quản lý từ trên xuống có thể làm việc tốt
kho có một tổ chức IS tập trung chịu trách nhiệm cho tất cả các hệ thống phần cứng.
10

2.2.2. Thực hiện từ dưới lên
Thực hiện từ dưới lên liên quan tới việc lập kế hoạch và thiết kế các kho dữ liệu chuyên đề mà
không cần chờ cho đến khi có một hạ tầng tổng thể hơn. Điều này không có nghĩa là sẽ không triển khai một
hạ tầng tổng thể hơn; mà sẽ xây dựng dần theo kiều mở rộng các kho dữ liệu chuyên đề ban đầu.
Phương thức thực hiện từ dưới lên đã trở thành sự chọn lựa của nhiều đơn vị, đặc biệt là các đơn vị
quản lý kinh doanh, bởi vì quá trình hoàn vốn sẽ diễn ra nhanh hơn. Nó có thể đem lại kết quả nhanh hơn vì
các kho dữ liệu chuyên đề có phần thiết kế ít phức tạp hơn so với kho dữ liệu tổng thể. Thêm vào đó, việc
thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác so với việc triển khai một kho
dữ liệu tổng thể.
2.2.3. Phương thức kết hợp
Như chúng ta vừa xem xét, có cả hai mặt tích cực và tiêu cực cần phải cân nhắc khi thực hiện
phương thức từ trên xuống hoặc từ dưới lên. Trong nhiều trường hợp phương thức tốt nhất là kết hợp cả hai.
Điều này có thể khá phức tạp, nhưng với một người quản lý dự án tốt thì có thể làm được. Một trong những
chìa khóa của phương thức này là quyết định mức độ kế hoạch và thiết kế cần thiết cho phương thức tổng thể
để hỗ trợ cho việc tích hợp khi kho dữ liệu chuyên đề được xây dựng với phương thức từ dưới lên. Việc phát
triển một cơ sở hạ tầng ở mức cơ bản cho kho dữ liệu tổng thể, ngay từ ban đầu nên thận trọng ở mức kinh
doanh.
2.3. Mô hình dữ liệu cho kho dữ liệu
Trong phần này chúng ta xét tới hai kỹ thuật xây dựng mô hình dữ liệu cơ bản: xây dựng mô hình
ER và xây dựng mô hình theo chiều. Trong môi trường OLTP, kỹ thuật xây dựng mô hình ER là sự lựa chọn
đã qua thử thách. Vói sự ra đời của kho dữ liệu, xuất hiện yêu cầu cần có một loại kx thuật để hỗ trọ cho môi
trường phân tích dữ liệu. Mặc dù các mô hình ER có thể sử dụng để hỗ trợ môi trường kho dữ liệu, hiện nay
sự quan tâm về cách xây dựng mô hình theo chiều nhằm đáp ứng nhiệm vụ này cũng đã gia tăng.
2.3.1. Tại sao việc xây dựng mô hình dữ liệu là quan trọng
Theo cách truyền thống, người ta xây dựng mô hình dữ liệu phải sử dụng sơ đồ ER, được phát triển
như một phần của quy trình xây dựng mô hình dữ liệu, như một phương tiện thông tin liên lạc với nhà kinh
doanh - người sử dụng. Đồ thị ER là một công cụ có thể giúp phân tích các yêu cầu kinh doanh và thiết kế
cấu trúc dữ liệu sau này.
Các bước tiếp cận khác nhau của mô hình dữ liệu: việc xây dựng mô hình ER mô hình chiều, mặc dù
có liên quan nhưng lại khác nhau.
2.3.2. Các kỹ thuật xây dựng mô hình dữ liệu
Có hai loại kỹ thuật xây dựng mô hình dữ liệu thích hợp trong môi trường kho dữ liệu là xây dựng
mô hình ER và xây dựng mô hình chiều.
1. Việc xây dựng mô hình ER tạo ra một mô hình dữ liệu về một lĩnh vực quan tâm nhất định sử
dụng hai khái niệm cơ bản: các thực thể và các mối quan hệ giữa các thực thể đó. Các mô hình ER chi tiết
cũng bao gồm các thuộc tính, thuộc tính này có thể hoặc là đặc tính của thực thể hoặc là đặc tính của mối
quan hệ.
11

2. Việc xây dựng mô hình theo chiều sử dụng 3 khái niệm cơ bản: cho phép đo, thực tế và chiều. Cả
hai loại xây dựng mô hình ER và chiều đều có thể được sử dụng để tạo một mô hình trừu tượng của một chủ
đề. Mỗi loại đều có những hạn chế của mình về các khái niệm xây dựng mô hình và các quy ước ký hiệu
2.3.3. Xây dựng mô hình ER
Các khái niệm cơ bản : Mô hình ER được thể hiện bằng sơ đồ ER sử dụng 3 biểu tượng đồ họa cơ
bản để hình thành khái niệm dữ liệu: thực thể, mối quan hệ và thuộc tính.

Hình 17: Ví dụ về các thực thể trong sơ đồ ER
Trong xây dựng mô hình ER, đặt tên cho các thực thể là rất quan trọng để hiểu và thông tin liên lạc
dễ dàng và rõ. Trong mô hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định danh duy nhất của
thực thể. Từ này được gọi là từ khóa gốc. Bổ sung cho các khái niệm xây dựng mô hình ER cơ bản, có 2
khái niệm khác cũng rất quan trọng: (i) Loại cha và con; và (ii) Thông báo ràng buộc

Hình 18 : Mô hình thực thể loại cha và con (supertype & subtype)
2.3.4 Xây dựng mô hình theo chiều
Về phương diện nào đó, việc xây dựng mô hình theo chiều đơn giản hơn có ý nghĩa hơn và dễ hiểu
hơn so với xây dựng mô hình ER. Các khái niệm cơ bản : Xây dựng mô hình theo chiều là một kỹ thuật để
tạo khái niệm và hình dung các mô hình dữ liệu như một bộ tiêu chuẩn được mô tả bằng các lĩnh vực kinh
doanh chung. Xây dựng mô hình theo chiều có một số khái niệm cơ bản:
 Sự kiện
12

 Chiều
 Tiêu chuẩn đánh giá (các biến số)
Sự kiện : Sự kiện là thu thập các hạng mục dữ liệu liên quan, bao gồm cả các tiêu chuẩn đánh giá và
nội dung dữ liệu.
Chiều: Chiều là sự thu thập của các thành viên hoặc các đơn vị cùng loại để xem xét.
Những thao tác cơ bản cho OLAP : Xây dựng mô hình theo chiều chủ yếu hỗ trợ cho OLAP và đưa
ra quyết định.
Có 4 thao tác được sử dụng trong OLAP để phân tích dữ liệu. Khi chúng ta xét tới các mức chi tiết
khác nhau, chúng ta có thể thực hiện thao tác drill down và roll up. Để duyệt cùng các chiều chúng ta sử
dụng thao tác lát mỏng và kẻ ô vuông (slice và dice)
1. Drill down và Roll up : Drill down và Roll up là các thao tác dịch chuyển cách nhìn xuống hoặc lên khi
xem các mức phân cấp theo chiều.
2. Lát cắt và kẻ ô vuông : Lát cắt và kể ô vuông là những thao tác để trình duyệt dữ liệu qua khối lập
phương. Lát cắt cắt khối lập phương sao cho người sử dụng khối lập phương tới một việc cảnh khác sao
cho việc phân tích báo cáo sản xuất của một tháng nhất định theo nhà máy và theo sản phẩm,
3. Mô hình sao và mô hình bông tuyết : Có hai loại mô hình cơ bản có thể được sử dụng trong xây dựng mô
hình theo chiều (i) Mô hình sao; (ii) Mô hình bông tuyết
Mô hình sao : Giản đồ mô hình sao đã trở thành một thuật ngữ thông dụng được sử dụng bao hàm
nghĩa mô hình chiều.
Mô hình bông tuyết : Việc xây dựng mô hình theo chiều điển hình bắt đầu bằng việc xác định các sự
kiện và chiều, sau khi các yêu cầu kinh doanh đã được thu thập.
Mô hình bông tuyết là kết quả của việc phân ly một hoặc nhiều chiều, những cái đôi khi tự nó cũng
có phân thành các cấp
2.4. Kế hoạch xây dựng kho dữ liệu
Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm vi của dự án. Các
quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển cũng nên được xác định. Một cách tiếp cận
không khôn ngoan khi cố gắng phát triển đáp ứng " tất cả", do vậy phải mất nhiều năm mới có thể hoàn
thành. Thực tế cho thấy đây là lý do chính làm cho việc tạo dựng kho dữ liệu bị thất bại.
Việc xác định các quá trình nghiệp vụ nào sẽ được đưa vào kho dữ liệu sẽ mang lại hiệu quả và
chúng chỉ ra khả năng truy cập sử dụng dữ liệu ở các mức, mục tiêu được thực hiện trong thời gian thích
hợp.
2.5. Luồng dữ liệu qua kho dữ liệu
Dữ liệu được trích chọn từ nhiều nguồn dữ liệu, được chuyển đổi-nếu cần thiết, và được chuyển tải
tới vị trí thích hợp trong kho lưu trữ dữ liệu.
Các công cụ truy cập giúp sử dụng dữ liệu của kho dữ liệu phục vụ công việc phân tích, hỗ trợ ra
quyết định và các câu hỏi truy vấn dữ liệu, tạo báo cáo…
13

2.6 Các giai đoạn thiết kế kho dữ liệu
2.6.1. Xác định mô hình nghiệp vụ
2.6.2. Xác định mô hình logic
2.6.3. Xác định mô hình chiều
2.6.4. Xác định mô hình vật lý
2.7. Kết luận
Chương này trình bày về một số mô hình dữ liệu sử dụng trong tổ chức kho dữ liệu và một số đánh
giá đối sánh. Chương sau sẽ ứng dụng các phân tích trong chương trên để xây dựng ứng dụng kho dữ liệu và
phân tích dữ liệu.

14

CHƯƠNG 3. TRÍCH RÚT THÔNG TIN ÁN HÌNH SỰ
Chương này thể hiện ứng dụng của các vấn đề nêu tong các chương trên, tại Viện kiểm sát nhân dân
tối cao. Ứng dụng đề cập là trích rút dữ liệu về quản lí án hình sự.
Viện Kiểm sát Nhân dân Tối cao là cơ quan trực thuộc Quốc hội Việt Nam, có chức năng kiểm sát
hoạt động tư pháp và thực hành quyền công tố Nhà nước. Hệ thống Viện kiểm sát được tổ chức theo ba cấp
là cấp huyện, cấp tỉnh thành phố, cấp trung ương và các viện kiểm sát quân sự.

Hình 23: Trang web của Viện
3.1 Nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao
Ngoài việc thực hiện các báo cáo định kỳ theo tháng, 6 tháng, năm, Viện kiểm sát tối cao còn
thực hiện việc quản lý án hình sự qua từng gia i đoạn nhằm nâng cao hiệu quả
quản

lý,
xử lý các vụ
án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc thẩm, giám
đốc thẩm, thi hành án, Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết theo yêu
cầu quản lý, chỉ đạo điều hành, giải quyết án hình sự của Viện kiểm sát nhân dân các cấp.
Dữ liệu quản lý án hình sự của ngành Kiểm sát nhân dân phục vụ cho các hoạt động nghiệp vụ
hàng ngày của các đơn vị giải quyết về án hình sự trong ngành, cho phép lãnh đạo các đơn vị phân công,
giao việc cũng như theo dõi được tình hình, tiến độ thụ lý giải quyết các vụ án hình sự của đơn vị mình.
Thông qua hệ thống quản lý án hình sự có thể trao đổi và tra cứu thông tin tội phạm để trích xuất
các thông tin án hình sự từ các ngành Công an (thông tin về kết quả điều tra, thông tin thi hành án, ) và
các ngành Tòa án nhân dân (thông tin kết quả xét xử), kế thừa các thông tin này mà không phải nhập vào
hệ thống.
Kho dữ liệu tổng hợp về án hình sự của toàn ngành phục vụ việc cung cấp dữ liệu chi tiết, đầy đủ
về án hình sự như số vụ án, bị can qua các giai đoạn kiểm sát điều tra, kiểm sát xét xử sơ thẩm, phúc
thẩm, giám đốc thẩm….kết hợp với các hệ thống thông tin khác trong toàn ngành phục vụ việc trao đổi
thông tin với các ngành Công an, Tòa án và kết xuất báo cáo chi tiết, báo cáo tổng hợp toàn ngành Kiểm
sát nhân dân.
Thực tế nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao là rất lớn vì với cơ sở dữ
liệu lớn, nhiều chỉ tiêu báo cáo và yêu cầu giải quyết trong một thời gian ngắn để đáp ứng yêu cầu của
công việc luôn được đặt hàng đầu.
15

3.2 Hiện trạng về các cơ sở dữ liệu của Viện
Trong những năm qua ngành Kiểm sát nhân dân đã từng bước xây dựng và triển khai thực hiện
các phần mềm ứng dụng vào các lĩnh vực công tác, như: Tổng hợp báo cáo thống kê, quản lý danh sách
các chỉ tiêu, quản lý án hình sự, quản lý công văn đi đến, quản lý đơn khiếu tố, quản lý tài chính kế toán, hệ
thống thư điện tử, Phần mềm tổng hợp số liệu thống kê, quản lý danh sách các chỉ tiêu đã được triển
khai trên diện rộng toàn quốc, từ cấp trung ương đến cấp tỉnh và cấp huyện từ năm 2000, đã thay thế việc
thu thập, tổng hợp số liệu, xây dựng và gửi báo cáo thống kê theo phương pháp thủ công, góp phần nâng
cao độ chính xác, tính kịp thời của các báo cáo thống kê.
Thực hiện việc quản lý án hình sự trên mạng máy tính nhằm nâng cao hiệu quả quản lý, xử lý
các vụ án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc
thẩm, thi hành án,… Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết nhằm đáp ứng
nhu cầu trao đổi thông tin, tổng hợp, báo cáo, phân tích, dự báo và hỗ trợ ra quyết định phục vụ công tác
chỉ đạo, điều hành của lãnh đạo Viện kiểm sát nhân dân các cấp.
Kho dữ liệu quản lý án hình sự của ngành kiểm sát nhân dân gồm Dữ liệu quản trị, Dữ liệu vụ
án, Dữ liệu đối tượng (bị can, bị cáo), Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…được
xây dựng trên hệ cơ sở dữ liệu Oracle Database 11g Release 1.
3.3 Nhu cầu tích hợp dữ liệu của Viện và trợ giúp quyết định
Hệ thống thông tin quản lý án hình sự là một hệ thống hết sức quan trong của ngành Kiểm sát
nhân dân dân. Hệ thống không chỉ phục vụ công tác nghiệp vụ hàng ngày của các kiểm sát viên mà còn
phục vụ công tác quản lý giám sát điều hành cũng như khai thác tra cứu thông tin của lãnh đạo Viện
kiểm sát nhân dân các cấp.
Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân
tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo),
Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…
Dữ liệu án hình sự đã hình thành một kho dữ liệu án dùng chung cho tất cả các cấp. Có chế độ
bảo mật, phân quyền chặt chẽ để đảm bảo an toàn dữ liệu.
Để đáp ứng được yêu cầu của lãnh đạo báo cáo nhanh, chính xác, liên tục, đảm bảo tính sẵn sàng
cao, đáp ứng yêu cầu nghiệp vụ quản lý và thống kê án hình sự tại 3 cấp đòi hỏi việc đồng bộ hóa dữ
liệu được thực hiện một cách tự động hoặc theo schedule, số liệu dùng cho hệ thống báo cáo (OLAP)
được kết xuất từ hệ thống cơ sở dữ liệu trực tuyến (OLAP) bao gồm thông tin vụ án, bị can, các quyết
định liên quan, …
Từ đó giúp cho lãnh đạo đơn vị theo dõi, kiểm soát được tình hình, tiến độ thụ lý, giải quyết các
vụ án hình sự. Đáp ứng được các nhu cầu về trao đổi dữ liệu với các cơ quan tố tụng như Bộ công an,
Tòa án nhân dân các cấp.
Đưa ra các dự báo về công tác phòng chống tội phạm, phân tích về tình hình tội phạm và đánh
giá hoạt động nghiệp vụ của các cơ quan tiến hành tố tụng,
Thực hiện việc kiểm tra, theo dõi giám sát tiến độ thực hiện các vụ án.
16

3.4 Đề xuất giải pháp theo tiếp cận kho dữ liệu
Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân
tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo),
Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…Dữ liệu án hình sự đã hình thành một kho dữ
liệu án dùng chung cho tất cả các cấp.
Phần ứng dụng của bài toán yêu cầu đưa ra báo cáo danh sách về các vụ qua tại qua các giai
đoạn của vụ án, trong khoảng thời yêu cầu cụ thể. Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công
cụ Data Stage cho quá trình ETL. Dùng công cụ BI xử lý dữ liệu và đưa ra các báo cáo
Mô hình dưới đây mô tả kiến trúc data warehouse của Viện kiểm sát nhân dân tối cao.












Hình 26: Kiến trúc Data warehouse của hệ thống quản lý hình sự
Quá trình tạo các DM :
1. Định nghĩa các nguồn dữ liệu. Các bảng quan hệ và các file ngoài
2. Định nghĩa các đối tượng của kho dữ liệu theo mô hình bông tuyết, sử dụng công cụ Oracle
BI thiết kế các Dimension table
3. Làm sạch, chuẩn hóa dữ liệu (quá trình ETL) bằng công cụ Data Stage
4. Tạo các Data model
5. Định nghĩa các Data model
6. Tạo report chọn các data model thích hợp để đưa ra báo cáo
3.5 Thử nghiệm và đánh giá kết quả
Luận văn đã thử nghiệm một số khía cạnh :
 Thử nghiệm tại cơ sở dữ liệu tại Viện kiểm sát nhân dân tối cao.
 Dữ liệu nguồn được lấy từ các bảng thực thể : SPP_REGISTER, LST_SPP, LST_LAW,
SPP_DECISION, …
 Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công cụ Data Stage cho quá trình ETL.
Dùng công cụ BI xử lý dữ liệu và đưa ra các báo cáo

Phân tích


Báo cáo

Databas
e


Database


ETL

Data
Warehouse
Data Mart

Data Mart

BI
Data Repositories

17


Hình 27: Mô hình qua hệ thực thể của DM quản lý án hình sự


Hình 28: Mô hình bông tuyết

18


Hình 29: Mô tả quá trình ETL
Quá trình tạo một job lấy dữ liệu từ hệ thống nguồn
1. Login vào hệ thống DataStage
2. Tạo một job lấy dữ liệu từ hệ thống nguồn
a. Từ File bạn chọn New
b. Chọn Server job
c. Nhấn OK

Hình 30: Tạo một job lấy dữ liệu từ hệ thống nguồn

3. Từ Palete bạn chọn các biểu tượng sau
19

a. Database. ODBC
b. Tranformer. Sau đó nối chúng lại với nhau.

Hình 31: Chọn các biểu tượng kết nối
4. Kết nối ODBC nguồn với hệ thống nguồn cần lấy dữ liệu, kết nối ODBC đích với hệ thống đặt
dữ liệu đích

Hình 32: Kết nối tới hệ thống nguồn

20


Hình 33: Kết nối tới hệ thống đích
5. Lấy dữ liệu từ hệ thống nguồn (Trường hợp này ta lấy dữ liệu bảng SPP_DECISION)

Hình 34 : Lấy dữ liệu từ hệ thống nguồn





21

6. Đẩy dữ liệu vào hệ thống đích

Hình 36 : Đẩy dữ liệu vào hệ thống đích
7. Quá trình đẩy dữ liệu từ hệ thống nguồn về đích thông qua một Transformer (Có thể lọc dữ liệu
thông qua Transformer)

Hình 37: Quá trình đẩy hệ thống nguồn về đích
8. Sau khi tạo xong job thì dùng phải Compile để có thể chạy được job
9. Sau khi Compile job thì thực hiện Run job
Quá trình tạo báo cáo
1. Tạo các data model theo tiêu chí báo cáo
2. Định nghĩa các data model
3. Tạo các báo cáo từ data model




22



Hình 46: Quá trình kéo báo cáo trên BI

Hình 49 : Kết quả hiển thị báo cáo các vụ án qua các giai đoạn
Công cụ cũng có khả năng kết xuất dữ liệu ra word, excel,… để đáp ứng khả năng khai thác đầu ra
được linh hoạt.

23

Kết luận
Đề tài đã thực hiện được việc trích rút dữ liệu các vụ án trải qua các giai đoạn từ kho dữ liệu quản lý
án hình sự của Viện kiểm sát nhân dân tối cao, tuy nhiên để đáp ứng đuợc quá trình khai thác dữ liệu phục vụ
công tác phòng chống chống tội phạm, quản lý chỉ đạo, điều hành của lãnh đaọ Viện kiểm sát nhân dân các
cấp được nhanh chóng, chính xác, hiệu quả cần có những phân tích mang tính chuyên sâu hơn cho người
dùng. Trong khi, các báo cáo thường xuyên vẫn chưa đáp ứng được các yêu cầu phân tích đó. Do vậy việc
khai phá dữ liệu để tìm kiếm tri thức, dự đoán xu hướng và hỗ trợ ra quyết định đã trở thành một nhu cầu rất
cần thiết trong việc phân tích dữ liệu. Khóa luận cần được phát triển thêm để có thể trích rút nhiều thông tin
cần thiết phục vụ cho công tác của ngành kiểm sát nhân dân.

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×