ISSN: 1859-1531
BAN BIÊN TẬP

Tổng biên tập
GS.TSKH. Bùi Văn Ga

Phó Tổng biên tập
GS.TS. Trần Văn Nam

Trưởng ban biên tập
PGS.TS. Nguyễn Tấn Hưng

Cơ quan Đại học Đà Nẵng
41 Lê Duẩn, TP Đà Nẵng
Trường Đại học Bách khoa
54 Nguyễn Lương Bằng, Quận Liên Chiểu, TP Đà Nẵng
Trường Đại học Kinh tế
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Trường Đại học Sư phạm
459 Tôn Đức Thắng - Liên Chiểu - Đà Nẵng
Trường Đại học Ngoại ngữ
131 Lương Nhữ Hộc, Đà Nẵng
Trường Đại học Sư phạm kỹ thuật
48 Cao Thắng - Đà Nẵng
Phân hiệu ĐHĐN tại KonTum
129 Phan Đình Phùng, Kon Tum
Khoa công nghệ thông tin và tuyền thông
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Y Dược
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Giáo dục Thể chất
62 Ngô Sỹ Liên, Liên Chiểu, Đà Nẵng
Khoa Quốc tế
41 Lê Duẩn, Đà Nẵng
Viện Nghiên cứu & Đào tạo Việt Anh
158A Lê Lợi
Trung tâm phát triển phần mềm
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm kiểm định chất lượng giáo dục
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm ngoại ngữ
131 Lương Nhữ Hộc, Tp Đà Nẵng
Trung tâm nghiên cứu phát triển quản trị và tư vấn doanh nghiệp
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Tổng: 16,669,411
GIẢI THUẬT HIỆU NĂNG CAO KHAI THÁC TẬP SINH CỦA TẬP ĐÓNG PHỔ BIẾN
HIGH-PERFORMANCE ALGORITHM IN MINING GENERATORS OF CLOSED FREQUENT ITEMSETS
 Tác giả: Phan Thành Huấn
Đăng tại: Vol. 18, No. 5.2, 2020; Trang: 55-60
Tóm tắt bằng tiếng Việt:
Trong khai thác dữ liệu, khai thác luật kết hợp là một trong những kỹ thuật quan trọng và được nghiên cứu nhiều. Đặc biệt là kỹ thuật khai thác luật kết hợp chính xác và không dư thừa, một số tác giả đã đề xuất khai thác luật kết hợp này từ tập sinh của tập đóng phổ biến trên dữ liệu giao dịch. Trong bài viết này, chúng tôi đề xuất giải thuật song song MCP-GCFI khai thác nhanh tập sinh của tập đóng phổ biến trên bộ xử lý đa nhân. Giải thuật đề xuất dễ dàng mở rộng trên nhiều hệ thống tính toán phân tán như Hadoop, Spark. Kết quả thực nghiệm trên bộ dữ liệu thực có mật độ dày của UCI và bộ dữ liệu giả lập có mật độ thưa của trung tâm nghiên cứu IBM Almaden, cho thấy giải thuật đề xuất hiệu quả.
Từ khóa: Bộ xử lý đa nhân; tập đóng phổ biến; tập sinh của tập đóng; giải thuật song song MCP-GCFI
Abstract:
Association-rule mining is one of the most important and well-researched techniques of Data Mining. Particularly, the techniques of mining are exact association rules and non-redundant, Some authors have proposed mining these association rules from generators of closed frequent item sets. In this paper, we propose the parallel MCP-GCFI algorithm to fast mining generators of closed frequent item sets on Multi-Core processor, as well as to expand the algorithm on distributed computing systems such as Hadoop, Spark. The experimental results show that the proposed algorithms perform faster than other existing algorithms on both real-life datasets of UCI and synthetic datasets generated by IBM Almaden
Key words: Multi-core processor; closed frequent itemset; generator itemsets; parallel MCP-GCFI algorithm
Tài liệu tham khảo:
[1] R. Agrawal, T. Imilienski and A. Swami, “Mining association rules between sets of large databases”, Proc. of the ACM SIGMOD Int Conf on Management of Data., pp. 207-216, 1993.
[2] P. Huan and L. Bac, “A Novel Algorithm for Frequent Itemsets Mining in Transactional Databases”, In: Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2018. LNCS, 11154, Springer Cham, pp. 243–255, 2018.
[3] Y. Bastide, N. Pasquier, R. Taouil, G. Stumme, and L. Lakhal, “Mining Minimal Non-Redundant Association Rules using Closed Frequent Itemssets”, In: 1st International Conference on Computational Logic, pp. 972 – 986, 2000.
[4] M. J. Zaki, “Mining Non-Redundant Association Rules”, Data Mining and Knowledge Discovery, 9, Springer, pp. 223–248, 2004.
[5] P. Huan, “NOV-CFI: A Novel Algorithm for Closed Frequent Itemsets Mining in Transactional Databases”, ICNCC 2018, ACM, NY, USA, pp. 58-63, 2018.
[6] G. Liu, J. Li and L. Wong, “A new concise representation of frequent itemsets using generators and a positive border”, Knowl. Inf. Syst, 17(1), Springer, pp. 35-56, 2008.
[7] T. Hamrouni, “Key roles of closed sets and minimal generators in concise representations of frequent patterns”, Intell. Data Anal., 16(4), pp.581-631, 2012.
[8] L. Szathmary, A. Napoli and S. O. Kuznetsov, “ZART: AMultifunctional Itemset Mining Algorithm”, The 6th Intl Conf on Concept Lattices and Their Applications, pp. 47–58, 2008.
[9] A. Soulet and F. Rioult, “Efficiently Depth-First Minimal Pattern Mining”, In: Tseng V.S., Ho T.B., Zhou ZH., Chen A.L.P., Kao HY. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD 2014. LNCS. 8443, Springer Cham, pp. 28-39, 2014.
[10] A. Soulet and F. Rioult, “Exact and Approximate Minimal Pattern Mining”, In: Guillet F., Pinaud B., Venturini G. (eds) Advances in Knowledge Discovery and Management. SCI. 665, Springer Cham, pp. 61-81, 2017.
[11] Phan Thành Huấn, Lê Hoài bắc, Thuật toán hiệu quả khai thác tập hiếm tối thiểu, FAIR – Nghiên cứu cơ bản và ứng dụng, 2018, pp. 497-505.

BAN BIÊN TẬP

Tổng biên tập
GS.TSKH. Bùi Văn Ga

Phó Tổng biên tập
GS.TS. Trần Văn Nam

Trưởng ban biên tập
PGS.TS. Nguyễn Tấn Hưng

Cơ quan Đại học Đà Nẵng
41 Lê Duẩn, TP Đà Nẵng
Trường Đại học Bách khoa
54 Nguyễn Lương Bằng, Quận Liên Chiểu, TP Đà Nẵng
Trường Đại học Kinh tế
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Trường Đại học Sư phạm
459 Tôn Đức Thắng - Liên Chiểu - Đà Nẵng
Trường Đại học Ngoại ngữ
131 Lương Nhữ Hộc, Đà Nẵng
Trường Đại học Sư phạm kỹ thuật
48 Cao Thắng - Đà Nẵng
Phân hiệu ĐHĐN tại KonTum
129 Phan Đình Phùng, Kon Tum
Khoa công nghệ thông tin và tuyền thông
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Y Dược
Hòa Quý - Ngũ Hành Sơn - Đà Nẵng
Khoa Giáo dục Thể chất
62 Ngô Sỹ Liên, Liên Chiểu, Đà Nẵng
Khoa Quốc tế
41 Lê Duẩn, Đà Nẵng
Viện Nghiên cứu & Đào tạo Việt Anh
158A Lê Lợi
Trung tâm phát triển phần mềm
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm kiểm định chất lượng giáo dục
41 Lê Duẩn, Tp. Đà Nẵng
Trung tâm ngoại ngữ
131 Lương Nhữ Hộc, Tp Đà Nẵng
Trung tâm nghiên cứu phát triển quản trị và tư vấn doanh nghiệp
71 - Ngũ Hành Sơn - TP. Đà Nẵng
Tổng: 16,669,411