Báo cáo XML

Sinh viên thực hiện: Nguyễn Tuấn Kiên - 20121946

Effective XML Keyword Search with Nearest Common Object Node Semantics

MỤC LỤC

  • Hướng tiếp cận LCA semantic và nhược điểm.
  • Hướng tiếp cận NCON semantic.
  • Chương trình XComplete.

Hướng tiếp cận LCA semantic và nhược điểm.

  • Lowest Common Ancestor

Tính vô nghĩa của câu trả lời.

Tập các câu trả lời không đầy đủ.

Hướng tiếp cận NCON semantic

  • Nearest Common Object Node.
  • Phải là Object Node.
  • NCON = LCOA(Lowest Common Object Ancestor) or HCOD(Highest Common Object Descendant).
  • Thực hiện trên cả original XML document và reversed XML document.

Tập câu trả lời đầy đủ hơn

Hướng tiếp cận NCON semantic

  • Object
  • Object Node vs Non Object Node
  • Matching Object vs Matching Object Node
  • Query Mapping
  • Mapping instances

Hướng tiếp cận NCON semantic

  • LCOA của tập các object node
  • LCOA của query mapping
  • HCOD của tập các object node
  • HCOD của query mapping
  • NCON của query mapping
  • NCON của query

Hướng tiếp cận NCON semantic

Query: Q = {Clinton, Kennedy}

MQ = {Student:81433, Student:12745}

I1 = {Student(1.1.1), Student(1.1.2)}

I2 = {Student(1.1.1), Student(1.1.2)}

LCOA(I1) = Professor(1.1)

LCOA(I2) = The root

Hướng tiếp cận NCON semantic

Query: Q = {Clinton, Kennedy}

LCOA(MQ) = {Professor(1.1)}

HCOA(I1) = {Paper(1.1.1.1), Paper (1.1.2.1)}

HCOA(I2) = {Paper(1.2.1.1), Paper (1.1.2.1)}

HCOD(MQ) = {{Paper(1.1.1.1), Paper (1.1.2.1)}}

Hướng tiếp cận NCON semantic

- Lọc được những câu trả lời không liên quan.

=> Giúp tăng Precision và Recall của tìm kiếm từ khóa XML.

- Câu trả lời sát với câu truy vấn hơn do NCON là object node.

- Tập câu trả lời đầy đủ hơn với cả LCOA và HCOD.

Ưu điểm của NCON semantic

XCOMPLETE

  • Làm việc ở tầng object.
  • Loại bỏ được những câu trả lời trùng lặp.
  • Hợp nhất các câu trời.
  • Biểu diễn câu trả lời dưới dạng cây con từng phần.

Những tính năng của XComplete.

XCOMPLETE

  • Làm việc ở tầng object.
  • Loại bỏ được những câu trả lời trùng lặp.
  • Hợp nhất các câu trời.
  • Biểu diễn câu trả lời dưới dạng cây con từng phần.

Cơ chế làm việc của XComplete.

XCOMPLETE

Quy trình làm việc của XComplete.

2. Tính toán Online:

  • Tìm NCONs
  • Khởi tạo câu trả lời.
  • Hậu xử lý câu trả lời.

1. Tính toán Offline:

  • Khởi tạo reserved XML document.
  • Đánh chỉ mục.

XCOMPLETE

Quy trình làm việc của XComplete.

Tập câu trả lời - biểu diễn partial subtree

XCOMPLETE

Kết quả thực tế và đánh giá hiệu năng

Tiến hành đo đạc hiệu năng trên thiết bị với các thông số kỹ thuật :

  • Cài đặt Java.
  • Window XP.
  • A dual-core Intel Xeon CPU 3.0GHz.
  • 4GB RAM, 320GB Hard Disk.

XCOMPLETE

Kết quả thực tế và đánh giá hiệu năng

Dataset: 

​Dataset ​Number of nodes ​Number of keywords ​Number of distinct keywords ​Data size
​NBA ​135,940 ​223,500 ​8,302 ​2.3M
DBLP 17,501,788 ​48,191,004 ​2,893,195 ​738M
​SIGMOD  31,627  46,311 6,511 500KB

XCOMPLETE

Kết quả thực tế và đánh giá hiệu năng

Cám ơn thầy và các bạn đã lắng nghe

deck

By Tuấn Kiên Nguyễn