Nhóm 15
- Nguyễn Tuấn Kiên.
- Hà Minh Công.
- Hà Mạnh Đông.
- Lê Huỳnh Đức.
- Nguyễn Văn Đức.
- Ngôn ngữ lập trình: Python.
- Thư viện học máy: sklearn.
- Giao diện xây dựng trên nền tảng web - framework Django.
Training
Websites
Crawl
Train contents
labels
features
Machine Algorithm
Prediction
New content
Text Feature Extractor
Text Feature Extractor
features
Classifier Model
Label
Các dữ liệu quan trọng cần thu thập là: Nội dung bài báo, thể loại bài báo và các đường dẫn tới các bài báo tiếp theo
Để kiểm tra khả năng cũng như tối ưu bộ dữ liệu cho hệ thống, chúng ta sử dụng các kịch bản sau để test:
Kịch bản 1:
- Sử dụng bộ dữ liệu gồm 12000 bản ghi, không giới hạn thể loại bài báo, không giới hạn số lượng bản ghi trong một thể loại
Kịch bản 2:
- Giới hạn số lượng các thể loại (6 thể loại), số lượng bản ghi mỗi thể loại là như nhau (2500 bản ghi)
Sau khi xử lý dữ liệu, ta được bộ dữ liệu là một danh sách các bản ghi, trong đó mỗi bản ghi chứa 2 trường quan trọng sau:
+ Thể loại (type)
+ Nội dung bản ghi (content)
Sau đó, ta chia bộ dữ liệu ra thành 2 phần: Phần dùng để training và phần dùng để kiểm tra hệ thống
Text feature extactor:
A swimmer like swimming thus he swims
Lọc bỏ từ dừng
A swimmer like swimming thus he swims
| 1 | 10 | 1000 | |
|---|---|---|---|
| Linear | |||
| Rbf |
model 1
model 2
model 3
model 4
model 5
model 6
Đánh giá:
Đánh giá:
Đánh giá
DEMO TIME