Vnstock Logo

Giới thiệu về vnstock_news

Cập nhật lần cuối:

Thảo luận

Mục lục

Giới thiệu

vnstock_news là một thư viện Python thiết kế để trích xuất dữ liệu tin tức từ các trang mạng điện tử tài chính và kinh tế tại Việt Nam. Thư viện được tối ưu hóa khả năng tương thích với AI Agent, hỗ trợ nghiên cứu, giảng dạy khoa học dữ liệu và phân tích định lượng dựa trên thông tin.


Các tính năng nổi bật

  • Thu thập dữ liệu đa dạng: Hỗ trợ trích xuất tiêu đề, mô tả ngắn, nội dung Markdown, thời gian xuất bản, danh mục, URL và tác giả từ 21 trang tin tức phổ biến của Việt Nam.
  • Quản lý nguồn cấp dữ liệu linh hoạt: Tự động xử lý cả RSS feeds và Sitemaps để lấy danh sách các bài viết mới nhất hoặc theo lịch sử theo nhiều năm.
  • Cấu hình dễ dàng: Đi kèm với cấu hình sẵn cho 21 trang tin tức, giúp bạn bắt đầu nhanh chóng mà không cần cấu hình thủ công phức tạp.
  • Khả năng tùy biến cao: Cho phép bạn định nghĩa cấu hình tùy chỉnh cho các trang web không có sẵn hoặc điều chỉnh các bộ chọn (selector) để phù hợp với thay đổi cấu trúc trang.
  • Chế độ thu thập hàng loạt: Hỗ trợ thu thập thông tin chi tiết của nhiều bài viết cùng lúc, tối ưu hóa hiệu suất.
  • Ghi log chi tiết: Cung cấp thông tin log rõ ràng giúp theo dõi quá trình thu thập và gỡ lỗi.

Các trang báo được hỗ trợ sẵn

Tất cả các báo đều hỗ trợ cả RSS và Sitemap vì đây là tiêu chuẩn web. vnstock_news cung cấp cấu hình sẵn cho 21+ báo phổ biến nhưng có thể tùy biến để làm việc với bất kỳ website/báo nào có nguồn RSS/sitemap.

STTTên BáoTên ConfigLoại HìnhRSSSitemapMô Tả/Ghi Chú
1Nhân DânnhandanCơ quan TWCơ quan trung ương của Đảng Cộng Sản Việt Nam
2Tiền PhongtienphongCơ quan TWCơ quan trung ương của Đoàn TNCS Hồ Chí Minh
3VietNamNetvietnamnetBộ NgànhCơ quan chủ quản Bộ Dân Tộc và Tôn Giáo
4Dân TrídantriBộ NgànhCơ quan của Bộ Nội vụ
5VnExpressvnexpressBộ NgànhThuộc Bộ Khoa học và Công nghệ
6Báo Đầu TưbaodautuBộ NgànhThuộc Bộ Tài chính
7Thời Báo Tài ChínhthoibaotaichinhvietnamBộ NgànhBáo điện tử thuộc Bộ Tài Chính
8Thanh NiênthanhnienTổ chức TWDiễn đàn của Hội LHTN Việt Nam
9Tuổi TrẻtuoitreĐịa phươngCơ quan báo của Thành Đoàn TP.HCM
10Người Lao ĐộngnldĐịa phươngQuản lý bởi Thành ủy TP.HCM
11Pháp Luật TP.HCMploĐịa phươngCơ quan chủ quản: UBND TP.HCM
12Kinh Tế Sài GònktsgĐịa phươngTạp chí Kinh tế Sài Gòn của UBND Tp. HCM
13VnEconomyvneconomyChuyên ngànhTạp chí của Hội Khoa học Kinh tế Việt Nam
14Diễn Đàn Doanh NghiệpdddnChuyên ngànhCơ quan của Liên đoàn Thương mại và Công nghiệp VN
15PetroTimespetrotimesChuyên ngànhTạp chí của Hội Dầu khí Việt Nam
16Znews (Tri thức)znewsChuyên ngànhTạp chí điện tử của Hội Xuất bản Việt Nam
17CafeFcafefTrang tinTrang thông tin điện tử của khối VCCorp
18CafeBizcafebizTrang tinTrang thông tin điện tử của khối VCCorp
19VietStockvietstockTrang tinCổng thông tin Tài chính, Chứng khoán (CTCP Tài Việt)
2024h24hTổng hợpTrang tin điện tử tổng hợp 24h
21Người Quan SátnguoiquansatTổng hợpTrang TTĐTTH của báo Đầu tư đổi mới INTECH

Vai trò của thư viện

vnstock_news hỗ trợ việc chuẩn bị dữ liệu đầu vào cho quy trình phân tích:

  • Hệ thống cảnh báo: Giám sát, tổng hợp báo cáo diễn biến vĩ mô và cập nhật thông tin doanh nghiệp định kỳ.
  • Khoa học dữ liệu: Đóng gói cơ sở văn bản (dataset) cho việc đào tạo hoặc tinh chỉnh mô hình học sâu, công nghệ Large Language Models (LLMs).
  • Nghiên cứu định lượng: Phân loại chỉ số cảm xúc tài chính (sentiment analysis) nhằm gia tăng hiệu quả các mô hình đánh giá thị trường chứng khoán.

Lưu ý về Bản quyền và Thu thập Dữ liệu Công khai

vnstock_news là công cụ lập trình cấu trúc dữ liệu công khai trên Internet, cung cấp nội dung thuần túy nhằm phục vụ cho nghiên cứu và học thuật. Toàn bộ nội dung trích xuất thuộc về bản quyền của cơ quan báo chí chủ quản. Người dùng thư viện phải tuân thủ tuyệt đối quy định về Bản quyền, sở hữu trí tuệ, và giấy phép phân phối theo điều khoản hiện hành nếu có dự định sử dụng kết quả cho hoạt động thương mại, kinh doanh hoặc đăng tải trên các nền tảng công cộng.

Thay vì phải nghiên cứu cú pháp thư viện một cách thủ công, bạn được khuyến nghị sử dụng tài liệu Agent Guide (tham chiếu ở chuyên trang Github của chúng tôi) cung cấp cho một trợ lý AI (AI Agent) trong môi trường như Google Antigravity, Claude Code, vv. Trợ lý này sẽ dễ dàng thiết lập quá trình trích xuất chỉ với chỉ dẫn bằng ngôn ngữ tự nhiên.

Thảo luận

Đang tải bình luận...