[R] Phân ngành dựa vào biến động giá cổ phiếu. Unsupervised learning, k-means clustering.

Bài viết này tôi không viết về thị trường chứng khoán, các quỹ mở hay phương hướng đầu tư… Mà viết về cách sử dụng ngôn ngữ R để phân tích ý tưởng của mình.

Ý tưởng của tôi rằng: Sử dụng umap và kmeans để thử phân ngành các cổ phiếu trên thị trường bằng biến động giá cổ phiếu mỗi ngày.

Link phần 1: Phân ngành dựa vào biến động giá cổ phiếu. Unsupervised learning, k-means clustering. (vohoanghac.com)

Với phần 1, tôi sử dụng dữ liệu miễn phí của CafeF, tuy nhiên dữ liệu này lại bị thiếu sót khá nhiều cổ phiếu, buộc tôi phải dừng lại.


Link phần 2: Phân ngành dựa vào biến động giá cổ phiếu. Unsupervised learning, k-means clustering. Cophieu68 (vohoanghac.com)

Tóm tắt: sau khi được giới thiệu dữ liệu từ cophieu68, tôi viết tiếp phần 2.

Lúc này, tôi lựa chọn top 99 cổ phiếu có vốn hóa cao nhất trên thị trường vào ngày 12/01/2021 để phân tích.

Với việc phân thành 8 cụm, kết quả của tôi thể hiện ở biểu đồ có thể tương tác được bên dưới:

Chúng ta có thể thấy được rằng việc sử dụng thông tin biến động giá cổ phiếu trong ngày có thể giúp phân loại được một vài ngành. Dễ nhận biết nhất là ngành tài chính màu vàng, với nhóm ngân hàng và chứng khoán. Cổ phiếu họ nhà P, hai cổ phiếu HAG + HNG và nhóm “cổ phiếu Đông Âu”.

Nếu như tôi nâng số cụm lên thì nhóm tài chính đã phân ra thành ngân hàng và chứng khoán:

Ngoài ra, những cổ phiếu khác không thể phân biệt được. Tuy nhiên tôi sẽ thử lại với số lượng cổ phiếu nhiều hơn vào lần phân tích tới.


Đây là bài viết số 15. Mọi dữ liệu về bài viết tôi lưu tại:
https://github.com/vhoanghac/blog

Leave a Reply

Your email address will not be published.