Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?

Phân tích tương quan là một phương pháp thống kê được sử dụng để đo lường độ mạnh của mối quan hệ tuyến tính giữa hai biến và tính toán mối liên hệ của chúng. Phân tích tương quan tính toán mức độ thay đổi của một biến do sự thay đổi của biến kia. Hệ số tương quan cao cho thấy mối quan hệ chặt chẽ giữa hai biến, trong khi hệ số tương quan thấp có nghĩa là các biến có mối quan hệ yếu.

Quảng cáo

Các nhà nghiên cứu sử dụng phân tích tương quan để phân tích dữ liệu định lượng được thu thập thông qua các phương pháp nghiên cứu như khảo sát và thăm dò ý kiến ​​trực tiếp để nghiên cứu thị trường. Họ cố gắng xác định mối quan hệ, mẫu, kết nối quan trọng và xu hướng giữa hai biến hoặc tập dữ liệu. Có một mối tương quan tích cực giữa hai biến khi sự gia tăng của một biến dẫn đến sự gia tăng của biến kia. Mặt khác, một mối tương quan tiêu cực có nghĩa là khi một biến tăng lên, biến kia sẽ thảo luận và ngược lại.

Tương quan là một phân tích hai chiều để đo lường mức độ liên kết giữa hai biến và hướng của mối quan hệ. Về độ mạnh của mối quan hệ, giá trị của hệ số tương quan khác nhau giữa +1 và -1. Giá trị ± 1 cho biết mức độ liên kết hoàn hảo giữa hai biến.

Khi giá trị hệ số tương quan tiến về 0, mối quan hệ giữa hai biến sẽ yếu hơn. Dấu hệ số chỉ chiều của quan hệ; dấu + biểu thị mối quan hệ tích cực và dấu – biểu thị mối quan hệ tiêu cực.

Tại sao phân tích tương quan lại quan trọng

Phân tích tương quan có thể tiết lộ các mối quan hệ có ý nghĩa giữa các chỉ số hoặc nhóm chỉ số khác nhau. Thông tin về những kết nối đó có thể cung cấp thông tin chi tiết mới và tiết lộ sự phụ thuộc lẫn nhau, ngay cả khi các số liệu đến từ các bộ phận khác nhau của doanh nghiệp.

Giả sử có một mối tương quan chặt chẽ giữa hai biến số hoặc số liệu và một trong số chúng đang được quan sát hành động theo một cách cụ thể. Trong trường hợp đó, bạn có thể kết luận rằng cái kia cũng bị ảnh hưởng tương tự. Điều này giúp nhóm các chỉ số liên quan lại với nhau để giảm nhu cầu xử lý dữ liệu riêng lẻ.

Các loại phân tích tương quan trong khai thác dữ liệu

Thông thường, trong thống kê, chúng tôi đo lường bốn loại tương quan: tương quan Pearson, tương quan xếp hạng Kendall, tương quan Spearman và tương quan Point-Biserial.

1. Tương quan Pearson r

Tương quan Pearson r là thống kê tương quan được sử dụng rộng rãi nhất để đo mức độ của mối quan hệ giữa các biến liên quan tuyến tính. Ví dụ, trong thị trường chứng khoán, nếu chúng ta muốn đo lường mức độ liên quan của hai cổ phiếu với nhau, thì tương quan Pearson r được sử dụng để đo lường mức độ quan hệ giữa hai cổ phiếu. Mối tương quan giữa hai miền được thực hiện với công thức tương quan Pearson, ngoại trừ một trong các biến là phân đôi. Công thức sau đây được sử dụng để tính tương quan Pearson r:

Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?

rxy= Pearson r hệ số tương quan giữa x và y

n= số quan sát

xi = giá trị của x (đối với lần quan sát thứ i)

yi= giá trị của y (đối với lần quan sát thứ i)

2. Tương quan thứ hạng Kendall

Tương quan xếp hạng Kendall là một bài kiểm tra phi tham số đo lường mức độ phụ thuộc giữa hai biến. Xét hai mẫu a và b, trong đó kích thước mỗi mẫu là n, chúng ta biết rằng tổng số cặp với ab là n(n-1)/2. Công thức sau đây được sử dụng để tính giá trị của tương quan xếp hạng Kendall:

Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?

Nc= số lượng phù hợp

Nd= Số bất hòa

3. Tương quan thứ hạng của Spearman

Tương quan xếp hạng Spearman là một bài kiểm tra phi tham số được sử dụng để đo lường mức độ liên kết giữa hai biến. Thử nghiệm tương quan xếp hạng Spearman không mang bất kỳ giả định nào về phân phối dữ liệu. Đó là phân tích tương quan thích hợp khi các biến được đo lường trên một thang đo ít nhất là thứ tự.

Hệ số này yêu cầu một bảng dữ liệu hiển thị dữ liệu thô, thứ hạng của nó và sự khác biệt giữa hai thứ hạng. Sự khác biệt bình phương giữa hai thứ hạng này sẽ được hiển thị trên biểu đồ phân tán, biểu đồ này sẽ cho biết liệu có mối tương quan tích cực, tiêu cực hay không giữa hai biến. Ràng buộc mà hệ số này hoạt động theo là -1 ≤ r ≤ +1, trong đó kết quả bằng 0 có nghĩa là không có mối quan hệ nào giữa dữ liệu. Công thức sau đây được sử dụng để tính tương quan xếp hạng Spearman:

Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?

ρ= tương quan xếp hạng Spearman

di = sự khác biệt giữa các cấp của các biến tương ứng

n= số quan sát

Khi nào nên sử dụng các phương pháp này

Hai phương pháp được nêu ở trên sẽ được sử dụng tùy theo việc có các tham số liên quan đến dữ liệu được thu thập hay không. Hai thuật ngữ cần chú ý là:

  • Tham số:(Hệ số Pearson) Dữ liệu phải được xử lý với các tham số của quần thể hoặc phân phối xác suất. Thường được sử dụng với dữ liệu định lượng đã được đặt trong các tham số đã nói.
  • Phi tham số:(Xếp hạng của Spearman) Trường hợp không thể đưa ra giả định nào về phân phối xác suất. Thường được sử dụng với dữ liệu định tính, nhưng có thể được sử dụng với dữ liệu định lượng nếu Xếp hạng của Spearman tỏ ra không phù hợp.

Trong trường hợp cả hai đều có thể áp dụng, các nhà thống kê khuyến nghị sử dụng các phương pháp tham số như Hệ số Pearson vì chúng có xu hướng chính xác hơn. Nhưng điều đó không có nghĩa là giảm giá các phương pháp phi tham số nếu không có đủ dữ liệu hoặc cần có kết quả chính xác hơn được chỉ định.

Phiên dịch kết quả

Thông thường, cách tốt nhất để có được cách giải thích tổng quát nhưng tức thời hơn về kết quả của một tập hợp dữ liệu là trực quan hóa nó trên biểu đồ phân tán, chẳng hạn như sau:

  1. Tương quan tích cực: Bất kỳ điểm nào từ +0,5 đến +1 đều cho thấy mối tương quan tích cực rất mạnh, cả hai đều tăng đồng thời. Trường hợp này theo sau các điểm dữ liệu hướng lên trên để chỉ ra mối tương quan tích cực. Đường phù hợp nhất hoặc đường xu hướng là nơi thể hiện tốt nhất dữ liệu của biểu đồ.
    Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?
  2. Tương quan tiêu cực: Bất kỳ điểm nào từ 0,5 đến -1 đều biểu thị mối tương quan âm mạnh, có nghĩa là khi một biến tăng thì biến kia tăng theo tỷ lệ. Dòng phù hợp nhất có thể được nhìn thấy ở đây để chỉ ra mối tương quan tiêu cực. Trong những trường hợp này, nó sẽ dốc xuống từ điểm gốc.
    Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?
  3. Không liên quan: Rất đơn giản, điểm 0 cho thấy không có mối tương quan hoặc mối quan hệ nào giữa hai biến. Thực tế này sẽ đúng cho tất cả mọi người, bất kể công thức nào được sử dụng. Càng nhiều dữ liệu được nhập vào công thức, kết quả sẽ càng chính xác. Cỡ mẫu càng lớn thì kết quả càng chính xác.
    Những phương pháp nào được sử dụng để đo lường mối tương quan giữa hai biến?

Các ngoại lệ hoặc bất thường phải được tính đến trong cả hai hệ số tương quan. Sử dụng biểu đồ phân tán là cách dễ nhất để xác định bất kỳ điểm bất thường nào có thể có. Chạy phân tích tương quan hai lần (có và không có bất thường) là một cách tuyệt vời để đánh giá mức độ ảnh hưởng của các bất thường đối với phân tích. Hệ số Xếp hạng của Spearman có thể được sử dụng nếu xuất hiện điểm bất thường thay vì Hệ số Pearson, vì công thức này cực kỳ hiệu quả đối với các điểm bất thường do hệ thống xếp hạng được sử dụng.

Lợi ích của phân tích tương quan

Dưới đây là những lợi ích sau của phân tích tương quan, chẳng hạn như:

1. Giảm thời gian phát hiện

Trong phát hiện bất thường, làm việc với nhiều chỉ số và hiển thị các chỉ số bất thường tương quan giúp rút ra các mối quan hệ giúp giảm thời gian phát hiện (TTD) và hỗ trợ rút ngắn thời gian khắc phục (TTR). Khi việc ra quyết định dựa trên dữ liệu đã trở thành tiêu chuẩn, việc phát hiện sớm và mạnh mẽ các điểm bất thường là rất quan trọng trong mọi lĩnh vực công nghiệp, vì việc phát hiện chậm trễ sẽ ảnh hưởng đến trải nghiệm và doanh thu của khách hàng.

2. Giảm mệt mỏi cảnh báo

Một lợi ích quan trọng khác của phân tích tương quan trong phát hiện bất thường là giảm sự mệt mỏi của cảnh báo bằng cách lọc các điểm bất thường không liên quan (dựa trên mối tương quan) và nhóm các điểm bất thường có tương quan thành một cảnh báo duy nhất. Bão cảnh báo và cảnh báo sai là những thách thức lớn mà các tổ chức phải đối mặt – nhận được hàng trăm, thậm chí hàng nghìn cảnh báo riêng biệt từ nhiều hệ thống trong khi nhiều cảnh báo trong số đó bắt nguồn từ cùng một sự cố.

3. Giảm chi phí

Phân tích tương quan giúp giảm đáng kể chi phí liên quan đến thời gian điều tra ý nghĩa hoặc cảnh báo trùng lặp. Ngoài ra, thời gian tiết kiệm được có thể được dành cho các sáng kiến ​​chiến lược hơn nhằm gia tăng giá trị cho tổ chức.

Các trường hợp sử dụng ví dụ để phân tích tương quan

Các chuyên gia tiếp thị sử dụng phân tích tương quan để đánh giá hiệu quả của chiến dịch bằng cách theo dõi và kiểm tra phản ứng của khách hàng đối với các chiến thuật tiếp thị khác nhau. Bằng cách này, họ có thể hiểu và phục vụ khách hàng tốt hơn.

Các nhà lập kế hoạch tài chính đánh giá mối tương quan của một cổ phiếu riêng lẻ với một chỉ số như S&P 500 để xác định xem việc thêm cổ phiếu vào danh mục đầu tư có thể làm tăng rủi ro hệ thống của danh mục đầu tư hay không.

Đối với các nhà khoa học dữ liệu và những người có nhiệm vụ giám sát dữ liệu, phân tích tương quan cực kỳ có giá trị để phân tích nguyên nhân gốc rễ và giảm thời gian phát hiện (TTD) cũng như khắc phục (TTR). Hai sự kiện bất thường hoặc sự bất thường xảy ra đồng thời/tỷ lệ có thể giúp xác định nguyên nhân cơ bản của vấn đề. Tổ chức sẽ phải chịu chi phí thấp hơn khi gặp sự cố nếu vấn đề đó có thể được hiểu và khắc phục sớm hơn.

Các nhóm hỗ trợ kỹ thuật có thể giảm số lượng cảnh báo mà họ phải phản hồi bằng cách lọc các điểm bất thường không liên quan và nhóm các điểm bất thường có liên quan vào một cảnh báo duy nhất. Các công cụ như hệ thống quản lý sự kiện và thông tin bảo mật (SIEM) tự động hỗ trợ ứng phó sự cố.

Liệu mối tương quan ngụ ý nhân quả?

Mặc dù các kỹ thuật phân tích tương quan có thể xác định một mối quan hệ quan trọng, nhưng mối tương quan không ngụ ý quan hệ nhân quả. Việc phân tích không thể xác định nguyên nhân, cũng như không nên cố gắng đưa ra kết luận này. Mối quan hệ quan trọng ngụ ý hiểu biết nhiều hơn và các yếu tố bên ngoài hoặc cơ bản nên được khám phá để tìm kiếm nguyên nhân. Mặc dù có thể tồn tại mối quan hệ nhân quả, nhưng bất kỳ nhà nghiên cứu nào cũng sẽ thiếu sót khi sử dụng các kết quả tương quan để chứng minh sự tồn tại này.

Nguyên nhân của bất kỳ mối quan hệ nào được phát hiện thông qua phân tích tương quan là để nhà nghiên cứu xác định thông qua các phương tiện phân tích thống kê khác, chẳng hạn như phân tích hệ số xác định. Tuy nhiên, phân tích tương quan có thể cung cấp một lượng lớn giá trị; ví dụ, giá trị của sự phụ thuộc hoặc các biến có thể được ước tính, điều này có thể giúp các công ty ước tính chi phí và doanh số bán sản phẩm hoặc dịch vụ.

Về bản chất, việc sử dụng và ứng dụng các phân tích thống kê dựa trên mối tương quan cho phép các nhà nghiên cứu xác định các khía cạnh và biến nào phụ thuộc lẫn nhau, có thể tạo ra những hiểu biết có thể hành động như hiện tại hoặc điểm khởi đầu cho các nghiên cứu sâu hơn và hiểu sâu hơn.


Bạn đang xem chuyên mục Hỏi đáp
Thuộc website web giải đáp

Quảng cáo
Hỏi đáp

Leave a Reply

Email của bạn sẽ không được hiển thị công khai.

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>