Khai thác dữ liệu là gì? Khái niệm cơ bản và kỹ thuật của nó.

Mục lục:

Khai thác dữ liệu là gì? Khái niệm cơ bản và kỹ thuật của nó.
Khai thác dữ liệu là gì? Khái niệm cơ bản và kỹ thuật của nó.

Video: Khai thác dữ liệu là gì? Khái niệm cơ bản và kỹ thuật của nó.

Video: Khai thác dữ liệu là gì? Khái niệm cơ bản và kỹ thuật của nó.
Video: Không cần cài Office nữa vẫn có Office bản quyền miễn phí 100% để xài - YouTube 2024, Tháng tư
Anonim

Nền tảng của cuộc cách mạng công nghiệp thứ tư sẽ phụ thuộc phần lớn vào Dữ liệuKết nối. Dịch vụ phân tích có khả năng phát triển hoặc tạo ra các giải pháp khai thác dữ liệu sẽ đóng một vai trò quan trọng trong vấn đề này. Nó có thể hỗ trợ trong việc phân tích và dự đoán kết quả của hành vi mua hàng của khách hàng để nhắm mục tiêu người mua tiềm năng. Dữ liệu sẽ trở thành tài nguyên thiên nhiên mới và quá trình trích xuất thông tin có liên quan từ dữ liệu chưa được phân loại này sẽ mang lại tầm quan trọng to lớn. Như vậy, hiểu đúng về thuật ngữ - Khai thác dữ liệu, các quy trình và ứng dụng của nó có thể giúp chúng tôi phát triển một cách tiếp cận toàn diện về từ thông dụng này.

Cơ sở dữ liệu khai thác dữ liệu và kỹ thuật của nó

Image
Image

Khai thác dữ liệu, còn được gọi là Khám phá kiến thức trong dữ liệu (KDD) là tìm kiếm các kho dữ liệu lớn để khám phá các mẫu và xu hướng vượt ra ngoài phân tích đơn giản. Tuy nhiên, điều này không phải là một giải pháp bước duy nhất mà là một quy trình nhiều bước và được hoàn thành trong các giai đoạn khác nhau. Bao gồm các:

1] Thu thập và chuẩn bị dữ liệu

Nó bắt đầu với việc thu thập dữ liệu và tổ chức thích hợp của nó. Điều này giúp cải thiện đáng kể cơ hội tìm kiếm thông tin có thể được khám phá thông qua khai thác dữ liệu

2] Xây dựng mô hình và đánh giá

Bước thứ hai trong quá trình khai thác dữ liệu là việc áp dụng các kỹ thuật mô hình hóa khác nhau. Chúng được sử dụng để hiệu chỉnh các tham số đến các giá trị tối ưu. Kỹ thuật sử dụng phần lớn phụ thuộc vào khả năng phân tích cần thiết để giải quyết một gam màu nhu cầu của tổ chức và để đi đến một quyết định.

Hãy để chúng tôi kiểm tra một số kỹ thuật khai thác dữ liệu trong ngắn gọn. Nó được tìm thấy rằng hầu hết các tổ chức kết hợp hai hoặc nhiều kỹ thuật khai thác dữ liệu với nhau để tạo thành một quá trình thích hợp đáp ứng yêu cầu kinh doanh của họ.

Đọc: Dữ liệu lớn là gì?

Kỹ thuật khai thác dữ liệu

  1. Hiệp hội - Hiệp hội là một trong những kỹ thuật khai thác dữ liệu được biết đến rộng rãi. Theo đó, một mẫu được giải mã dựa trên mối quan hệ giữa các mục trong cùng một giao dịch. Do đó, nó còn được gọi là kỹ thuật quan hệ. Các nhà bán lẻ thương hiệu lớn dựa vào kỹ thuật này để nghiên cứu thói quen / sở thích mua của khách hàng. Ví dụ: khi theo dõi thói quen mua hàng của mọi người, nhà bán lẻ có thể xác định rằng khách hàng luôn mua kem khi họ mua sô-cô-la và do đó đề xuất lần tới khi họ mua sô-cô-la, họ cũng có thể muốn mua kem.
  2. Phân loại - Kỹ thuật khai thác dữ liệu này khác với cách nói trên dựa trên cách thức học máy và sử dụng các kỹ thuật toán học như Lập trình tuyến tính, Cây quyết định, Mạng nơron. Trong phân loại, các công ty cố gắng xây dựng một phần mềm có thể học cách phân loại các mục dữ liệu thành các nhóm. Ví dụ, một công ty có thể xác định một phân loại trong ứng dụng mà "đưa ra tất cả hồ sơ của nhân viên đề nghị từ chức từ công ty, dự đoán số lượng cá nhân có khả năng từ chức từ công ty trong tương lai." Theo kịch bản như vậy, công ty có thể phân loại hồ sơ của nhân viên thành hai nhóm, đó là "rời" và "ở lại". Sau đó nó có thể sử dụng phần mềm khai phá dữ liệu của nó để phân loại các nhân viên thành các nhóm riêng biệt được tạo ra trước đó.
  3. Clustering - Các đối tượng khác nhau trưng bày các đặc điểm tương tự được nhóm lại với nhau thành một cụm đơn lẻ thông qua tự động hóa. Nhiều cụm như vậy được tạo ra như các lớp và các đối tượng (với các đặc điểm tương tự) được đặt trong nó cho phù hợp. Để hiểu điều này tốt hơn, chúng ta hãy xem xét một ví dụ về quản lý sách trong thư viện. Trong một thư viện, bộ sưu tập sách khổng lồ được xếp vào danh mục đầy đủ. Các mục cùng loại được liệt kê cùng nhau. Điều này giúp chúng tôi dễ dàng tìm thấy một cuốn sách mà chúng tôi quan tâm. Tương tự, bằng cách sử dụng kỹ thuật phân cụm, chúng tôi có thể lưu giữ những cuốn sách có một số loại tương đồng trong một cụm và gán cho nó một tên phù hợp. Vì vậy, nếu một độc giả đang tìm kiếm để lấy một cuốn sách có liên quan đến sở thích của mình, ông chỉ phải đi đến kệ đó thay vì tìm kiếm toàn bộ thư viện. Do đó, kỹ thuật phân cụm xác định các lớp và đặt các đối tượng trong mỗi lớp, trong khi trong các kỹ thuật phân loại, các đối tượng được gán vào các lớp được xác định trước.
  4. Dự đoán - Dự đoán là một kỹ thuật khai phá dữ liệu thường được sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác. Nó bao gồm việc phân tích các xu hướng, phân loại, kết hợp mẫu và mối quan hệ. Bằng cách phân tích các sự kiện hoặc trường hợp trong quá khứ theo trình tự thích hợp, người ta có thể dự đoán một sự kiện tương lai một cách an toàn. Ví dụ, kỹ thuật phân tích dự đoán có thể được sử dụng trong bán hàng để dự đoán lợi nhuận trong tương lai nếu bán được chọn là một biến độc lập và lợi nhuận như một biến phụ thuộc vào bán hàng. Sau đó, dựa trên dữ liệu bán hàng và lợi nhuận lịch sử, người ta có thể vẽ đường cong hồi quy được trang bị được sử dụng để dự đoán lợi nhuận.
  5. Cây quyết định - Trong cây quyết định, chúng ta bắt đầu với một câu hỏi đơn giản có nhiều câu trả lời. Mỗi câu trả lời sẽ dẫn đến một câu hỏi khác để giúp phân loại hoặc xác định dữ liệu để nó có thể được phân loại hoặc để dự đoán có thể được thực hiện dựa trên mỗi câu trả lời. Ví dụ, chúng tôi sử dụng cây quyết định sau để xác định có hay không chơi cricket ODI: Data Mining Decision Tree: Bắt đầu từ nút gốc, nếu dự báo thời tiết dự báo mưa thì chúng ta nên tránh trận đấu trong ngày. Ngoài ra, nếu dự báo thời tiết rõ ràng, chúng ta nên chơi trận đấu.

Khai thác dữ liệu là trung tâm của các nỗ lực phân tích trên nhiều ngành và ngành khác nhau như truyền thông, Bảo hiểm, Giáo dục, Sản xuất, Ngân hàng và Bán lẻ và hơn thế nữa. Vì vậy, có thông tin chính xác về nó là điều cần thiết trước khi áp dụng các kỹ thuật khác nhau.

Đề xuất: