Là xu thế không thể nghịch chuyển của kỷ nguyên số hóa toàn cầu, dữ liệu và thông tin ngày càng nhiều. Thuật ngữ Big Data từ đó ra đời, ứng dụng cho từng lĩnh vực và khía cạnh trong đời sống. Vậy chính xác, Big Data là gì? Ứng dụng ra sao và bằng cách nào mà Big Data đã trở thành động lực tăng trưởng cho thời đại mới? Cùng tìm hiểu qua bài viết sau.
1. Big Data là gì?
Big Data là các tập dữ liệu có khối lượng lớn và phức tạp, không thể quản trị, xử lý theo cách truyền thống bởi vì độ lớn của tập dữ liệu này thật sự là quá lớn.
Không chỉ là 1 ‘kho dữ liệu’, Big Data vì vậy còn là cách phân loại, cấu trúc, tổ chức thông tin dựa trên mối tương quan, giúp dễ dàng chuyển hóa dữ liệu thành giải pháp giải quyết vấn đề không thể giải quyết bằng sức người.
Khối lượng chính xác của Big Data không phải vấn đề quan trọng (có thể là vài petabyte hoặc exabytes). điểm mấu chốt là nếu biết khai thác đúng hướng, Big Data là một phần không thể thiếu trong cuộc cách mạng công nghệ 4.0 và chuyển đổi số doanh nghiệp, mang lại tiềm lực cạnh tranh lớn cho doanh nghiệp.
2. Ba đặc trưng chính của Big Data – 3V
2.1 Dung lượng – Volume
Dung lượng dữ liệu rất quan trọng. Bạn sẽ cần xử lý một lượng lớn dữ liệu không có cấu trúc, mật độ thấp khi làm việc với big data. Đây có thể là dữ liệu không được đánh giá cao từ các nguồn như nguồn cấp dữ liệu Twitter, ví dụ như: dòng nhấp chuột từ các trang web hoặc ứng dụng dành cho thiết bị di động hoặc phần cứng hỗ trợ cảm biến.
Lượng dữ liệu này có thể lên tới hàng chục gigabyte đối với một số tập đoàn, thậm chí có thể lên tới vài trăm petabyte.
2.2 Tốc độ xử lý – Velocity
Vận tốc ở đây được đề cập đến tốc độ dữ liệu được nhận và (có thể) được xử lý. Ngược lại với việc được ghi vào đĩa, tốc độ cao nhất của dữ liệu thường truyền thẳng vào bộ nhớ. Một số sản phẩm thông minh hỗ trợ internet hoạt động trong thời gian thực hoặc gần như thời gian thực, đòi hỏi phân tích và ra quyết định theo thời gian thực, tức thì nhanh chóng.
2.3 Tính đa dạng – Variety
Sự đa dạng ám chỉ nhiều loại dữ liệu có thể truy cập được. Trong cơ sở dữ liệu quan hệ, các kiểu dữ liệu truyền thống được sắp xếp và dễ dàng phù hợp. Dữ liệu hiện có ở các định dạng dữ liệu phi cấu trúc mới nhờ vào sự phát triển của big data. Văn bản, âm thanh và video là những ví dụ về các loại dữ liệu có cấu trúc và không có cấu trúc yêu cầu xử lý trước thêm để tạo ra ý nghĩa và kích hoạt siêu dữ liệu.
3. Lịch sử phát triển của Big Data
Khái niệm Big Data là gì vẫn còn khá mới mẻ, nhưng nguồn gốc của các tập dữ liệu lớn xuất phát từ những năm 1960 và 1970 khi thế giới bắt đầu có dữ liệu mới cùng với các trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu quan hệ. Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng đã tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác. Hadoop cũng được phát triển vào cùng thời điểm đó. SQL cũng dần trở nên phổ biến trong thời gian này.
Sự phát triển của các framework mã nguồn mở, đặc biệt là Spark, là một yếu tố quan trọng cho sự phát triển của Big Data. Bởi chúng làm cho việc làm việc với dữ liệu lớn dễ dàng hơn và giúp giảm chi phí lưu trữ.
Với sự ra đời của Internet of Things IoT, nhiều thiết bị được kết nối với internet để thu thập dữ liệu về mô hình sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của máy học, hay còn gọi là machine learning, đã tạo ra nhiều dữ liệu hơn nữa. Các thuật toán Machine Learning cung cấp các công cụ tự động hiệu quả để thu thập, phân tích và tích hợp dữ liệu.
Big Data Machine Learning được áp dụng để xử lý và phân tích lượng dữ liệu ngày càng tăng, biến chúng thành thông tin chi tiết và triển khai trong hoạt động kinh doanh một cách dễ dàng. Ngoài ra, việc kết hợp công nghệ Blockchain với Big Data tạo ra một công cụ cách mạng để xử lý và phân tích dữ liệu.
Big Data là gì? Nó đã tồn tại từ lâu, nhưng giá trị thực sự của nó chỉ mới bắt đầu. Công nghệ điện toán đám mây đã mở rộng khả năng của Big Data hơn nữa. Đám mây cung cấp khả năng mở rộng tốt, trong đó các nhà phát triển chỉ cần tạo ra các cụm đặc biệt để kiểm tra một phần dữ liệu. Cơ sở dữ liệu đồ thị cũng trở nên ngày càng quan trọng, cho phép hiển thị lượng dữ liệu khổng lồ và cung cấp phân tích nhanh chó
4. Ứng dụng của Big Data
Big data và phân tích có thể được áp dụng trong nhiều vấn đề kinh doanh và nhiều trường hợp sử dụng khác nhau. Dữ liệu lớn (Big Data) trên thực tế đang được ứng dụng vào rất nhiều lĩnh vực của nền kinh tế, tạo những chuyển biến ấn tượng, giúp tăng hiệu quả và năng suất của doanh nghiệp.
4.1. Big Data ứng dụng trong Ngân hàng
Trong hệ thống ngân hàng, Big Data đã và đang được ứng dụng hiệu quả thể hiện vai trò quan trọng của mình trong mọi hoạt động của ngân hàng: từ thu tiền mặt đến quản lý tài chính:
- Sử dụng các kỹ thuật phân cụm giúp đưa ra quyết định quan trọng. Hệ thống phân tích có thể xác định các địa điểm chi nhánh nơi tập trung nhiều nhu cầu của khách hàng tiềm năng, để đề xuất lập chi nhánh mới.
- Kết hợp nhiều quy tắc được áp dụng trong các lĩnh vực ngân hàng để dự đoán lượng tiền mặt cần thiết sẵn sàng cung ứng ở một chi nhánh tại thời điểm cụ thể hàng năm.
- Khoa học dữ liệu hiện đang là nền tảng của hệ thống ngân hàng kĩ thuật số.
- Machine learning và AI đang được nhiều ngân hàng sử dụng để phát hiện các hoạt động gian lận và báo cáo cho các chuyên viên liên quan.
- Khoa học dữ liệu hỗ trợ xử lý, lưu trữ và phân tích lượng dữ liệu khổng lồ từ các hoạt động hàng ngày và giúp đảm bảo an ninh cho ngân hàng.
4.2. Ngành y tế và Big Data
Khoa học dữ liệu đang dần khẳng định vai trò khá quan trọng trong việc cải thiện sức khỏe con người ngày nay. Dữ liệu lớn Big Data không chỉ được ứng dụng để xác định phương hướng điều trị mà giúp cải thiện quá trình chăm sóc sức khỏe:
- Cho phép người quản lý ca dự đoán các bác sĩ cần thiết vào những thời điểm cụ thể
- Theo dõi tình trạng bệnh nhân bằng để theo dõi hồ sơ sức khỏe điện tử.
- Sử dụng các thiết bị kỹ thuật số có thể đeo, hệ thống Big Data có thể theo dõi bệnh nhân và gửi báo cáo cho các bác sĩ liên quan.
- Big Data có thể đánh giá các triệu chứng và xác định nhiều bệnh ở giai đoạn đầu.
- Có thể lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng dữ liệu khổng lồ một cách hiệu quả.
- Các ứng dụng Big Data cũng có thể báo trước khu vực có nguy cơ bùng phát dịch như: sốt xuất huyết hoặc sốt rét.
4.3. Thương mại điện tử cùng Big Data
Thương mại điện tử không chỉ tận hưởng những lợi ích của việc điều hành trực tuyến mà còn phải đối mặt với nhiều thách thức để đạt được các mục tiêu kinh doanh. Bởi các doanh nghiệp dù nhỏ hay lớn đều cần đầu tư mạnh để cải tiến công nghệ.
Big Data có thể tạo lợi thế cạnh tranh cho doanh nghiệp bằng cách cung cấp thông tin chuyên sâu và các bản báo cáo phân tích xu hướng tiêu dùng:
- Có thể thu thập dữ liệu và yêu cầu của khách hàng ngay cả trước khi khách thực sự bắt đầu giao dịch.
- Tạo ra một mô hình tiếp thị hiệu suất cao.
- Nhà quản lý trang thương mại điện tử có thể xác định các sản phẩm được xem nhiều nhất và tối ưu thời gian hiển thị của các trang sản phẩm này.
- Đánh giá hành vi của khách hàng và đề xuất các sản phẩm tương tự. Điều này làm tăng khả năng bán hàng, từ đó tạo ra doanh thu cao hơn.
- Nếu bất kỳ sản phẩm nào được thêm vào giỏ hàng nhưng cuối cùng không được khách hàng mua, Big Data có thể tự động gửi code khuyến mại cho khách hàng cụ thể đó.
- Các ứng dụng Big Data còn có thể tạo một báo cáo tùy chỉnh theo các tiêu chí: độ tuổi, giới tính, địa điểm của khách truy cập, v.v.
- Xác định các yêu cầu của khách hàng, những gì họ muốn và tập trung vào việc cung cấp dịch vụ tốt nhất để thực hiện nhu cầu của họ.
- Phân tích hành vi, sự quan tâm của khách hàng và theo xu hướng của họ để tạo ra các sản phẩm hướng đến khách hàng.
- Cung cấp các sản phẩm tốt hơn với chi phí thấp hơn.
- Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình tiếp thị tối ưu dành được tùy biến theo đối tượng hoặc nhóm đối tượng, tăng khả năng bán hàng.
- Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ. Từ đó, việc nhắm mục tiêu các chiến dịch quảng cáo có thể được tiến hành dễ dàng hơn dựa trên những phân tích đã có trước đó.
4.4. Big Data trong ngành bán lẻ
Big Data mang lại cơ hội cho lĩnh vực bán lẻ bằng cách phân tích thị trường cạnh tranh và sự quan tâm của khách hàng. Nó giúp xác định hành trình trải nghiệm, xu hướng mua sắm và sự hài lòng của khách hàng bằng cách thu thập dữ liệu đa dạng. Từ những dữ liệu thu thập được có thể cải thiện hiệu suất và hiệu quả bán hàng:
- Big data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách hàng.
- Với sự trợ giúp của các phân tích dự đoán, ngành công nghiệp có thể so sánh tỷ lệ cung – cầu và có thể tránh tiếp tục tung ra thị trường các sản phẩm không được hầu hết khách hàng đón nhận.
- Ngành bán lẻ có thể xác định vị trí bố trí sản phẩm trên kệ hàng tùy thuộc vào thói quen mua hàng và nhu cầu của khách hàng và đưa ra các chiến lược kinh doanh mới để cải thiện.
- Kết hợp phân tích cùng lúc các dữ liệu về thời điểm, dữ liệu giao dịch, dữ liệu truyền thông xã hội, dự báo thời tiết để xác định chính xác nhất sản phẩm phù hợp để luôn sẵn sàng cung ứng cho khách hàng.
4.5. Digital Marketing tận dụng Big Data ra sao
Digital Marketing là chìa khóa để cánh cửa thành công cho bất kỳ doanh nghiệp nào. Giờ đây, không chỉ các công ty lớn có thể điều hành các hoạt động quảng cáo tiếp thị mà cả các doanh nhân nhỏ cũng có thể chạy các chiến dịch quảng cáo thành công trên các nền tảng truyền thông xã hội và quảng bá sản phẩm của họ.
Big Data đã tiếp sức cho Digital Marketing phát triển thực sự mạnh mẽ, và nó đã trở thành một phần không thể thiếu của bất kỳ doanh nghiệp nào:
- Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh. Điều này giúp cho doanh nghiệp xác định rõ hơn, đâu là cơ hội tốt để tiếp tục tiến hành các kế hoạch kinh doanh tiếp theo.
- Có thể xác định người dùng trên các phương tiện truyền thông xã hội và nhắm mục tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi tác và sở thích.
- Tạo báo cáo sau mỗi chiến dịch quảng cáo bao gồm hiệu suất, sự tham gia của khán giả và những gì có thể được thực hiện để tạo kết quả tốt hơn.
- Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và nuôi dưỡng chu trình khách hàng.
- Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cho các chủ doanh nghiệp thực hiện chúng trên chiến lược nội dung để xếp hạng trang web doanh nghiệp trên cao hơn trên google (SEO).
- Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng hiện có để nhắm mục tiêu các khách hàng tương tự và kiếm được lợi nhuận.
4.6. Big Data giúp ngăn chặn nội dung đen
Ví dụ cụ thể như là Extension (Chrome, Firefox, Safari…) Có nhiều addon phục vụ cho việc content filtering miễn phí sử dụng Big data để thu thập và dự đoán xem nội dung đó có phù hợp không. Ví dụ chức năng Ad Block nhanh chóng block các banner, pop ups, video ads gây phiền nhiễu một lần và mãi mãi. Sau đó nó lập tức thu thập và gửi về server blacklist những yếu tố này. Data càng nhiều thì tỷ lệ nhận diện và block ngày càng chính xác.
4.7. Big Data ứng dụng trong Giáo dục
Từ quan điểm kỹ thuật, một thách thức đáng kể trong ngành giáo dục là kết hợp big data từ các nguồn và nhà cung cấp khác nhau và sử dụng dữ liệu đó trên các nền tảng không được thiết kế cho các dữ liệu khác nhau. Với góc nhìn thực tế, nhân viên và các tổ chức phải học các công cụ phân tích và quản lý dữ liệu mới. Ngoài ra việc xử lý các dữ liệu liên quan đến bảo mật, thông tin giảng viên, học viên, các dữ liệu thông tin việc học, tài liệu nghiên cứu… tất cả cần xử lý nhanh gọn.
Big data được sử dụng khá nhiều trong giáo dục đại học. Ví dụ Trường đại học Kinh tế Quốc dân với gần 30000 sinh viên, học viên các ngành đã triển khai Hệ thống Quản lý và Học tập nhằm theo dõi thời gian sinh viên sử dụng các trang trong hệ thống, hay tổng kết tiến trình, kết quả học tập của sinh viên v,v.
Dữ liệu từ Big Data cũng được sử dụng để đo lường hiệu quả của giáo viên nhằm đảm bảo chất lượng giảng dạy của giáo viên và chất lượng học, trải nghiệm kiến thức của học sinh. Hiệu suất của giáo viên sẽ được đo lường dựa trên nhân khẩu học, hành vi, nhu cầu học tập của học sinh, đo lường bởi số lượng học sinh trong lớp v,v.
5. Khó khăn khi làm việc với Big Data
5.1. Thách thức đến từ Big Data
Thách thức lớn nhất khi sử dụng Big Data là khối lượng dữ liệu quá lớn và tăng nhanh. Khối lượng dữ liệu được cho là tăng gấp đôi sau mỗi 2 năm, gây khó khăn trong việc lưu trữ. Các doanh nghiệp và tổ chức luôn cố gắng để bắt kịp tốc độ tăng của dữ liệu và tìm cách lưu trữ đủ Big Data cần thiết. Một thách thức khác là thời gian xử lý Big Data. Các nhà khoa học dữ liệu thường mất từ 50% – 80% thời gian để quản lý và chuẩn bị dữ liệu trước khi có thể sử dụng nó. Ngoài ra, do lượng dữ liệu lớn, đôi khi chất lượng dữ liệu không được đảm bảo, với nhiều dữ liệu lỗi gây khó khăn trong việc xử lý và lọc dữ liệu.
5.2. Chỉ trích về cách sử dụng Big Data
Mặc dù Big Data mang lại lợi ích lớn cho doanh nghiệp, nhưng đầu tư vào nó cũng đòi hỏi chi phí không nhỏ và không nhiều người biết cách tận dụng. Một số doanh nghiệp lớn đã đầu tư hàng tỷ đô la vào Big Data để có thông tin quan trọng, nhưng chỉ dưới 40% nhân viên thực sự hiểu và tận dụng được dữ liệu này, gây lãng phí tài nguyên.
Ngoài ra, việc sử dụng Big Data cũng bị chỉ trích vì có trường hợp xâm phạm đến quyền riêng tư của người dùng. Ở một số quốc gia, việc này có thể vi phạm pháp luật.
5.3. Chỉ trích về việc lấy thông tin từ Big Data
Một số nhà nghiên cứu như Danah Boyd đã bày tỏ lo ngại khi các nhà quản lý doanh nghiệp quá phụ thuộc vào dữ liệu từ Big Data để chọn mẫu thống kê. Họ cho rằng việc này có thể dẫn đến sự chủ quan, trong một số trường hợp có thể ảnh hưởng đến kết quả cuối cùng của chiến lược trong tương lai.
6. Công nghệ ứng dụng cho Big Data
Có rất nhiều công nghệ để giải quyết vấn đề lưu trữ và xử lý Big Data. Những công nghệ đó là Apache Hadoop, Apache Spark, Apache Kafka, v.v …
Dưới đây là thông tin tổng quan về các công nghệ này.
6.1 Apache Hadoop
Hadoop là một Apache framework mã nguồn mở được viết bằng Java, cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục bộ (local computation and storage).
6.2 Apache Spark
Sự cải tiến hơn nữa của công nghệ này đã dẫn đến sự phát triển của Apache Spark – công cụ tính toán nhanh và có mục đích chung để xử lý quy mô lớn. Nó có thể xử lý dữ liệu nhanh hơn 100 lần so với MapReduce.
6.3 Apache Kafka
Apache Kafka là một bổ sung khác cho hệ sinh thái Big Data, một hệ thống nhắn tin phân tán lượng thông tin cao thường được sử dụng với Hadoop.
Các tổ chức công nghệ thông tin đã bắt đầu xem xét sáng kiến Big Data để quản lý dữ liệu của họ theo cách tốt hơn, trực quan hóa dữ liệu, hiểu rõ hơn về dữ liệu này khi được yêu cầu và tìm cơ hội kinh doanh mới để thúc đẩy tăng trưởng kinh doanh.