Khoa Học Dữ Liệu: Data Science

Khoa học gia dữ liệu (Data Scientist): Theo tạp chí Harvard Business Review, ra ngày 01 tháng Mười, 2012, Khoa học gia dữ liệu: Công việc Hấp dẫn nhất của Thế Kỷ 21 (Data Scientist: The Sexiest Job of the 21st Century).⁽¹⁾

Khoa học dữ liệu (Data Science): Theo nhật báo The New York Times, ra ngày 11 tháng Tư, 2013, khoa học dữ liệu là "một ngành mới, nóng bỏng hứa hẹn sẽ cách mạng hóa các lãnh vực công kỹ nghệ từ kinh doanh sang đến chính quyền, từ y tế qua đến học thuật."⁽²⁾

Trần Trung Tín

Khoa học Dữ liệu (Data Science) là một bộ môn khoa học còn rất mới. Theo khoa học gia điện toán Hoa Kỳ, Jim Gray (1944-2007), thì ông đã hình dung khoa học dữ liệu là một dạng thức (paradigm) mới, xếp hàng thứ tư sau ba dạng thức khoa học đã trưởng thành:

Khoa học thực nghiệm (empirical),
Khoa học lý thuyết (theoretical),
Khoa học tính toán (computational),
Khoa học đặt căn bản trên dữ liệu (data-driven)

Jim Gray, người mà vào năm 1998 đã nhận được Turing Award, giải thưởng được xem là cao nhất trong lãnh vực điện toán, còn khẳng định rằng “mọi thứ về khoa học đều đang thay đổi vì tác động của ngành kỹ nghệ thông tin và sự tràn ngập ghê gớm của dữ liệu (data deluge)." ⁽³⁾

Dữ Liệu ... Dữ Liệu ... Và ... Dữ Liệu!

Từ nhiều thế kỷ trước đây, việc các tin tức (news) hay thông tin (information) được lấy ra từ các dữ liệu (data) vẫn được thực hiện bằng sức người. Tuy nhiên, ngày nay, dữ liệu đã được tạo ra từ khắp mọi nguồn, ở một tốc độ cực nhanh, được nhanh chóng thu thập và tích lũy thành những khối lượng khổng lồ - được gọi chung bằng một tên mới là Big Data. Trong chiều hướng này, nếu vẫn phải lệ thuộc vào sức người để phân tích khối dữ liệu Big Data này, thì đó sẽ là một điều hoàn toàn không thực tế, nếu không muốn nói là không thể thực hiện được.

Hiện tại, càng lúc thế giới càng được kết nối, cùng lúc với số lượng dụng cụ điện tử ngày càng gia tăng, thì điều đó chỉ có nghĩa là khối lượng dữ liệu - hiện đã rất lớn - lại càng bội tăng.

Theo phúc trình đăng trên website của IBM, ngày 24 tháng Tư, năm 2013: “90% dữ liệu trên thế giới ngày nay đã được tạo ra chỉ trong vòng hai năm qua mà thôi. Những dữ liệu này đến từ khắp nơi: những sensors được dùng để thu thập thông tin mua sắm hàng hóa, những bài viết gửi đăng trên các trang của các mạng truyền thông xã hội (social media sites), những hình ảnh và videos trong dạng số nhị phân (digital pictures and videos), những giao dịch đặt mua hàng, và những tín hiệu GPS (Global Positioning System - Hệ thống định vị toàn cầu), từ điện thoại di động...” ⁽⁴⁾

Việc phân tích Big Data đa số đều tập trung vào nguồn dữ liệu từ bên trong, internal data
(Theo Big Data and Analytics, in ngày 22/10/2012 - Nguồn ảnh: bruceweed.wordpress.com)

Cũng theo website trên của IBM, mỗi ngày có khoảng 2.5 quintillion bytes dữ liệu được tạo ra. Theo tiêu chuẩn của Hoa Kỳ thì 1 quintillion bytes = 10**¹⁸ bytes (10 lũy thừa 18 bytes). Số lượng này còn có tên là 1 Exabyte (EB) = 1 triệu Terabytes (TB) = 1 tỉ Gigabytes (GB). Để hình dung cho được cụ thể hơn, muốn chứa được 2.5 quintillion bytes sẽ cần đến 10 triệu đĩa blu-ray. Tính theo chiều cao của tháp Eiffel là 324 mét, nếu xếp 10 triệu đĩa blu-ray này chồng lên nhau thì sẽ cao bằng bốn tháp Eiffel. ⁽⁵⁾Và đó chỉ là dữ liệu được tạo ra chỉ trong một ngày, ở vào thời điểm của năm 2013.

Ở mặt kinh tế, hiện nay gần như mọi nơi trong lãnh vực này đều tiếp cận với một khối lượng dữ liệu lớn đến mức khó ai có thể tưởng tượng ra được. Các doanh nghiệp thu thập và tích lũy những dữ liệu mới ở một tốc độ vượt quá khả năng của họ để có thể sắp xếp cho có thứ tự, nghiên cứu và sau cùng rút ra được những giá trị từ các dữ liệu đó. Nói một cách khác, những khối lượng dữ liệu to lớn đó sẽ ào đến như bão táp và sẽ hoàn toàn chôn vùi các doanh nghiệp đó nếu họ không kịp thời giải quyết được các đợt dữ liệu đang dồn dập ập đến.

Vấn đề mà mọi tổ chức muốn phát triển lớn mạnh đều phải đối diện là làm cách nào họ có thể sử dụng các dữ liệu một cách hữu hiệu. Còn cần phải lưu ý là những dữ liệu đó không nhất thiết chỉ là dữ liệu của riêng họ tạo ra hay do họ thu nhận được mà đó còn là tất cả những dữ liệu có sẵn ở các nơi khác và có liên quan đến họ.

Mặt khác, cũng có những ngành kỹ thuật mới đang nhanh chóng vươn lên và có khả năng sắp xếp, hệ thống hóa những khối lượng dữ liệu to lớn đang tới tấp ào đến như những núi tuyết bị vỡ lở. Và chỉ sau khi "ổn định" được vị trí cho các khối dữ liệu đó, thì mới có thể bước sang giai đoạn phân tích chúng nhằm rút ra được các giá trị có thể đem sử dụng trong những lãnh vực thích hợp.

Hiện giờ những ngành kỹ thuật đó đã có thể xác định (identify) được các thể dạng (patterns) và tính đồng nhất (regularities) trong dữ liệu của mọi loại. Những bước tiến này đã cho phép cải thiện được tình trạng của con người (human condition), cùng là tạo lập các giá trị thương mại và xã hội. ⁽⁶⁾

Sự gia tăng của "dữ liệu lớn" (Big Data) có một tiềm năng đẩy mạnh chúng ta tiến xa hơn nữa trong sự hiểu biết về các hiện tượng khác nhau, từ những hệ thống vật lý và sinh học cho đến hành vi xã hội và kinh tế của con người (human social and economic behavior). ⁽⁶⁾


Phác lược tương quan giữa Khoa học Con Người và Khoa học Dữ Liệu (Nguồn: iqvia.com)

Hiện nay vì thiếu chuyên môn cho nên vẫn còn bị nhiều giới hạn trong những cố gắng đào sâu hay nghiên cứu những dữ liệu mới nhằm lấy ra được những giá trị kinh tế và xã hội. Làm việc với dữ liệu này đòi hỏi những dụng cụ và kỹ năng mới lạ rất chuyên biệt. Các dữ liệu thu thập được thường quá to lớn vượt quá sức chứa hoặc khả năng tính toán của một máy điện toán biệt lập, cũng như không thể dùng các hệ thống dữ liệu truyền thống (databases) hay các công cụ thống kê hoặc các nhu liệu tiêu chuẩn về đồ họa (standard graphics software) để khai thác (manipulate) các khối dữ liệu này.

So với các dữ liệu trước đây thuộc loại đã được chọn lựa kỹ, thì những dữ liệu ngày nay có nhiều loại không đồng nhất (more heterogeneous). Nội dung của các chữ, âm thanh và hình ảnh được số hóa (digitized), cũng như dữ liệu được thu nhận từ sensor và blog, thường là những thứ rất mất trật tự (messy), không đầy đủ và không có cấu trúc (unstructured); thường có nguồn gốc và phẩm chất không chắc chắn; và thường xuyên phải được kết hợp với các dữ liệu khác mới có thể trở nên hữu dụng. ⁽⁶⁾

Điển hình của loại dữ liệu có cấu trúc là những dữ liệu được lưu giữ ở một vị trí nhất định (fixed field) nằm trên một hàng (row) có giữ một "hồ sơ" (record, trong databases) hay một file. Nói một cách đơn giản hơn, đó là các loại dữ liệu được chứa trong các bảng tính toán (spreadsheets) hay các hệ thống dữ liệu có những mối liên hệ với nhau (relational databases).

Còn loại dữ liệu không theo cấu trúc nào cả (unstructured data) là những thứ không thể được xếp loại và khó có thể được xếp vừa vặn vào một đơn vị lưu trữ thông thường, điển hình là những dữ liệu như: hình chụp (photos), hình họa (graphic images), videos, những trang web, PDF files, emails, và những tài liệu viết bằng word processors. ⁽⁷⁾

Khoa Học Dữ Liệu - Data Science

Trong một thế giới rộng lớn được nối kết chặt chẽ bởi Internet, thì những routers, những sợi cáp quang học (fiber optic cables), những switches, những máy chủ (servers), những dụng cụ lưu trữ dữ liệu (storage devices)... đã tạo thành những hạ tầng cơ sở (internet infrastructure) cho mạng lưới thông tin toàn cầu này. Cũng sẽ không sai sự thực lắm khi xem những hạ tầng cơ sở nói trên như là một hệ thống "mạch máu" của thế giới tin học.

Luân chuyển bên trong những hạ tầng cơ sở đó chính là đủ mọi loại dữ liệu (data). Những dữ liệu này, hoạt động như là các loại "máu" khác nhau, luân lưu qua các "huyết mạch" của hạ tầng cơ sở internet và đem chất dinh dưỡng tới để cho Internet có một sinh hoạt sống động, muôn màu và hiệu dụng như ngày nay.

Bởi đó, cũng không phải là điều xa sự thực khi Đại học UC Berkeley ghi trên website của họ: "Lãnh vực khoa học dữ liệu đang trỗi dậy ngay tại giao lộ của các lãnh vực khoa học xã hội và thống kê, thông tin, khoa học điện toán và thiết kế. The field of data science is emerging at the intersection of the fields of social science and statistics, information and computer science, and design." ⁽⁶⁾

Theo wikipedia.org, khoa học dữ liệu là một "khái niệm để hợp nhất lại (unify) các ngành thống kê, phân tích dữ liệu, máy học như người (machine learning) và những phương pháp liên quan nhằm mục đích để hiểu và phân tích hiện tượng thực tế với dữ liệu." ⁽³⁾

Tương quan giữa Khoa học Dữ Liệu và các những lãnh vực liên hệ
(Nguồn: www.quora.com)

Ngành khoa học này sử dụng các kỹ thuật và lý thuyết rút ra từ nhiều lãnh vực trong các khu vực khác rộng lớn hơn của các ngành toán học, thống kê, khoa học thông tin và khoa học điện toán, với sự chú trọng đặc biệt vào các lãnh vực phụ thuộc (subdomains) như: ⁽⁸⁾

Máy học như người (machine learning): Đây là một phần (subset) trong ngành thông minh nhân tạo (artificial intelligence - AI) có mục đích làm cho máy điện toán có khả năng học như người.
Phân loại (classification): Theo oracle.com, đây là việc chỉ định (assign) các thứ (items) trong một sưu tập (collection) ra thành từng loại (categories) hoặc từng cấp lớp (classes). Mục tiêu là để cho mỗi trường hợp trong dữ liệu đều có thể đưa ra dự đoán chính xác về một cấp lớp (class) tương ứng với loại dữ liệu đó. Thí dụ, có thể áp dụng một mô hình phân loại (classficiation model) thích hợp để xác định được mức độ rủi ro nơi phần tín dụng (credit) của người nộp đơn xin vay tiền hiện đang ở mức thấp, trung bình hoặc cao.

Phân tích cụm (cluster analysis) còn được gọi là clustering: Theo wikipedia.org, đây là việc gom lại một tập hợp của các vật thể nào đó (the task of grouping a set of objects) vào thành một cụm (cluster), căn cứ theo đặc tính chung của các vật thể trong cụm đó để phân biệt với các cụm khác (clusters).

Thí dụ của Clustering; nguồn: www.slideshare.net

Thí dụ của các clusters trong wireless sensor networks (www.researchgate.net)

Định lượng bất định (uncertainty quantification): Bộ môn khoa học về đặc tính định lượng, quantitative characterization, đặt trọng tâm làm giảm thiểu sự bất định, không chắc chắn, trong các ứng dụng cả về mặt thực tế và tính toán. Môn học này cố gắng xác định khả thể của một kết quả nào đó sẽ là gì nếu không thể biết được chính xác một số khía cạnh của hệ thống.
Khoa học tính toán (computational science): Là ngành có liên quan đến nhiều ngành khác (multidisciplinary field) trong đó cần đến những khả năng tính toán cao cấp để hiểu và giải quyết những vấn đề phức tạp trong các lãnh vực khác nhau như sinh học, vật lý, kỹ thuật (engineering), và cả nhân văn (humanities).
Khai thác dữ liệu (data mining): Một phân ngành của khoa học điện toán chú trọng vào việc khám phá các thể dạng (patterns) của dữ liệu và biến đổi chúng sang các cấu trúc khác có thể hiểu được và sử dụng được trong các ứng dụng khác.
Hệ thống dữ liệu (databases): Ngành học về cách hệ thống hóa, sắp đặt và lưu trữ dữ liệu theo một cấu trúc hay tuân theo một trình tự luận lý nào đó sao cho được hữu hiệu và nhanh chóng nhất khi cần tìm kiếm dữ liệu cũng như khi cập nhật các dữ liệu đó.
Kiến tạo hình dung (visualization): Ngành chuyên về chế tạo và nghiên cứu cách trình bày dữ liệu cho thị giác (the visual representation of data).

Bênh Vực hoặc Chống Đối

Là một ngành còn rất mới mẻ, vì vậy mãi cho đến lúc gần đây, khoa học dữ liệu vẫn còn là đề tài gây nhiều tranh luận. Có nhiều nhà phê bình trong giới học thuật (academia) không thấy sự khác biệt giữa khoa học dữ liệu và thống kê học (statistics).

Như Nate Silver, một nhà thống kê ứng dụng nổi danh, đã nói: “Tôi nghĩ khoa học gia dữ liệu (data scientist) là một thuật ngữ nhằm tăng phần quyến rũ (sexed up term) dành cho một nhà thống kê. Thống kê học là một ngành của khoa học. Ở một cách nào đó, khoa học gia dữ liệu là một từ ngữ hơi trùng hợp và mọi người không nên xỉ vả thuật ngữ nhà thống kê học. (Data scientist is slightly redundant in some way and people shouldn’t berate the term statistician.)" ⁽³⁾

Mặt khác, những người khác trong giới học thuật ủng hộ khoa học dữ liệu, như Vasant Dhar của Đại Học New York (NYU) vào tháng 12, năm 2013 cũng đưa ra lập luận, một cách chi tiết hơn, là khoa học dữ liệu khác với sự thực hành đương thời của sự phân tích dữ liệu (data analysis) trong tất cả các ngành, vốn chỉ tập trung vào việc giải thích các tập hợp dữ liệu (data sets). ⁽³⁾

Theo wikipedia.org: Khoa học dữ liệu tìm kiếm một thể dạng có thể đưa đến hành động và có tính nhất định (nơi các dữ liệu) để cho những sử dụng có tính dự đoán. (Data science seeks actionable and consistent pattern for predictive uses.) Mục tiêu kỹ thuật thực nghiệm này đã đưa môn khoa học dữ liệu vượt ra ngoài phạm vi của ngành phân tích truyền thống (traditional analytics) như hiện đang có. Nói một cách khác, đối với những ngành khoa học hay những lãnh vực ứng dụng mà hiện nay vẫn còn thiếu những lý thuyết vững chãi, như khoa học y tế và khoa học xã hội, thì dữ liệu trong những ngành hay lãnh vực này vẫn có thể được tìm kiếm và được tận dụng để từ đó tạo ra những mô hình mạnh mẽ có mang tính dự đoán (to generate powerful predictive models). ⁽³⁾

Tương tự như Dhar - giáo sư của Đại học Stanford, David Donoho, trong tháng Chín 2015, đã tiến xa hơn trong việc bác bỏ ba định nghĩa đơn giản và sai lạc về khoa học dữ liệu: ⁽³⁾

Thứ nhất, theo Donoho, khoa học dữ liệu không đồng nghĩa với dữ liệu to lớn (data science does not equate big data), có nghĩa là kích thước của tập hợp dữ liệu không phải là một tiêu chuẩn (criterion) để phân biệt hai ngành khoa học dữ liệu và thống kê.
Thứ hai, khoa học dữ liệu không được định nghĩa (defined) bởi các kỹ năng tính toán cần thiết cho việc chọn lọc, sắp xếp các tập hợp dữ liệu lớn, theo đó các kỹ năng này thường được dùng trong việc phân tích trong tất cả mọi ngành.
Thứ ba, khoa học dữ liệu là một lãnh vực nặng về ứng dụng, mà các chương trình học hiện nay không chuẩn bị đầy đủ cho các nhà khoa học dữ liệu để họ sẵn sàng cho công việc, theo đó nhiều chương trình cao học đã quảng cáo sai lạc về chương trình huấn luyện dành cho bộ môn phân tích và thống kê của họ như thể các môn học đó là nền tảng cho chương trình khoa học dữ liệu.

Nhà thống kê học David Donoho, cũng như nhiều người cùng ở trong ngành thống kê, đã cổ võ việc mở rộng phạm vi học hỏi theo khuôn khổ của khoa học dữ liệu. Hoặc như William Cleveland, người thúc đẩy đặt ưu tiên cao cho việc lấy ra từ các dữ liệu để tạo thành các công cụ ứng dụng có khả năng dự đoán (applicable predictive tools) hơn là đưa ra các lý thuyết giải thích (explanatory theories). Nói chung lại, những nhà thống kê học này đã hình dung ra khoa học dữ liệu là một lãnh vực ứng dụng càng ngày càng bao gồm nhiều phần khác, và sự lớn mạnh của ngành này sẽ vượt khỏi ranh giới của lãnh vực thống kê truyền thống và sẽ còn đi xa nữa.

Ứng Dụng Trong Đời Sống

Về mặt máy tính, hiện nay giá cả của các loại máy điện toán cũng không còn quá cao như xưa (commodity hardware).

Về mặt nhu liệu, các hãng xưởng đã không còn phải mất nhiều tiền như trong quá khứ để mua, thay vào đó họ có thể sử dụng những "nhu liệu mở" (open source software) ⁽⁹⁾ như những dụng cụ (tools) mạnh mẽ để làm việc, thường thì miễn phí hoặc chỉ phải trả một giá phí tương đối ít.

Cũng đã có một mô hình mới dùng để kết hợp lại nhiều loại máy tính khác nhau và có tên là "kiến trúc của đám mây" (cloud architectures). Mô hình này cải thiện hệ thống máy tính ở nhiều mặt. Từ an ninh (security), sang khả năng tính toán (computing power) đều được gia tăng rất nhiều. Qua đến khả năng lưu trữ dữ liệu (storage) thì gần như vô giới hạn... Thuê dùng dịch vụ của kiến trúc đám mây này, thí dụ như thuê chỗ lưu trữ dữ liệu, thì cũng chỉ phải trả một giá phí không quá đắt.

Nguồn: weblicence.in

Những điều này gộp chung lại đã giúp đưa được phương tiện để khai thác (process) các khối dữ liệu to lớn đến những nơi không có đủ khả năng để đối phó với các khối dữ liệu đó. Ngay cả đối với những công ty có ít vốn, mới bắt đầu hoạt động từ garage xe (garage startups), thì hiện nay việc khai thác các khối dữ liệu to lớn đó cũng nằm trong tầm tay của họ. Chỉ cần bỏ ra món tiền rất rẻ để thuê giờ sử dụng các máy chủ (server) nằm trong "đám mây" là họ có thể làm được điều mà trước đây những hãng nhỏ yếu kém tài chánh sẽ không thể thực hiện được.

Khai thác đúng mức và tận dụng được giá trị lấy ra từ khối lượng dữ liệu to lớn đó đã là những việc làm gia tăng thương vụ và đem lại nhiều ích lợi cho nhiều khu vực như y tế, giáo dục, thương mại hay công kỹ nghệ của tư nhân hay của chính phủ.

Theo IBM, vai trò của khoa học dữ liệu là tạo điều kiện để có thể hình thành những quyết định căn cứ trên các dữ liệu. Tiến trình này diễn ra qua 3 giai đoạn: ⁽¹⁰⁾

Tận dụng các loại kỹ thuật trong việc thu thập, chuẩn bị và "clean" dữ liệu (loại bỏ những dữ liệu không đúng hoặc không cần thiết),
Phân tích dữ liệu, được thực hiện theo các trình tự điển hình:
   - hệ thống hóa (organize) các dữ liệu sau khi đã gạn lọc được trong giai đoạn 1
   - sắp xếp vào các mô hình thích hợp (modeling) cho các ứng dụng
   - đơn giản hóa (simplify) để phân tích
Đưa ra một số quyết định có thể có, kèm theo là những hậu quả (consequences) đi song hành với quyết định đó, để giúp những người có trách nhiệm có thể lấy ra quyết định thích hợp.

Tiến trình của Khoa học Dữ liệu giúp hình thành các Quyết định.

Theo Towardsdatascience ⁽¹¹⁾, việc áp dụng phương pháp phân tích dữ liệu to lớn (big data analytics) đã đem lại rất nhiều lợi ích cho 10 khu vực:

Ngân hàng và Chứng khoán (Banking and Securities): Giúp giảm thiểu những gian lận trong giao dịch bằng cách theo dõi thị trường tài chánh thông qua việc giám sát các hoạt động trên mạng và qua việc diễn dịch ngôn ngữ con người dùng (natural language processors). Cơ quan Exchange Commissions or Trading Commissions sử dụng phân tích dữ liệu lớn (big data) để theo dõi thị trường chứng khoán nhằm bảo đảm không có giao dịch bất hợp pháp xảy ra.
Thông tin và Truyền thông (Communications and Media): Cùng một lúc có thể trực tiếp cung cấp báo cáo về các sự kiện xảy ra trên toàn cầu và gửi đến nhiều hệ thống (platforms) khác nhau như phone di động, web và TV. Kỹ nghệ âm nhạc, vốn là một phần của lãnh vực truyền thông, đang dựa vào khối dữ liệu to lớn để theo dõi khuynh hướng mới nhất trong giới chuộng nhạc để cuối cùng sẽ dùng những nhu liệu tự điều chỉnh (autotuning softwares) để tạo ra những giai điệu cuốn hút.
Thể thao (Sports): Dựa vào những phân tích sẽ tìm hiểu được các mẫu người xem các trận tranh tài khác nhau ở các khu vực đã được xác định và cũng để theo dõi hiệu suất của từng tuyển thủ và các đội. Những trận thi đấu thể thao lớn như cúp thế giới Cricket, cúp đá banh thế giới FIFA và giải Wimbledon cho tennis đều đặc biệt áp dụng phân tích khối dữ liệu lớn.
Y tế (Healthcare): Thu thập các dữ liệu y tế công cộng để có ứng phó nhanh hơn đối với các vấn đề sức khỏe cá nhân và nhanh chóng xác định được sự lan rộng của các loại virus mới như Ebola trên toàn cầu. Bộ Y tế của các quốc gia khác nhau kết hợp các công cụ phân tích dữ liệu lớn (big data) để có thể sử dụng đúng đắn các dữ liệu được thu thập sau Thống kê Dân số (Census) và nhiều khảo sát.
Giáo dục (Education): Cập nhật và nâng cấp các sách vở tài liệu của nhiều lĩnh vực đang chứng kiến sự phát triển nhanh chóng. Các trường đại học trên toàn thế giới đang dùng các cách phân tích dữ liệu đó để giám sát và theo dõi hiệu suất làm việc của các sinh viên và ban giảng huấn và thiết lập bản đồ đối chiếu sự quan tâm của sinh viên đối với các môn học khác nhau tính trên sự đến lớp tham dự.
Sản xuất (Manufacturing): Để tăng năng suất bằng cách sử dụng dữ liệu lớn để cải tiến (enhance) việc quản lý đường dây cung cấp (supply chain management). Các công ty sản xuất sử dụng các dụng cụ phân tích này để bảo đảm sự phân bố các nguồn lực sản xuất theo một cách thế tối ưu hầu đem lại lợi ích tối đa cho công ty.

Bảo hiểm (Insurance): Dùng phân tích dự đoán (predictive analytics) cho mọi thứ từ việc phát triển sản phẩm mới cho đến việc giải quyết các phần kê khai thiệt hại (claims). Các công ty bảo hiểm sử dụng dữ liệu lớn của doanh nghiệp để theo dõi chính sách bán bảo hiểm (policy) nào cần phải mua nhiều nhất và tạo ra lợi nhuận cao nhất.
Giao dịch với Khách hàng (Consumer trade): Mục đích để dự đoán và quản lý các đòi hỏi về mặt nhân sự và tồn kho, các công ty giao dịch với khách hàng còn đang sử dụng phân tích dữ liệu để phát triển giao dịch của họ bằng cách cung cấp thẻ cho khách hàng trung thành và theo dõi các giao dịch của họ.
Giao thông (Transportation): Để tìm ra ra các lộ trình di chuyển tốt hơn, giám sát và quản lý giao thông và vận chuyển (logistics). Việc này chính yếu được phối hợp bởi chính quyền để tránh việc làm tắc nghẽn giao thông ở một nơi nào đó.
Năng lượng (Energy): Bằng cách giới thiệu đến người tiêu thụ các đồng hồ tinh khôn (smart meters) để làm tiết giảm việc thất thoát điện (electrical leakages) và giúp cho người tiêu thụ có thể quản lý việc sử dụng năng lượng của họ. Những trung tâm chuyển tải nguồn điện đang áp dụng phương pháp phân tích dữ liệu lớn để theo dõi các thể dạng của nguồn điện (load patterns) và phân định ra sự khác biệt giữa các khuynh hướng tiêu thụ năng lượng căn cứ trên các thông số khác nhau và còn là cách để phối hợp việc tiết kiệm ánh sáng ban ngày (daylight savings).

Dữ Liệu và Con Người

Trong quyển The Story of Philosophy: The Lives and Opinions of the World's Greatest Philosophers, xuất bản vào năm 1926, triết gia Will Durant đã ghi lên một câu đầy ý nghĩa: “Chúng ta là những gì mà chúng ta làm đi làm lại. We are what we repeatedly do." ⁽¹²⁾

Hiện nay, trong một thế giới được nối kết qua internet, không mấy ai còn xa lạ với những gì thường được thực hiện trên on-line, như mua sắm (hàng "hiệu" hay hàng sale), đọc sách, nghe nhạc, xem phim, chơi games, trả tiền các hoá đơn (đúng hạn hay trễ hạn)... Hoặc nghiên cứu hay theo dõi thời sự, chính trị, kinh tế... trên Internet. Hay các trao đổi tin nhắn, hoặc tranh cãi hay đăng bài trên các mạng xã hội (social media) như Facebook. Những việc làm đó đều để lại những dữ liệu có thể được xếp vào loại “repeatedly do.”

Gộp chung lại, thì tập hợp của những dữ liệu được "lập đi lập lại" này chứa đựng những gì liên quan đến thói quen, thị hiếu, sở thích, quan tâm, mơ ước, đam mê, hay ham muốn... của mỗi chúng ta.

Sau khi thu thập được đầy đủ những dữ liệu "repeatedly do" của một người nào đó và dùng khoa học dữ liệu để phân tích với sự trợ giúp của các phương pháp loại suy, phân loại, thống kê, máy học như người (machine learning)... như đã đề cập bên trên, thì có thể sẽ đúc kết được một hồ sơ cá nhân rất chi tiết và chính xác về nhân vật đó.

Nói một cách tóm tắt: Phân tích kỹ những gì mà một người vẫn thường làm đi làm lại nhiều lần, tại nhiều thời điểm khác nhau, là có thể hiểu được "con người thật" cûa người đó! Cũng tương tự như điều mà ông Will Durant đã ghi: "We are what we repeatedly do."

Nhìn từ khía cạnh này, thì rõ ràng là Khoa học Dữ liệu sẽ đóng góp một phần quan trọng trong việc giúp khám phá ra “con người thật” của chúng ta qua những dữ liệu do chính chúng ta tạo ra.

Một khi “con người thật” của chúng ta đã bị khám phá, thì bước kế tiếp sẽ có thể có những toan tính hay cố gắng nhằm để khống chế hay tạo ảnh hưởng lên chúng ta. Đây vốn là một điều vẫn thường thấy nơi các chính quyền (qua cơ quan an ninh), hay nơi các giới thương mại (qua quảng cáo).

Nhìn một cách hơi bi quan, chúng ta dễ trở thành nô lệ cho các Big Brothers, như chính quyền, hay các tổ hợp thương mại lớn, vốn là những thành phần nắm giữ các phương tiện kỹ thuật cao mà mục đích chính khi được tạo ra là để phục vụ - chứ không phải để khống chế hay kiểm soát - chúng ta.

Sự lo ngại bên trên rất chính đáng. Bởi vậy, trong một xã hội văn minh, đã, đang và vẫn sẽ có thêm nhiều luật lệ để canh gác và bảo vệ các dữ liệu riêng tư của người dùng.

Và rồi ra cũng có thể sẽ có những "phản kháng" chống lại "guồng máy" dữ liệu. Khi đó, một trong những cách hữu hiệu nhất có lẽ sẽ là tạo ra những... "fake data" (dữ liệu giả), tương tự như fake news, vốn là điều mà hiện nay vẫn còn đang làm đau đầu các Big Brothers khổng lồ trên Internet như Google và Facebook! ⁽¹³⁾

Dù fake news ngày nay đã trở thành một "hiện thực" trong xã hội, nhưng từ đó có những suy diễn đưa đến "fake data", thì cũng vẫn chỉ là những dự tưởng trong tương lai và điều này đã vượt quá khuôn khổ của bài viết.

Trần Trung Tín
Ngày 22/6/2018
(Đặc San Lâm Viên)

Tài Liệu Tham Khảo:
(1)     https://www.hbs.edu/faculty/Pages/item.aspx?num=43110
(2) https://www.nytimes.com/2013/04/14/education/edlife/universities-offer-courses-in-a-hot-new-field-data-science.html
(3)     https://en.wikipedia.org/wiki/Data_science
(4)     https://www.ibm.com/blogs/insights-on-business/consumer-products/2-5-quintillion-bytes-of-data-created-every-day-how-does-cpg-retail-manage-it/
(5)    http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
(6)   https://datascience.berkeley.edu/about/what-is-data-science/
(7) https://www.webopedia.com/TERM/S/structured_data.html
(8) http://academy.enerchemtek.com/flexiblelearningpathway-single.php?id=datasciencewithr1
(9)    https://opensource.com/resources/what-open-source    Open source software is software with source code that anyone can inspect, modify, and enhance. Nhu liệu "mở" là một nhu liệu mà ai cũng có thể xem xét, sửa đổi và cải tiến phần code nguyên thủy. Như vậy, đối với người sử dụng, điều này rất có lợi trong việc nhanh chóng chỉnh sửa nhu liệu dùng cho hợp với nhu cầu riêng của họ.
(10)   https://www.ibm.com/developerworks/community/blogs/jfp/entry/the_role_of_data_science?lang=en
(11) https://towardsdatascience.com/top-10-sectors-making-use-of-big-data-analytics-be79d2301e79
(12)   Ông Will Durant được biết đến nhiều nhất qua tác phẩm đồ sộ The Story of Civilization, 11 quyển, cùng viết trong 40 năm (1935-1975) với vợ là bà Ariel Durant. https://en.wikipedia.org/wiki/Will_Durant
(13)   Dù không trực tiếp phát ra các tin tức, Google cũng phải đối phó với fake news: https://www.nytimes.com/2016/11/15/technology/google-will-ban-websites-that-host-fake-news-from-using-its-ad-service.html
         Theo USA Today, Mark Zuckerberg, CEO của Facebook, đã công bố bảy projects để đối phó sự lan rộng của fake news đến 1.79 tỉ người dùng Facebook khắp thế giới: https://www.usatoday.com/story/tech/2016/11/19/how-facebook-plans-crack-down-fake-news/94123842/

Để có thêm các thông tin có liên quan, xin mời đọc thêm:

Header Ads

Khoa Học Dữ Liệu: Data Science

Post a Comment

Giờ Sài Gòn

Contact Form

Nợ Quốc Gia (U.S. National Debt)

E-Book

Đọc Theo Đề Mục

Những Trang Web Hữu Ích

Đọc Nhiều Nhất - 7 Ngày Qua

Lưu Trữ

Tổng số lần đọc tất cả các bài

Đặc San Lâm Viên

Copyright / Bản Quyền

Liên lạc / Gửi bài

Header Ads

Khoa Học Dữ Liệu: Data Science

Những bài cùng chủ đề

Post a Comment

Giờ Sài Gòn

Contact Form

Nợ Quốc Gia (U.S. National Debt)

E-Book

Đọc Theo Đề Mục

Những Trang Web Hữu Ích

Đọc Nhiều Nhất - 7 Ngày Qua

Lưu Trữ

Tổng số lần đọc tất cả các bài

Đặc San Lâm Viên

Copyright / Bản Quyền

Liên lạc / Gửi bài