Những hiểu biết sâu sắc từ dữ liệu và thuật toán máy học có thể là vô giá, nhưng sai lầm có thể khiến bạn phải trả giá bằng danh tiếng, doanh thu hoặc thậm chí là tính mạng. Những phân tích cao cấp và những sai lầm sai lầm về AI này minh họa những gì có thể xảy ra.





Năm 2017, The Economist tuyên bố rằng dữ liệu, chứ không phải dầu, đã trở thành tài nguyên quý giá nhất thế giới. Các điệp khúc đã được lặp lại kể từ đó. Các tổ chức trong mọi ngành đã và đang tiếp tục đầu tư mạnh mẽ vào dữ liệu và phân tích. Nhưng giống như dầu, dữ liệu và phân tích có mặt tối của chúng.

Theo báo cáo State of the CIO 2020 của IDG, 37% các nhà lãnh đạo CNTT nói rằng phân tích dữ liệu sẽ thúc đẩy đầu tư vào CNTT nhiều nhất tại tổ chức của họ trong năm nay. Thông tin chi tiết thu được từ phân tích và hành động do thuật toán máy học thúc đẩy có thể mang lại cho tổ chức lợi thế cạnh tranh, nhưng sai lầm có thể phải trả giá đắt về danh tiếng, doanh thu hoặc thậm chí là tính mạng.

Hiểu dữ liệu của bạn và những gì nó cho bạn biết là quan trọng, nhưng cũng cần phải hiểu các công cụ của bạn, biết dữ liệu của bạn và ghi nhớ các giá trị của tổ chức của bạn.

Dưới đây là một số phân tích cao cấp và sai lầm về AI từ thập kỷ trước để minh họa những gì có thể xảy ra.

5 thảm họa phân tích và AI nổi tiếng
5 thảm họa phân tích và AI nổi tiếng

Vương quốc Anh đã mất hàng nghìn trường hợp COVID do vượt quá giới hạn dữ liệu bảng tính

Vào tháng 10 năm 2020, Public Health England (PHE), cơ quan chính phủ Vương quốc Anh chịu trách nhiệm kiểm đếm các ca nhiễm COVID-19 mới, đã tiết lộ rằng gần 16.000 trường hợp nhiễm coronavirus đã không được báo cáo từ ngày 25 tháng 9 đến ngày 2 tháng 10. Thủ phạm? Giới hạn dữ liệu trong Microsoft Excel.




PHE sử dụng quy trình tự động để chuyển kết quả phòng thí nghiệm dương tính COVID-19 dưới dạng tệp CSV sang các mẫu Excel được sử dụng bởi trang tổng quan báo cáo và để theo dõi liên hệ. Thật không may, bảng tính Excel có thể có tối đa 1.048.576 hàng và 16.384 cột trên mỗi trang tính. Hơn nữa, PHE đã liệt kê các trường hợp trong cột chứ không phải hàng. Khi các trường hợp vượt quá giới hạn 16.384 cột, Excel sẽ cắt 15.841 bản ghi ở dưới cùng.

“Trục trặc” không ngăn cản những người được xét nghiệm nhận kết quả của họ, nhưng nó đã thực hiện các nỗ lực theo dõi tiếp xúc stymie, khiến Dịch vụ Y tế Quốc gia Vương quốc Anh (NHS) khó xác định và thông báo cho những cá nhân tiếp xúc gần với bệnh nhân bị nhiễm bệnh . Trong một tuyên bố vào ngày 4 tháng 10, Michael Brodie, giám đốc điều hành tạm thời của PHE, cho biết NHS Test and Trace và PHE đã giải quyết vấn đề một cách nhanh chóng và chuyển tất cả các trường hợp tồn đọng ngay lập tức vào hệ thống theo dõi liên lạc NHS Test and Trace.




PHE đã thực hiện một biện pháp “giảm thiểu nhanh chóng” chia tách các tệp lớn và đã tiến hành đánh giá toàn bộ từ đầu đến cuối của tất cả các hệ thống để ngăn chặn các sự cố tương tự trong tương lai.

Thuật toán chăm sóc sức khỏe không thể gắn cờ bệnh nhân Da đen

Vào năm 2019, một nghiên cứu được công bố trên Science tiết lộ rằng một thuật toán dự đoán chăm sóc sức khỏe, được các bệnh viện và công ty bảo hiểm trên khắp Hoa Kỳ sử dụng để xác định những bệnh nhân cần chương trình “quản lý chăm sóc rủi ro cao”, ít có khả năng chỉ ra bệnh nhân Da đen hơn.

Các chương trình quản lý chăm sóc rủi ro cao cung cấp nhân viên điều dưỡng được đào tạo và theo dõi chăm sóc ban đầu cho bệnh nhân bị bệnh mãn tính nhằm nỗ lực ngăn ngừa các biến chứng nghiêm trọng. Nhưng thuật toán có nhiều khả năng đề xuất bệnh nhân da trắng cho các chương trình này hơn bệnh nhân da đen.

Nghiên cứu cho thấy rằng thuật toán sử dụng chi tiêu chăm sóc sức khỏe như một đại diện để xác định nhu cầu chăm sóc sức khỏe của một cá nhân. Nhưng theo Scientific American , chi phí chăm sóc sức khỏe của bệnh nhân da đen ốm yếu ngang bằng với chi phí của người da trắng khỏe mạnh hơn, có nghĩa là họ nhận được điểm số rủi ro thấp hơn ngay cả khi nhu cầu của họ lớn hơn.




Các nhà nghiên cứu của nghiên cứu cho rằng một số yếu tố có thể đã góp phần. Thứ nhất, những người da màu có nhiều khả năng có thu nhập thấp hơn, điều này, ngay cả khi được bảo hiểm, có thể khiến họ ít có cơ hội tiếp cận dịch vụ chăm sóc y tế hơn. Sự thiên vị ngầm cũng có thể khiến người da màu nhận được dịch vụ chăm sóc chất lượng thấp hơn.

Trong khi nghiên cứu không nêu tên thuật toán hoặc nhà phát triển, các nhà nghiên cứu nói với Scientific American rằng họ đang làm việc với nhà phát triển để giải quyết tình hình.

Dataset đã đào tạo chatbot của Microsoft để phát ra các tweet phân biệt chủng tộc

Vào tháng 3 năm 2016, Microsoft đã biết rằng việc sử dụng các tương tác trên Twitter làm dữ liệu đào tạo cho các thuật toán học máy có thể mang lại kết quả đáng kinh ngạc.




Microsoft đã phát hành Tay, một chatbot AI, trên nền tảng truyền thông xã hội. Công ty đã mô tả nó như một thử nghiệm trong “sự hiểu biết về hội thoại.” Ý tưởng là chatbot sẽ đóng vai một cô gái tuổi teen và tương tác với các cá nhân thông qua Twitter bằng cách sử dụng kết hợp học máy và xử lý ngôn ngữ tự nhiên. Microsoft đã gieo vào nó dữ liệu công khai ẩn danh và một số tài liệu do các diễn viên hài viết sẵn, sau đó đặt nó tự do để học hỏi và phát triển từ các tương tác của nó trên mạng xã hội.

Trong vòng 16 giờ, chatbot đã đăng hơn 95.000 dòng tweet và những dòng tweet đó nhanh chóng chuyển sang trạng thái phân biệt chủng tộc, chủ nghĩa sai lầm và bài Do Thái. Microsoft đã nhanh chóng tạm dừng dịch vụ để điều chỉnh và cuối cùng đã rút phích cắm.

“Chúng tôi vô cùng xin lỗi về những dòng tweet gây tổn thương và xúc phạm không mong muốn từ Tay, không đại diện cho chúng tôi là ai hay chúng tôi đại diện cho điều gì, cũng như cách chúng tôi thiết kế Tay”, Peter Lee, phó chủ tịch công ty, Microsoft Research & Incubations (sau đó là phó công ty chủ tịch của Microsoft Healthcare), đã viết trong một bài đăng trên blog chính thức của Microsoft sau vụ việc.

Lee lưu ý rằng người tiền nhiệm của Tay, Xiaoice, được Microsoft phát hành tại Trung Quốc vào năm 2014, đã trò chuyện thành công với hơn 40 triệu người trong hai năm trước khi Tay phát hành. Điều mà Microsoft không tính đến là một nhóm người dùng Twitter sẽ ngay lập tức bắt đầu đăng những bình luận phân biệt chủng tộc và chủ nghĩa lệch lạc với Tay. Bot nhanh chóng học hỏi từ tài liệu đó và kết hợp nó vào các tweet của riêng mình.




“Mặc dù chúng tôi đã chuẩn bị cho nhiều hình thức lạm dụng hệ thống, nhưng chúng tôi đã thực hiện giám sát quan trọng đối với cuộc tấn công cụ thể này. Kết quả là Tay đã tweet những từ và hình ảnh vô cùng không phù hợp và đáng chê trách”, Lee viết.

Công cụ tuyển dụng hỗ trợ AI của Amazon chỉ đề xuất nam giới

Giống như nhiều công ty lớn, Amazon khao khát các công cụ có thể giúp chức năng nhân sự của mình sàng lọc các ứng dụng để tìm ra những ứng viên tốt nhất. Vào năm 2014, Amazon bắt đầu phát triển phần mềm tuyển dụng hỗ trợ AI để thực hiện điều đó. Chỉ có một vấn đề: Hệ thống rất ưa thích các ứng viên nam. Vào năm 2018, Reuters đã đưa ra thông tin rằng Amazon đã hủy bỏ dự án .




Hệ thống của Amazon đã xếp hạng sao cho các ứng viên từ 1 đến 5. Nhưng các mô hình học máy ở trung tâm của hệ thống đã được đào tạo dựa trên các hồ sơ xin việc có giá trị 10 năm được gửi cho Amazon – hầu hết là từ nam giới. Kết quả của dữ liệu đào tạo đó, hệ thống bắt đầu phạt các cụm từ trong sơ yếu lý lịch có từ “nữ” và thậm chí bị hạ cấp các ứng viên từ các trường đại học toàn nữ.

Vào thời điểm đó, Amazon cho biết công cụ này chưa bao giờ được các nhà tuyển dụng của Amazon sử dụng để đánh giá ứng viên.

Công ty đã cố gắng chỉnh sửa công cụ để làm cho nó trung lập, nhưng cuối cùng quyết định rằng nó không thể đảm bảo rằng nó sẽ không học được một số cách phân biệt đối xử khác để phân loại ứng viên và kết thúc dự án.

Target analytics đã vi phạm quyền riêng tư

Vào năm 2012, một dự án phân tích của gã khổng lồ bán lẻ Target đã giới thiệu mức độ mà các công ty có thể tìm hiểu về khách hàng từ dữ liệu của họ. Theo New York Times , vào năm 2002, bộ phận marketing của Target bắt đầu tự hỏi làm cách nào để xác định được liệu khách hàng có đang mang thai hay không. Dòng điều tra đó dẫn đến một dự án phân tích dự đoán nổi tiếng sẽ khiến nhà bán lẻ vô tình tiết lộ cho gia đình một cô gái tuổi teen rằng cô ấy đang mang thai. Điều đó, đến lượt nó, sẽ dẫn đến tất cả các bài báo và blog tiếp thị trích dẫn sự việc như một phần của lời khuyên để tránh “yếu tố rùng rợn”.




Bộ phận tiếp thị của Target muốn xác định những người đang mang thai vì có những giai đoạn nhất định trong cuộc đời – quan trọng nhất là mang thai – khi mọi người có nhiều khả năng thay đổi hoàn toàn thói quen mua hàng của họ. Chẳng hạn, nếu Target có thể tiếp cận với khách hàng trong giai đoạn đó, thì nó có thể tạo ra những hành vi mới ở những khách hàng đó, khiến họ chuyển sang Target để mua hàng tạp hóa, quần áo hoặc các hàng hóa khác.

Giống như tất cả các nhà bán lẻ lớn khác, Target đã thu thập dữ liệu về khách hàng của mình thông qua mã người mua sắm, thẻ tín dụng, khảo sát, v.v. Nó trộn dữ liệu đó với dữ liệu nhân khẩu học và dữ liệu của bên thứ ba mà nó đã mua. Việc thu thập tất cả dữ liệu đó cho phép nhóm phân tích của Target xác định rằng có khoảng 25 sản phẩm được bán bởi Target có thể được phân tích cùng nhau để tạo ra điểm “dự đoán mang thai”. Sau đó, bộ phận tiếp thị có thể nhắm mục tiêu đến những khách hàng có điểm số cao bằng các phiếu giảm giá và thông điệp tiếp thị.

Nghiên cứu bổ sung sẽ tiết lộ rằng việc nghiên cứu tình trạng sinh sản của khách hàng có thể khiến một số khách hàng cảm thấy rùng mình. Theo Times, công ty đã không lùi bước tiếp thị có mục tiêu, nhưng đã bắt đầu trộn lẫn quảng cáo cho những thứ mà họ biết phụ nữ mang thai sẽ không mua – bao gồm cả quảng cáo cho máy cắt cỏ bên cạnh quảng cáo tã – để làm cho quảng cáo kết hợp cảm thấy ngẫu nhiên cho khách hàng.

5 thảm họa phân tích

5 thảm họa phân tích

5 thảm họa phân tích

5 thảm họa phân tích



LEAVE A REPLY

Please enter your comment!
Please enter your name here