Nghiên cứu mới nhất cho thấy các mô hình AI hàng đầu của Meta, OpenAI, Cohere và Anthropic đều tạo ra thông tin sai lệch.
Các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học, đã tiến h&ag
rave;nh thử nghiệm những mô h&ig
rave;nh h&ag
rave;ng đầu ng&ag
rave;nh công nghệ và ghi nhận GPT-4 giỏi toán nhất, Llama 2 đạt mức trung b&ig
rave;nh mọi mặt, Claude 2 của Anthropic “hiểu rõ” giới hạn bản thân nhất và Cohere AI gi&ag
rave;nh danh hiệu mô h&ig
rave;nh “ảo giác” nhất với những câu trả lời sai tự tin nhất.
Báo cáo của Arthur AI đưa ra trong bối cảnh thông tin sai lệch do AI sản xuất đang trở th&ag
rave;nh vấn đề nóng khi cuộc bầu cử Tổng thống Mỹ năm 2024 đang tới gần.
Vấn đề thông tin sai lệch do AI tạo ra đang ngày c&ag
rave;ng nóng khi bầu cử Tổng thống Mỹ 2024 đến gần.
Theo Adam Wenchel, đồng sáng lập và CEO Arthur, đây là báo cáo đầu tiên “xem xét to&ag
rave;n diện về tỷ lệ ảo gi&aacut
e;c c???a các mô h&ig
rave;nh ngôn ngữ lớn (LLM) thay vì chỉ công bố xếp hạng”.
Ảo giác AI chỉ hiện tượng các LLM bịa đặt ho&ag
rave;n to&ag
rave;n thông tin và h&ag
rave;nh xử như thể chúng đang nói sự thật. Ví dụ, tháng 6/2023, có tin tức cho biết ChatGPT đã trích lục thông tin “không có thật” trong hồ sơ nộp lên toà án liên bang New York và những luật sư liên quan có thể đối mặt với những án phạt nghiêm khắc.
Trong cuộc thử nghiệm, các nhà nghiên cứu Arthur AI cho các mô h&ig
rave;nh AI tranh tài ở các danh mục như toán học tổ hợp, kiến thức về tổng thống Mỹ, các nhà lãnh đạo chính trị Maroc,… với những câu hỏi được “thiết kế” để AI bộc lộ sai lầm, đó là “yêu cầu các mô h&ig
rave;nh giải tr&ig
rave;nh các bước lập luận về thông tin đưa ra”.
Kết quả cho thấy GPT-4 của OpenAI nh&ig
rave;n chung hoạt động tốt nhất trong số các mô h&ig
rave;nh được thử nghiệm. Nó cũng có độ ảo giác thấp hơn so với phiên bản tiền nhiệm GPT-3,5. Chẳng hạn, với những câu hỏi toán học, GPT-4 ít ảo giác hơn từ 33% đến 50%.
Mặt khác, Llama 2 của Meta nh&ig
rave;n chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic.
Trong hạng mục toán học, GPT-4 đứng ở vị trí số một, theo sát là Claude 2, nhưng trong các bài kiểm tra về tổng thống Mỹ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Maroc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như ho&ag
rave;n to&ag
rave;n chọn không trả lời.
Ở bài thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ “đề ph&og
rave;ng rủi ro” của các mô h&ig
rave;nh AI (đưa ra thông báo “Là một mô h&ig
rave;nh AI, tôi không thể đưa ra ý kiến”).
Với bài test này, GPT-4 có mức đề ph&og
rave;ng tăng tương đối 50% so với GPT-3.5, cũng được minh chứng “định lượng bằng các tuyên bố của người d&ug
rave;ng GPT-4 rằng phiên bản mới gây khó chịu nhiều hơn”. Mặt khác, mô h&ig
rave;nh AI của Cohere ho&ag
rave;n to&ag
rave;n không có động thái ph&og
rave;ng ngừa bất kỳ phản ứng nào. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó biết và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.
Đại diện của Cohere đã bác bỏ kết quả, lý giải rằng “công nghệ tăng cường truy xuất của công ty, vốn không tích hợp trong mô h&ig
rave;nh được thử nghiệm, có hiệu quả cao trong việc trích dẫn những thông tin có thể được kiểm chứng để xác minh nguồn tin” cho doanh nghiệp.
(Theo CNBC)
Xiaomi đưa AI hỗ trợ giọng nói lên thiết bị di động
Xiaomi đang phát triển và thử nghiệm mô h&ig
rave;nh trí tuệ nhân tạo nhỏ gọn trên các thiết bị di động trong cuộc đua phát triển công nghệ đằng sau những công cụ như ChatGPT.
Chat GPT như hiệu lệnh xuất phát cho cuộc đua AI
Trong tương lai, công nghệ trí tuệ nhân tạo sẽ tiếp tục được ứng dụng để thay đổi ho&ag
rave;n to&ag
rave;n cách vận h&ag
rave;nh, quản trị doanh nghiệp và cách doanh nghiệp tương tác với khách h&ag
rave;ng, đặc biệt với những doanh nghiệp có quy mô khách h&ag
rave;ng lớn.
Mỹ treo thưởng 20 triệu USD cho sáng kiến sử dụng AI ph&og
rave;ng thủ tấn công mạng
Mỹ phát động cuộc thi sử dụng AI bảo vệ cơ sở hạ tầng trọng yếu trước tấn công mạng với tổng giải thưởng trị giá
; 20 triệu USD.
Nguồn bài viết : Điện toán 123