Năm 2025 đang trở thành một cột mốc quan trọng cho trí tuệ nhân tạo (AI) khi chứng kiến nhiều thành tựu đáng chú ý, nhưng không phải mọi nghiên cứu trong lĩnh vực này đều được công chúng biết đến.
Những Cam Kết Đầu Tư Khổng Lồ
Vào ngày 21 tháng 1, ngay trong ngày đầu tiên nhậm chức, Tổng thống Hoa Kỳ Donald Trump đã công bố Dự án Stargate, một sáng kiến hợp tác giữa các công ty công nghệ hàng đầu và các nhà đầu tư tại Hoa Kỳ, Nhật Bản và Các Tiểu vương quốc Ả Rập Thống nhất (UAE). Dự án này đã cam kết tới 500 tỷ USD để phát triển cơ sở hạ tầng AI tại Hoa Kỳ. Tuy nhiên, chỉ một ngày sau đó, một công ty nghiên cứu AI có trụ sở tại Hàng Châu, Trung Quốc mang tên DeepSeek đã cho thấy rằng không cần phải chi tiêu những khoản tiền lớn như vậy. DeepSeek đã giới thiệu mô hình ngôn ngữ lớn (LLM) mang tên DeepSeek-R1, có khả năng thực hiện các tác vụ tương tự như lý luận của con người với mức chi phí và sức mạnh tính toán thấp hơn nhiều so với các LLM hiện có.
Thành Tựu Đáng Chú Ý Trong Nghiên Cứu AI
Mới đây, một nghiên cứu quan trọng được xuất bản trên tạp chí Nature mang tên “Dự đoán chính xác trên dữ liệu nhỏ với mô hình nền tảng bảng” (N. Hollman et al. Nature 637, 319–326; 2025) đã thu hút sự chú ý từ giới khoa học. Theo Duncan McElfresh, một kỹ sư dữ liệu tại Stanford Health Care ở Palo Alto, California, nghiên cứu này có thể mang tính cách mạng cho lĩnh vực khoa học dữ liệu. Các LLM nổi tiếng thường được huấn luyện dựa trên hàng trăm tỷ ví dụ từ dữ liệu thực, cho phép chúng trả lời các câu hỏi của người dùng với độ tin cậy cao. Tuy nhiên, câu hỏi đặt ra là: liệu AI có thể cung cấp câu trả lời đáng tin cậy khi chỉ được huấn luyện trên các tập dữ liệu ít hơn, đặc biệt là khi không đủ dữ liệu thực tế có sẵn?
Giải Pháp Sử Dụng Dữ Liệu Tổng Hợp
Nghiên cứu của nhóm nhà khoa học tại Đại học Freiburg, Đức, do Noah Hollman, Samuel Müller và Frank Hutter dẫn dắt, đã đề xuất việc sử dụng dữ liệu tổng hợp — loại dữ liệu được tạo ra ngẫu nhiên mà mô phỏng các thuộc tính thống kê của dữ liệu thực. Mô hình TabPFN của họ có thể phân tích dữ liệu dạng bảng, chẳng hạn như thông tin tài chính hay dữ liệu gen. Đáng chú ý, mô hình này có thể đưa ra các dự đoán chính xác mặc dù không sử dụng dữ liệu thực mà chỉ dựa vào 100 triệu bộ dữ liệu ngẫu nhiên được tạo ra.
Vấn Đề An Toàn và Độ Tin Cậy của Dữ Liệu Tổng Hợp
Tuy nhiên, việc sử dụng dữ liệu tổng hợp không phải là không có rủi ro. Có nguy cơ dẫn đến kết quả không chính xác hoặc hiện tượng “ảo tưởng”. Vì lý do này, việc tái hiện các nghiên cứu là rất quan trọng để nâng cao độ tin cậy của các kết quả. Việc xây dựng lòng tin trong AI và giảm thiểu các rủi ro vẫn nên là một ưu tiên toàn cầu, mặc dù điều này dường như đã bị xem nhẹ dưới thời Trump. Tổng thống đã bãi bỏ một sắc lệnh hành pháp của người tiền nhiệm, yêu cầu Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) và các công ty AI hợp tác nhằm cải thiện độ tin cậy và an toàn của AI, bao gồm cả việc sử dụng dữ liệu tổng hợp.
Hướng Đi Mới Cho Nghiên Cứu AI
Hollman và các đồng nghiệp của ông đã nỗ lực tìm ra giải pháp thay thế cho việc thiếu hụt bộ dữ liệu thực tế để huấn luyện mô hình. Qua đó, nghiên cứu này cho thấy sự cần thiết thúc đẩy đổi mới sáng tạo trong lĩnh vực AI. Tuy nhiên, một vấn đề lớn hiện nay là tất cả các mô hình AI, dù được huấn luyện bằng dữ liệu tổng hợp hay dữ liệu thực tế, vẫn là những “hộp đen”: người dùng và các nhà quản lý không thể biết được quá trình đưa ra kết quả diễn ra như thế nào.
Tầm Quan Trọng của Nghiên Cứu Cơ Sở
Khi năm 2025 tiếp tục diễn ra với nhiều phát triển thú vị trong lĩnh vực AI, chúng ta cũng cần ghi nhớ những nghiên cứu giúp hiểu rõ hơn về “cách thức và lý do” hoạt động của AI. Những bài báo phương pháp cũng quan trọng không kém so với các công bố lớn về đột phá trong công nghệ.
Tóm lại
Năm 2025 hứa hẹn sẽ đem lại nhiều tiến bộ trong lĩnh vực AI, nhưng bên cạnh những thành tựu nổi bật, vẫn cần chú ý đến các nghiên cứu không làm mới trang bìa, bởi chúng đóng vai trò quan trọng trong việc định hình tương lai của trí tuệ nhân tạo.