Rất có thể, bạn đã nghe về thuật ngữ “mô hình ngôn ngữ lớn” hoặc LLM, khi mọi người đang nói về AI tổng quát. Nhưng chúng không hoàn toàn đồng nghĩa với các chatbot thương hiệu như Chatgpt, Google Gemini, Microsoft Copilot, Meta AI và Anthropic's Claude.
Những chatbot AI này có thể tạo ra kết quả ấn tượng, nhưng chúng không thực sự hiểu ý nghĩa của các từ theo cách chúng ta làm. Thay vào đó, chúng là giao diện chúng tôi sử dụng để tương tác với các mô hình ngôn ngữ lớn. Các công nghệ cơ bản này được đào tạo để nhận ra cách các từ được sử dụng và từ nào thường xuất hiện cùng nhau, để chúng có thể dự đoán các từ, câu hoặc đoạn văn trong tương lai. Hiểu cách LLM làm việc là chìa khóa để hiểu cách AI hoạt động. Và khi AI ngày càng trở nên phổ biến trong những trải nghiệm trực tuyến hàng ngày của chúng tôi, đó là điều bạn nên biết.
Đây là tất cả mọi thứ bạn cần biết về LLM và những gì họ phải làm với AI.
Mô hình ngôn ngữ là gì?
Bạn có thể nghĩ về một mô hình ngôn ngữ như một người làm dịu cho các từ.
“Một mô hình ngôn ngữ là thứ cố gắng dự đoán ngôn ngữ trông như thế nào mà con người tạo ra”, Mark Riedl, giáo sư tại Trường Điện toán tương tác Georgia và Phó Giám đốc Trung tâm Học tập Máy Công nghệ Georgia cho biết. “Điều làm cho một cái gì đó trở thành một mô hình ngôn ngữ là liệu nó có thể dự đoán các từ trong tương lai được đưa ra từ trước hay không.”
Đây là cơ sở của chức năng tự động hoàn thành khi bạn nhắn tin, cũng như của AI chatbots.
Một mô hình ngôn ngữ lớn là gì?
Một mô hình ngôn ngữ lớn chứa một lượng lớn các từ từ một loạt các nguồn. Các mô hình này được đo bằng những gì được gọi là “tham số”.
Vì vậy, một tham số là gì?
Vâng, LLM sử dụng các mạng thần kinh, là các mô hình học máy có đầu vào và thực hiện các tính toán toán học để tạo ra một đầu ra. Số lượng biến trong các tính toán này là các tham số. Một mô hình ngôn ngữ lớn có thể có 1 tỷ tham số trở lên.
“Chúng tôi biết rằng chúng lớn khi chúng tạo ra một đoạn văn bản đầy đủ chất lỏng mạch lạc”, Riedl nói.
Làm thế nào để các mô hình ngôn ngữ lớn học?
LLM học thông qua một quá trình AI cốt lõi gọi là học tập sâu.
“Nó rất giống khi bạn dạy một đứa trẻ – bạn cho thấy rất nhiều ví dụ”, Jason Alan Snyder, CTO toàn cầu của cơ quan quảng cáo Momentum trên toàn thế giới cho biết.
Nói cách khác, bạn cung cấp cho LLM một thư viện nội dung (cái gọi là dữ liệu đào tạo) như sách, bài viết, mã và các bài đăng trên phương tiện truyền thông xã hội để giúp nó hiểu cách các từ được sử dụng trong các bối cảnh khác nhau và thậm chí là các sắc thái tinh tế hơn của ngôn ngữ. Việc thu thập dữ liệu và thực hành đào tạo của các công ty AI là chủ đề của một số tranh cãi và một số vụ kiện. Các nhà xuất bản như New York Times, nghệ sĩ và các chủ sở hữu danh mục nội dung khác đang cáo buộc các công ty công nghệ đã sử dụng tài liệu có bản quyền của họ mà không có quyền cần thiết.
.
Các mô hình AI tiêu hóa nhiều hơn một người có thể đọc trong đời – một cái gì đó theo thứ tự hàng nghìn tỷ mã thông báo. Mã thông báo giúp các mô hình AI bị hỏng và xử lý văn bản. Bạn có thể nghĩ về một mô hình AI với tư cách là một độc giả cần giúp đỡ. Mô hình chia một câu thành các mảnh nhỏ hơn hoặc mã thông báo-tương đương với bốn ký tự bằng tiếng Anh, hoặc khoảng ba phần tư của một từ-vì vậy nó có thể hiểu từng phần và sau đó là ý nghĩa tổng thể.
Từ đó, LLM có thể phân tích cách các từ kết nối và xác định từ nào thường xuất hiện cùng nhau.
“Nó giống như xây dựng bản đồ khổng lồ của các mối quan hệ từ này”, Snyder nói. “Và sau đó, nó bắt đầu có thể làm điều này thực sự thú vị, thú vị và nó dự đoán từ tiếp theo là gì và nó so sánh dự đoán với từ thực tế trong dữ liệu và điều chỉnh bản đồ nội bộ dựa trên độ chính xác của nó.”
Dự đoán và điều chỉnh này xảy ra hàng tỷ lần, vì vậy LLM liên tục tinh chỉnh sự hiểu biết của nó về ngôn ngữ và trở nên tốt hơn trong việc xác định các mẫu và dự đoán các từ trong tương lai. Nó thậm chí có thể học các khái niệm và sự kiện từ dữ liệu để trả lời các câu hỏi, tạo các định dạng văn bản sáng tạo và dịch ngôn ngữ. Nhưng họ không hiểu ý nghĩa của các từ như chúng ta – tất cả những gì họ biết là các mối quan hệ thống kê.
LLM cũng học cách cải thiện phản ứng của họ thông qua việc học củng cố từ phản hồi của con người.
“Bạn nhận được một bản án hoặc sở thích từ con người mà phản ứng được đưa ra tốt hơn cho đầu vào mà nó được đưa ra”, Maarten SAP, trợ lý giáo sư tại Viện Công nghệ Ngôn ngữ tại Đại học Carnegie Mellon nói. “Và sau đó bạn có thể dạy mô hình để cải thiện các phản ứng của nó.”
LLM rất giỏi trong việc xử lý một số nhiệm vụ nhưng không phải là những nhiệm vụ khác.
Các mô hình ngôn ngữ lớn làm gì?
Đưa ra một loạt các từ đầu vào, một LLM sẽ dự đoán từ tiếp theo theo một chuỗi.
Ví dụ, hãy xem xét cụm từ, “Tôi đã đi thuyền trên màu xanh đậm …”
Hầu hết mọi người có lẽ sẽ đoán “biển” vì chèo thuyền, sâu và xanh đều là những từ chúng ta liên kết với biển. Nói cách khác, mỗi từ thiết lập bối cảnh cho những gì sẽ đến tiếp theo.
“Những mô hình ngôn ngữ lớn này, bởi vì chúng có rất nhiều thông số, có thể lưu trữ rất nhiều mẫu”, Riedl nói. “Họ rất giỏi trong việc có thể chọn ra những manh mối này và thực sự, những dự đoán thực sự tốt về những gì tiếp theo.”
Các loại mô hình ngôn ngữ khác nhau là gì?
Có một vài loại danh mục phụ mà bạn có thể đã nghe, như nhỏ, lý luận và nguồn mở/trọng lượng mở. Một số mô hình này là đa phương thức, có nghĩa là chúng được đào tạo không chỉ trên văn bản mà còn trên hình ảnh, video và âm thanh. Chúng là tất cả các mô hình ngôn ngữ và thực hiện các chức năng giống nhau, nhưng có một số khác biệt chính mà bạn nên biết.
Có một điều như một mô hình ngôn ngữ nhỏ?
Đúng. Các công ty công nghệ như Microsoft đã giới thiệu các mô hình nhỏ hơn được thiết kế để vận hành “trên thiết bị” và không yêu cầu các tài nguyên điện toán tương tự mà LLM làm, nhưng vẫn giúp người dùng khai thác sức mạnh của AI tổng quát.
Các mô hình lý luận AI là gì?
Mô hình lý luận là một loại LLM. Những mô hình này cung cấp cho bạn một cái nhìn phía sau bức màn tại một đoàn suy nghĩ của Chatbot trong khi trả lời các câu hỏi của bạn. Bạn có thể đã thấy quá trình này nếu bạn đã sử dụng DeepSeek, một chatbot AI của Trung Quốc.
Nhưng những gì về các mô hình nguồn mở và nguồn mở?
Tuy nhiên, LLMS! Những mô hình này được thiết kế để minh bạch hơn một chút về cách chúng hoạt động. Các mô hình nguồn mở cho phép bất cứ ai thấy mô hình được xây dựng như thế nào và chúng thường có sẵn cho bất kỳ ai tùy chỉnh và xây dựng một mô hình. Các mô hình trọng lượng mở cho chúng ta một số cái nhìn sâu sắc về cách mô hình cân nhắc các đặc điểm cụ thể khi đưa ra quyết định.
Các mô hình ngôn ngữ lớn làm gì thực sự tốt?
LLM rất giỏi trong việc tìm ra kết nối giữa các từ và sản xuất văn bản nghe có vẻ tự nhiên.
“Họ lấy một đầu vào, thường có thể là một tập hợp các hướng dẫn, như 'làm điều này cho tôi' hoặc 'cho tôi biết về điều này' hoặc 'tóm tắt điều này' và có thể trích xuất các mẫu đó ra khỏi đầu vào và tạo ra một chuỗi dài phản hồi chất lỏng”, Riedl nói.
Nhưng họ có một số điểm yếu.
Các mô hình ngôn ngữ lớn đấu tranh ở đâu?
Đầu tiên, họ không giỏi nói sự thật. Trên thực tế, đôi khi họ chỉ tạo ra những thứ đúng như vậy, như khi Chatgpt trích dẫn sáu vụ kiện giả trong một bản tóm tắt pháp lý hoặc khi Google của Google (người tiền nhiệm của Song Tử) đã ghi nhận nhầm tạng không gian James Webb với việc chụp những bức ảnh đầu tiên của một hành tinh bên ngoài hệ mặt trời của chúng ta. Chúng được gọi là ảo giác.
“Họ cực kỳ không đáng tin cậy theo nghĩa là chúng gây ra và tạo nên mọi thứ rất nhiều”, Sap nói. “Chúng không được đào tạo hoặc thiết kế bằng bất kỳ phương tiện nào để nhổ bất cứ điều gì trung thực.”
Họ cũng đấu tranh với các truy vấn về cơ bản khác với bất cứ điều gì họ gặp phải trước đây. Đó là bởi vì họ tập trung vào việc tìm kiếm và phản hồi các mẫu.
Một ví dụ điển hình là một vấn đề toán học với một tập hợp số duy nhất.
“Nó có thể không thể thực hiện tính toán đó một cách chính xác bởi vì nó không thực sự giải quyết toán học”, Riedl nói. “Nó đang cố gắng liên hệ câu hỏi toán học của bạn với các ví dụ trước về các câu hỏi toán học mà nó đã thấy trước đây.”
Mặc dù họ xuất sắc trong việc dự đoán các từ, họ không giỏi dự đoán tương lai, bao gồm lập kế hoạch và ra quyết định.
“Ý tưởng thực hiện kế hoạch theo cách mà con người thực hiện với suy nghĩ về các tình huống và lựa chọn thay thế khác nhau và đưa ra lựa chọn, đây dường như là một rào cản thực sự khó khăn cho các mô hình ngôn ngữ lớn hiện tại của chúng tôi ngay bây giờ”, Riedl nói.
Cuối cùng, họ đấu tranh với các sự kiện hiện tại vì dữ liệu đào tạo của họ thường chỉ đi đến một thời điểm nhất định và bất cứ điều gì xảy ra sau đó không phải là một phần của nền tảng kiến thức của họ. Bởi vì họ không có khả năng phân biệt giữa những gì thực sự đúng và những gì có khả năng, họ có thể tự tin cung cấp thông tin không chính xác về các sự kiện hiện tại.
Họ cũng không tương tác với thế giới theo cách chúng ta làm.
“Điều này gây khó khăn cho họ để nắm bắt các sắc thái và sự phức tạp của các sự kiện hiện tại thường đòi hỏi sự hiểu biết về bối cảnh, động lực xã hội và hậu quả trong thế giới thực,” Snyder nói.
LLMS được tích hợp như thế nào với các công cụ tìm kiếm?
Chúng ta đang thấy các khả năng truy xuất phát triển vượt ra ngoài những gì các mô hình đã được đào tạo, bao gồm cả việc kết nối với các công cụ tìm kiếm như Google để các mô hình có thể tiến hành tìm kiếm web và sau đó cung cấp các kết quả đó vào LLM. Điều này có nghĩa là họ có thể hiểu rõ hơn các truy vấn và cung cấp các câu trả lời kịp thời hơn.
“Điều này giúp các mô hình liên kết của chúng tôi duy trì hiện tại và cập nhật vì chúng thực sự có thể xem xét thông tin mới trên internet và đưa nó vào”, Riedl nói.
Đó là mục tiêu, ví dụ, một thời gian trở lại với Bing do AI cung cấp. Thay vì khai thác vào các công cụ tìm kiếm để tăng cường phản hồi của mình, Microsoft đã tìm đến AI để cải thiện công cụ tìm kiếm của chính mình, một phần bằng cách hiểu rõ hơn ý nghĩa thực sự đằng sau các truy vấn của người tiêu dùng và xếp hạng tốt hơn kết quả cho các truy vấn nói trên. Tháng 11 năm ngoái, OpenAI đã giới thiệu tìm kiếm TATGPT, với quyền truy cập vào thông tin từ một số nhà xuất bản tin tức.
Nhưng có những món khai vị. Tìm kiếm web có thể làm cho ảo giác tồi tệ hơn mà không cần kiểm tra thực tế đầy đủ. Và LLM sẽ cần học cách đánh giá độ tin cậy của các nguồn web trước khi trích dẫn chúng. Google đã học được rằng cách khó khăn với sự ra mắt dễ bị lỗi của AI tổng quan về kết quả tìm kiếm. Công ty tìm kiếm sau đó đã tinh chỉnh các kết quả tổng quan AI của mình để giảm các bản tóm tắt sai lệch hoặc có khả năng nguy hiểm. Nhưng ngay cả các báo cáo gần đây đã phát hiện ra rằng tổng quan AI cũng không thể nói với bạn năm nào.
Để biết thêm, hãy xem danh sách các chuyên gia về các yếu tố cần thiết của AI và các chatbot tốt nhất cho năm 2025.
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.