AI vừa có khoảnh khắc Sputnik của nó.
Doanh nhân Marc Andreessen đã đưa ra tuyên bố táo bạo đó về X, nền tảng truyền thông xã hội trước đây được gọi là Twitter, vào Chủ nhật vừa qua. Thung lũng Silicon, cùng với thị trường chứng khoán và tiên lượng trực tuyến, đều quay cuồng với những gì dường như là hoạt động ở mức địa chấn trong không gian AI.
Deepseek AI, một mô hình AI mới từ Trung Quốc đã nhảy lên đỉnh của Apple App Store, đang gửi những tiếng vang khắp Thung lũng Silicon. Deepseek tuyên bố AI cạnh tranh và trong một số trường hợp vượt trội hơn, mô hình lý luận O1 của Openai với một phần chi phí. Không chỉ vậy, mô hình R1 của Deepseek hoàn toàn là nguồn mở, có nghĩa là mã có thể truy cập công khai và bất kỳ ai cũng có thể sử dụng nó miễn phí.
Một điểm khác biệt quan trọng giữa Deepseek-R1 và Openai's O1 là R1 cho phép bạn thấy chuỗi suy nghĩ của nó. Đó là cái nhìn sâu sắc đáng kinh ngạc về cách AI “nghĩ”. Bạn thực sự có thể thấy nó đang cố gắng trả lời các câu hỏi về Quảng trường Thiên An Môn trước khi nó hủy bỏ câu trả lời của nó, Midway. Nvidia, công ty sản xuất chip cung cấp năng lượng cho cuộc cách mạng AI, đã chứng kiến cổ phiếu của mình lao xuống 18% và mất kỷ lục 600 tỷ đô la sau ngày cuối tuần của Deepseek. Nó có ý nghĩa. Nếu những gì Deepseek nói là đúng, thì nó sẽ đạt được hiệu suất cấp độ O1 trên các chip NVIDIA cũ rõ ràng trong khi chi một tỷ lệ nhỏ chi phí.
Các nhà bình luận trực tuyến vẫn đang cố gắng hiểu được sự xuất hiện bất ngờ của Deepseek trên thị trường AI. Có thực sự là người biểu diễn với O1 với chi phí thấp hơn? Ở mức độ nào thì yêu sách của Deepseek và Trung Quốc là đúng về hiệu quả? Việc tiết kiệm chi phí đến từ một mở khóa kỹ thuật lớn, hoặc các lĩnh vực khác trong chuỗi cung ứng của Trung Quốc có làm cho nó rẻ hơn để sử dụng?
Bất kể, R1 là ấn tượng.
“Khả năng chi trả này mở ra cánh cửa cho các công ty nhỏ hơn và các công ty khởi nghiệp để tận dụng công nghệ AI tiên tiến mà trước đây không thể tiếp cận được”, Mel Morris, CEO của Corpora AI, một công cụ nghiên cứu AI, nói trong một tuyên bố với CNET. Morris nói thêm rằng Deepseek đặt ra sự cạnh tranh cho các cầu thủ AI thành lập và “sự hiện diện của nó có khả năng thúc đẩy những tiến bộ nhanh hơn trong công nghệ AI, dẫn đến các giải pháp hiệu quả và dễ tiếp cận hơn để đáp ứng nhu cầu ngày càng tăng.”
Đó có thể là lý do tại sao CEO Openai đã cắt giảm giá cho các truy vấn Mini gần cuối của mình vào thứ Bảy.
Vì công nghệ lớn liên tục ném hàng tỷ đô la, sức mạnh xử lý và năng lượng tại AI, hiệu quả của Deepseek có thể giống như loại bước nhảy vọt mà chúng tôi thấy khi xe hơi đi từ bộ chế hòa khí đến hệ thống phun nhiên liệu. Không giống như Openai, mô hình R1 của Deepseek là nguồn mở, có nghĩa là bất cứ ai cũng có thể sử dụng công nghệ. Đó là một sự gián đoạn lớn đối với thị trường, hiện đang bị chi phối bởi TATGPT của Openai và Song Tử của Google, cả hai đều bị đóng cửa và yêu cầu người dùng phải trả tiền để có quyền truy cập đầy đủ vào bộ tính năng của họ.
Trong cuộc đua AI giữa Mỹ và Trung Quốc, nước Mỹ đã đi trước nhờ vào bãi rác đầu tư lớn của Thung lũng Silicon và sự phong tỏa của chính phủ trên NVIDIA bán chip AI mới nhất cho Trung Quốc. Tuy nhiên, phong tỏa đó có thể chỉ khuyến khích Trung Quốc làm cho chip của mình nhanh hơn. Tiền, cộng với chủ nghĩa bảo hộ, được coi là một cách để giữ Trung Quốc ở vị trí thứ hai, khiến thế giới phụ thuộc vào công nghệ Mỹ. Động lực đó có thể đã thay đổi. Bây giờ, người tiêu dùng và tập đoàn trên toàn thế giới có quyền truy cập vào một mô hình “lý luận” có hiệu suất cao với một phần chi phí. Không chỉ vậy, Công ty mẹ Tiktok Bytedance đã phát hành một mô hình thậm chí rẻ hơn cho R1.
Khi thị trường và phương tiện truyền thông xã hội phản ứng với những phát triển mới ra khỏi Trung Quốc, có thể còn quá sớm để nói rằng nước Mỹ đã bị đánh bại. Nhưng ít nhất, Trung Quốc đang bắt kịp nhanh chóng.
“Trung Quốc đã sản xuất các mô hình chất lượng GPT-4, nhưng đã có độ trễ dài hơn-như mất một năm, một năm rưỡi, một cái gì đó như thế. Nhưng bây giờ có một mô hình Trung Quốc, có lẽ chỉ là sáu Tháng sau, và tôi nghĩ đó là một sự khác biệt “, Lucas Hansen, đồng sáng lập của Civilai, một tổ chức phi lợi nhuận sử dụng phần mềm để chứng minh AI có khả năng gì. “Vì vậy, Mỹ vẫn có một khách hàng tiềm năng, nhưng nó không lớn như trước đây.”
Một điều chắc chắn sẽ giúp các công ty AI bắt kịp Openai là khả năng của R1 để người dùng đọc chuỗi suy nghĩ của mình. Ngay cả khi R1 không nhận được mọi câu trả lời đúng, việc có thể thấy lý do có thể giúp phát triển nó tốt hơn. Những người “sốc và kinh ngạc” đang cảm thấy với R1 đến từ khả năng đọc chuỗi suy nghĩ của nó, theo Hansen. Đó là cái nhìn sâu sắc mà Openai đã không cho phép truy cập với mô hình O1 của mình, vì việc che giấu nước sốt bí mật khiến mọi người loại bỏ chi phí đăng ký hàng tháng để truy cập.
Tuy nhiên, có một mức độ hoài nghi cần được thực hiện với tỷ lệ chi phí trên hiệu suất của R1. Sách trắng mà Deepseek xuất bản có hơn 100 đồng tác giả. Đó là rất nhiều bộ não để đào tạo AI với chi phí thấp là 5,5 triệu đô la. Chi phí 5,5 triệu đô la đó có thể chỉ là chi phí năng lượng để đào tạo mô hình, trừ đi mức lương cá nhân của mọi nhà nghiên cứu, nhưng Trung Quốc đã không hoàn toàn minh bạch về cách tính toán các chi phí năng lượng này. Chi phí thiết lập một trung tâm dữ liệu ở Trung Quốc có khả năng khác với việc thiết lập một trung tâm ở Mỹ. Và, không chắc chắn nếu chi phí được trợ cấp bởi một nhà cung cấp đám mây hoặc chính phủ Trung Quốc, theo Hansen.
Ngoài ra còn có sự hoài nghi về chip Deepseek được sử dụng để đào tạo mô hình của nó. Là công ty thực sự sử dụng chip NVIDIA A100 và H800 cũ hơn hoặc Trung Quốc truy cập các chip H100 mới nhất thông qua các phương tiện khác, như đã nói bởi Alexandr Wang, CEO của Scale AI.
Ngay cả khi chúng tôi coi con số 5,5 triệu đô la đó là một ước tính rất bảo thủ, thì nó vẫn ít hơn đáng kể so với 100 triệu đô la mà Openai phải trả giá để đào tạo GPT-4, các công ty trước đó là mô hình AI. Openai đã không công bố số liệu về chi phí để xây dựng O1, nhưng với chi phí mã thông báo cao hơn nhiều cho khách hàng, nó có thể đắt hơn.
Mark James, Giám đốc lâm thời của Viện Năng lượng và Môi trường tại Vermont Law và Trường sau đại học cho biết: “Với tải trọng trung tâm dữ liệu ở Hoa Kỳ dự kiến sẽ tăng gấp đôi hoặc gấp ba vào năm 2030, bất kỳ khoản tiết kiệm hiệu quả nào cũng có thể có tác động đáng kể”. . Đã, các tiện ích đang được nhấn mạnh bởi nhu cầu năng lượng cao của AI. Nếu tuyên bố của Deepseek là chính xác, thì nó có thể làm giảm đáng kể tải điện tiềm năng, giảm bớt căng thẳng cho cả người tiêu dùng và môi trường. “Mặt khác,” James nói, “các mô hình hiệu quả hơn có thể mở khóa thậm chí tăng trưởng hơn trong lĩnh vực này, điều này sẽ giảm thiểu tiết kiệm hiệu quả và làm trầm trọng thêm sự căng thẳng trên lưới của chúng tôi.”
Tuyên bố rằng Hoa Kỳ đã thua cuộc chiến AI có thể là sớm. Ít nhất, cảnh quan đã ngay lập tức trở nên cạnh tranh hơn và có chỗ để tiếp tục đổi mới. Deepseek cũng không có nghĩa là thế giới đang ở trên đỉnh của việc đạt được trí thông minh chung nhân tạo, hoặc AI siêu tiên tiến thông minh hơn con người và có thể tự dạy.
Tôi không nghĩ Deepseek đưa chúng ta gần hơn một milimet đến trí tuệ chung nhân tạo (AGI), nhưng tôi nghĩ nó đưa chúng ta đến gần hơn với các ứng dụng ngôn ngữ lớn (LLM) có khả năng thương mại hơn về mặt thương mại ” Liên minh SuperintelleD (ASI) và người sáng lập Singularitynet. Deepseek vẫn có những hạn chế nhận thức giống như các mô hình AI khác. Mặc dù vậy, hiệu quả của Deepseek có thể dân chủ hóa AI hơn nữa.
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.