Mô hình R1 của Deepseek đã giành được người dùng với tốc độ, khả năng lý luận và truy cập miễn phí. Mô hình vượt trội trong một số lĩnh vực chính như suy luận và lý luận logic, làm cho nó thành thạo trong việc hiểu và xử lý thông tin phức tạp.
Deepseek đã được chứng minh là đặc biệt mạnh mẽ trong các nhiệm vụ lý luận và mã hóa toán học, giải quyết hiệu quả các vấn đề phức tạp và tạo đoạn mã. Với khả năng đa ngôn ngữ vượt trội và hiệu quả suy luận cao, mô hình đã cho thấy tính linh hoạt trong một loạt các ứng dụng.
Mô hình O3-Mini của Openai, hiện có sẵn trong các mô hình AI miễn phí, là một mô hình AI nhỏ gọn nhưng mạnh mẽ được thiết kế để vượt trội trong lý luận nâng cao, trình độ mã hóa và giải quyết vấn đề toán học, đạt 96,7% trong bài kiểm tra toán học mời của Mỹ (AIME (AIME (AIME ), vượt qua người tiền nhiệm của nó, O1.
Tuy nhiên, vì Qwen 2.5 của Alibaba Ra mắt, nó đã là đối thủ cạnh tranh hàng đầu của cả Deepseek và Chatgpt. Ngoài ra miễn phí cho người dùng và cũng xuất sắc về trình độ mã hóa, hiểu biết đa ngôn ngữ, lý luận toán học và xử lý nội dung mở rộng với hiệu quả và tốc độ, chatbot này đang chứng tỏ khả năng giữ riêng trong không gian AI cạnh tranh.
Vậy làm thế nào để những chatbot này so sánh? Tôi đặt chúng thông qua một loạt các lời nhắc tương tự để kiểm tra chúng trên mọi thứ, từ lý luận nâng cao và trình độ mã hóa đến các khả năng giải quyết vấn đề. Đây là những gì đã xảy ra khi các mô hình cấp miễn phí này đối mặt, bao gồm cả người chiến thắng chung cuộc.
1. Thử thách mã hóa
https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX.jpg"/>
Nhắc nhở: “Viết tập lệnh Python mô phỏng một hệ thống ngân hàng cơ bản với các chức năng để gửi, rút và kiểm tra số dư.”
o3-mini Cung cấp một triển khai vững chắc bằng cách sử dụng phương pháp dựa trên lớp và bao gồm các thông báo lỗi có ý nghĩa trong khi đảm bảo xử lý các khoản tiền gửi và rút tiền thích hợp. Nó cũng cung cấp một lời giải thích rõ ràng về từng phương pháp và chức năng của nó.
Qwen 2.5 cung cấp một sự cố có cấu trúc tốt về cách tập lệnh hoạt động, bao gồm định nghĩa lớp, phương pháp tiền gửi/rút tiền, xử lý lỗi và trải nghiệm người dùng. Nó bao gồm các khối ngoại trừ thử để xử lý các đầu vào không hợp lệ, làm cho nó mạnh mẽ hơn. Kịch bản là sạch sẽ và được thông tin tốt, giúp người mới bắt đầu dễ hiểu.
Deepseek Giữ tập lệnh được cấu trúc và hiệu quả và giới thiệu tên chủ sở hữu cho tài khoản, thêm một liên lạc cá nhân. Tuy nhiên, nó thiếu xác thực đầu vào (ví dụ: không xử lý thử nghiệm thử cho các đầu vào không phải là số) và trong khi giải thích rõ ràng, nó không chi tiết như Qwen 2.5.
Người chiến thắng: Qwen 2.5 Chiến thắng để cung cấp một kịch bản sạch sẽ, có cấu trúc tốt với xử lý lỗi mạnh mẽ, giải thích chi tiết và trải nghiệm người dùng trực quan. Với một triển khai tốt nhưng ít toàn diện hơn với việc xử lý lỗi, O3-Mini là một thứ hai gần.
2. Bằng chứng toán học
https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb.jpg"/>
Nhắc nhở: “Chứng minh định lý Pythagore bằng cách sử dụng phương pháp hình học.”
o3-mini Đã đưa ra một lời giải thích theo cách tiếp cận từng bước, từng bước, giúp dễ hiểu. Giải thích không quá dài dòng cũng không thiếu các chi tiết cần thiết.
Qwen 2.5 đưa ra một cách tiếp cận tương tự với O3-mini, sử dụng hình vuông lớn và sắp xếp lại các hình tam giác trong khi phá vỡ các bước rõ ràng và có phương pháp. Giải thích chứa các vấn đề định dạng và một số phần, như sơ đồ ASCII, hơi không rõ ràng hoặc bị sai lệch, khiến việc hình dung trở nên khó khăn hơn.
Deepseek đã tạo ra một bằng chứng chính xác theo cấu trúc logic. Tuy nhiên, nó thiếu chiều sâu trong việc giải thích lý do tại sao phương pháp này hoạt động.
Người chiến thắng: O3-Mini Chiến thắng cho sự kết hợp tốt nhất của sự rõ ràng, chi tiết và dòng chảy logic. Qwen 2.5 ở vị trí thứ hai với một phản ứng vững chắc nhưng các vấn đề định dạng và trực quan hóa.
3. Giải thích khoa học
https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/d2uMWue5GUAb6HBMWgqoJg.jpg"/>
Nhắc nhở: “Giải thích quá trình quang hợp chi tiết.”
o3-mini Cung cấp các mô tả chi tiết về cả phản ứng phụ thuộc ánh sáng và độc lập với ánh sáng với sự cố rõ ràng của mỗi bước. Sự tiến triển từng bước từ việc nắm bắt ánh sáng sang chuyển đổi năng lượng thành glucose rất dễ theo dõi. Nó chia các quy trình phức tạp thành các phân đoạn tiêu hóa.
Qwen 2.5 cung cấp tất cả các khái niệm chính trong quang hợp với sự cố từng bước tốt của các phản ứng phụ thuộc ánh sáng và chu kỳ Calvin. Tuy nhiên, chatbot ít nhấn mạnh vào ý nghĩa từ thực như biến đổi khí hậu, an ninh lương thực và phản ứng cảm thấy quá cô đọng quá mức so với lời giải thích kỹ lưỡng của O3-mini.
Deepseek Bao phủ cả hai giai đoạn của quang hợp tốt và bao gồm các yếu tố ảnh hưởng đến quá trình quang hợp (ví dụ, cường độ ánh sáng, mức CO₂, độ sẵn có của nước) nhưng thiếu độ sâu kỹ thuật so với phản ứng của O3-Mini.
Người chiến thắng: O3-Mini chiến thắng để cân bằng tốt nhất về chiều sâu, sự rõ ràng, tổ chức và độ chính xác. Deepseek là một thứ hai gần với lời giải thích vững chắc của nó nhưng thiếu một số chi tiết tốt hơn.
4. Phân tích lịch sử
https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/ChFFKsmR7Lgz6z7JX64ptk.jpg"/>
Nhắc nhở: “Phân tích các nguyên nhân và ảnh hưởng của Cách mạng Pháp.”
o3-mini Được tạo ra một phân tích toàn diện và có cấu trúc tốt phân chia rõ ràng các nguyên nhân và hiệu ứng thành các phần riêng biệt và cung cấp các giải thích chuyên sâu cho từng yếu tố, thay vì chỉ liệt kê chúng.
Qwen 2.5 thảo luận về tác động toàn cầu, bao gồm Napoleon và các cuộc cách mạng sau này trong lời giải thích mạnh mẽ và phản ứng được tổ chức tốt. Tuy nhiên, hậu quả kinh tế có thể đã được khám phá chi tiết hơn.
Deepseek Các nguyên nhân chính được bảo hiểm tốt, bao gồm bất bình đẳng xã hội, đấu tranh kinh tế và ý tưởng giác ngộ, nhưng thiếu chiều sâu phân tích và tham chiếu đến các nguồn.
Người chiến thắng: o3-mini Chiến thắng cho sự cân bằng tốt nhất về chiều sâu, rõ ràng, tổ chức và phân tích lịch sử. Deepseek đứng ở vị trí thứ hai cho một phản ứng vững chắc nhưng hơi ít chi tiết.
5. Phê bình văn học
https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/4fgihGgrTb8NyAfQzsErp3.jpg"/>
Nhắc nhở: “Cung cấp một phân tích quan trọng về 'Hamlet' của Shakespeare tập trung vào các chủ đề điên rồ và trả thù của nó.”
o3-mini Khám phá cả hai chủ đề điên rồ và trả thù và cách chúng đan xen thay vì coi chúng là chủ đề riêng biệt. Nó khám phá cuộc đấu tranh tâm lý của Hamlet, xem xét liệu sự điên rồ của anh ta là giả vờ hay có thật, đó là một cuộc tranh luận trung tâm trong học bổng Shakespearean.
Qwen 2.5 cung cấp một cuộc thảo luận rất chi tiết về sự giả tạo so với sự điên rồ thực sự. Tuy nhiên, có một số dư thừa trong việc giải thích sự trả thù, mà cảm thấy mô tả nhiều hơn so với phân tích.
Deepseek cung cấp một so sánh vững chắc giữa Hamlet, Laertes và Fortinbras trong cách tiếp cận trả thù của họ, nhưng phản ứng cảm thấy giống như một bản tóm tắt có cấu trúc tốt thay vì phân tích sâu sắc. Cấu trúc giống như danh sách làm cho nó cảm thấy không giống như một lập luận quan trọng.
Người chiến thắng: O3-Mini chiến thắng một lần nữa cho sự pha trộn tốt nhất về độ sâu, cấu trúc và kết nối theo chủ đề. Deepseek đứng thứ hai cho một phản ứng mạnh mẽ, nhưng nó giống như tóm tắt và ít đan xen hơn.
6. Thảo luận triết học
https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/yLXfX9CafyWCwgNywhY6b8.jpg"/>
Nhắc nhở: “Thảo luận về khái niệm về chủ nghĩa thực dụng và ý nghĩa của nó trong đạo đức hiện đại.”
o3-mini đã vạch ra rõ ràng các nguyên tắc cốt lõi của Chủ nghĩa thực dụng (chủ nghĩa hậu quả, tính toán khoái lạc, sự vô tư) và thảo luận về các ứng dụng hiện đại của họ (hoạch định chính sách, chăm sóc sức khỏe, đạo đức môi trường) chi tiết hơn so với các phản ứng khác.
Qwen 2.5 Đã đưa ra một sự cố vững chắc của ACT so với quy tắc thực dụng và bao gồm đạo đức kinh doanh, công nghệ, AI và đạo đức y khoa tốt. Nhưng có một số dư thừa và giải thích quá mức trong việc xác định các khái niệm thực dụng.
Deepseek bao gồm các nguyên tắc cốt lõi tốt và bao gồm bối cảnh lịch sử nhưng nó đã thất bại trong việc khám phá các phê bình sâu sắc như hai đặc vụ khác. Ngoài ra, phản ứng thiếu kết nối chủ đề mạnh mẽ giữa lý thuyết và các vấn đề trong thế giới thực.
Người chiến thắng: O3-Mini cung cấp phản ứng sâu sắc tốt nhất với sự rõ ràng và kết nối với các vấn đề đạo đức hiện đại. Qwen 2.5 ở vị trí thứ hai cho một lời giải thích tốt nhưng cấu trúc và kết luận yếu hơn một chút.
7. Kế hoạch đô thị
https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/FeADfydi8dhzxqgUsaKDaL.jpg"/>
Nhắc nhở: “Thiết kế một chiến lược tích hợp để tối ưu hóa giao thông đô thị trong một siêu đô thị đang phát triển nhanh chóng. Kế hoạch của bạn nên giải quyết các khía cạnh sau.
o3-mini bao gồm tất cả các khía cạnh chính cần thiết để tối ưu hóa giao thông đô thị với các tài liệu tham khảo thông minh và dòng logic mạnh mẽ với các bước thực hiện rõ ràng.
Qwen 2.5 cung cấp một phản ứng có cấu trúc tốt và được bảo hiểm hầu hết các thành phần thiết yếu với việc sử dụng tốt việc ra quyết định dựa trên dữ liệu. Tuy nhiên, nó thiếu một nghiên cứu trường hợp toàn cầu mạnh mẽ và không nhấn mạnh các giai đoạn thực hiện.
Deepseek Bao gồm các kế hoạch điện khí hóa chuyên sâu và tập trung vững chắc vào vốn chủ sở hữu và an toàn giới trong quá trình vận chuyển. Tuy nhiên, chatbot quá rộng ở một số lĩnh vực, thiếu tập trung mạnh mẽ vào quản trị và khả năng tương lai lâu dài. Nó cũng thiếu một khung thực hiện chính sách được xác định rõ từ phản ứng của nó.
Người chiến thắng: O3-Mini chiến thắng cho lộ trình thực hiện, đổi mới, chiều sâu và hiện thực. Qwen 2.5 đứng thứ hai cho một phản ứng có cấu trúc mạnh mẽ nhưng hơi ít.
Người chiến thắng tổng thể: O3-mini
O3-mini của Chatgpt nổi lên như một chatbot có hiệu suất cao nhất và liên tục nhất trong trò chơi chatbot này. Trong một loạt các thách thức đa dạng-bao gồm mã hóa, toán học, phân tích lịch sử, phê bình văn học, thảo luận triết học và giải quyết vấn đề-O3-mini liên tục thể hiện chiều sâu, sự rõ ràng, tổ chức và khả năng áp dụng trong thế giới thực.
03 Mini xuất sắc trong việc cân bằng chi tiết với khả năng đọc, cung cấp các phản ứng có cấu trúc tốt và sâu sắc, pha trộn sự hiểu biết về lý thuyết với ý nghĩa thực tế.
Trong khi Deepseek R1 và Qwen 2.5 có điểm mạnh của họ-Deepseek thường cung cấp các phản ứng có cấu trúc nhưng có phần bề mặt và Qwen 2.5 thể hiện các kỹ năng mã hóa mạnh mẽ và phân tích đạo đức mạnh mẽ-không thể phù hợp với tính linh hoạt của O3-Mini trên tất cả các lĩnh vực được thử nghiệm.
Đáng chú ý, Qwen 2.5 đã vượt qua O3-Mini trong thử thách mã hóa do kịch bản được xử lý tốt và khả năng xử lý lỗi, và đôi khi Deepseeek đứng thứ hai khi nó cung cấp một phản ứng toàn diện hơn nhưng ít sắc thái hơn.
Liên tục xếp hạng đầu tiên trong năm trong số bảy thử thách, O3-mini đã chứng tỏ là mô hình AI cân bằng nhất cho người dùng tìm kiếm câu trả lời chu đáo, được kiểm tra kỹ lưỡng và hợp lý. Mặc dù cả ba mô hình cung cấp hỗ trợ có giá trị trong các nhiệm vụ khác nhau, O3-Mini hiện cung cấp trải nghiệm được đánh bóng và đáng tin cậy nhất trong số các tùy chọn chatbot miễn phí này.
Thêm từ hướng dẫn của Tom
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.