Tôi đã thử nghiệm DeepSeek R1 vs Qwen 2.5 so với Chatgpt O3-Mini với 7 lời nhắc-đây là người chiến thắng

Mô hình R1 của Deepseek đã giành được người dùng với tốc độ, khả năng lý luận và truy cập miễn phí. Mô hình vượt trội trong một số lĩnh vực chính như suy luận và lý luận logic, làm cho nó thành thạo trong việc hiểu và xử lý thông tin phức tạp.

Deepseek đã được chứng minh là đặc biệt mạnh mẽ trong các nhiệm vụ lý luận và mã hóa toán học, giải quyết hiệu quả các vấn đề phức tạp và tạo đoạn mã. Với khả năng đa ngôn ngữ vượt trội và hiệu quả suy luận cao, mô hình đã cho thấy tính linh hoạt trong một loạt các ứng dụng.

Mô hình O3-Mini của Openai, hiện có sẵn trong các mô hình AI miễn phí, là một mô hình AI nhỏ gọn nhưng mạnh mẽ được thiết kế để vượt trội trong lý luận nâng cao, trình độ mã hóa và giải quyết vấn đề toán học, đạt 96,7% trong bài kiểm tra toán học mời của Mỹ (AIME (AIME (AIME ), vượt qua người tiền nhiệm của nó, O1.

Tuy nhiên, vì Qwen 2.5 của Alibaba Ra mắt, nó đã là đối thủ cạnh tranh hàng đầu của cả Deepseek và Chatgpt. Ngoài ra miễn phí cho người dùng và cũng xuất sắc về trình độ mã hóa, hiểu biết đa ngôn ngữ, lý luận toán học và xử lý nội dung mở rộng với hiệu quả và tốc độ, chatbot này đang chứng tỏ khả năng giữ riêng trong không gian AI cạnh tranh.

Vậy làm thế nào để những chatbot này so sánh? Tôi đặt chúng thông qua một loạt các lời nhắc tương tự để kiểm tra chúng trên mọi thứ, từ lý luận nâng cao và trình độ mã hóa đến các khả năng giải quyết vấn đề. Đây là những gì đã xảy ra khi các mô hình cấp miễn phí này đối mặt, bao gồm cả người chiến thắng chung cuộc.

1. Thử thách mã hóa

https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-480-80.jpg.webp 480w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-650-80.jpg.webp 650w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-970-80.jpg.webp 970w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1024-80.jpg.webp 1024w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1200-80.jpg.webp 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)"/>O3-mini so với Qwen 2.5 so với ảnh chụp màn hình DeepSeekhttps://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/LooTPUMD3SXJfJ3jF7TgjX.jpg"/>

(Tín dụng hình ảnh: Tương lai)

Nhắc nhở: “Viết tập lệnh Python mô phỏng một hệ thống ngân hàng cơ bản với các chức năng để gửi, rút ​​và kiểm tra số dư.”

o3-mini Cung cấp một triển khai vững chắc bằng cách sử dụng phương pháp dựa trên lớp và bao gồm các thông báo lỗi có ý nghĩa trong khi đảm bảo xử lý các khoản tiền gửi và rút tiền thích hợp. Nó cũng cung cấp một lời giải thích rõ ràng về từng phương pháp và chức năng của nó.

Qwen 2.5 cung cấp một sự cố có cấu trúc tốt về cách tập lệnh hoạt động, bao gồm định nghĩa lớp, phương pháp tiền gửi/rút tiền, xử lý lỗi và trải nghiệm người dùng. Nó bao gồm các khối ngoại trừ thử để xử lý các đầu vào không hợp lệ, làm cho nó mạnh mẽ hơn. Kịch bản là sạch sẽ và được thông tin tốt, giúp người mới bắt đầu dễ hiểu.

Deepseek Giữ tập lệnh được cấu trúc và hiệu quả và giới thiệu tên chủ sở hữu cho tài khoản, thêm một liên lạc cá nhân. Tuy nhiên, nó thiếu xác thực đầu vào (ví dụ: không xử lý thử nghiệm thử cho các đầu vào không phải là số) và trong khi giải thích rõ ràng, nó không chi tiết như Qwen 2.5.

Người chiến thắng: Qwen 2.5 Chiến thắng để cung cấp một kịch bản sạch sẽ, có cấu trúc tốt với xử lý lỗi mạnh mẽ, giải thích chi tiết và trải nghiệm người dùng trực quan. Với một triển khai tốt nhưng ít toàn diện hơn với việc xử lý lỗi, O3-Mini là một thứ hai gần.

2. Bằng chứng toán học

https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-480-80.jpg.webp 480w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-650-80.jpg.webp 650w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-970-80.jpg.webp 970w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1024-80.jpg.webp 1024w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1200-80.jpg.webp 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)"/>O3-mini so với Qwen 2.5 so với ảnh chụp màn hình DeepSeekhttps://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-480-80.jpg 480w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-650-80.jpg 650w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-970-80.jpg 970w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1024-80.jpg 1024w, https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb-1200-80.jpg 1200w" sizes="(min-width: 1000px) 970px, calc(100vw - 40px)" loading="lazy" data-original-mos="https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb.jpg" data-pin-media="https://cdn.mos.cms.futurecdn.net/8bTSPGpchfePtQhJ8opiyb.jpg"/>

(Tín dụng hình ảnh: Tương lai)

Nhắc nhở: “Chứng minh định lý Pythagore bằng cách sử dụng phương pháp hình học.”

o3-mini Đã đưa ra một lời giải thích theo cách tiếp cận từng bước, từng bước, giúp dễ hiểu. Giải thích không quá dài dòng cũng không thiếu các chi tiết cần thiết.

Qwen 2.5 đưa ra một cách tiếp cận tương tự với O3-mini, sử dụng hình vuông lớn và sắp xếp lại các hình tam giác trong khi phá vỡ các bước rõ ràng và có phương pháp. Giải thích chứa các vấn đề định dạng và một số phần, như sơ đồ ASCII, hơi không rõ ràng hoặc bị sai lệch, khiến việc hình dung trở nên khó khăn hơn.


Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.

Gửi phản hồi

Khám phá thêm từ Phụ Kiện Đỉnh

Đăng ký ngay để tiếp tục đọc và truy cập kho lưu trữ đầy đủ.

Tiếp tục đọc