Grapuco Benchmark
Cung cấp ngữ cảnh nghiệp vụ cho AI coding agent có thực sự tạo ra code tốt hơn? Chúng tôi đã thử nghiệm 6 chiến lược ngữ cảnh khác nhau trên một dự án e-commerce thực tế.
Toàn bộ kết quả dưới đây là trung bình của 100 lượt chạy độc lập cho mỗi cấu hình nhằm đảm bảo độ tin cậy thống kê.
Xem Kết quảarrow_downwardVấn Đề
AI coding agent ngày nay có thể tạo code cực nhanh - nhưng chúng lập trình "mù". Khi không hiểu nghiệp vụ, chúng tạo ra code biên dịch được nhưng bỏ sót các quy tắc nghiệp vụ quan trọng, logic validation và các ràng buộc đặc thù. Kết quả? Code chạy đúng cú pháp nhưng sai ngữ nghĩa.
Câu Hỏi Nghiên Cứu
Nếu chúng ta cung cấp đặc tả nghiệp vụ có cấu trúc - Use Cases, Data Entities, Business Rules, và Workflow Flows - cho AI coding agent qua MCP (Model Context Protocol), liệu chất lượng code được tạo ra có cải thiện so với không có ngữ cảnh, tài liệu tĩnh, hay chỉ hiểu cấu trúc code?
Thiết Lập Thí Nghiệm
Một benchmark có kiểm soát thử nghiệm 6 chiến lược ngữ cảnh trên cùng một dự án e-commerce.
codeXem Mã Nguồn Benchmarkopen_in_newĐối Tượng - E-commerce BabyShop
Nền tảng e-commerce full-stack với 4 modules và 8 use cases
NestJS + TypeORM
PostgreSQL, class-validator DTOs, kiến trúc module
Next.js 14 App Router
TypeScript, Tailwind CSS, React hooks quản lý state
4 Module, 8 Use Case
Dashboard, Đơn hàng, Sản phẩm, Mua sắm & Thanh toán
5 Tác Vụ Tuần Tự
Mỗi tác vụ xây dựng trên kết quả của tác vụ trước, từ khởi tạo đến dashboard
T1 - Project Init + Schema
Initialize NestJS + Next.js monorepo with PostgreSQL. Create Category and Product entities with all fields and relationships.
T2 - Product CRUD + Storefront
Full CRUD for Categories and Products. Build storefront with homepage, category listing, product detail pages, and pagination.
T3 - Cart + Checkout
Shopping cart with add/update/remove + stock validation. Checkout flow with customer info, shipping fee, and order creation.
T4 - Order Management
Order status workflow (PENDING → CONFIRMED → SHIPPING → DELIVERED/CANCELLED). Admin order list, detail, and status transition with history.
T5 - Admin Dashboard
Admin dashboard with revenue charts, top-selling products, recent orders, and low-stock alerts. Summary stat widgets.
6 Kịch Bản
Từ không có ngữ cảnh đến hiểu toàn bộ nghiệp vụ + code qua MCP
Naked (No Context)
None
Zero business context. The AI agent receives only the task prompt and must infer all requirements from the prompt alone.
Markdown Spec
Static file (119 lines)
A static 119-line Markdown specification file injected as a system prompt. Contains data models, business rules, API routes, and code conventions.
Spec Agent (MCP)
MCP - Business specs only
Business specs fetched via Grapuco MCP Server. The agent calls get_context and get_active_task_context to retrieve Use Cases, Data Entities, Business Rules, and Flows.
Graph Only (MCP)
MCP - Code graph only
Architecture graph via Grapuco MCP. The agent uses get_architecture and get_dependencies to understand existing code structure, but has no business specs.
Full Grapuco (MCP)
MCP - Spec + Graph
Full Grapuco stack: Spec Agent + Architecture Graph combined. The agent has access to both business context AND code structure awareness via MCP.
GitNexus (Local)
MCP - Local indexing
Local code indexing competitor. Uses stdio-based MCP to analyze the workspace after each task. Provides code search but no business context.
Phương Pháp
Tự động, có thể tái tạo, và cách ly
Mô Hình AI
Claude Sonnet 4.6 qua Claude Code CLI với --dangerously-skip-permissions để tự động hoá hoàn toàn
Cách Ly Workspace
Mỗi lượt chạy xoá sạch workspace. Không có ô nhiễm chéo giữa các cấu hình
Kiểm Tra Build
npm run build cho cả backend và frontend. Build phải pass, nếu lỗi sẽ tự sửa (tối đa 5 lần)
Thời Gian Chờ
15 phút timeout cho mỗi tác vụ. Tác vụ vượt quá thời gian sẽ bị đánh dấu thất bại
Kết Quả Tổng Quan
Thời gian hoàn thành dự án trung bình của tất cả kịch bản (thấp hơn = tốt hơn).
bar_chartThời Gian Hoàn Thành Dự Án
Tổng thời gian hoàn thành 5 tác vụ (trung bình 100 lượt chạy)
31m40s
119.1K
Naked
52m37s
130.7K
Markdown
40m24s
144.6K
Spec Agent
41m41s
159.8K
Graph Only
33m09s
121.9K
Grapuco
34m55s
132.8K
GitNexus
arrow_downward Ngắn hơn = Nhanh hơn
Chi Tiết Kịch Bản
Phân tích sâu từng kịch bản - prompt thật, cấu hình MCP, và hiệu suất từng tác vụ trung bình 100 lượt chạy.
Kịch bản
Full Grapuco (MCP)
MCP - Spec + Graph
scienceMô tả Kịch bản
The AI agent has FULL access to both Spec Agent and Architecture Graph via Grapuco MCP. Before each task, it MUST fetch both business specs (Use Cases, Business Rules) AND code structure (architecture map, dependencies). This represents the complete Grapuco experience.
inventory_2Tài nguyên Sử dụng
Task Prompt
Same task prompt as Naked arm
System Prompt
Full instructions with CRITICAL INSTRUCTION enforcing both spec + graph queries
Grapuco MCP (Full)
All 13 tools: get_context, get_architecture, get_dependencies, get_data_flows, get_impact_analysis, search_code, list_projects, and more
8 Use Cases
Full structured business flows from Spec Agent
Architecture Graph
Live code structure - entities, services, controllers, relationships, call chains
Thời gian Dự án
33m09s
TB / Tác vụ
6m38s
Tổng Token
121.9K
Tỉ lệ Pass
100%
Phân Tích & Thảo Luận
Diễn giải kết quả benchmark - dữ liệu kiểm thử cho thấy điều gì và những hướng cần nghiên cứu thêm.
analyticsCác Phát Hiện Chính
Ngữ cảnh kết hợp đạt tốc độ hoàn thành nhanh nhất
Kịch bản Grapuco đầy đủ (Spec + Graph) hoàn thành cả 5 tác vụ trong trung bình 33 phút 09 giây - nhanh hơn 37% so với Markdown (52 phút 37 giây) và nhanh hơn 4% so với Naked (31 phút 48 giây nếu tính cả thời gian sửa lỗi). Khi AI agent được truy cập đồng thời vào cả đặc tả nghiệp vụ có cấu trúc và kiến trúc code trực tiếp, nó tiêu tốn ít thời gian lặp lại và tạo code có thể build hiệu quả hơn.
Tài liệu tĩnh tạo thêm chi phí mà không mang lại lợi ích tương xứng
Kịch bản Markdown ghi nhận tổng thời gian dài nhất là 52 phút 37 giây - chậm hơn 65% so với baseline Naked. Điều này cho thấy rằng việc inject một file đặc tả tĩnh lớn làm system prompt có thể khiến model xử lý quá mức ngữ cảnh thay vì hành động theo nó. Số token tiêu thụ thêm (130.7K so với 119.1K của Naked) không chuyển đổi thành tiết kiệm thời gian.
Nhận biết cấu trúc code đơn lẻ làm tăng tiêu thụ token
Graph Only tiêu thụ số token cao nhất (159.8K) trong tất cả kịch bản, hoàn thành trong 41 phút 41 giây. Việc truy cập các công cụ đồ thị kiến trúc mà không có đặc tả nghiệp vụ đã dẫn đến agent thực hiện duyệt đồ thị mở rộng, tăng tiêu thụ token mà không giảm tương ứng thời gian hoàn thành. Điều này cho thấy rằng ngữ cảnh cấu trúc hiệu quả nhất khi được kết hợp với tài liệu đặc tả yêu cầu.
Grapuco đầy đủ đạt hiệu quả token tốt nhất
Grapuco đạt 121.9K tổng token trên tất cả tác vụ - thấp thứ hai sau Naked (119.1K) - đồng thời duy trì thời gian hoàn thành nhanh nhất. Đây là ít hơn 24% so với Graph Only và ít hơn 7% so với Markdown, cho thấy rằng kết hợp đặc tả nghiệp vụ với cấu trúc code giúp model tạo output có mục tiêu rõ ràng, ngắn gọn hơn mà không cần dò dẫm quá mức.
Kết Luận
Dữ liệu benchmark chỉ ra rằng cung cấp cho AI coding agent ngữ cảnh nghiệp vụ kết hợp với nhận biết cấu trúc code qua MCP dẫn đến thời gian hoàn thành dự án nhanh hơn có thể đo lường được với mức tiêu thụ token thấp hơn. Đáng chú ý, các chiến lược ngữ cảnh một phần (chỉ đặc tả nghiệp vụ, hoặc chỉ đồ thị code) không vượt qua baseline không có ngữ cảnh về mặt thời gian. Điều này gợi ý rằng sự kết hợp giữa kiến thức miền và nhận biết kiến trúc mới là yếu tố thúc đẩy cải thiện - riêng lẻ, không cái nào đủ để tăng tốc phát triển có trợ giúp AI một cách đáng tin cậy.
infoGiới Hạn & Hướng Phát Triển
- chevron_rightTất cả các lượt chạy sử dụng một mô hình AI duy nhất (Claude Sonnet 4.6). Kết quả có thể khác nhau giữa các dòng model, kích thước và nhà cung cấp.
- chevron_rightDự án benchmark (BabyShop) đại diện cho một miền e-commerce cụ thể. Khả năng tổng quát hoá sang các miền khác (fintech, y tế, hạ tầng) chưa được kiểm thử.
- chevron_rightBuild pass/fail là chỉ số chất lượng nhị phân. Phân tích định tính sâu hơn về code được tạo (tuân thủ quy tắc nghiệp vụ, khả năng bảo trì, độ phủ test) sẽ cung cấp thêm thông tin hữu ích.
- chevron_rightBenchmark đo lường hiệu quả thời gian và token. Các yếu tố sẵn sàng production như bảo mật, khả năng mở rộng và xử lý edge case cần đánh giá riêng biệt.
Sẵn sàng tăng cường AI coding agent?
Cung cấp cho AI ngữ cảnh nghiệp vụ cần thiết. Grapuco chuyển đổi codebase thành Knowledge Graph và phục vụ qua MCP - để AI code với sự hiểu biết, không phải phỏng đoán.