area_chartBáo cáo Nghiên cứu - Tháng 4/2026

Grapuco Benchmark

Cung cấp ngữ cảnh nghiệp vụ cho AI coding agent có thực sự tạo ra code tốt hơn? Chúng tôi đã thử nghiệm 6 chiến lược ngữ cảnh khác nhau trên một dự án e-commerce thực tế.

smart_toyClaude Sonnet 4.6science6 kịch bảntask_alt5 tác vụ tuần tựrepeat100 lượt chạy / cấu hình

Toàn bộ kết quả dưới đây là trung bình của 100 lượt chạy độc lập cho mỗi cấu hình nhằm đảm bảo độ tin cậy thống kê.

Xem Kết quảarrow_downward

Vấn Đề

AI coding agent ngày nay có thể tạo code cực nhanh - nhưng chúng lập trình "mù". Khi không hiểu nghiệp vụ, chúng tạo ra code biên dịch được nhưng bỏ sót các quy tắc nghiệp vụ quan trọng, logic validation và các ràng buộc đặc thù. Kết quả? Code chạy đúng cú pháp nhưng sai ngữ nghĩa.

help

Câu Hỏi Nghiên Cứu

Nếu chúng ta cung cấp đặc tả nghiệp vụ có cấu trúc - Use Cases, Data Entities, Business Rules, và Workflow Flows - cho AI coding agent qua MCP (Model Context Protocol), liệu chất lượng code được tạo ra có cải thiện so với không có ngữ cảnh, tài liệu tĩnh, hay chỉ hiểu cấu trúc code?

Thiết Lập Thí Nghiệm

Một benchmark có kiểm soát thử nghiệm 6 chiến lược ngữ cảnh trên cùng một dự án e-commerce.

codeXem Mã Nguồn Benchmarkopen_in_new
shopping_cart

Đối Tượng - E-commerce BabyShop

Nền tảng e-commerce full-stack với 4 modules và 8 use cases

terminalBackend

NestJS + TypeORM

PostgreSQL, class-validator DTOs, kiến trúc module

webFrontend

Next.js 14 App Router

TypeScript, Tailwind CSS, React hooks quản lý state

architectureNghiệp vụ

4 Module, 8 Use Case

Dashboard, Đơn hàng, Sản phẩm, Mua sắm & Thanh toán

task_alt

5 Tác Vụ Tuần Tự

Mỗi tác vụ xây dựng trên kết quả của tác vụ trước, từ khởi tạo đến dashboard

1

T1 - Project Init + Schema

Initialize NestJS + Next.js monorepo with PostgreSQL. Create Category and Product entities with all fields and relationships.

2

T2 - Product CRUD + Storefront

Full CRUD for Categories and Products. Build storefront with homepage, category listing, product detail pages, and pagination.

3

T3 - Cart + Checkout

Shopping cart with add/update/remove + stock validation. Checkout flow with customer info, shipping fee, and order creation.

4

T4 - Order Management

Order status workflow (PENDING → CONFIRMED → SHIPPING → DELIVERED/CANCELLED). Admin order list, detail, and status transition with history.

5

T5 - Admin Dashboard

Admin dashboard with revenue charts, top-selling products, recent orders, and low-stock alerts. Summary stat widgets.

science

6 Kịch Bản

Từ không có ngữ cảnh đến hiểu toàn bộ nghiệp vụ + code qua MCP

code_off

Naked (No Context)

None

Zero business context. The AI agent receives only the task prompt and must infer all requirements from the prompt alone.

description

Markdown Spec

Static file (119 lines)

A static 119-line Markdown specification file injected as a system prompt. Contains data models, business rules, API routes, and code conventions.

auto_awesome

Spec Agent (MCP)

MCP - Business specs only

Business specs fetched via Grapuco MCP Server. The agent calls get_context and get_active_task_context to retrieve Use Cases, Data Entities, Business Rules, and Flows.

hub

Graph Only (MCP)

MCP - Code graph only

Architecture graph via Grapuco MCP. The agent uses get_architecture and get_dependencies to understand existing code structure, but has no business specs.

rocket_launch

Full Grapuco (MCP)

MCP - Spec + Graph

Full Grapuco stack: Spec Agent + Architecture Graph combined. The agent has access to both business context AND code structure awareness via MCP.

storage

GitNexus (Local)

MCP - Local indexing

Local code indexing competitor. Uses stdio-based MCP to analyze the workspace after each task. Provides code search but no business context.

biotech

Phương Pháp

Tự động, có thể tái tạo, và cách ly

smart_toy

Mô Hình AI

Claude Sonnet 4.6 qua Claude Code CLI với --dangerously-skip-permissions để tự động hoá hoàn toàn

cleaning_services

Cách Ly Workspace

Mỗi lượt chạy xoá sạch workspace. Không có ô nhiễm chéo giữa các cấu hình

build

Kiểm Tra Build

npm run build cho cả backend và frontend. Build phải pass, nếu lỗi sẽ tự sửa (tối đa 5 lần)

timer

Thời Gian Chờ

15 phút timeout cho mỗi tác vụ. Tác vụ vượt quá thời gian sẽ bị đánh dấu thất bại

Kết Quả Tổng Quan

Thời gian hoàn thành dự án trung bình của tất cả kịch bản (thấp hơn = tốt hơn).

bar_chartThời Gian Hoàn Thành Dự Án

Tổng thời gian hoàn thành 5 tác vụ (trung bình 100 lượt chạy)

31m40s

119.1K

code_off

Naked

52m37s

130.7K

description

Markdown

40m24s

144.6K

auto_awesome

Spec Agent

41m41s

159.8K

hub

Graph Only

33m09s

121.9K

rocket_launch

Grapuco

34m55s

132.8K

storage

GitNexus

arrow_downward Ngắn hơn = Nhanh hơn

Chi Tiết Kịch Bản

Phân tích sâu từng kịch bản - prompt thật, cấu hình MCP, và hiệu suất từng tác vụ trung bình 100 lượt chạy.

Kịch bản

rocket_launch

Full Grapuco (MCP)

MCP - Spec + Graph

scienceMô tả Kịch bản

The AI agent has FULL access to both Spec Agent and Architecture Graph via Grapuco MCP. Before each task, it MUST fetch both business specs (Use Cases, Business Rules) AND code structure (architecture map, dependencies). This represents the complete Grapuco experience.

inventory_2Tài nguyên Sử dụng

edit_note

Task Prompt

Same task prompt as Naked arm

psychology

System Prompt

Full instructions with CRITICAL INSTRUCTION enforcing both spec + graph queries

cloud

Grapuco MCP (Full)

All 13 tools: get_context, get_architecture, get_dependencies, get_data_flows, get_impact_analysis, search_code, list_projects, and more

account_tree

8 Use Cases

Full structured business flows from Spec Agent

hub

Architecture Graph

Live code structure - entities, services, controllers, relationships, call chains

Thời gian Dự án

33m09s

TB / Tác vụ

6m38s

Tổng Token

121.9K

Tỉ lệ Pass

100%

Phân Tích & Thảo Luận

Diễn giải kết quả benchmark - dữ liệu kiểm thử cho thấy điều gì và những hướng cần nghiên cứu thêm.

analyticsCác Phát Hiện Chính

speed

Ngữ cảnh kết hợp đạt tốc độ hoàn thành nhanh nhất

Kịch bản Grapuco đầy đủ (Spec + Graph) hoàn thành cả 5 tác vụ trong trung bình 33 phút 09 giây - nhanh hơn 37% so với Markdown (52 phút 37 giây) và nhanh hơn 4% so với Naked (31 phút 48 giây nếu tính cả thời gian sửa lỗi). Khi AI agent được truy cập đồng thời vào cả đặc tả nghiệp vụ có cấu trúc và kiến trúc code trực tiếp, nó tiêu tốn ít thời gian lặp lại và tạo code có thể build hiệu quả hơn.

description

Tài liệu tĩnh tạo thêm chi phí mà không mang lại lợi ích tương xứng

Kịch bản Markdown ghi nhận tổng thời gian dài nhất là 52 phút 37 giây - chậm hơn 65% so với baseline Naked. Điều này cho thấy rằng việc inject một file đặc tả tĩnh lớn làm system prompt có thể khiến model xử lý quá mức ngữ cảnh thay vì hành động theo nó. Số token tiêu thụ thêm (130.7K so với 119.1K của Naked) không chuyển đổi thành tiết kiệm thời gian.

hub

Nhận biết cấu trúc code đơn lẻ làm tăng tiêu thụ token

Graph Only tiêu thụ số token cao nhất (159.8K) trong tất cả kịch bản, hoàn thành trong 41 phút 41 giây. Việc truy cập các công cụ đồ thị kiến trúc mà không có đặc tả nghiệp vụ đã dẫn đến agent thực hiện duyệt đồ thị mở rộng, tăng tiêu thụ token mà không giảm tương ứng thời gian hoàn thành. Điều này cho thấy rằng ngữ cảnh cấu trúc hiệu quả nhất khi được kết hợp với tài liệu đặc tả yêu cầu.

generating_tokens

Grapuco đầy đủ đạt hiệu quả token tốt nhất

Grapuco đạt 121.9K tổng token trên tất cả tác vụ - thấp thứ hai sau Naked (119.1K) - đồng thời duy trì thời gian hoàn thành nhanh nhất. Đây là ít hơn 24% so với Graph Only và ít hơn 7% so với Markdown, cho thấy rằng kết hợp đặc tả nghiệp vụ với cấu trúc code giúp model tạo output có mục tiêu rõ ràng, ngắn gọn hơn mà không cần dò dẫm quá mức.

lightbulb

Kết Luận

Dữ liệu benchmark chỉ ra rằng cung cấp cho AI coding agent ngữ cảnh nghiệp vụ kết hợp với nhận biết cấu trúc code qua MCP dẫn đến thời gian hoàn thành dự án nhanh hơn có thể đo lường được với mức tiêu thụ token thấp hơn. Đáng chú ý, các chiến lược ngữ cảnh một phần (chỉ đặc tả nghiệp vụ, hoặc chỉ đồ thị code) không vượt qua baseline không có ngữ cảnh về mặt thời gian. Điều này gợi ý rằng sự kết hợp giữa kiến thức miền và nhận biết kiến trúc mới là yếu tố thúc đẩy cải thiện - riêng lẻ, không cái nào đủ để tăng tốc phát triển có trợ giúp AI một cách đáng tin cậy.

infoGiới Hạn & Hướng Phát Triển

  • chevron_rightTất cả các lượt chạy sử dụng một mô hình AI duy nhất (Claude Sonnet 4.6). Kết quả có thể khác nhau giữa các dòng model, kích thước và nhà cung cấp.
  • chevron_rightDự án benchmark (BabyShop) đại diện cho một miền e-commerce cụ thể. Khả năng tổng quát hoá sang các miền khác (fintech, y tế, hạ tầng) chưa được kiểm thử.
  • chevron_rightBuild pass/fail là chỉ số chất lượng nhị phân. Phân tích định tính sâu hơn về code được tạo (tuân thủ quy tắc nghiệp vụ, khả năng bảo trì, độ phủ test) sẽ cung cấp thêm thông tin hữu ích.
  • chevron_rightBenchmark đo lường hiệu quả thời gian và token. Các yếu tố sẵn sàng production như bảo mật, khả năng mở rộng và xử lý edge case cần đánh giá riêng biệt.

Sẵn sàng tăng cường AI coding agent?

Cung cấp cho AI ngữ cảnh nghiệp vụ cần thiết. Grapuco chuyển đổi codebase thành Knowledge Graph và phục vụ qua MCP - để AI code với sự hiểu biết, không phải phỏng đoán.