Thực hành định tuyến Multi-LLM: Cách tiết kiệm 60% chi phí AI API (giảm tải Sonnet 4.6 + Haiku 4.5)

Thực hành công cụ AI Claude Định tuyến LLM Giá AI Doanh nghiệp vừa và nhỏ AI

Định tuyến Multi-LLM phân bổ nhiệm vụ cho các mô hình khác nhau tùy theo độ phức tạp và sử dụng chênh lệch chi phí giữa Haiku 4.5, Sonnet 4.6 và Opus 4.7 để giải quyết vấn đề phí hàng tháng ngoài tầm kiểm soát cho AI API. 5 triệu token mỗi tháng có thể tiết kiệm khoảng 60% khi thử nghiệm thực tế.

# Tại sao hóa đơn AI cuối tháng lại càng xấu hơn?

AI API Chi phí bùng nổ, thường không phải vì các mô hình trở nên đắt hơn mà vì bạn đặt mọi thứ vào cùng một mô hình lớn.

Chúng tôi đã thấy lộ trình triển khai AI của nhiều doanh nghiệp vừa và nhỏ: tháng đầu tiên chỉ viết bản sao, tổng hợp biên bản họp và sắp xếp tin nhắn dịch vụ khách hàng, phí hàng tháng khoảng 3.000 Đài tệ. Vào tháng thứ hai, tôi bắt đầu truy cập CRM, hộp thư dịch vụ khách hàng, lập lịch cộng đồng và cơ sở kiến thức nội bộ và chi phí mã thông báo đã lên tới 10.000 Đài tệ. Trong tháng thứ ba, với việc bổ sung đại lý tự động, viết lại hàng loạt và dọn dẹp danh sách, phí hàng tháng sẽ trực tiếp lên tới 30.000 Đài tệ trở lên.

Vấn đề không phải là AI không đáng tiền mà là các nhiệm vụ không được chấm điểm.

Tôi có nên sử dụng Claude Sonnet 4.6 cho thư dịch vụ khách hàng không? Có lẽ. Tôi có nên dùng Sonnet để chia danh sách 3.000 thành “B2B/B2C/Unsure” không? Không được sử dụng trong hầu hết các trường hợp. Thay đổi tiêu đề sản phẩm sang định dạng cố định, trích xuất tên công ty và điền vào các trường JSON không phải là những câu hỏi lý luận cấp cao.

Hầu hết mọi người sẽ rơi vào cái bẫy này khi tự động hóa AI: trước tiên hãy chọn API, xem hiệu quả có tốt không, sau đó chuyển tất cả các quy trình sang mô hình mạnh nhất. Mọi việc diễn ra suôn sẻ trong thời gian ngắn, nhưng vào cuối tháng, tôi phát hiện ra rằng mọi nhiệm vụ nhỏ đều được định giá ở mức giá lao động cao.

Chi phí mã thông báo có thể được coi là “hóa đơn tiền điện sử dụng” của AI. Mã thông báo là đơn vị văn bản mà mô hình đọc và xuất ra, mã thông báo đầu vào là nội dung bạn đưa vào và mã thông báo đầu ra là nội dung mà mô hình trả về cho bạn. Nhiệm vụ càng dài, số lần chạy càng nhiều và sử dụng càng nhiều mẫu xe đắt tiền thì hóa đơn sẽ càng cao.

Nếu công ty đã thực hiện kết hợp công cụ Claude / Codex / Gemini, bước tiếp theo không chỉ là thêm công cụ mà còn chia nhỏ quyền sử dụng mô hình: nhiệm vụ nào chỉ yêu cầu mô hình giá rẻ và nhiệm vụ nào yêu cầu mô hình cao cấp.

Giá trị cốt lõi của định tuyến multi-LLM nằm ở đây: không phải là sử dụng ít AI hơn mà là sử dụng AI ở đúng vị trí.

# Tuyến đường đa LLM là gì? Kết thúc trong một câu

Định tuyến nhiều LLM có nghĩa là “đầu tiên xác định độ khó của nhiệm vụ, sau đó gửi nhiệm vụ đến mô hình tương ứng.”

Các tác vụ đơn giản sẽ cung cấp cho bạn Haiku 4.5, các tác vụ trung bình sẽ cung cấp cho bạn Sonnet 4.6 và các tác vụ phức tạp sẽ cung cấp cho bạn Opus 4.7. Bạn có thể hình dung nó giống như việc phân bổ công việc trong một công ty: việc thu thập dữ liệu được giao cho trợ lý, phân tích tiêu chuẩn được giao cho các chuyên gia cấp cao và các chuyên gia tư vấn được mời tham gia để đưa ra các quyết định quan trọng.

Đây không phải là để theo đuổi vẻ đẹp kỹ thuật mà là để đạt được lợi nhuận hợp lý trên mỗi chi phí mã thông báo.

Theo tài liệu về mẫu và giá chính thức của Anthropic, các mẫu dòng Claude có mức giá, tốc độ và khả năng khác nhau. Vui lòng tham khảo Giá nhân loại và Tài liệu về mô hình Claude. rel="noopener" của các liên kết bên ngoài được xử lý thống nhất bởi mẫu giao diện người dùng.

Công thức chi phí rất đơn giản:

% tiết kiệm = 1 - (Σ chi phí mỗi mẫu) / (Chi phí Sonnet đầy đủ)

Nếu tất cả 5 triệu token ban đầu mỗi tháng được chuyển đến Sonnet, chi phí sẽ vào khoảng 15.000 Đài tệ. Sau khi đổi thành 70% Haiku, 25% Sonnet, 5% Opus, chi phí sẽ vào khoảng 5.400 Đài tệ đến 6.000 Đài tệ. Tiết kiệm khoảng 9.000 Đài tệ đến 9.600 Đài tệ, tương đương khoảng 60%.

60% đó không phải là phép thuật, nó chủ yếu đến từ một điều: hơn 70% nhiệm vụ không thực sự yêu cầu Sonnet.

Chúng tôi thực sự đã đo lường các tác vụ như phân loại danh sách, viết lại định dạng bản sao, trích xuất trường, tóm tắt FAQ, bản nháp thư dịch vụ khách hàng, v.v. Kết quả rất rõ ràng: miễn là tác vụ có định dạng cố định, ít rủi ro và câu trả lời có thể kiểm chứng được thì hiệu suất của Haiku 4.5 thường là đủ. Điều thực sự cần đến Sonnet 4.6 là những nhiệm vụ đòi hỏi giọng điệu đánh giá, tích hợp nhiều thông tin và tạo ra nội dung có thể được sử dụng trực tiếp bên ngoài.

# Độ phức tạp của nhiệm vụ được chia thành ba cấp độ: Haiku / Sonnet / Opus. Làm thế nào để lựa chọn?

Người mẫu sợ nhất là dựa vào cảm giác. Cách tiếp cận đúng là trước tiên hãy chia nhiệm vụ thành ba lớp, sau đó ghi từng lớp vào quy trình làm việc.

Mấu chốt ở đây không phải là “mẫu nào thông minh nhất” mà là “mẫu nào vừa đủ”. Đối với doanh nghiệp vừa và nhỏ, vừa đủ quan trọng hơn là mạnh nhất, bởi khi có hàng chục nghìn cuộc gọi tự động mỗi tháng, mức chênh lệch giá mỗi lần sẽ bị phóng đại.

Phân loại	Ví dụ	Người mẫu	Ước tính mã thông báo hàng tháng	Ước tính chi phí hàng tháng
Cấp 1 (tầm thường)	Phân loại, trường vẽ, dạng viết lại, dịch đơn giản, phán đoán nhãn	Haiku 4.5	3,5 triệu token	Khoảng 900-1.200 Đài tệ
Cấp 2 (tiêu chuẩn)	Tóm tắt, trả lời, vá mã, viết quảng cáo cộng đồng, dự thảo thư bán hàng	Sonnet 4.6	1,25 triệu token	Khoảng 3.600-4.000 Đài tệ
Cấp 3 (bối cảnh chiến lược/dài hạn)	Quyết định về kiến trúc, tái cấu trúc nhiều tệp, đánh giá phức tạp, đánh giá chiến lược	Tác phẩm 4.7	0,25 triệu token	Khoảng 900-1.200 Đài tệ

Các token và phí trong bảng trên được ước tính bằng cách sử dụng 5 triệu token mỗi tháng. Hóa đơn thực tế sẽ bị ảnh hưởng bởi tỷ lệ đầu vào/đầu ra, tỷ giá hối đoái, tỷ lệ truy cập bộ đệm và các thay đổi về giá của mô hình chính thức, vì vậy bạn cần tính toán lại bằng nhật ký của riêng mình trước khi nhập chính thức.

# Cấp 1 (Nhiệm vụ tầm thường) → Haiku 4.5

Tiêu chí đánh giá của Cấp 1 rất đơn giản: dạng câu trả lời cố định, dễ mắc lỗi và nhiệm vụ không yêu cầu lý luận sâu.

Ví dụ:

Chia khách hàng tiềm năng thành “ý định cao/ý định trung bình/ý định thấp”
Trích xuất tên, công ty, chức danh công việc và yêu cầu từ các bức thư
Thay đổi bài viết 200 từ thành phiên bản ngắn hơn 120 từ
Dịch tóm tắt sản phẩm tiếng Anh sang tiếng Trung phồn thể
Xác định xem vấn đề dịch vụ khách hàng thuộc về kế toán, công nghệ, hậu cần hay hoàn tiền

Những tác vụ này hoàn hảo cho Haiku 4.5 vì bạn muốn tốc độ và chi phí chứ không phải tư duy sâu sắc. Miễn là lời nhắc ghi rõ ràng các quy tắc phân loại, xuất ra lược đồ JSON và trả về không xác định khi lỗi, thì chất lượng thường có thể được theo dõi.

Chúng tôi thực sự đã thử nghiệm một loạt 1.000 manh mối mẫu và ban đầu tất cả chúng đều được đưa vào Sonnet để phân loại. Chi phí không cao nhưng lại rất lãng phí. Sau khi chuyển sang Haiku, độ chính xác phân loại vẫn nằm trong phạm vi chấp nhận được và chi phí giảm xuống một phần nhỏ so với giá trị ban đầu. Những gì thực sự cần phải được xem xét một cách thủ công là các mẫu có điểm số ‘không xác định’ và độ tin cậy thấp.

# Bậc 2 (Lý luận chuẩn) → Sonnet 4.6

Cấp 2 là cấp phù hợp cho hầu hết các quy trình làm việc của AI. Nhiệm vụ này đòi hỏi phải hiểu bối cảnh, lựa chọn thông tin và kiểm soát giọng điệu, nhưng nó không thiếu việc ra quyết định chiến lược.

Ví dụ:

Sắp xếp bản ghi nguyên văn cuộc họp 30 phút thành các mục hành động
Trả lời thư khiếu nại của khách hàng và duy trì tông màu thương hiệu
Sản xuất bài viết LinkedIn dựa trên dàn ý bài viết
Giúp kỹ sư tạo ra các bản vá mã nhỏ
Chuyển đổi bản ghi cuộc gọi bán hàng sang ghi chú CRM

Nên sử dụng Sonnet 4.6 cho lớp này vì nó có sự cân bằng tốt hơn giữa chất lượng, tốc độ và chi phí. Đặc biệt đối với nội dung bên ngoài, trả lời dịch vụ khách hàng và thư kinh doanh, chỉ cần giọng điệu không chính xác sẽ gây ra chi phí cho thương hiệu. Bạn không thể chỉ nhìn vào giá token.

Nếu bạn đang lập kế hoạch đường dẫn triển khai AI chi phí thấp, Cấp 2 thường sẽ là đợt quy trình đầu tiên được triển khai chính thức. Nó có thể mang lại sự tiết kiệm lao động đáng kể và tính toán ROI dễ dàng hơn.

# Cấp 3 (đánh giá cuối cùng về chiến lược/mã) → Opus 4.7

Cấp 3 là một nhiệm vụ nhỏ nhưng có độ rủi ro cao. Chi phí cho một lần thực hiện các tác vụ này không thành công có thể cao hơn nhiều so với chi phí API tiết kiệm được.

Ví dụ:

Xác định xem kiến trúc tự động hóa AI có cần tháo dỡ các dịch vụ không
Phân tích rủi ro trước khi xây dựng lại tập tin chéo
đánh giá mã đánh giá cuối cùng và kiểm tra an toàn
Chiến lược nội dung, định vị, thiết kế kênh chuyển đổi
Suy luận nhiều tệp trong cửa sổ ngữ cảnh dài (độ dài ngữ cảnh)

Lớp này có thể được dành riêng cho Opus 4.7 hoặc bất kỳ thứ gì mà nội bộ công ty của bạn coi là mô hình có thứ tự cao nhất. Bạn không cần sử dụng quá nhiều, điều quan trọng là đặt nó ở nơi có giá trị nhất.

Cơ cấu chi phí lành mạnh không phải là “hoàn toàn không sử dụng mô hình lớn” mà là “mô hình lớn chỉ làm những gì mô hình lớn nên làm”.

# 3 loại kiến trúc định tuyến: quy tắc, LLM-as-Router, hybrid

Định tuyến nhiều LLM có thể đơn giản hoặc phức tạp. Doanh nghiệp vừa và nhỏ không cần xây dựng nền tảng quản trị mô hình hoàn chỉnh ngay từ đầu. Họ cần bắt đầu với một kiến trúc có thể quan sát được, có thể cuộn được và có thể giải thích được.

# A: Định tuyến quy tắc (được khuyến nghị cho các doanh nghiệp vừa và nhỏ nên bắt đầu)

Định tuyến quy tắc sử dụng if-else, loại tác vụ, độ dài mã thông báo và mức độ rủi ro để xác định mô hình.

Quy tắc ví dụ:

nếu task_type trong ["Phân loại", "Trích xuất trường", "Viết lại định dạng"]:
  mô hình = "Haiku 4.5"
elif token_count > 8000 hoặc Risk_level == "cao":
  mô hình = "Sonnet 4.6"
elif task_type trong ["quyết định kiến trúc", "đánh giá phức tạp"]:
  mô hình = "Opus 4.7"
khác:
  mô hình = "Sonnet 4.6"

Phương pháp này là ổn định nhất, rẻ nhất và dễ gỡ lỗi nhất. Bạn có thể xem trực tiếp nhật ký: tại sao một nhiệm vụ nhất định được giao cho Haiku vì task_type=category; tại sao một tác vụ nhất định lại được nâng cấp lên Sonnet vì đầu vào vượt quá 8.000 mã thông báo.

Chúng tôi khuyên bạn nên sử dụng định tuyến quy tắc trước tiên trong 80% trường hợp. Đặc biệt đối với việc sản xuất nội dung, chuyển hướng dịch vụ khách hàng, làm sạch dữ liệu CRM và tái sử dụng bản sao chép của cộng đồng, các loại nhiệm vụ tương đối cố định và không cần phải để LLM khác đánh giá mỗi lần.

# B: LLM-as-Router (phù hợp với đầu vào động)

LLM-as-Router trước tiên sử dụng mô hình giá rẻ làm công cụ phân loại để xác định mô hình nào sẽ được sử dụng cho tác vụ.

Ví dụ: dùng Haiku 4.5 để đọc đầu vào của người dùng trước, đầu ra:

{
  "cấp": "cấp_2",
  "mô hình": "Sonnet 4.6",
"lý do": "Cần tích hợp nhiều phần nội dung khiếu nại của khách hàng và tạo phản hồi bên ngoài",
  "sự tự tin": 0,86
}

Kiến trúc này phù hợp với các tình huống trong đó đầu vào rất bất thường, chẳng hạn như hộp thư dịch vụ khách hàng, biểu mẫu mở, hướng dẫn Slack nội bộ và công văn tác vụ của tổng đài viên. Nó linh hoạt hơn nhưng cũng yêu cầu thêm một lệnh gọi mô hình, vì vậy bạn không thể thực hiện tất cả các nhiệm vụ mà không suy nghĩ.

Hầu hết mọi người sẽ gặp phải một cạm bẫy khi cố gắng sử dụng LLM-as-Router: lời nhắc của bộ định tuyến quá trừu tượng. Đừng hỏi “Nhiệm vụ này có khó không?” nhưng đưa ra các tiêu chí đánh giá rõ ràng, chẳng hạn như “liệu có cần lý luận nhiều bước hay không”, “liệu nó có được gửi ra bên ngoài hay không”, “liệu nó có liên quan đến số lượng, luật pháp và bảo mật hay không” và “liệu nó có vượt quá 6.000 mã thông báo hay không”.

# C: Kiến trúc lai (được khuyến nghị cho môi trường sản xuất)

Kiến trúc kết hợp được đề xuất nhiều nhất cho môi trường sản xuất: dự phòng LLM dựa trên quy tắc.

Phương pháp là sử dụng các quy tắc rõ ràng để xử lý 70% đến 80% công việc; Chỉ khi không thể đánh giá các quy tắc, độ tin cậy không đủ hoặc đầu vào không bình thường, Haiku 4.5 mới được gọi là bộ định tuyến. Nếu bộ định tuyến vẫn không chắc chắn, hãy nâng cấp lên Sonnet 4.6.

Một quy trình thực tế như sau:

Sân khấu	Phương pháp phán đoán	Kết quả
Lớp 1	task_type, token_count, Risk_level	Được giao trực tiếp cho Haiku / Sonnet / Opus
Lớp 2	Khi không thể xác định được quy tắc, hãy sử dụng Haiku làm bộ định tuyến	Trả lại bậc, sự tự tin, lý trí
Cấp 3	độ tin cậy < 0,75 hoặc rủi ro cao	Nâng cấp Sonnet
Cấp 4	Cờ Sonnet đưa ra những quyết định không chắc chắn hoặc có tác động cao	Nâng cấp Opus hoặc xem xét thủ công

Ưu điểm của kiến trúc lai là chi phí có thể kiểm soát được và không bị ràng buộc bởi các quy tắc cứng nhắc. Việc ghi vào quy trình làm việc của ai-team cũng dễ dàng hơn: trước tiên mỗi nhiệm vụ đều có một mô hình cài sẵn, sau đó nâng cấp các điều kiện.

# Số tiền tiết kiệm thực tế là bao nhiêu? Tính toán toàn bộ bảng 5 triệu token hàng tháng

Chúng tôi sử dụng 5 triệu token mỗi tháng để tạo ra một kịch bản chung cho các doanh nghiệp vừa và nhỏ. Công ty này có các bản tóm tắt dịch vụ khách hàng, danh mục danh sách, viết quảng cáo cộng đồng, Hỏi đáp SOP nội bộ, các bản vá mã đơn giản và thực hiện hàng trăm đến hàng nghìn cuộc gọi API mỗi ngày. Trước đó là hoàn thành tất cả các nhiệm vụ trong Sonnet 4.6:

Dự án	Người mẫu	Tỷ lệ mã thông báo	Mã thông báo hàng tháng	Ước tính chi phí hàng tháng
Tất cả nhiệm vụ	Sonnet 4.6	100%	5 triệu	Khoảng 15.000 Đài tệ
Tổng cộng	-	100%	5 triệu	Khoảng 15.000 Đài tệ

Sau đây là lộ trình quy tắc chia 70/25/5:

Cấp độ nhiệm vụ	Người mẫu	Tỷ lệ mã thông báo	Mã thông báo hàng tháng	Ước tính chi phí hàng tháng
Nhiệm vụ tầm thường cấp 1	Haiku 4.5	70%	3,5 triệu	Khoảng 900-1.200 Đài tệ
Nhiệm vụ tiêu chuẩn cấp 2	Sonnet 4.6	25%	1,25 triệu	Khoảng 3.600-4.000 Đài tệ
Nhiệm vụ chiến lược cấp 3	Tác phẩm 4.7	5%	0,25M	Khoảng 900-1.200 Đài tệ
Tổng cộng	-	100%	5 triệu	Khoảng 5.400-6.000 Đài tệ

So sánh trước/sau:

Số liệu	Trước: Sonnet đầy đủ	Sau: Nhiều tuyến LLM
Mã thông báo hàng tháng	5 triệu	5 triệu
Cấu hình mô hình	Sonnet 100%	Haiku 70% / Sonnet 25% / Opus 5%
Chi phí hàng tháng	Khoảng 15.000 Đài tệ	Khoảng 5.400-6.000 Đài tệ
Tiết kiệm hàng tháng	-	Khoảng 9.000-9.600 Đài tệ
Giảm chi phí	-	Khoảng 60%

Hãy nhìn vào nó bằng ngôn ngữ kinh doanh:

Dự án	Số
Tiết kiệm hàng tháng	9.000-9.600 Đài tệ
Tiết kiệm hàng năm	108.000-115.200 Đài tệ
Có thể đổi lấy	giờ hỗ trợ nội dung, ngân sách thử nghiệm quảng cáo, dự án dọn dẹp CRM
Giới thiệu thu hồi chi phí	Nếu chi phí xây dựng là 30.000 Đài tệ thì sẽ mất khoảng 3-4 tháng để phục hồi

Đây là lý do tại sao nên xem giá của AI cùng với ROI. Chỉ nhìn vào chi phí của API, bạn sẽ nghĩ rằng mình chỉ tiết kiệm được vài nghìn đô la, nhưng nếu bạn đang tháo dỡ AI team ROI, khoản tiết kiệm chi phí cố định hàng tháng của API sẽ trực tiếp cải thiện lợi nhuận gộp.

Có một điểm quan trọng khác: bộ đệm nhắc nhở không được đưa vào đây. Nếu quy trình làm việc của bạn thường xuyên mất đi các lời nhắc hệ thống, quy tắc thương hiệu và bản tóm tắt cơ sở kiến thức giống nhau thì bộ nhớ đệm lời nhắc có thể giảm thêm chi phí.

3 lỗi thường gặp khi thực hiện định tuyến

Định tuyến nhiều LLM không phải là nhồi nhét Haiku ở khắp mọi nơi. Khó khăn thực sự không phải ở việc đánh lạc hướng mà ở việc biết khi nào không nên tiết kiệm.

Sai lầm số 1: Định tuyến quá nhiều Haiku.

Haiku 4.5 rất phù hợp cho việc phân loại, vẽ cột và định dạng, nhưng việc lập luận phức tạp có thể gây ra vấn đề. Tiết kiệm một khoản tiền nhỏ có thể dẫn đến những điều lớn lao, thường xảy ra trong các tình huống sau: phản hồi dịch vụ khách hàng bên ngoài, tóm tắt các điều khoản hợp đồng, quyết định kỹ thuật, phân tích tệp chéo và các nhiệm vụ yêu cầu khoảng thời gian ngữ cảnh dài.

Giải pháp là viết các chỉ số chất lượng vào các quy tắc. Miễn là nhiệm vụ có độ rủi ro cao, không thể đảo ngược, gửi bên ngoài, đánh giá số lượng, nội dung pháp lý hoặc bảo mật, đừng truy cập trực tiếp vào Haiku. Ngay cả khi bạn đến Haiku trước, bạn vẫn phải gửi Sonnet để xem xét.

Sai lầm thứ hai: không thực hiện dự phòng.

Nhiều đội chỉ viết “Haiku cho nhiệm vụ phân loại” mà không viết “Phải làm gì nếu Haiku thất bại”. Kết quả là khi định dạng JSON sai, điểm tin cậy thấp, đầu vào quá dài và câu trả lời trống, quá trình bị treo trực tiếp.

Quy tắc dự phòng cơ bản sẽ trông như thế này:

Haiku trả về lỗi định dạng → thử lại 1 lần
Vẫn thất bại sau khi thử lại → Nâng cấp Sonnet
Sonnet Vẫn chưa chắc chắn → Gắn cờ đánh giá của con người
Nhiệm vụ có độ rủi ro cao → không gửi tự động, chỉ tạo bản nháp

Sai lầm số 3: Bỏ qua bộ đệm nhắc nhở.

Một số nhóm dành nhiều thời gian để phân phối mô hình nhưng lại gửi lại 5.000 mã thông báo về quy tắc thương hiệu, kiến thức về sản phẩm và SOP dịch vụ khách hàng mỗi lần. Tại thời điểm này, mức tiết kiệm của bộ đệm ẩn nhắc nhở có thể lớn hơn việc giảm tải mô hình.

Đặc biệt trong các tình huống có số lượng lớn cuộc gọi lặp lại trong vòng 5 phút TTL (thời gian tồn tại, thời gian hiệu lực của bộ nhớ đệm), chẳng hạn như viết lại 200 mô tả sản phẩm theo đợt, trả lời 500 câu hỏi từ cùng một cơ sở kiến thức và tạo ra 100 nội dung viết quảng cáo trên mạng xã hội từ cùng một bộ quy tắc thương hiệu, tỷ lệ trúng bộ nhớ đệm sẽ ảnh hưởng trực tiếp đến hóa đơn.

Nên thiết kế bộ nhớ đệm, định tuyến và dự phòng cùng nhau thay vì chia chúng thành ba nhóm.

Làm thế nào để kiểm soát chất lượng? Công thức đánh giá lấy mẫu hàng tháng

Tiết kiệm chi phí chỉ là bước đầu tiên. Nếu chất lượng không được kiểm soát, số tiền tiết kiệm được cuối cùng sẽ được dùng để bù đắp cho những sai sót.

Chúng tôi khuyên bạn nên lấy mẫu 50 kết quả định tuyến Haiku mỗi tháng để xem xét thủ công. Việc lấy mẫu phải bao gồm các loại nhiệm vụ khác nhau, chẳng hạn như 20 phân loại, 10 trích xuất trường, 10 lần viết lại định dạng và 10 bản dịch đơn giản.

Công thức chất lượng:

Tỷ lệ trả lời sai = số mẫu sai/số mẫu lấy mẫu

Quy tắc xét xử:

Tỷ lệ trả lời sai	Phương pháp xử lý
< 5%	Tiếp tục định tuyến đến Haiku
5%-10%	Điều chỉnh lời nhắc, thêm ví dụ và quan sát vào tháng tới
> 10%	Nâng cấp lên Sonnet và xác định lại ranh giới nhiệm vụ
Tại sao 5%? Bởi vì tự động hóa AI của hầu hết các doanh nghiệp vừa và nhỏ không phải là một dự án nghiên cứu mà là một quy trình vận hành. Tỷ lệ trả lời sai 5% có nghĩa là cứ 100 lần sẽ phải sửa 5 lần. Điều này có thể chấp nhận được trong các nhiệm vụ có rủi ro thấp, nhưng không nhất thiết phải trong các thông tin bên ngoài, báo giá, hợp đồng, các tình huống y tế, pháp lý và bảo mật thông tin.

Kiểm soát chất lượng không chỉ nhìn vào “đúng hay sai” mà còn nhìn vào ba chỉ số:

Các chỉ số	Định nghĩa	Tín hiệu Rủi ro
Tỷ lệ định dạng thành công	Liệu nó có phù hợp với lược đồ JSON / Markdown / field hay không	Thấp hơn 98% cần chỉnh lại dấu nhắc
Tỷ lệ nâng cấp	Tỷ lệ Haiku được chuyển sang Sonnet	Tăng đột ngột có nghĩa là nhiệm vụ đầu vào đã thay đổi
Thời gian chỉnh sửa thủ công	Mỗi lần chỉnh sửa nhân viên phải mất bao lâu	Nếu thời gian tiết kiệm được vượt quá thời gian tiết kiệm được thì tuyến đường đó không hiệu quả về mặt chi phí

Việc đưa các chỉ số này vào đánh giá hoạt động hàng tháng sẽ hữu ích hơn việc chỉ nhìn vào hóa đơn API. Bạn sẽ biết nhiệm vụ nào thực sự phù hợp với các mẫu máy giá rẻ và nhiệm vụ nào trông có vẻ rẻ tiền.

Nếu bạn đang tính toán AI nhập ROI, bạn nên đặt “Tiết kiệm chi phí API”, “thời gian sửa thủ công” và “làm lại do trả lời sai” vào cùng một bảng. Chỉ bằng cách này mới có thể nhìn thấy được lợi ích ròng.

# Câu hỏi thường gặp (FAQ) - ít nhất 4 câu hỏi (kích hoạt lược đồ trang Câu hỏi thường gặp)

# Q1 Haiku 4.5 có thực sự thay thế được Sonnet không?

không thể thay thế hoàn toàn. Haiku 4.5 phù hợp với các nhiệm vụ có rủi ro thấp với định dạng cố định và câu trả lời có thể kiểm chứng được, chẳng hạn như phân loại, trích xuất trường, viết lại bài viết ngắn và dịch thuật đơn giản.

Sonnet 4.6 vẫn phù hợp với các tác vụ như suy luận tiêu chuẩn, nội dung bên ngoài, phản hồi dịch vụ khách hàng và vá lỗi mã. Cách tiếp cận đúng đắn không phải là thay thế Sonnet bằng Haiku mà là để Haiku đảm nhận 60% đến 70% nhiệm vụ tầm thường.

# Q2 Làm cách nào để xác định mô hình nào sẽ được sử dụng để định tuyến quy tắc?

Trước tiên, hãy xem xét bốn trường: loại nhiệm vụ, độ dài mã thông báo, mức độ rủi ro và liệu có gửi nó ra bên ngoài hay không.

Để phân loại, vẽ khe và viết lại định dạng, Haiku thường được sử dụng. Tóm tắt, trả lời, viết quảng cáo và vá mã đều do Sonnet xử lý. Đối với ngữ cảnh dài, lập luận nhiều tệp, quyết định kiến trúc và đánh giá phức tạp, hãy sử dụng Opus hoặc đánh giá thủ công. Cách đơn giản nhất để bắt đầu là thiết lập bảng so sánh task_type → default_model, cùng với các điều kiện nâng cấp, chẳng hạn như mã thông báo vượt quá 8.000, rủi ro cao và độ tin cậy thấp hơn 0,75.

# Q3 Điều gì xảy ra nếu định tuyến sai? Làm cách nào để thiết lập dự phòng?

Định tuyến sai có thể gây ra ba hậu quả: suy giảm chất lượng, lỗi quy trình và lỗi đầu ra bên ngoài. Các nhiệm vụ có rủi ro thấp có thể được giải quyết bằng cách thử lại, trong khi các nhiệm vụ có rủi ro cao phải được nâng cấp hoặc xem xét thủ công.

Chuỗi dự phòng được đề xuất là Haiku → Sonnet → Opus/đánh giá của con người. Khi Haiku trả về định dạng sai, thiếu tin cậy, đầu vào quá dài hoặc nội dung liên quan đến số lượng hoặc luật, hãy trực tiếp nâng cấp lên Sonnet. Nếu Sonnet vẫn đánh dấu sự không chắc chắn, đừng gửi tự động.

# Q4 Tôi có cần viết bộ định tuyến của riêng mình cho LLM không? Có dụng cụ làm sẵn nào không?

Bạn không cần phải bắt đầu lại từ đầu. Các nhóm nhỏ trước tiên có thể viết định tuyến quy tắc trong n8n, Make, Zapier, LangChain, LlamaIndex hoặc phần phụ trợ của riêng họ. Trọng tâm không phải là tên công cụ mà là tính đầy đủ của nhật ký, dự phòng và lấy mẫu chất lượng.

Nếu quy trình của bạn đã có các loại tác vụ cố định, cách nhanh nhất là bạn nên tự viết if-else. Nếu đầu vào rất động, hãy thêm LLM-as-Router.

# Q5 Khi nào bạn không nên sử dụng định tuyến LLM lâu dài?

Nếu chi phí API hàng tháng của bạn dưới 1.000 Đài tệ, đừng thực hiện việc định tuyến phức tạp. Lúc này, bạn nên ưu tiên sắp xếp các lời nhắc, giảm bớt những thông tin đầu vào không cần thiết và sử dụng bộ nhớ đệm.

Khi phí hàng tháng vượt quá 5.000 Đài tệ một cách ổn định hoặc cùng một loại nhiệm vụ được thực hiện hàng trăm lần một ngày, nhiều tuyến đường LLM sẽ được tái chế đáng kể.

# Đọc thêm

Viết nhiều quy tắc định tuyến LLM vào quy trình làm việc của nhóm ai của bạn và thay đổi nó từ “Full Sonnet” thành “Haiku / Sonnet / Opus xếp lớp”. Nếu bạn muốn nhập nó vào các quy trình cơ sở kiến thức nội bộ, CRM hoặc dịch vụ khách hàng, vui lòng xem Dịch vụ AICycle hoặc liên hệ với nhóm. Chúng tôi sẽ sử dụng nhật ký mã thông báo thực tế của bạn để tính toán phiên bản Trước / Sau.