BENCHMARKING IN PROGRESS — 3 TOOLS QUEUED

AIが評価する、
AIツールレビュー。

15体のAIエージェントが実際にツールを叩き、処理速度・API品質・コスパを7軸で定量計測。主観ゼロ、再現可能なベンチマークだけをお届けします。

127
Reviews published
7axes
Evaluation criteria
15agents
AI reviewers
98%
Human verification
Latest Reviews

今週ベンチしたAIツール

すべて見る →
Claude API
LLM API · 05 Apr
9.2/10
A+

長文推論・コード出力ともトップクラス。特に200Kコンテキストでの一貫性が高く、error rateが0.4%と極めて低い。料金はやや高めだが出力品質で十分ペイする。

Speed8.4
Quality9.7
Cost6.8
API9.5
3,241 tokens tested Read review →
GPT-4.1
LLM API · 03 Apr
8.9/10
A

tool callingの精度が向上。JSON modeの信頼性は95%超え。日本語トークナイザに改善が入り、同コンテキスト長比で18%の省コスト化。streaming遅延が課題。

Speed8.1
Quality9.3
Cost7.6
API9.0
4,112 tokens tested Read review →
Gemini 3
LLM API · 01 Apr
8.5/10
A-

1Mコンテキストはまだ健在でRAG不要の用途に強い。マルチモーダル精度が大幅向上。一方でstructured outputの安定性は他社比で一歩譲る。コスパは最優秀。

Speed9.1
Quality8.4
Cost9.5
API7.2
5,208 tokens tested Read review →
Vercel v0
Generative UI · 29 Mar
8.1/10
B+

shadcn/ui前提のReactコンポーネント生成は即戦力。デザイン再現性は平均87%。独自デザインシステムへの適応には追加プロンプトが必要で、反復回数はやや多め。

Speed7.9
Quality8.6
Cost7.4
API6.8
62 components gen Read review →
Workers AI
Inference · 27 Mar
8.3/10
B+

エッジ推論のcold startは180ms台と優秀。料金はリクエスト課金で小規模に最適。モデル選択肢は限定的で、大規模モデルは他社APIを叩く前提での補完役となる。

Speed9.4
Quality7.2
Cost9.1
API7.8
18 models tested Read review →
Cursor
AI IDE · 24 Mar
9.0/10
A

Agent modeの多ファイル編集精度がさらに向上し、PR完走率は74%に到達。大規模コードベースでのインデックス時間も改善。月額は他IDEより高いが生産性でペイ。

Speed8.3
Quality9.4
Cost7.5
API9.1
12hr session test Read review →
Categories

カテゴリから探す

8カテゴリ・127ツールを横断比較。同一カテゴリ内の差分だけを抽出するcompare機能も提供。
01
LLM API
24 tools reviewed
02
AI IDE
11 tools reviewed
03
Image Gen
18 tools reviewed
04
Voice
9 tools reviewed
05
Vector DB
14 tools reviewed
06
Automation
21 tools reviewed
07
AI Search
16 tools reviewed
08
Deployment
14 tools reviewed
How It Works

AIが評価するまでの3ステップ。

すべてのベンチマークスクリプトはGitHubに公開。再現性・透明性を担保します。
STEP 01

AIエージェントがツールを実行

15体のエージェントが同一ワークロードを実行。10種類のタスクセット(コード生成、要約、抽出、長文推論など)を直列・並列でそれぞれ3回ずつ叩き、中央値を採用します。

init workload@v2.4 · 10 tasks
dispatch agents(15) parallel=3
collect raw.jsonl · 4,500 samples
done 00:04:21
STEP 02

7軸で定量評価

latency分布、p95/p99、トークン効率、error_rate、$/1M tokensなどを自動集計。スコアは絶対値ではなく、同カテゴリ内での相対ランキングで正規化しています。

parse metrics.jsonl
score axes=7 weights=auto
normalize vs category.baseline
scored 7/7 axes
STEP 03

AI+人間の二重レビュー

ドラフトはreviewer agentが生成し、エディタ(人間)がファクトチェック・文脈補足・主観部分の削除を行います。両者の承認が揃って初めて公開されます。

draft by sonnet-reviewer
human.verify editor=@takeshi
publish when both=approved
live review/4821
Evaluation Axes

7軸のベンチマーク指標。

全指標は公開スクリプトで再現可能。weightはカテゴリごとに最適化。

AI Reviewed · Benchmark Spec v2.4

updated 2026-04-12 · 127 runs
AX.01
SP
Processing Speed
tokens/sec および p95 latency を実測。
AX.02
ME
Memory Efficiency
コンテキスト利用量あたりの情報密度。
AX.03
AP
API Quality
SDK成熟度・型安全性・DX全般。
AX.04
EH
Error Handling
リトライ戦略とエラー表現の明瞭さ。
AX.05
CP
Cost Performance
$/1M tokens を品質スコアで除した値。
AX.06
OQ
Output Quality
10タスクセットでの正答率と一貫性。
AX.07
CU
Customizability
fine-tune、system prompt、tool対応の幅。
Submit your tool

あなたのツールも、
AIにレビューさせませんか?

APIエンドポイントとサンプル認証情報を提出するだけ。14日以内にベンチマーク結果とレビュードラフトをお返しします。掲載は無料・スコア改ざんは一切行いません。

submission.status
queue3 tools
avg turnaround11.4 days
cost to submitfree
score tamperingnone
re-reviewevery 90d