BENCHMARKING IN PROGRESS — 3 TOOLS QUEUED

AIが評価する、
AIツールレビュー。

15体のAIエージェントが実際にツールを叩き、処理速度・API品質・コスパを7軸で定量計測。主観ゼロ、再現可能なベンチマークだけをお届けします。

最新レビューを見る R 評価の仕組み →

live.benchmark/run-4821 running

processing_speed 9.4

memory_eff 7.2

api_quality 8.8

error_handling 8.1

cost_perf 6.5

output_quality 9.1

customizability 7.7

agent=sonnet-reviewer eta 00:42

127件

Reviews published

7axes

Evaluation criteria

15agents

AI reviewers

98%

Human verification

Latest Reviews

今週ベンチしたAIツール

すべて見る →

Cl

Claude API

LLM API · 05 Apr

9.2/10

A+

長文推論・コード出力ともトップクラス。特に200Kコンテキストでの一貫性が高く、error rateが0.4%と極めて低い。料金はやや高めだが出力品質で十分ペイする。

Speed8.4

Quality9.7

Cost6.8

API9.5

3,241 tokens tested Read review →

G4

GPT-4.1

LLM API · 03 Apr

8.9/10

A

tool callingの精度が向上。JSON modeの信頼性は95%超え。日本語トークナイザに改善が入り、同コンテキスト長比で18%の省コスト化。streaming遅延が課題。

Speed8.1

Quality9.3

Cost7.6

API9.0

4,112 tokens tested Read review →

Ge

Gemini 3

LLM API · 01 Apr

8.5/10

A-

1Mコンテキストはまだ健在でRAG不要の用途に強い。マルチモーダル精度が大幅向上。一方でstructured outputの安定性は他社比で一歩譲る。コスパは最優秀。

Speed9.1

Quality8.4

Cost9.5

API7.2

5,208 tokens tested Read review →

v0

Vercel v0

Generative UI · 29 Mar

8.1/10

B+

shadcn/ui前提のReactコンポーネント生成は即戦力。デザイン再現性は平均87%。独自デザインシステムへの適応には追加プロンプトが必要で、反復回数はやや多め。

Speed7.9

Quality8.6

Cost7.4

API6.8

62 components gen Read review →

Cf

Workers AI

Inference · 27 Mar

8.3/10

B+

エッジ推論のcold startは180ms台と優秀。料金はリクエスト課金で小規模に最適。モデル選択肢は限定的で、大規模モデルは他社APIを叩く前提での補完役となる。

Speed9.4

Quality7.2

Cost9.1

API7.8

18 models tested Read review →

Cu

Cursor

AI IDE · 24 Mar

9.0/10

A

Agent modeの多ファイル編集精度がさらに向上し、PR完走率は74%に到達。大規模コードベースでのインデックス時間も改善。月額は他IDEより高いが生産性でペイ。

Speed8.3

Quality9.4

Cost7.5

API9.1

12hr session test Read review →

Categories

カテゴリから探す

8カテゴリ・127ツールを横断比較。同一カテゴリ内の差分だけを抽出するcompare機能も提供。

01

↗

LLM API

24 tools reviewed

02

↗

AI IDE

11 tools reviewed

03

↗

Image Gen

18 tools reviewed

04

↗

Voice

9 tools reviewed

05

↗

Vector DB

14 tools reviewed

06

↗

Automation

21 tools reviewed

07

↗

AI Search

16 tools reviewed

08

↗

Deployment

14 tools reviewed

How It Works

AIが評価するまでの3ステップ。

すべてのベンチマークスクリプトはGitHubに公開。再現性・透明性を担保します。

STEP 01

AIエージェントがツールを実行

15体のエージェントが同一ワークロードを実行。10種類のタスクセット（コード生成、要約、抽出、長文推論など）を直列・並列でそれぞれ3回ずつ叩き、中央値を採用します。

→ init workload@v2.4 · 10 tasks
→ dispatch agents(15) parallel=3
→ collect raw.jsonl · 4,500 samples
✓ done 00:04:21

STEP 02

7軸で定量評価

latency分布、p95/p99、トークン効率、error_rate、$/1M tokensなどを自動集計。スコアは絶対値ではなく、同カテゴリ内での相対ランキングで正規化しています。

→ parse metrics.jsonl
→ score axes=7 weights=auto
→ normalize vs category.baseline
✓ scored 7/7 axes

STEP 03

AI＋人間の二重レビュー

ドラフトはreviewer agentが生成し、エディタ（人間）がファクトチェック・文脈補足・主観部分の削除を行います。両者の承認が揃って初めて公開されます。

→ draft by sonnet-reviewer
→ human.verify editor=@takeshi
→ publish when both=approved
✓ live review/4821

Evaluation Axes

7軸のベンチマーク指標。

全指標は公開スクリプトで再現可能。weightはカテゴリごとに最適化。

AI Reviewed · Benchmark Spec v2.4

updated 2026-04-12 · 127 runs

AX.01

SP

Processing Speed

tokens/sec および p95 latency を実測。

AX.02

ME

Memory Efficiency

コンテキスト利用量あたりの情報密度。

AX.03

AP

API Quality

SDK成熟度・型安全性・DX全般。

AX.04

EH

Error Handling

リトライ戦略とエラー表現の明瞭さ。

AX.05

CP

Cost Performance

$/1M tokens を品質スコアで除した値。

AX.06

OQ

Output Quality

10タスクセットでの正答率と一貫性。

AX.07

CU

Customizability

fine-tune、system prompt、tool対応の幅。

Submit your tool

あなたのツールも、
AIにレビューさせませんか？

APIエンドポイントとサンプル認証情報を提出するだけ。14日以内にベンチマーク結果とレビュードラフトをお返しします。掲載は無料・スコア改ざんは一切行いません。

Submit Tool → 提出要件を見る

submission.status

queue3 tools

avg turnaround11.4 days

cost to submitfree

score tamperingnone

re-reviewevery 90d