Models

Models & Training

Training runs, datasets, and model artifacts from this project.

Training History

brewmode-v3-100k

Qwen/Qwen3-8B · LoRA (r=16, alpha=32)

complete

2026-03-30

Data: 100K clean examples (web_code + magicoder + opencode)

Steps: 600/600

Final loss: 0.699

Time: ~18 min on H100

Cost: $0.45

GGUF: 4.7 GB (Q4_K_M)

Eval: GPT judge: 54/100, Gemini judge: 35/100

brewmode-v2-50k

Qwen/Qwen3-8B · LoRA (r=16, alpha=32)

complete

2026-03-28

Data: 50K subset (balanced code generation + debugging)

Steps: 300/300

Final loss: 0.742

Time: ~10 min on H100

Cost: $0.25

GGUF: 4.7 GB (Q4_K_M)

Eval: Early eval, lower quality than v3

brewmode-v1-multiuser

Qwen/Qwen3-8B · LoRA (r=16, alpha=32)

complete

2026-03-25

Data: 87K multi-user (10 users: Claude Code, WildChat, Code290k)

Steps: 500/500

Final loss: 0.710

Time: ~15 min on H100

Cost: $0.35

GGUF: 4.7 GB (Q4_K_M)

Eval: First multi-user run, baseline for comparison

Training Datasets

web_code_100k

Curated web + code instruction pairs

100,000 examples

312 MB

magicoder_evol_110k

Magicoder Evol-Instruct

110,000 examples

285 MB

magicoder_oss_75k

Magicoder OSS-Instruct

75,000 examples

198 MB

opencodeinstruct_top30k

Top-scored OpenCodeInstruct

30,000 examples

95 MB

multi_user_combined

10 users: Claude Code, WildChat, Code290k

87,564 examples

245 MB

user_01_venkat_claudecode

Claude Code session logs

3,564 examples

12 MB

Evaluation Results (v3)

30 coding prompts evaluated by GPT-4o and Gemini judges. Scores out of 100.

Frontier (Sonnet 4)

$3-5/task

Brewmode v3

80-85

$0/task

Base Qwen3-8B

$0/task

Visual comparison →Amazon-style comparison →

Infrastructure

Training

Modal H100 GPU via Unsloth

$0.25-1.00/run

Inference

Modal A10G GPU, vLLM serving

~120ms/request

Export

GGUF Q4_K_M via Unsloth

4.7 GB, Ollama-ready