RLHF Arena

Среда для сбора human-vs-model траекторий · v

Среда подключения: http://127.0.0.1:18081 · http://127.0.0.1:18081

Новая серия боёв

Вы играете за P1, бот — за P2. Модель всегда играет на максимум своих возможностей.

Противник

Каждый ваш ход пишется в каноничный dataset.jsonl (train_v2_admin_battle_action_jsonl_v2) — это и есть данные для обучения V5.

Колода игрока (P1)
Источник колоды
Колода бота (P2)
Звук

Применяется ко всем боям серии. Настройка сохраняется между заходами.

Параметры серии