AI Evaluations

Тестирование и оценка качества AI workflows в n8n

Evaluations позволяют тестировать AI workflows на наборе примеров и измерять качество ответов.

Типы оценки

Тип	Описание	Доступность
Light Evaluations	Визуальная проверка результатов	Community (зарег.), Starter+
Metric-based	Численные метрики качества	Pro, Enterprise

Light Evaluations

Light evaluations — быстрая проверка workflow на нескольких примерах с визуальным сравнением результатов.

Когда использовать

На этапе разработки
Для небольшого набора тестов (5-20 примеров)
Когда достаточно визуальной проверки

Процесс

Создайте датасет с примерами
Подключите датасет к workflow
Запишите результаты обратно в датасет
Запустите оценку
Просмотрите и сравните результаты

Шаг 1: Создание датасета

Создайте Google Sheet или Data Table с колонками:

Колонка	Описание	Пример
input	Входные данные	”Привет, как дела?“
expected_output	Ожидаемый ответ (опционально)	“Привет! Я в порядке…“
actual_output	Фактический результат (пусто)	—

Пример датасета для классификации тикетов:

input	expected_category	expected_priority
”Не могу войти в аккаунт”	auth	high
”Как изменить пароль?“	auth	low
”Сайт работает медленно”	performance	medium

Шаг 2: Подключение к workflow

Добавьте Evaluation Trigger в начало workflow:

┌──────────────────┐    ┌────────────┐    ┌────────────┐
│ Evaluation       │───→│  AI Agent  │───→│ Set Outputs│
│ Trigger          │    │            │    │ (запись)   │
│ (датасет)        │    │            │    │            │
└──────────────────┘    └────────────┘    └────────────┘

При каждом запуске триггер выдаёт одну строку из датасета.

Шаг 3: Запись результатов

Добавьте Evaluation ноду с операцией Set Outputs:

Подключите после AI Agent
Укажите маппинг: output workflow → колонка датасета

Шаг 4: Запуск оценки

Нажмите Evaluate all у Evaluation Trigger — workflow выполнится для каждой строки датасета.

Шаг 5: Анализ результатов

Откройте датасет и сравните expected_output с actual_output.

Metric-based Evaluations

Metric-based evaluations вычисляют численные метрики качества для автоматического сравнения версий workflow.

Когда использовать

Большой датасет (50+ примеров)
Продакшн AI workflows
A/B тестирование промптов
Отслеживание регрессий

Доступные метрики

Метрика	Описание	Шкала
Correctness	Соответствие эталонному ответу (AI)	1-5
Helpfulness	Полезность ответа (AI)	1-5
String Similarity	Похожесть строк (edit distance)	0-1
Categorization	Точное совпадение категорий	0 или 1
Tools Used	Использовались ли инструменты	0-1

Кастомные метрики

Вы можете создать свои метрики:

// Пример: проверка длины ответа
const responseLength = $json.response.length;
const score = responseLength > 100 && responseLength < 500 ? 1 : 0;
return { json: { length_score: score } };

Добавление метрик

Настройте Light evaluation (шаги 1-3)
Добавьте Evaluation ноду с Set Metrics
Выберите метрики или создайте кастомные
Запустите оценку из вкладки Evaluations

Пример workflow с метриками

┌──────────────────┐    ┌────────────┐    ┌────────────┐    ┌────────────┐
│ Evaluation       │───→│  AI Agent  │───→│ Set Outputs│───→│ Set Metrics│
│ Trigger          │    │            │    │            │    │            │
└──────────────────┘    └────────────┘    └────────────┘    └────────────┘

Просмотр результатов

Перейдите на вкладку Evaluations
Нажмите Run evaluation
После завершения — сводные метрики по каждому измерению

Примеры оценки

Пример 1: Классификация тикетов

Датасет:

ticket_text	expected_category	expected_priority
”Не работает оплата”	billing	high
”Вопрос по тарифам”	billing	low

Метрики:

Categorization для category
Categorization для priority

Результат: Accuracy = 0.95 (95% правильных классификаций)

Пример 2: RAG качество

Датасет:

question	expected_answer	relevant_docs
”Как установить n8n?"	"docker run…“	doc_id: 123

Метрики:

Correctness — правильность ответа
Helpfulness — полезность
Кастомная метрика: Document relevance

Пример 3: Чат-бот

Датасет:

user_message	expected_response
”Привет”	Дружелюбное приветствие
”Цена продукта X”	Точная цена

Метрики:

Helpfulness (1-5)
String Similarity (для точных ответов)

Условное выполнение метрик

Метрики добавляют latency и стоимость (AI-based). Выполняйте их только при оценке:

┌────────────────────┐
│ Check if evaluating│
│ (Evaluation node)  │
└─────────┬──────────┘
          │
     ┌────┴────┐
     ↓         ↓
   Yes        No
     │         │
     ↓         ↓
┌─────────┐ ┌─────────┐
│ Metrics │ │  Skip   │
└─────────┘ └─────────┘

Best Practices

1. Начинайте с Light evaluations

Development → Light eval (5-10 примеров)
Staging → Light eval (20-50 примеров)
Production → Metric-based (100+ примеров)

2. Создавайте репрезентативные датасеты

Включайте edge cases
Добавляйте примеры из продакшн ошибок
Балансируйте категории

3. Отслеживайте изменения

Перед изменением промпта:

Запустите baseline evaluation
Сохраните метрики
Внесите изменения
Сравните новые метрики

4. Автоматизируйте

Запускайте evaluations:

При изменении промптов
Еженедельно для мониторинга
Перед деплоем в продакшн

Ограничения

Связанные темы

AI Agent

AI агенты — создание агентов

RAG

RAG — ответы по документам

Troubleshooting

Решение проблем — отладка

AI Evaluations

Типы оценки

Light Evaluations

Когда использовать

Процесс

Шаг 1: Создание датасета

Шаг 2: Подключение к workflow

Шаг 3: Запись результатов

Шаг 4: Запуск оценки

Шаг 5: Анализ результатов

Metric-based Evaluations

Когда использовать

Доступные метрики

Кастомные метрики

Добавление метрик

Пример workflow с метриками

Просмотр результатов

Примеры оценки

Пример 1: Классификация тикетов

Пример 2: RAG качество

Пример 3: Чат-бот

Условное выполнение метрик

Best Practices

1. Начинайте с Light evaluations

2. Создавайте репрезентативные датасеты

3. Отслеживайте изменения

4. Автоматизируйте

Ограничения

Связанные темы

Начало работы

Workflows

Ключевые концепции

AI и MCP

Интеграции

Хостинг

Код в n8n

Справочник