Перейти к содержимому

AI Evaluations

Тестирование и оценка качества AI workflows в n8n

Evaluations позволяют тестировать AI workflows на наборе примеров и измерять качество ответов.

ТипОписаниеДоступность
Light EvaluationsВизуальная проверка результатовCommunity (зарег.), Starter+
Metric-basedЧисленные метрики качестваPro, Enterprise

Light evaluations — быстрая проверка workflow на нескольких примерах с визуальным сравнением результатов.

  • На этапе разработки
  • Для небольшого набора тестов (5-20 примеров)
  • Когда достаточно визуальной проверки
  1. Создайте датасет с примерами

  2. Подключите датасет к workflow

  3. Запишите результаты обратно в датасет

  4. Запустите оценку

  5. Просмотрите и сравните результаты

Создайте Google Sheet или Data Table с колонками:

КолонкаОписаниеПример
inputВходные данные”Привет, как дела?“
expected_outputОжидаемый ответ (опционально)“Привет! Я в порядке…“
actual_outputФактический результат (пусто)

Пример датасета для классификации тикетов:

inputexpected_categoryexpected_priorityactual_categoryactual_priority
”Не могу войти в аккаунт”authhigh
”Как изменить пароль?“authlow
”Сайт работает медленно”performancemedium

Добавьте Evaluation Trigger в начало workflow:

┌──────────────────┐ ┌────────────┐ ┌────────────┐
│ Evaluation │───→│ AI Agent │───→│ Set Outputs│
│ Trigger │ │ │ │ (запись) │
│ (датасет) │ │ │ │ │
└──────────────────┘ └────────────┘ └────────────┘

При каждом запуске триггер выдаёт одну строку из датасета.

Добавьте Evaluation ноду с операцией Set Outputs:

  1. Подключите после AI Agent
  2. Укажите маппинг: output workflow → колонка датасета

Нажмите Evaluate all у Evaluation Trigger — workflow выполнится для каждой строки датасета.

Откройте датасет и сравните expected_output с actual_output.


Metric-based evaluations вычисляют численные метрики качества для автоматического сравнения версий workflow.

  • Большой датасет (50+ примеров)
  • Продакшн AI workflows
  • A/B тестирование промптов
  • Отслеживание регрессий
МетрикаОписаниеШкала
CorrectnessСоответствие эталонному ответу (AI)1-5
HelpfulnessПолезность ответа (AI)1-5
String SimilarityПохожесть строк (edit distance)0-1
CategorizationТочное совпадение категорий0 или 1
Tools UsedИспользовались ли инструменты0-1

Вы можете создать свои метрики:

// Пример: проверка длины ответа
const responseLength = $json.response.length;
const score = responseLength > 100 && responseLength < 500 ? 1 : 0;
return { json: { length_score: score } };
  1. Настройте Light evaluation (шаги 1-3)

  2. Добавьте Evaluation ноду с Set Metrics

  3. Выберите метрики или создайте кастомные

  4. Запустите оценку из вкладки Evaluations

┌──────────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────┐
│ Evaluation │───→│ AI Agent │───→│ Set Outputs│───→│ Set Metrics│
│ Trigger │ │ │ │ │ │ │
└──────────────────┘ └────────────┘ └────────────┘ └────────────┘
  1. Перейдите на вкладку Evaluations
  2. Нажмите Run evaluation
  3. После завершения — сводные метрики по каждому измерению

Датасет:

ticket_textexpected_categoryexpected_priority
”Не работает оплата”billinghigh
”Вопрос по тарифам”billinglow

Метрики:

  • Categorization для category
  • Categorization для priority

Результат: Accuracy = 0.95 (95% правильных классификаций)

Датасет:

questionexpected_answerrelevant_docs
”Как установить n8n?""docker run…“doc_id: 123

Метрики:

  • Correctness — правильность ответа
  • Helpfulness — полезность
  • Кастомная метрика: Document relevance

Датасет:

user_messageexpected_response
”Привет”Дружелюбное приветствие
”Цена продукта X”Точная цена

Метрики:

  • Helpfulness (1-5)
  • String Similarity (для точных ответов)

Метрики добавляют latency и стоимость (AI-based). Выполняйте их только при оценке:

┌────────────────────┐
│ Check if evaluating│
│ (Evaluation node) │
└─────────┬──────────┘
┌────┴────┐
↓ ↓
Yes No
│ │
↓ ↓
┌─────────┐ ┌─────────┐
│ Metrics │ │ Skip │
└─────────┘ └─────────┘

Development → Light eval (5-10 примеров)
Staging → Light eval (20-50 примеров)
Production → Metric-based (100+ примеров)
  • Включайте edge cases
  • Добавляйте примеры из продакшн ошибок
  • Балансируйте категории

Перед изменением промпта:

  1. Запустите baseline evaluation
  2. Сохраните метрики
  3. Внесите изменения
  4. Сравните новые метрики

Запускайте evaluations:

  • При изменении промптов
  • Еженедельно для мониторинга
  • Перед деплоем в продакшн


RAG

RAG — ответы по документам