GETTING STARTED
Kore.ai XO Platform
Virtual Assistants Overview
Natural Language Processing (NLP)
Concepts and Terminology
Quick Start Guide
Accessing the Platform
Navigating the Kore.ai XO Platform
Building a Virtual Assistant
Help & Learning Resources
Release Notes
Current Version
Recent Updates
Previous Versions
CONCEPTS
Design
Storyboard
Overview
FAQs
Conversation Designer
Overview
Dialog Tasks
Mock Scenes
Dialog Tasks
Overview
Navigate Dialog Tasks
Build Dialog Tasks
Node Types
Overview
Intent Node
Dialog Node
Dynamic Intent Node
GenAI Node
GenAI Prompt
Entity Node
Form Node
Confirmation Node
Message Nodes
Logic Node
Bot Action Node
Service Node
Webhook Node
Script Node
Process Node
Agent Transfer
Node Connections
Node Connections Setup
Sub-Intent Scoping
Entity Types
Entity Rules
User Prompts or Messages
Voice Call Properties
Knowledge AI
Introduction
Knowledge Graph
Introduction
Terminology
Build a Knowledge Graph
Manage FAQs
Knowledge Extraction
Import or Export Knowledge Graph
Prepare Data for Import
Importing Knowledge Graph
Exporting Knowledge Graph
Auto-Generate Knowledge Graph
Knowledge Graph Analysis
Answer from Documents
Alert Tasks
Small Talk
Digital Skills
Overview
Digital Forms
Digital Views
Introduction
Widgets
Panels
Session and Context Variables
Context Object
Intent Discovery
Train
NLP Optimization
ML Engine
Overview
Model Validation
FM Engine
KG Engine
Traits Engine
Ranking and Resolver
Training Validations
NLP Configurations
NLP Guidelines
LLM and Generative AI
Introduction
LLM Integration
Kore.ai XO GPT Module
Prompts & Requests Library
Co-Pilot Features
Dynamic Conversations Features
Intelligence
Introduction
Event Handlers
Contextual Memory
Contextual Intents
Interruption Management
Multi-intent Detection
Amending Entities
Default Conversations
Conversation Driven Dialog Builder
Sentinment Management
Tone Analysis
Default Standard Responses
Ignore Words & Field Memory
Test & Debug
Overview
Talk to Bot
Utterance Testing
Batch Testing
Conversation Testing
Conversation Testing Overview
Create a Test Suite
Test Editor
Test Case Assertion
Test Case Execution Summary
Glossary
Health and Monitoring
NLP Health
Flow Health
Integrations
Actions
Actions Overview
Asana
Configure
Templates
Azure OpenAI
Configure
Templates
BambooHR
Configure
Templates
Bitly
Configure
Templates
Confluence
Configure
Templates
DHL
Configure
Templates
Freshdesk
Configure
Templates
Freshservice
Configure
Templates
Google Maps
Configure
Templates
Here
Configure
Templates
HubSpot
Configure
Templates
JIRA
Configure
Templates
Microsoft Graph
Configure
Templates
Open AI
Configure
Templates
Salesforce
Configure
Templates
ServiceNow
Configure
Templates
Stripe
Configure
Templates
Shopify
Configure
Templates
Twilio
Configure
Templates
Zendesk
Configure
Templates
Agents
Agent Transfer Overview
Custom (BotKit)
Drift
Genesys
Intercom
NiceInContact
NiceInContact(User Hub)
Salesforce
ServiceNow
Configure Tokyo and Lower versions
Configure Utah and Higher versions
Unblu
External NLU Adapters
Overview
Dialogflow Engine
Test and Debug
Deploy
Channels
Publishing
Versioning
Analyze
Introduction
Dashboard Filters
Overview Dashboard
Conversations Dashboard
Users Dashboard
Performance Dashboard
Custom Dashboards
Introduction
Custom Meta Tags
Create Custom Dashboard
Create Custom Dashboard Filters
LLM and Generative AI Logs
NLP Insights
Task Execution Logs
Conversations History
Conversation Flows
Conversation Insights
Feedback Analytics
Usage Metrics
Containment Metrics
Universal Bots
Introduction
Universal Bot Definition
Universal Bot Creation
Training a Universal Bot
Universal Bot Customizations
Enabling Languages
Store
Manage Assistant
Team Collaboration
Plan & Usage
Overview
Usage Plans
Templates
Support Plans
Invoices
Authorization
Conversation Sessions
Multilingual Virtual Assistants
Get Started
Supported Components & Features
Manage Languages
Manage Translation Services
Multiingual Virtual Assistant Behavior
Feedback Survey
Masking PII Details
Variables
Collections
IVR Settings
General Settings
Assistant Management
Manage Namespace
Data
Overview
Data Table
Table Views
App Definitions
Data as Service
HOW TOs
Build a Travel Planning Assistant
Travel Assistant Overview
Create a Travel Virtual Assistant
Design Conversation Skills
Create an ‘Update Booking’ Task
Create a Change Flight Task
Build a Knowledge Graph
Schedule a Smart Alert
Design Digital Skills
Configure Digital Forms
Configure Digital Views
Train the Assistant
Use Traits
Use Patterns
Manage Context Switching
Deploy the Assistant
Use Bot Functions
Use Content Variables
Use Global Variables
Use Web SDK
Build a Banking Assistant
Design Conversation Skills
Create a Sample Banking Assistant
Create a Transfer Funds Task
Create a Update Balance Task
Create a Knowledge Graph
Set Up a Smart Alert
Design Digital Skills
Configure Digital Forms
Configure Digital Views
Add Data to Data Tables
Update Data in Data Tables
Add Data from Digital Forms
Train the Assistant
Composite Entities
Use Traits
Use Patterns for Intents & Entities
Manage Context Switching
Deploy the Assistant
Configure an Agent Transfer
Use Assistant Functions
Use Content Variables
Use Global Variables
Intent Scoping using Group Node
Analyze the Assistant
Create a Custom Dashboard
Use Custom Meta Tags in Filters
Migrate External Bots
Google Dialogflow Bot
APIs & SDKs
API Reference
API Introduction
Rate Limits
API List
koreUtil Libraries
SDK Reference
SDK Introduction
Web SDK
How the Web SDK Works
SDK Security
SDK Registration
Web Socket Connect and RTM
Tutorials
Widget SDK Tutorial
Web SDK Tutorial
BotKit SDK
BotKit SDK Deployment Guide
Installing the BotKit SDK
Using the BotKit SDK
SDK Events
SDK Functions
Tutorials
BotKit - Blue Prism
BotKit - Flight Search Sample VA
BotKit - Agent Transfer
  1. Docs
  2. Virtual Assistants
  3. Natural Language
  4. 고급 NLP 설정

고급 NLP 설정

봇에 활성화된 각 언어의 의도 탐지를 미세 조정할 수 있습니다. 이 작업을 수행하려면, 다음 단계를 따르세요.

  1. 왼쪽 창에서, 자연어 > 학습 > 임곗값 및 설정을 클릭합니다.
  2. 임곗값 및 설정 섹션에서 사용자 정의하여 수행할 수 있습니다.

이 외에도 고급 NLP 설정> 섹션에는 특정 사용 사례 및 요구 사항에 사용할 수 있는 고급 설정이 있습니다.

경고: 이러한 구성의 기본 설정은 대부분의 사용 사례에 적합합니다. 귀하가 설정하는 기능을 충분히 숙지하지 않은 경우, 이 같은 설정을 변경하지 마세요. 제대로 하지 않으면 봇 성능에 부정적인 영향을 미칠 수 있습니다.

 

다음 표는 이 섹션에서 설정할 수 있는 다양한 설정에 대한 세부 정보를 제공합니다. 이 외에도 맞춤형 설정을 추가할 수 있습니다. 방법을 알아보려면 지원팀에 문의하세요.

구성 설명 영향을 받는 NLP 엔진 유효한 입력 참고 사항
복합어 분할 이 설정을 통해 복합어를 여러 어간으로 분할한 다음 개별 어간을 처리할 수 있습니다. ML 활성화, 비활성화(기본값) 독일어 봇에 대해서만 지원됩니다.
의도 없음 활성화되고 나면 ML 엔진을 사용한 일치 의도에 긍정 오류가 생길 가능성을 줄이는 더미 플레이스 홀더 의도가 생성됩니다. ML 활성화(기본값), 비활성화
에포크(Epoch) 신경망 학습을 위한 반복 횟수. ML 20에서 300 사이, 10씩 증가(기본 설정 20) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
배치 크기 학습시키는 동안 각 배치에 사용한 학습 샘플 수 ML 10에서 30 사이, 5씩 증가(기본 설정 10) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
학습률 네트워크의 가중치가 손실 기울기와 관련해서 조정되는 정도를 제어하는 하이퍼 매개변수 ML 1e-4에서 1e-3 사이, 1e-2씩 증가(기본 설정 1.00E-03) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
드롭아웃 모델의 과최적화를 피하기 위한 정규화 매개 변수 ML 0에서 0.8 사이, 0.1씩 증가(기본 설정 0) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
벡터화 학습 데이터의 특징 추출 기법 ML 카운트(기본값), tfidf 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
최대 시퀀스 길이 학습 샘플 또는 사용자 입력의 길이 ML 10에서 30 사이, 5씩 증가(기본 설정 20) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
임베딩 유형 학습 데이터의 특징 추출 기법 ML 생성, 무작위(기본값) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
임베딩 차원 기능화하는 데 사용할 임베딩의 차원 ML 100에서 400 사이, 50씩 증가(기본 설정 300) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
K 폴드 교차 검증을 위한 k폴드 매개 변수 ML 2에서 10 사이, 1씩 증가(기본 설정 2)
퍼지 일치 이 설정은 의도 식별을 위한 퍼지 일치 알고리즘을 사용을 활성화합니다. ML 활성화(기본값), 비활성화
부정어 처리 이 설정을 통해 의도 식별에서 부정어를 처리할 수 있습니다. ML 활성화(기본값), 비활성화
다중 발생 무시 활성화되고 나면, 벡터화를 위해 단어의 빈도는 무시됩니다. ML 활성화(기본값), 비활성화 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
사용자 발화의 엔티티 플레이스 홀더 사용자 발화에 있는 엔티티를 해당 플레이스 홀더로 대체할 수 있습니다. ML 활성화(기본값), 비활성화 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
문장 분할 사용자 발화의 문장을 분할하고 완전한 사용자 입력을 통해 의도 탐지를 수행합니다. ML 활성화(기본값), 비활성화
다중 의도 모델 모든 하위 의도를 구성하는 각 기본 의도에 별도의 ML 모델을 활성화합니다. ML 활성화, 비활성화(기본값)
은닉층의 뉴런 은닉층에 사용되는 뉴런 수를 설정하는 데 사용합니다 ML 범위: 0 ~ 1000 표준 네트워크 유형에만 적용 가능
Softmax 온도 ML 엔진이 ML 모델에서 최상의 의도를 얼마나 확실하게 식별해야 하는지 정의하려면 사용합니다. 온도는 softmax에서 최종 확률에 영향을 주는 로짓(모델 출력)에 적용되는 하이퍼 매개변수입니다. ML 범위: 0 ~ 100 표준 네트워크를 제외한 모든 네트워크 유형
ML의 철자 수정 예측하는 동안 ML 봇 사전에서 철자 수정을 지원하려면 활성화합니다. 사용자 정의(ML) 활성화, 비활성화(기본값) 영문 봇에만 적용 가능합니다.
의도 제거 규칙 의도 일치를 제거하기 위해 사전 구축된 규칙을 적용하려면 활성화합니다. RR 활성화(기본값), 비활성화 영어, 스페인어, 프랑스어 및 독일어 봇에만 적용됩니다.
코사인 유사도 감소 코사인 유사도 감소를 통해 길이가 짧은 질문에 대한 불이익을 방지합니다. KG 활성화(기본값), 비활성화
의도 이름으로서의 FAQ 이름 FAQ가 대화와 연결되어 있어도 FAQ의 1차 질문을 의도 이름으로 사용 KG 활성화, 비활성화(기본값)
모호성 해소를 위한 FAQ 순서 모호성 해결을 위해 표시될 FAQ 순서 설정 KG 계층별 순서, 기본 순서(기본값)
전체 일치하는 경로에서 FAQ 자동 자격 부여 해당 경로에서 사용자 질의와 일치하는 질문이 없더라도 경로가 전체 일치하는 경우 경로의 모든 FAQ에 자동으로 자격을 부여합니다. KG 활성화, 비활성화(기본값)
분류법 기반 KG 경로에 있는 모든 용어의 전체 일치만 경로 자격으로 간주해야 하는 경우 이 옵션을 활성화합니다. 사용자 정의(KG) 활성화, 비활성화(기본값)
의도 패턴을 위한 기본 최대 와일드카드 의도 패턴의 단어 사이에 기본적으로 허용되는 최대 와일드카드 수를 정의하려면 이 옵션을 사용합니다. 이 옵션은 추가적인 와일드카드를 포함하는 패턴을 명시적으로 작성하는 것을 제한하지 않습니다. FM 0~9 사이의 임의의 숫자, 기본적으로 3으로 설정됨
엔티티 패턴을 위한 기본 최대 와일드카드 엔티티 패턴의 단어 사이에 기본적으로 허용되는 최대 와일드카드 수를 정의하려면 이 옵션을 사용합니다. 이 옵션은 추가적인 와일드카드를 포함하는 패턴을 명시적으로 작성하는 것을 제한하지 않습니다. FM 0~5 사이의 임의의 숫자, 기본적으로 2으로 설정됨
의도 패턴의 일치 순서 의도의 첫 번째 패턴 일치를 선택할지(패턴이 정의된 순서에 따라) 또는 의도에 대해 정의된 모든 패턴을 살펴보고 최상의 패턴을 찾을지 선택합니다. FM 첫 번째(기본값), 최상
패턴 일치의 등급 분류 패턴 정의와 비교해 볼 때 사용자 입력에 있는 와일드카드 수에 따라 패턴 일치를 유망한 일치로 분류할지 여부를 선택합니다. FM  0~9 사이의 임의의 숫자, 기본적으로 3으로 설정됨
문장에서 첫 번째 패턴 일치만 선호 단일 문장에서 여러 패턴이 일치하는 경우 문장에서 첫 번째 패턴 일치만 선호할지 또는 문장에서 모든 패턴 일치를 선택할지 여부를 선택합니다. FM 활성화(기본값), 비활성화
정확한 작업 이름 일치 '작업 이름 단어를 사용한 의도 탐지'가 비활성화된 경우 시스템이 엄격한 패턴을 자동으로 생성할지 여부를 선택합니다. FM 활성화(기본값), 비활성화

ML 엔진 관련

복합어 분할

복합어는 두 개 이상의 단어가 결합되어 완전히 새로운 의미를 가진 새로운 단어를 만들 때 형성됩니다. 특히 두 개(또는 그 이상) 단어가 결합하여 합성어를 형성하며 무한한 양의 새로운 합성어로 이어지는 독일어의 경우입니다. 예를 들어, Bilder | buch(그림책)의 -er처럼 구성 요소는 전환 요소와 연결됩니다. 혹은 수식어의 일부를 삭제할 수 있습니다. 예를 들어, Kirch | turm(교회 탑), 여기서 기본형 Kirche의 마지막 -e가 삭제됩니다. 종종 합성어가 어간과는 완전히 다른 것을 의미하기도 합니다. 예를 들어, 어간 grun | der(green|the))을 가진 Grunder입니다. NLP 관점에서, NLP 엔진이 단어와 프로세스를 분할하여야 하는 시점과 전체 단어를 처리해야 하는 시점을 이해하는 것이 중요합니다. 이 설정을 통해 복합어를 처리하는 방법을 선택합니다. 활성화되고 나면, 사용자 발화에 있는 복합어가 어간으로 분할된 다음 의도를 탐지를 위한 평가 대상이 됩니다.

의도 없음

기계 학습(ML) 엔진은 학습 발화를 통해 학습 기반 사용자 발화를 평가하는 모델을 구축합니다. ML 모델은 사용자 입력을 이와 같은 입력으로 분류하려고 합니다. 그러나 어휘가 범위 밖에 있는 경우에도 ML은 이것 역시 분류하려고 하며 이는 경우에 따라 엔티티의 의도에 방해가 될 수도 있습니다. 예를 들어, 엔티티 노드에 있는 사람의 이름이 의도를 트리거해서는 안 됩니다. 의도 없음을 추가하면 봇에서 이러한 의도에 대한 임의의 입력을 분류하도록 할 수 있습니다. 활성화되고 나면 사용자 발화에 봇 학습, 즉, 봇 어휘에서 사용되지 않은 단어가 포함된 경우 ML 모델이 이러한 의도 없음을 식별하도록 조정됩니다.

ML 엔진 외부화

기계 학습에서 하이퍼 매개 변수는 학습 프로세스를 제어하는 데 그 값을 사용하는 매개 변수입니다. 하이퍼 매개 변수는 봇의 추가 사용자 정의 옵션을 제공합니다. 다음은 사용자 정의할 수 있는 ML 설정입니다.

네트워크 유형

사용하려는 신경망을 선택할 수 있습니다. 이 설정은 v8.1 이후 기계 학습 섹션으로 이동되었습니다. 자세한 내용은 여기를 참조하세요.

에포크(Epoch)

인공 신경망 관점에서 에포크(Epoch)는 전체 학습 데이터 세트를 통한 한 주기를 의미합니다. 비 학습 데이터에서 좋은 성과를 얻으려면, 일반적으로(항상 그런 것은 아님) 학습 데이터에 대하여 두 번 이상은 통과해야 합니다. 에포크(Epoch) 수는 학습 데이터 세트를 통한 완전한 통과 수를 제어하는 하이퍼 매개 변수입니다.

배치 크기

배치 크기는 기계 학습에서 사용하는 용어이며 1회 반복에서 사용하는 학습 예제의 수를 의미합니다. 신경망을 학습시킬 때 오차 기울기 추정치의 정확도를 제어합니다. 배치 크기는 모델의 내부 매개 변수가 업데이트되기 전에 학습시킬 학습 샘플의 수를 제어하는 하이퍼 매개 변수입니다.

학습률

기계 학습 및 통계에서, 학습률은 손실 함수의 최소값을 향해 이동하면서 각 반복에서 단계 크기를 결정하는 최적화 알고리즘의 조정 매개변수입니다. 손실을 기반으로 신경망에서 가중치 업데이트를 제어하는 매개 변수로 생각할 수 있습니다.

드롭아웃

드롭아웃이라는 용어는 신경망에서 단위(숨김 및 표시)를 누락시키는 것을 의미합니다. 간단히 말해서, 드롭아웃은 무작위로 선택된 특정 뉴런 세트의 학습 단계에서 단위(즉, 뉴런)를 무시하는 것을 의미합니다. 이는 데이터의 과최적화를 방지하기 위한 정규화 기법입니다.

벡터화

벡터화는 요소별 연산 대신 계산에 벡터 연산을 사용하여 알고리즘을 최적화하는 방법입니다. 학습 데이터에 대한 특징 추출 기법을 결정하는 데 사용됩니다. 다음 중 하나로 설정할 수 있습니다.

  • 카운트 벡터화는 주어진 텍스트 문서를 텍스트의 각 단어 발생 빈도(개수)를 기반으로 하는 용어/토큰 수의 벡터로 변환하는 데 사용됩니다. 텍스트가 여러 개 있고, 텍스트의 각 단어를 추가 텍스트 분석에 사용하기 위해 벡터로 변환해야 할 때 유용합니다. 벡터 표현을 생성하기 전에 텍스트 데이터의 사전 처리를 가능하게 합니다.
  • TFIDF 벡터화는 문서 모음에서 문서와 단어의 관련성을 평가하는 통계적 측정입니다. 이는 문서에 단어가 나타나는 횟수(용어 빈도 TF)와 문서 집합에서 단어의 역 문서 빈도(IDF), 두 가지 지표를 곱한 것입니다.

최대 시퀀스 길이

문장을 처리할 때(학습 또는 예측을 위해) 시퀀스의 길이는 문장의 단어 수입니다. 최대 시퀀스 길이 매개 변수는 학습 대상으로 고려할 최대 단어 수입니다. 사용자 입력 또는 학습 구문 문장 시퀀스 길이가 최대 문장 길이보다 길면 이 길이로 자르고 그보다 작으면 문장을 특수 토큰으로 채웁니다.

임베딩 유형

(단어) 임베딩은 입력/학습 텍스트에서의 단어 또는 구의 벡터 표현입니다. 유사한 의미를 가진 단어는 n차원 공간에서 유사한 벡터 표현을 가지며 벡터 값은 신경망과 유사한 방식으로 학습됩니다. 임베딩 유형은 다음 중 하나로 설정할 수 있습니다.

  • 무작위(기본 설정): 처음에는, 모든 단어에 무작위로 임베딩이 할당된 다음 임베딩이 학습하는 동안 주어진 학습 데이터에 최적화됩니다.
  • 생성됨: 학습이 시작되기 직전에 단어 임베딩이 생성됩니다. Word2Vec 모델은 단어 임베딩을 생성하는 데 사용됩니다. 이렇게 생성된 임베딩을 학습 중에 사용합니다. 이렇게 생성된 단어 임베딩은 학습하는 동안 주어진 학습 데이터에 최적화됩니다.

임베딩 차원

임베딩 차원은 임베딩 벡터의 크기를 정의합니다. 단어 임베딩이 무작위 혹은 생성된 경우, 임의의 숫자를 임베딩 차원으로 사용할 수 있습니다.

K Fold 교차 검증

교차 검증은 제한된 데이터 샘플에서 기계 학습 모델을 평가하는 데 사용되는 리샘플링 절차입니다. 이 절차에는 주어진 데이터 샘플이 분할된 그룹의 수를 의미하는 k라는 단일 매개 변수가 있습니다. 이 설정을 통해 K 매개 변수를 설정할 수 있습니다. 교차 검증에 대한 자세한 내용은 여기를 참조하세요.

퍼지 일치

퍼지 일치는 시스템이 정확하지 않은 일치를 식별하게 하는 대략적인 문자열 일치 기술입니다. ML 엔진은 퍼지 일치 논리로 확실한 일치를 식별합니다. 퍼지 일치 알고리즘은 사용자 발화와의 유사성을 기반으로 의도에 퍼지 검색 점수를 할당합니다. 퍼지 일치 점수가 95점 이상(0-100점 만점)인 의도는 최종 일치로 식별됩니다. 그러나, 퍼지 일치는 철자가 비슷하지만 의미가 다른 단어가 있는 경우 긍정 오류를 생성할 수 있습니다. 예를 들어 가능(possible) 대 불가능(impossible) 또는 가능(available) 대 불가능(unavailable)의 경우를 들 수 있습니다. 이 동작은 경우에 따라 문제가 됩니다. 이 옵션을 비활성화하고 ML 엔진이 이 일치 알고리즘을 사용하지 않도록 할 수 있습니다.

부정어 처리

사용자 발화에 부정어가 있을 때 ML 엔진의 동작을 선택하도록 설정됩니다. 부정어 처리 구성이 활성화된 경우, 사용자 발화에 부정어 경향의 단어가 있다면 의도의 ML 점수에 불이익을 적용합니다.

다중 발생 무시

사용자 발화에 같은 단어가 여러 번 나타나는 경우 의도 식별이 왜곡되는 경우가 있습니다. 다중 발생 무시 설정을 활성화하면 사용자 발화에 있는 같은 단어의 다중 발생이 무시됩니다. 벡터화 및 후속 의도 일치를 위해 반복되는 단어를 두고 한 번만 더 평가하게 됩니다.

사용자 발화의 엔티티 플레이스 홀더

의도 탐지 기능을 향상시킬 수 있도록 시스템이 사용자 발화에 있는 엔티티 값을 엔티티 플레이스 홀더로 대체하려는 경우가 있습니다. NER 모델로 해결되지 않은 엔티티는 대체에 사용되지 않으므로, 이 옵션을 활성화하면 모든 학습 발화에 주석을 달 것을 강력하게 권장합니다. 최종 사용자 상호 작용, 배치 테스트, 발화 테스트, 대화 테스트의 사용자 발화에서 이러한 엔티티가 대체됩니다.

문장 분할

사용자 입력에 여러 개의 문장이 있는 경우 각 문장에 하나씩 여러 개의 의도 호출이 이루어집니다. 어떤 경우에는 적합하지 않을 수도 있습니다. 예를 들어 사용자 발화, 티켓을 예약하고 싶습니다의 경우입니다. 쇼 예약으로 리디렉션하기티켓을 예약하고 싶습니다쇼 예약으로 리디렉션하고 싶습니다에 대해 0.6 ML 점수를 얻고 총 ML 점수 0.6이 됩니다. 이 설정을 비활성화하면 의도 식별을 위해 원래의 사용자 입력을 ML로 보내게 되고 위의 예에 대해서는 0.99 같은 확실한 점수를 얻게 됩니다.

다중 의도 모델

이 기능을 활성화하면, 귀하의 봇에 사용할 수 있는 여러 ML 의도 모델을 생성할 수 있습니다. 모든 기본 대화 의도는 봇 수준 의도 모델의 일부가 됩니다. 별도의 대화 수준 ML 모델은 각각 다른 대화 작업, 하위 대화 작업에서 작성되며 각 작업 지정에서 사용된 하위 의도를 구성합니다. 자세한 내용은 여기를 참조하세요.

은닉층의 뉴런

은닉층의 뉴런은 ML 모델에서 의도 식별을 수행하는 동안 채택할 강도/엄격성을 결정합니다. 뉴런 수가 많을 수록 정확도가 높아지지만 학습을 완료하려면 더 긴 시간이 필요합니다. 뉴런 수가 적으면 정확도는 떨어지지만 학습 시간은 빨라집니다. 기본적으로 1000으로 고정되어 있습니다. 이상적으로, 이 값은 봇의 의도 수의 1배여야 하며 정확도를 높이려면 최대 2배까지 올릴 수 있습니다. 이는 일반적인 권장 사항이며 학습의 품질에 따라 다릅니다

Softmax 온도

Softmax 온도를 사용하면 ML 엔진이 ML 모델에서 최상의 의도를 얼마나 확실하게 식별해야 하는지 정의할 수 있습니다. 온도는 softmax에서 최종 확률에 영향을 주는 로짓(모델 출력)에 적용되는 하이퍼 매개변수입니다. 0에서 1 사이의 어떤 값은 ML 엔진이 신뢰도가 낮은 최상의 의도를 식별해야 함을 나타냅니다. 0은 신뢰도가 매우 낮고 1은 일반적인 신뢰도입니다. 1에서 100 사이의 값은 ML 엔진이 최상의 의도에 대해 높은 신뢰도를 보임을 나타냅니다. 1은 일반적인 신뢰도이며 가능한 경우 100은 높은 신뢰도입니다.

ML에서 철자 수정

영어로 된 봇의 경우, ML 봇 사전에서 철자 수정이 발생하지 않습니다. 이로 인해, ML 학습에 크게 의존하는 봇은 문제가 발생할 수 있습니다. 이 문제는 예측하는 동안 ML 봇 사전에서 철자 수정을 활성화하여 해결할 수 있습니다. NLP 고급 설정에서 사용자 정의 구성을 추가하여 달성할 수 있습니다. 이것은 사용자 정의 설정이며, 활성화하려면 다음 단계를 따르세요.

  1. 사용자 정의 추가
  2. 이름을 ML_spell_correction으로 입력
  3. 값을 사용 함 또는 사용 안 함으로 입력

RR 엔진 관련

의도 제거 규칙

R&R 엔진에는 가능한 ML 일치를 거부하는 몇 가지 보호 규칙이 있습니다. 예를 들어, 사용자 입력에 동사 단어만 포함된 경우 의도를 거부하는 것입니다. 그러나, R&R 엔진이 제거 규칙을 적용하고 모호성을 해결하기 위해 최종 사용자에게 모든 조건에 맞는/최상의 의도를 제시하는 것을 원하지 않을 가능성이 있습니다. 이 설정을 비활성화하면 유연성이 생기며, 단일 동사 일치(ML 및 FM), 엔티티가 CR 문장과만 일치(ML), 이전의 패턴 일치(다중 문장 시나리오)(FM), 또는 이전의 확실한 일치(다중 문장 시나리오)(전체)와 같은 규칙과 일치하는 의도가 제거되지 않습니다.

KG 엔진 관련

코사인 유사도 감소

단어 일치를 기반으로 FAQ 식별이 수행됩니다. 이 접근 방식의 문제점은 해당 학습된 발화보다 적은 수의 단어를 가진 사용자 발화는 낮은 점수를 받는다는 것입니다. 이 같은 스코어링으로 인해 의도 식별에 실패하게 됩니다. 코사인 유사성 감소 설정이 활성화되면 학습된 발화보다 적은 수의 단어를 가진 사용자 발화(즉, 1차 및 대체 질문)가 설정이 비활성화된 경우보다 일치 점수가 더 높게 됩니다.

의도 이름으로서의 FAQ 이름

이 옵션은 다음 시나리오에서 1차 질문 또는 대화 작업 이름을 표시할지 여부를 관리합니다.

  • 의도 이름이 사용자에게 표시되는 경우
    • 모호성 해소 흐름
    • 후속 조치
  • 발화 테스트
  • 배치 테스트
  • NLP 분석
  • 분석(대시보드, 맞춤형 대시보드, 대화 흐름 및 지표)
  • 의도 탐지 – 순위 흐름

FAQ 순서

사용자가 모호한 경우 질의를 하면 사용자에게 무작위로 FAQ를 제시하여 모호성을 해소합니다. 그러나 질문이 KG에 나타나는 위치에 따라 순서대로 질문을 제시함으로써 최종 사용자에게 향상된 경험을 제시해야 합니다. 즉, 일반적인 질문으로 시작한 다음 더 구체적인 질문으로 이어집니다. 단지 이 목적을 위해 "모호성 해소를 위한 FAQ 순서" 옵션을 사용할 수 있습니다. 이 옵션을 계층별 순서로 설정함으로써, 상위 수준의 FAQ를 먼저 표시한 다음 바로 다음 수준에 추가된 FAQ가 이어지며 이 순서는 R&R 엔진에서도 적용됩니다.

FAQ 자동 자격 부여

사용자 질의가 KG의 특정 경로와 일치하지만 해당 경로에 추가된 질문과 일치하지 않는 경우, 일치하는 경로의 질문을 사용자에게 모호한 것으로 표시하도록 선택할 수 있습니다. 일치하는 경로에 FAQ가 하나만 포함된 경우, '최상의' FAQ로 간주합니다. 루트 용어 일치는 고려되지 않음을 유의하세요.

분류법 기반 KG

지식 그래프 모델은 경로 자격 및 질문 일치의 2단계 모델로 작동합니다. 기본적으로, 경로는 항상 완전한 자격을 부여받을 필요는 없습니다. 부분 경로 일치(임곗값 이상)도 적격한 것으로 간주하며 이러한 경로의 질문은 사용자 입력을 일치시키는 데 사용됩니다. '분류법' 기반 접근 방법에서는 '경로'가 항상 완전히 일치해야 합니다. 이는 경로의 모든 용어가 동등하게 중요하며 경로의 모든 용어가 완전히 일치하는 경우에만 적격한 것으로 간주되어야 하는 상황을 충족하기 위함입니다. 경로가 적격한 경우, 사용자 입력에 대한 의도 식별을 위해 해당 경로 또는 경로들의 질문을 고려해야 합니다. 이것은 사용자 정의 설정이며, 활성화하려면 다음 단계를 따르세요.

  1. 사용자 정의 추가
  2. 이름을 KG_taxonomy_based로 입력
  3. 값을 사용함으로 입력

참고: 이 설정을 활성화하면 용어 설정에 용어 표시 이름, 경로 자동 자격 부여 설정을 추가할 수 있지만 지식 작업에 경로 범위 및 최소 수준 및 명확한 수준 설정은 사용할 수 없습니다. 자세한 내용은 여기를 참조하세요.

FM 엔진 관련

의도 패턴을 위한 기본 최대 와일드카드

기본적으로, 의도 패턴에서 허용되는 최대 와일드카드 수를 정의합니다. FM 엔진은 패턴 정의에 사용된 단어 사이에서 사용자 입력의 와일드카드가 최대 X개인 경우에만 의도 패턴과 일치시킵니다. 와일드카드가 X개 더 많은 발화에는 의도 패턴 일치로 자격을 부여하지 않습니다. 예를 들어, 값이 4로 설정되면 ‘Book Ticket to *’ 패턴은 ‘Book a direct oneway flight ticket to Chicago’과 일치합니다. 더 많은 수의 와일드카드를 포함하는 엔티티 패턴(예: *~Y)을 명시적으로 작성하는 경우에는 영향을 미치지 않습니다

엔티티 패턴에서 허용되는 최대 와일드카드

기본적으로 엔티티 패턴에서 허용되는 최대 와일드카드 수를 정의합니다. FM 엔진은 패턴 정의에 사용된 단어 사이에서 사용자 입력의 와일드카드가 최대 X개인 경우에만 엔티티 패턴과 일치시킵니다. 와일드카드가 X개 더 많은 발화에는 엔티티 패턴 일치로 자격을 부여하지 않습니다. 예를 들어, 값이 4로 설정되면 ‘Book Ticket to *’ 패턴은 ‘Book a direct oneway flight ticket to Chicago’과 일치합니다. 더 많은 수의 와일드카드를 포함하는 엔티티 패턴(예: *~Y)을 명시적으로 작성하는 경우에는 영향을 미치지 않습니다

의도 패턴 일치 순서

첫 번째 패턴 일치를 선택할지 또는 모든 패턴을 평가하고 최상의 패턴을 선택할지를 정의합니다. "First"는 의도에 대해 발견된 첫 번째 의도 패턴 일치를 고려한다는 의미이며 "Best"는 모든 패턴을 처리하고 가장 좋은 점수를 얻은 패턴을 사용한다는 의미입니다. FM 범위는 최상의 일치를 결정하는 데 사용되며 R&R 점수는 '최상의 패턴'을 식별하는 데 사용됩니다. 의도 패턴에 대한 최상의 순서를 결정하는 것이 어려울 수 있으므로, 플랫폼이 최상의 순서를 찾도록 하는 것이 종종 도움이 됩니다.

패턴 일치의 등급 분류

기본적으로, 모든 패턴 일치는 확실한 일치입니다. 그러나, 패턴 일치에 와일드카드가 너무 많은 경우 패턴 일치를 가능한 일치로 표시하는 것이 도움이 될 수 있습니다. 패턴 일치를 가능한 일치로 간주하려면 사용자 입력에 표시할 와일드카드 임곗값 수를 선택합니다. 사용자 입력에 임곗값보다 더 많은 와일드카드(> = X)가 포함된 경우, 해당 패턴 일치는 확실한 일치로 분류됩니다. 임곗값 제한(< X) 내의 패턴 일치는 계속 확실한 일치로 처리됩니다.

문장에서 첫 번째 패턴 일치만 선호

한 문장에서 여러 패턴이 식별되는 경우, 첫 번째 패턴 일치만 고려해야 하는지 또는 모든 패턴 일치를 고려해야 하는지를 정의합니다. 활성화된 경우, FM 엔진은 첫 번째 패턴 일치만 사용하고 다른 모든 패턴 일치는 버립니다. 비활성화된 경우 FM 엔진은 문장에서 모든 패턴 일치에 자격을 부여하고 모호성 해소를 위해 고려됩니다.

정확한 작업 이름 일치

FM 엔진 설정 작업 이름을 사용한 의도 탐지 단어(자세한 내용은 여기를 참조하세요)를 사용하면 작업 이름에 있는 단어를 사용하여 작업을 일치시킬지 여부를 선택할 수 있습니다. 이 설정이 다른 학습과 충돌하는 경우 비활성화하는 것이 좋습니다. 비활성화되면, 플랫폼은 '정확한 일치'를 수행하는 엄격한 패턴을 생성합니다. 즉, 사용자 입력이 작업 이름과 정확히 일치하는 경우 일치로 간주합니다. 정확한 작업 이름 일치 설정을 사용하여 플랫폼이 엄격한 패턴을 자동으로 생성할지 여부를 선택할 수 있습니다.

고급 NLP 설정

봇에 활성화된 각 언어의 의도 탐지를 미세 조정할 수 있습니다. 이 작업을 수행하려면, 다음 단계를 따르세요.

  1. 왼쪽 창에서, 자연어 > 학습 > 임곗값 및 설정을 클릭합니다.
  2. 임곗값 및 설정 섹션에서 사용자 정의하여 수행할 수 있습니다.

이 외에도 고급 NLP 설정> 섹션에는 특정 사용 사례 및 요구 사항에 사용할 수 있는 고급 설정이 있습니다.

경고: 이러한 구성의 기본 설정은 대부분의 사용 사례에 적합합니다. 귀하가 설정하는 기능을 충분히 숙지하지 않은 경우, 이 같은 설정을 변경하지 마세요. 제대로 하지 않으면 봇 성능에 부정적인 영향을 미칠 수 있습니다.

 

다음 표는 이 섹션에서 설정할 수 있는 다양한 설정에 대한 세부 정보를 제공합니다. 이 외에도 맞춤형 설정을 추가할 수 있습니다. 방법을 알아보려면 지원팀에 문의하세요.

구성 설명 영향을 받는 NLP 엔진 유효한 입력 참고 사항
복합어 분할 이 설정을 통해 복합어를 여러 어간으로 분할한 다음 개별 어간을 처리할 수 있습니다. ML 활성화, 비활성화(기본값) 독일어 봇에 대해서만 지원됩니다.
의도 없음 활성화되고 나면 ML 엔진을 사용한 일치 의도에 긍정 오류가 생길 가능성을 줄이는 더미 플레이스 홀더 의도가 생성됩니다. ML 활성화(기본값), 비활성화
에포크(Epoch) 신경망 학습을 위한 반복 횟수. ML 20에서 300 사이, 10씩 증가(기본 설정 20) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
배치 크기 학습시키는 동안 각 배치에 사용한 학습 샘플 수 ML 10에서 30 사이, 5씩 증가(기본 설정 10) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
학습률 네트워크의 가중치가 손실 기울기와 관련해서 조정되는 정도를 제어하는 하이퍼 매개변수 ML 1e-4에서 1e-3 사이, 1e-2씩 증가(기본 설정 1.00E-03) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
드롭아웃 모델의 과최적화를 피하기 위한 정규화 매개 변수 ML 0에서 0.8 사이, 0.1씩 증가(기본 설정 0) 네트워크 유형이 MLP-BOW, MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
벡터화 학습 데이터의 특징 추출 기법 ML 카운트(기본값), tfidf 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
최대 시퀀스 길이 학습 샘플 또는 사용자 입력의 길이 ML 10에서 30 사이, 5씩 증가(기본 설정 20) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
임베딩 유형 학습 데이터의 특징 추출 기법 ML 생성, 무작위(기본값) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
임베딩 차원 기능화하는 데 사용할 임베딩의 차원 ML 100에서 400 사이, 50씩 증가(기본 설정 300) 네트워크 유형이 MLP-WordEmbeddings, LSTM, CNN으로 설정된 경우에만 유효합니다.
K 폴드 교차 검증을 위한 k폴드 매개 변수 ML 2에서 10 사이, 1씩 증가(기본 설정 2)
퍼지 일치 이 설정은 의도 식별을 위한 퍼지 일치 알고리즘을 사용을 활성화합니다. ML 활성화(기본값), 비활성화
부정어 처리 이 설정을 통해 의도 식별에서 부정어를 처리할 수 있습니다. ML 활성화(기본값), 비활성화
다중 발생 무시 활성화되고 나면, 벡터화를 위해 단어의 빈도는 무시됩니다. ML 활성화(기본값), 비활성화 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
사용자 발화의 엔티티 플레이스 홀더 사용자 발화에 있는 엔티티를 해당 플레이스 홀더로 대체할 수 있습니다. ML 활성화(기본값), 비활성화 네트워크 유형이 MLP-BOW로 설정된 경우에만 유효합니다.
문장 분할 사용자 발화의 문장을 분할하고 완전한 사용자 입력을 통해 의도 탐지를 수행합니다. ML 활성화(기본값), 비활성화
다중 의도 모델 모든 하위 의도를 구성하는 각 기본 의도에 별도의 ML 모델을 활성화합니다. ML 활성화, 비활성화(기본값)
은닉층의 뉴런 은닉층에 사용되는 뉴런 수를 설정하는 데 사용합니다 ML 범위: 0 ~ 1000 표준 네트워크 유형에만 적용 가능
Softmax 온도 ML 엔진이 ML 모델에서 최상의 의도를 얼마나 확실하게 식별해야 하는지 정의하려면 사용합니다. 온도는 softmax에서 최종 확률에 영향을 주는 로짓(모델 출력)에 적용되는 하이퍼 매개변수입니다. ML 범위: 0 ~ 100 표준 네트워크를 제외한 모든 네트워크 유형
ML의 철자 수정 예측하는 동안 ML 봇 사전에서 철자 수정을 지원하려면 활성화합니다. 사용자 정의(ML) 활성화, 비활성화(기본값) 영문 봇에만 적용 가능합니다.
의도 제거 규칙 의도 일치를 제거하기 위해 사전 구축된 규칙을 적용하려면 활성화합니다. RR 활성화(기본값), 비활성화 영어, 스페인어, 프랑스어 및 독일어 봇에만 적용됩니다.
코사인 유사도 감소 코사인 유사도 감소를 통해 길이가 짧은 질문에 대한 불이익을 방지합니다. KG 활성화(기본값), 비활성화
의도 이름으로서의 FAQ 이름 FAQ가 대화와 연결되어 있어도 FAQ의 1차 질문을 의도 이름으로 사용 KG 활성화, 비활성화(기본값)
모호성 해소를 위한 FAQ 순서 모호성 해결을 위해 표시될 FAQ 순서 설정 KG 계층별 순서, 기본 순서(기본값)
전체 일치하는 경로에서 FAQ 자동 자격 부여 해당 경로에서 사용자 질의와 일치하는 질문이 없더라도 경로가 전체 일치하는 경우 경로의 모든 FAQ에 자동으로 자격을 부여합니다. KG 활성화, 비활성화(기본값)
분류법 기반 KG 경로에 있는 모든 용어의 전체 일치만 경로 자격으로 간주해야 하는 경우 이 옵션을 활성화합니다. 사용자 정의(KG) 활성화, 비활성화(기본값)
의도 패턴을 위한 기본 최대 와일드카드 의도 패턴의 단어 사이에 기본적으로 허용되는 최대 와일드카드 수를 정의하려면 이 옵션을 사용합니다. 이 옵션은 추가적인 와일드카드를 포함하는 패턴을 명시적으로 작성하는 것을 제한하지 않습니다. FM 0~9 사이의 임의의 숫자, 기본적으로 3으로 설정됨
엔티티 패턴을 위한 기본 최대 와일드카드 엔티티 패턴의 단어 사이에 기본적으로 허용되는 최대 와일드카드 수를 정의하려면 이 옵션을 사용합니다. 이 옵션은 추가적인 와일드카드를 포함하는 패턴을 명시적으로 작성하는 것을 제한하지 않습니다. FM 0~5 사이의 임의의 숫자, 기본적으로 2으로 설정됨
의도 패턴의 일치 순서 의도의 첫 번째 패턴 일치를 선택할지(패턴이 정의된 순서에 따라) 또는 의도에 대해 정의된 모든 패턴을 살펴보고 최상의 패턴을 찾을지 선택합니다. FM 첫 번째(기본값), 최상
패턴 일치의 등급 분류 패턴 정의와 비교해 볼 때 사용자 입력에 있는 와일드카드 수에 따라 패턴 일치를 유망한 일치로 분류할지 여부를 선택합니다. FM  0~9 사이의 임의의 숫자, 기본적으로 3으로 설정됨
문장에서 첫 번째 패턴 일치만 선호 단일 문장에서 여러 패턴이 일치하는 경우 문장에서 첫 번째 패턴 일치만 선호할지 또는 문장에서 모든 패턴 일치를 선택할지 여부를 선택합니다. FM 활성화(기본값), 비활성화
정확한 작업 이름 일치 '작업 이름 단어를 사용한 의도 탐지'가 비활성화된 경우 시스템이 엄격한 패턴을 자동으로 생성할지 여부를 선택합니다. FM 활성화(기본값), 비활성화

ML 엔진 관련

복합어 분할

복합어는 두 개 이상의 단어가 결합되어 완전히 새로운 의미를 가진 새로운 단어를 만들 때 형성됩니다. 특히 두 개(또는 그 이상) 단어가 결합하여 합성어를 형성하며 무한한 양의 새로운 합성어로 이어지는 독일어의 경우입니다. 예를 들어, Bilder | buch(그림책)의 -er처럼 구성 요소는 전환 요소와 연결됩니다. 혹은 수식어의 일부를 삭제할 수 있습니다. 예를 들어, Kirch | turm(교회 탑), 여기서 기본형 Kirche의 마지막 -e가 삭제됩니다. 종종 합성어가 어간과는 완전히 다른 것을 의미하기도 합니다. 예를 들어, 어간 grun | der(green|the))을 가진 Grunder입니다. NLP 관점에서, NLP 엔진이 단어와 프로세스를 분할하여야 하는 시점과 전체 단어를 처리해야 하는 시점을 이해하는 것이 중요합니다. 이 설정을 통해 복합어를 처리하는 방법을 선택합니다. 활성화되고 나면, 사용자 발화에 있는 복합어가 어간으로 분할된 다음 의도를 탐지를 위한 평가 대상이 됩니다.

의도 없음

기계 학습(ML) 엔진은 학습 발화를 통해 학습 기반 사용자 발화를 평가하는 모델을 구축합니다. ML 모델은 사용자 입력을 이와 같은 입력으로 분류하려고 합니다. 그러나 어휘가 범위 밖에 있는 경우에도 ML은 이것 역시 분류하려고 하며 이는 경우에 따라 엔티티의 의도에 방해가 될 수도 있습니다. 예를 들어, 엔티티 노드에 있는 사람의 이름이 의도를 트리거해서는 안 됩니다. 의도 없음을 추가하면 봇에서 이러한 의도에 대한 임의의 입력을 분류하도록 할 수 있습니다. 활성화되고 나면 사용자 발화에 봇 학습, 즉, 봇 어휘에서 사용되지 않은 단어가 포함된 경우 ML 모델이 이러한 의도 없음을 식별하도록 조정됩니다.

ML 엔진 외부화

기계 학습에서 하이퍼 매개 변수는 학습 프로세스를 제어하는 데 그 값을 사용하는 매개 변수입니다. 하이퍼 매개 변수는 봇의 추가 사용자 정의 옵션을 제공합니다. 다음은 사용자 정의할 수 있는 ML 설정입니다.

네트워크 유형

사용하려는 신경망을 선택할 수 있습니다. 이 설정은 v8.1 이후 기계 학습 섹션으로 이동되었습니다. 자세한 내용은 여기를 참조하세요.

에포크(Epoch)

인공 신경망 관점에서 에포크(Epoch)는 전체 학습 데이터 세트를 통한 한 주기를 의미합니다. 비 학습 데이터에서 좋은 성과를 얻으려면, 일반적으로(항상 그런 것은 아님) 학습 데이터에 대하여 두 번 이상은 통과해야 합니다. 에포크(Epoch) 수는 학습 데이터 세트를 통한 완전한 통과 수를 제어하는 하이퍼 매개 변수입니다.

배치 크기

배치 크기는 기계 학습에서 사용하는 용어이며 1회 반복에서 사용하는 학습 예제의 수를 의미합니다. 신경망을 학습시킬 때 오차 기울기 추정치의 정확도를 제어합니다. 배치 크기는 모델의 내부 매개 변수가 업데이트되기 전에 학습시킬 학습 샘플의 수를 제어하는 하이퍼 매개 변수입니다.

학습률

기계 학습 및 통계에서, 학습률은 손실 함수의 최소값을 향해 이동하면서 각 반복에서 단계 크기를 결정하는 최적화 알고리즘의 조정 매개변수입니다. 손실을 기반으로 신경망에서 가중치 업데이트를 제어하는 매개 변수로 생각할 수 있습니다.

드롭아웃

드롭아웃이라는 용어는 신경망에서 단위(숨김 및 표시)를 누락시키는 것을 의미합니다. 간단히 말해서, 드롭아웃은 무작위로 선택된 특정 뉴런 세트의 학습 단계에서 단위(즉, 뉴런)를 무시하는 것을 의미합니다. 이는 데이터의 과최적화를 방지하기 위한 정규화 기법입니다.

벡터화

벡터화는 요소별 연산 대신 계산에 벡터 연산을 사용하여 알고리즘을 최적화하는 방법입니다. 학습 데이터에 대한 특징 추출 기법을 결정하는 데 사용됩니다. 다음 중 하나로 설정할 수 있습니다.

  • 카운트 벡터화는 주어진 텍스트 문서를 텍스트의 각 단어 발생 빈도(개수)를 기반으로 하는 용어/토큰 수의 벡터로 변환하는 데 사용됩니다. 텍스트가 여러 개 있고, 텍스트의 각 단어를 추가 텍스트 분석에 사용하기 위해 벡터로 변환해야 할 때 유용합니다. 벡터 표현을 생성하기 전에 텍스트 데이터의 사전 처리를 가능하게 합니다.
  • TFIDF 벡터화는 문서 모음에서 문서와 단어의 관련성을 평가하는 통계적 측정입니다. 이는 문서에 단어가 나타나는 횟수(용어 빈도 TF)와 문서 집합에서 단어의 역 문서 빈도(IDF), 두 가지 지표를 곱한 것입니다.

최대 시퀀스 길이

문장을 처리할 때(학습 또는 예측을 위해) 시퀀스의 길이는 문장의 단어 수입니다. 최대 시퀀스 길이 매개 변수는 학습 대상으로 고려할 최대 단어 수입니다. 사용자 입력 또는 학습 구문 문장 시퀀스 길이가 최대 문장 길이보다 길면 이 길이로 자르고 그보다 작으면 문장을 특수 토큰으로 채웁니다.

임베딩 유형

(단어) 임베딩은 입력/학습 텍스트에서의 단어 또는 구의 벡터 표현입니다. 유사한 의미를 가진 단어는 n차원 공간에서 유사한 벡터 표현을 가지며 벡터 값은 신경망과 유사한 방식으로 학습됩니다. 임베딩 유형은 다음 중 하나로 설정할 수 있습니다.

  • 무작위(기본 설정): 처음에는, 모든 단어에 무작위로 임베딩이 할당된 다음 임베딩이 학습하는 동안 주어진 학습 데이터에 최적화됩니다.
  • 생성됨: 학습이 시작되기 직전에 단어 임베딩이 생성됩니다. Word2Vec 모델은 단어 임베딩을 생성하는 데 사용됩니다. 이렇게 생성된 임베딩을 학습 중에 사용합니다. 이렇게 생성된 단어 임베딩은 학습하는 동안 주어진 학습 데이터에 최적화됩니다.

임베딩 차원

임베딩 차원은 임베딩 벡터의 크기를 정의합니다. 단어 임베딩이 무작위 혹은 생성된 경우, 임의의 숫자를 임베딩 차원으로 사용할 수 있습니다.

K Fold 교차 검증

교차 검증은 제한된 데이터 샘플에서 기계 학습 모델을 평가하는 데 사용되는 리샘플링 절차입니다. 이 절차에는 주어진 데이터 샘플이 분할된 그룹의 수를 의미하는 k라는 단일 매개 변수가 있습니다. 이 설정을 통해 K 매개 변수를 설정할 수 있습니다. 교차 검증에 대한 자세한 내용은 여기를 참조하세요.

퍼지 일치

퍼지 일치는 시스템이 정확하지 않은 일치를 식별하게 하는 대략적인 문자열 일치 기술입니다. ML 엔진은 퍼지 일치 논리로 확실한 일치를 식별합니다. 퍼지 일치 알고리즘은 사용자 발화와의 유사성을 기반으로 의도에 퍼지 검색 점수를 할당합니다. 퍼지 일치 점수가 95점 이상(0-100점 만점)인 의도는 최종 일치로 식별됩니다. 그러나, 퍼지 일치는 철자가 비슷하지만 의미가 다른 단어가 있는 경우 긍정 오류를 생성할 수 있습니다. 예를 들어 가능(possible) 대 불가능(impossible) 또는 가능(available) 대 불가능(unavailable)의 경우를 들 수 있습니다. 이 동작은 경우에 따라 문제가 됩니다. 이 옵션을 비활성화하고 ML 엔진이 이 일치 알고리즘을 사용하지 않도록 할 수 있습니다.

부정어 처리

사용자 발화에 부정어가 있을 때 ML 엔진의 동작을 선택하도록 설정됩니다. 부정어 처리 구성이 활성화된 경우, 사용자 발화에 부정어 경향의 단어가 있다면 의도의 ML 점수에 불이익을 적용합니다.

다중 발생 무시

사용자 발화에 같은 단어가 여러 번 나타나는 경우 의도 식별이 왜곡되는 경우가 있습니다. 다중 발생 무시 설정을 활성화하면 사용자 발화에 있는 같은 단어의 다중 발생이 무시됩니다. 벡터화 및 후속 의도 일치를 위해 반복되는 단어를 두고 한 번만 더 평가하게 됩니다.

사용자 발화의 엔티티 플레이스 홀더

의도 탐지 기능을 향상시킬 수 있도록 시스템이 사용자 발화에 있는 엔티티 값을 엔티티 플레이스 홀더로 대체하려는 경우가 있습니다. NER 모델로 해결되지 않은 엔티티는 대체에 사용되지 않으므로, 이 옵션을 활성화하면 모든 학습 발화에 주석을 달 것을 강력하게 권장합니다. 최종 사용자 상호 작용, 배치 테스트, 발화 테스트, 대화 테스트의 사용자 발화에서 이러한 엔티티가 대체됩니다.

문장 분할

사용자 입력에 여러 개의 문장이 있는 경우 각 문장에 하나씩 여러 개의 의도 호출이 이루어집니다. 어떤 경우에는 적합하지 않을 수도 있습니다. 예를 들어 사용자 발화, 티켓을 예약하고 싶습니다의 경우입니다. 쇼 예약으로 리디렉션하기티켓을 예약하고 싶습니다쇼 예약으로 리디렉션하고 싶습니다에 대해 0.6 ML 점수를 얻고 총 ML 점수 0.6이 됩니다. 이 설정을 비활성화하면 의도 식별을 위해 원래의 사용자 입력을 ML로 보내게 되고 위의 예에 대해서는 0.99 같은 확실한 점수를 얻게 됩니다.

다중 의도 모델

이 기능을 활성화하면, 귀하의 봇에 사용할 수 있는 여러 ML 의도 모델을 생성할 수 있습니다. 모든 기본 대화 의도는 봇 수준 의도 모델의 일부가 됩니다. 별도의 대화 수준 ML 모델은 각각 다른 대화 작업, 하위 대화 작업에서 작성되며 각 작업 지정에서 사용된 하위 의도를 구성합니다. 자세한 내용은 여기를 참조하세요.

은닉층의 뉴런

은닉층의 뉴런은 ML 모델에서 의도 식별을 수행하는 동안 채택할 강도/엄격성을 결정합니다. 뉴런 수가 많을 수록 정확도가 높아지지만 학습을 완료하려면 더 긴 시간이 필요합니다. 뉴런 수가 적으면 정확도는 떨어지지만 학습 시간은 빨라집니다. 기본적으로 1000으로 고정되어 있습니다. 이상적으로, 이 값은 봇의 의도 수의 1배여야 하며 정확도를 높이려면 최대 2배까지 올릴 수 있습니다. 이는 일반적인 권장 사항이며 학습의 품질에 따라 다릅니다

Softmax 온도

Softmax 온도를 사용하면 ML 엔진이 ML 모델에서 최상의 의도를 얼마나 확실하게 식별해야 하는지 정의할 수 있습니다. 온도는 softmax에서 최종 확률에 영향을 주는 로짓(모델 출력)에 적용되는 하이퍼 매개변수입니다. 0에서 1 사이의 어떤 값은 ML 엔진이 신뢰도가 낮은 최상의 의도를 식별해야 함을 나타냅니다. 0은 신뢰도가 매우 낮고 1은 일반적인 신뢰도입니다. 1에서 100 사이의 값은 ML 엔진이 최상의 의도에 대해 높은 신뢰도를 보임을 나타냅니다. 1은 일반적인 신뢰도이며 가능한 경우 100은 높은 신뢰도입니다.

ML에서 철자 수정

영어로 된 봇의 경우, ML 봇 사전에서 철자 수정이 발생하지 않습니다. 이로 인해, ML 학습에 크게 의존하는 봇은 문제가 발생할 수 있습니다. 이 문제는 예측하는 동안 ML 봇 사전에서 철자 수정을 활성화하여 해결할 수 있습니다. NLP 고급 설정에서 사용자 정의 구성을 추가하여 달성할 수 있습니다. 이것은 사용자 정의 설정이며, 활성화하려면 다음 단계를 따르세요.

  1. 사용자 정의 추가
  2. 이름을 ML_spell_correction으로 입력
  3. 값을 사용 함 또는 사용 안 함으로 입력

RR 엔진 관련

의도 제거 규칙

R&R 엔진에는 가능한 ML 일치를 거부하는 몇 가지 보호 규칙이 있습니다. 예를 들어, 사용자 입력에 동사 단어만 포함된 경우 의도를 거부하는 것입니다. 그러나, R&R 엔진이 제거 규칙을 적용하고 모호성을 해결하기 위해 최종 사용자에게 모든 조건에 맞는/최상의 의도를 제시하는 것을 원하지 않을 가능성이 있습니다. 이 설정을 비활성화하면 유연성이 생기며, 단일 동사 일치(ML 및 FM), 엔티티가 CR 문장과만 일치(ML), 이전의 패턴 일치(다중 문장 시나리오)(FM), 또는 이전의 확실한 일치(다중 문장 시나리오)(전체)와 같은 규칙과 일치하는 의도가 제거되지 않습니다.

KG 엔진 관련

코사인 유사도 감소

단어 일치를 기반으로 FAQ 식별이 수행됩니다. 이 접근 방식의 문제점은 해당 학습된 발화보다 적은 수의 단어를 가진 사용자 발화는 낮은 점수를 받는다는 것입니다. 이 같은 스코어링으로 인해 의도 식별에 실패하게 됩니다. 코사인 유사성 감소 설정이 활성화되면 학습된 발화보다 적은 수의 단어를 가진 사용자 발화(즉, 1차 및 대체 질문)가 설정이 비활성화된 경우보다 일치 점수가 더 높게 됩니다.

의도 이름으로서의 FAQ 이름

이 옵션은 다음 시나리오에서 1차 질문 또는 대화 작업 이름을 표시할지 여부를 관리합니다.

  • 의도 이름이 사용자에게 표시되는 경우
    • 모호성 해소 흐름
    • 후속 조치
  • 발화 테스트
  • 배치 테스트
  • NLP 분석
  • 분석(대시보드, 맞춤형 대시보드, 대화 흐름 및 지표)
  • 의도 탐지 – 순위 흐름

FAQ 순서

사용자가 모호한 경우 질의를 하면 사용자에게 무작위로 FAQ를 제시하여 모호성을 해소합니다. 그러나 질문이 KG에 나타나는 위치에 따라 순서대로 질문을 제시함으로써 최종 사용자에게 향상된 경험을 제시해야 합니다. 즉, 일반적인 질문으로 시작한 다음 더 구체적인 질문으로 이어집니다. 단지 이 목적을 위해 "모호성 해소를 위한 FAQ 순서" 옵션을 사용할 수 있습니다. 이 옵션을 계층별 순서로 설정함으로써, 상위 수준의 FAQ를 먼저 표시한 다음 바로 다음 수준에 추가된 FAQ가 이어지며 이 순서는 R&R 엔진에서도 적용됩니다.

FAQ 자동 자격 부여

사용자 질의가 KG의 특정 경로와 일치하지만 해당 경로에 추가된 질문과 일치하지 않는 경우, 일치하는 경로의 질문을 사용자에게 모호한 것으로 표시하도록 선택할 수 있습니다. 일치하는 경로에 FAQ가 하나만 포함된 경우, '최상의' FAQ로 간주합니다. 루트 용어 일치는 고려되지 않음을 유의하세요.

분류법 기반 KG

지식 그래프 모델은 경로 자격 및 질문 일치의 2단계 모델로 작동합니다. 기본적으로, 경로는 항상 완전한 자격을 부여받을 필요는 없습니다. 부분 경로 일치(임곗값 이상)도 적격한 것으로 간주하며 이러한 경로의 질문은 사용자 입력을 일치시키는 데 사용됩니다. '분류법' 기반 접근 방법에서는 '경로'가 항상 완전히 일치해야 합니다. 이는 경로의 모든 용어가 동등하게 중요하며 경로의 모든 용어가 완전히 일치하는 경우에만 적격한 것으로 간주되어야 하는 상황을 충족하기 위함입니다. 경로가 적격한 경우, 사용자 입력에 대한 의도 식별을 위해 해당 경로 또는 경로들의 질문을 고려해야 합니다. 이것은 사용자 정의 설정이며, 활성화하려면 다음 단계를 따르세요.

  1. 사용자 정의 추가
  2. 이름을 KG_taxonomy_based로 입력
  3. 값을 사용함으로 입력

참고: 이 설정을 활성화하면 용어 설정에 용어 표시 이름, 경로 자동 자격 부여 설정을 추가할 수 있지만 지식 작업에 경로 범위 및 최소 수준 및 명확한 수준 설정은 사용할 수 없습니다. 자세한 내용은 여기를 참조하세요.

FM 엔진 관련

의도 패턴을 위한 기본 최대 와일드카드

기본적으로, 의도 패턴에서 허용되는 최대 와일드카드 수를 정의합니다. FM 엔진은 패턴 정의에 사용된 단어 사이에서 사용자 입력의 와일드카드가 최대 X개인 경우에만 의도 패턴과 일치시킵니다. 와일드카드가 X개 더 많은 발화에는 의도 패턴 일치로 자격을 부여하지 않습니다. 예를 들어, 값이 4로 설정되면 ‘Book Ticket to *’ 패턴은 ‘Book a direct oneway flight ticket to Chicago’과 일치합니다. 더 많은 수의 와일드카드를 포함하는 엔티티 패턴(예: *~Y)을 명시적으로 작성하는 경우에는 영향을 미치지 않습니다

엔티티 패턴에서 허용되는 최대 와일드카드

기본적으로 엔티티 패턴에서 허용되는 최대 와일드카드 수를 정의합니다. FM 엔진은 패턴 정의에 사용된 단어 사이에서 사용자 입력의 와일드카드가 최대 X개인 경우에만 엔티티 패턴과 일치시킵니다. 와일드카드가 X개 더 많은 발화에는 엔티티 패턴 일치로 자격을 부여하지 않습니다. 예를 들어, 값이 4로 설정되면 ‘Book Ticket to *’ 패턴은 ‘Book a direct oneway flight ticket to Chicago’과 일치합니다. 더 많은 수의 와일드카드를 포함하는 엔티티 패턴(예: *~Y)을 명시적으로 작성하는 경우에는 영향을 미치지 않습니다

의도 패턴 일치 순서

첫 번째 패턴 일치를 선택할지 또는 모든 패턴을 평가하고 최상의 패턴을 선택할지를 정의합니다. "First"는 의도에 대해 발견된 첫 번째 의도 패턴 일치를 고려한다는 의미이며 "Best"는 모든 패턴을 처리하고 가장 좋은 점수를 얻은 패턴을 사용한다는 의미입니다. FM 범위는 최상의 일치를 결정하는 데 사용되며 R&R 점수는 '최상의 패턴'을 식별하는 데 사용됩니다. 의도 패턴에 대한 최상의 순서를 결정하는 것이 어려울 수 있으므로, 플랫폼이 최상의 순서를 찾도록 하는 것이 종종 도움이 됩니다.

패턴 일치의 등급 분류

기본적으로, 모든 패턴 일치는 확실한 일치입니다. 그러나, 패턴 일치에 와일드카드가 너무 많은 경우 패턴 일치를 가능한 일치로 표시하는 것이 도움이 될 수 있습니다. 패턴 일치를 가능한 일치로 간주하려면 사용자 입력에 표시할 와일드카드 임곗값 수를 선택합니다. 사용자 입력에 임곗값보다 더 많은 와일드카드(> = X)가 포함된 경우, 해당 패턴 일치는 확실한 일치로 분류됩니다. 임곗값 제한(< X) 내의 패턴 일치는 계속 확실한 일치로 처리됩니다.

문장에서 첫 번째 패턴 일치만 선호

한 문장에서 여러 패턴이 식별되는 경우, 첫 번째 패턴 일치만 고려해야 하는지 또는 모든 패턴 일치를 고려해야 하는지를 정의합니다. 활성화된 경우, FM 엔진은 첫 번째 패턴 일치만 사용하고 다른 모든 패턴 일치는 버립니다. 비활성화된 경우 FM 엔진은 문장에서 모든 패턴 일치에 자격을 부여하고 모호성 해소를 위해 고려됩니다.

정확한 작업 이름 일치

FM 엔진 설정 작업 이름을 사용한 의도 탐지 단어(자세한 내용은 여기를 참조하세요)를 사용하면 작업 이름에 있는 단어를 사용하여 작업을 일치시킬지 여부를 선택할 수 있습니다. 이 설정이 다른 학습과 충돌하는 경우 비활성화하는 것이 좋습니다. 비활성화되면, 플랫폼은 '정확한 일치'를 수행하는 엄격한 패턴을 생성합니다. 즉, 사용자 입력이 작업 이름과 정확히 일치하는 경우 일치로 간주합니다. 정확한 작업 이름 일치 설정을 사용하여 플랫폼이 엄격한 패턴을 자동으로 생성할지 여부를 선택할 수 있습니다.

메뉴