지식 추출

지식 그래프 추출 서비스를 사용하면 기업의 기존 FAQ(자주 묻는 질문)를 봇 지식 그래프로 편리하게 이동할 수 있습니다. 이 기능은 웹 페이지, PDF 문서 등의 구조화되지 않은 콘텐츠뿐만 아니라 CSV 파일과 같은 구조화된 콘텐츠에서도 추출할 수 있도록 지원합니다. 추출을 완료한 후에는 사용이 편리한 인터페이스를 사용하여 질문과 답변을 편집하고 관련 지식 그래프 노드에 구성할 수 있습니다.

추출 프로세스

지식 추출 서비스를 사용하여 데이터를 지식 그래프로 이동하려면 다음 단계를 수행합니다.

추출: PDF, 웹 페이지, CSV 파일과 같은 질문-답변 데이터의 구조화되거나 구조화되지 않은 데이터 소스에서 기존 FAQ 콘텐츠를 추출합니다. 이 추출은 봇의 지식 그래프를 생성하기 전이나 후에 수행할 수 있습니다. 참고 사항: 지식 추출 서비스는 각 소스 유형에 대해 특정 콘텐츠 구조를 지원합니다. 자세한 내용은 지원되는 형식 섹션을 참조하세요.
편집: 데이터를 성공적으로 추출하면 지식 그래프로 이동하기 전에 질문과 답변 텍스트를 편집할 수 있습니다.
이동: KG(지식 그래프)를 생성하기 전이나 후에 봇에 데이터를 추가할 수 있습니다. 추출된 콘텐츠가 존재하기 전에 KG에 추출 콘텐츠를 추가하려고 하면, 봇이 자동으로 봇 이름을 가진 콘텐츠를 생성합니다.

지식 추출기를 사용해 추출된 콘텐츠를 지식 그래프에 추가할 수 있습니다.

지식 그래프에 추가는 선택한 질문을 지식 그래프의 루트 노드로 이동시킵니다. 이 옵션은 필요한 용어가 KG에 아직 추가되지 않았거나 봇에 지식 그래프가 없는 경우에 사용할 수 있습니다.
특정 용어에 추가: 봇이 이미 지식 그래프로 구성된 경우 선택한 콘텐츠를 필요한 노드로 끌어서 놓습니다.

웹 사이트에서 추출하기

콘텐츠를 추출하려는 봇을 엽니다.
빌드 상위 메뉴 항목을 선택합니다.
왼쪽 메뉴에서 대화형 스킬 > 지식 그래프를 클릭합니다.
추출 섹션에서 URL에서 추출을 클릭합니다.
추출용 이름을 입력합니다.
페이지의 URL을 입력한 다음 진행을 클릭합니다.
추출이 완료되면 성공 상태가 표시된 페이지가 나타납니다.
지식 정보에 관련 질문을 검토 및 추가합니다. 자세한 내용은 아래를 참조하세요.

파일에서 추출

참고 사항: 파일 크기는 5MB를 초과할 수 없습니다. 파일 형식에 대한 자세한 내용은 아래 지원되는 형식 섹션을 참조하세요.

콘텐츠를 추출하려는 봇을 엽니다.
빌드 상위 메뉴 항목을 선택합니다.
왼쪽 메뉴에서 대화형 스킬 > 지식 그래프를 클릭합니다.
추출 섹션에서 URL에서 추출을 클릭합니다.
찾아보기를 클릭하여 파일(PDF 또는 CSV)을 찾습니다.
진행을 클릭합니다.
PDF 파일의 경우 추출 전에 문서에 주석을 달 수 있는 옵션이 있습니다. 자세한 내용은 아래를 참조하세요.
추출이 완료되면 성공 상태가 표시된 페이지가 나타납니다.
지식 정보에 관련 질문을 검토 및 추가합니다. 자세한 내용은 아래를 참조하세요.

주석 달기 및 추출

(v8.0에서 도입됨) 비즈니스와 관련된 모든 FAQ가 PDF 파일로 제공되지만 플랫폼에서 요구하는 형식에서는 제공되지 않을 수 있습니다. v8.0 이전 버전에서는 이러한 파일을 사용할 수 없습니다. 하지만 주석 도구를 도입하여 문서에 주석을 달아 콘텐츠의 주요 섹션을 식별할 수 있습니다. 지식 추출 엔진은 이 정보를 사용하여 문서에서 FAQ를 추출합니다. 참고 사항: PDF 문서에만 적용됩니다.

새 PDF 파일 또는 이전에 추출한 PDF 파일을 선택합니다. 해당 파일에 질문이 포함되어 있지 않은 경우 이전에 추출한 파일을 지식 그래프에 추가할 수 있습니다.
주석 달기 및 추출(이미 추출된 파일의 경우 검토 및 추가 옵션)을 클릭합니다.
PDF 문서가 주석 도구에 로드되어 문서의 여러 섹션에 주석을 달 수 있습니다.
주석을 달려면 텍스트를 선택하고 다음과 같이 태그를 지정합니다.
- 제목 태그는 질문을 식별하는 데 사용됩니다. 제목은 모델을 교육하여 질문을 식별하는 데 사용되며 두 개의 연속된 제목 사이의 콘텐츠를 이전 제목에 대한 대답으로 취급합니다.
- 헤더 – 이렇게 표시된 텍스트는 무시됩니다. 헤더로 표시된 텍스트는 모델을 식별하고 무시하도록 학습하는 데 사용됩니다. 헤더에 바닥글이나 단락 등의 텍스트를 표시하면 백엔드 ML 모델을 무효화하고 최적의 결과를 얻기 어려우므로 헤더에 텍스트를 무작위로 표시하는 것은 피해야 합니다.
- 바닥글 – 이렇게 표시된 텍스트는 무시됩니다. 바닥글로 표시된 텍스트는 모델을 식별하고 무시하도록 학습하는 데 사용됩니다. 헤더와 마찬가지로 바닥글에 헤더나 단락 등의 텍스트를 표시하면 백엔드 ML 모델을 무효화하고 최적의 결과를 얻기 어려우므로 바닥글에 텍스트를 무작위로 표시하는 것은 피해야 합니다.
- 제외 – 이 텍스트는 추출에 사용되지 않습니다.
- 페이지 무시 – 무시됨으로 표시된 페이지는 추출에 사용되지 않습니다.
- 주석을 제거하여 잘못된 주석을 수정할 수 있습니다.
지식 그래프 엔진은 추출 과정에서 제목, 헤더 및 바닥글을 사용합니다. 이 모델은 KG 엔진으로 학습했기 때문에 문서 전체에 주석을 달 필요가 없습니다. 두, 세 페이지에 제목, 헤더, 바닥글을 포함하여 주석을 달고 질문을 추출하고 검토할 수 있습니다. 결과가 만족스럽다면 지식 그래프에 계속해서 질문을 추가할 수 있습니다. 그렇지 않다면 결과가 만족스러울 때까지 주석 프로세스를 반복합니다.
추가 문서 정보가 제공됩니다.
- 문서 정보 – 문서의 이름, 크기 및 페이지 수입니다.
- 주석 요약 – 특정 페이지와 전체 문서의 각 범주에 대해 표시된 주석의 수입니다.
주석을 추가한 후 문서를 추출할 수 있습니다.
질문 검토 탭은 주석 및 학습에 따라 KG 엔진에서 추출한 질문을 제공합니다. 지식 그래프에 추가할 항목을 선택할 수 있습니다. 지식 그래프의 적절한 노드로 끌어서 놓습니다.
추출된 콘텐츠가 만족스럽지 않은 경우 언제든지 문서에 주석을 다시 달 수 있습니다. 주석 도구로 돌아가려면 주석 달기 탭을 클릭합니다.
주석을 다시 추가하기 위해 위에서 언급한 동일한 절차를 따릅니다. 다시 주석을 달려면 다음 사항을 염두에 두어야 합니다.
- 이 파일의 질문이 지식 그래프에 추가되지 않은 경우 문서에 주석을 다시 달 수 있습니다.
- 질문이 이미 추가된 경우 주석이 달린 문서의 복사본을 만들어 작업할 수 있습니다. 복사본이 생성되면 모든 주석이 그대로 유지됩니다.

추출된 콘텐츠 편집

봇을 엽니다.
빌드 상위 메뉴 항목을 선택합니다.
왼쪽 창에서 대화형 스킬 > 지식 그래프를 클릭합니다.
지식 추출 섹션에는 모든 추출 목록이 표시됩니다.
편집할 성공적인 추출의 이름을 클릭합니다.
편집할 질문-답변 쌍 위에 마우스를 놓고 편집 아이콘을 클릭합니다.
필요한 사항을 변경하고 저장을 클릭합니다.

추출된 콘텐츠 추가

추출된 내용을 지식 그래프에 추가하는 두 가지 방법이 있습니다.

추출 섹션에서

봇을 엽니다.
빌드 상위 메뉴 항목을 선택합니다.
왼쪽 메뉴에서 대화형 스킬 > 지식 그래프를 클릭합니다.
지식 추출 섹션에서 추가할 추출의 이름을 선택합니다.
필요한 Q&A를 추가할 노드/용어에 끌어서 놓습니다. 끌어서 놓으면 자식 노드가 확장됩니다.
여러 개의 Q&A를 선택하고 일괄 이동을 수행할 수 있습니다.

지식 그래프에서

봇을 엽니다.
빌드 상위 메뉴 항목을 선택합니다.
왼쪽 창에서 대화형 스킬 > 지식 그래프를 클릭합니다.
이러한 질문-답변을 추가할 노드를 선택합니다.
추출물에서 추가를 클릭합니다. 성공 및 실패한 추출 목록이 열립니다.
이동하려는 성공적인 추출의 이름을 클릭합니다.
이동할 질문-답변 쌍 옆의 확인란을 선택한 다음 추가를 클릭합니다.

참고 사항: 추출에서 지식 그래프로 질문-답변 쌍을 이동한 후에는 다시 이동할 수 없습니다. 컬렉션에 이미 있는 추출에서 질문을 이동하려고 시도하면 플랫폼에서 중복 오류가 발생합니다. 지식 그래프에서 이동한 콘텐츠를 변경할 수 있습니다. 지식 그래프에서 질문을 수정하거나 삭제한 경우에도 개발자가 지식 그래프에 질문을 다시 추가할 수 있습니다.

지원되는 형식

지식 추출 서비스는 지원되는 CSV, PDF 및 URL 형식에서만 FAQ를 추출을 지원합니다. 파일 크기는 5MB를 초과하지 않아야 합니다.

CSV

지식 추출 서비스는 첫 번째 열의 텍스트를 질문으로 해석하고 두 번째 열의 텍스트를 답변으로 해석합니다.
파일에 헤더가 없어야 합니다.
지식 추출 서비스는 다른 열에 있는 헤더와 텍스트를 무시합니다.

PDF

지식 추출 서비스는 PDF에서 콘텐츠를 처리하여 질문-답변 쌍으로 변환합니다.
목차가 있는 문서: 이상적으로는 목차가 있는 문서를 사용하는 것이 좋습니다. 이러한 경우 지식 추출 서비스는 목차를 먼저 추출한 다음 이를 사용하여 문서를 구문 분석하고 제목을 식별합니다. 목차에 있는 정보는 제목(제목, 부제목, 하위 부제목 등)의 계층을 파악하는 데 사용됩니다. 이러한 수준은 추출 프로세스의 일부로 구분 기호(제목 | 부제목 | 하위 부제목)로 세로 선으로 구분됩니다.
목차가 없는 문서: 이러한 경우 지식 추출 서비스는 글꼴 스타일 또는 글꼴 크기를 기준으로 제목을 식별하는 사전 학습된 기계 학습 모델을 사용합니다. 글꼴 크기를 사용하는 경우 제목 계층도 파악할 수 있습니다.
그런 다음 텍스트는 일관된 헤더와 단락 블록으로 형식이 지정됩니다.

웹 페이지

지식 추출 서비스는 다음 세 가지 형식의 FAQ 웹 페이지를 지원합니다.

선형 질문-답변 쌍이 포함된 일반 FAQ 페이지.
동일한 페이지에 답변을 안내하는 질문 하이퍼링크가 있는 페이지.
다른 페이지에 답변을 안내하는 질문 하이퍼링크가 있는 페이지.

다음 조건에서는 웹 페이지의 특정 FAQ를 추출할 수 없습니다.

질문 텍스트는 FAQ 페이지에서 여러 HTML 태그로 분할됩니다.
답변에 적용된 태그는 HTML DOM 구조에 따라 추출된 질문의 자식 태그도 아니고 형제 태그도 아닙니다.
질문에 답변에 대한 하이퍼링크가 없습니다(하이퍼링크가 있는 FAQ에 적용됨).
질문에 대한 답변이 하이퍼링크로 표시되어 있지만 답변 위에 질문 문항이 반복되지 않는 경우(하이퍼링크가 있는 FAQ에 적용됨).

페이지가 위에 언급된 FAQ 페이지 유형을 두 개 이상 포함하는 경우 전체 FAQ 페이지 추출이 실패합니다.

On this Page