ナレッジ抽出

ナレッジグラフ抽出サービスを使用すると、企業の既存の「よくある質問と答」（FAQ）をボットナレッジグラフの中へ簡単に移動できます。

この機能は、WebページやPDF文書などの非構造化コンテンツからの抽出だけでなく、CSVファイルなどの構造化コンテンツからの抽出もサポートしています。

抽出完了後は、使いやすいインターフェースを使って質問と回答を編集することができ、また、関連するナレッジグラフノードの下でこれらを整理することができます。

抽出プロセス

ナレッジ抽出サービスを利用したデータのナレッジグラフへの移動は、以下のような手順で行われます。

抽出：PDF、Webページ、CSVファイルなど、構造化または非構造化された質問と回答のデータソースから、既存のFAQコンテンツを抽出します。この抽出は、ボットのナレッジグラフを作成する前でも後でも行うことができます。メモ：ナレッジ抽出サービスは、ソースタイプごとに特定のコンテンツ構造をサポートしています。詳細は、サポートされている形式セクションをご参照ください。
編集：データの抽出に成功すると、ナレッジグラフに移す前に質問を編集し、テキストに回答することができます。
移動：ボットにデータを追加するのは、ナレッジグラフ（KG）を作成する前でも後でも可能です。抽出したコンテンツが存在する前にKGに追加しようとすると、ボットが自動的にボット名でそれを作成します。

ナレッジエクストラクターによって、抽出したコンテンツをナレッジグラフに追加することができます。

ナレッジグラフに追加で、選択した質問をナレッジグラフのルートノードに移動させます。このオプションは、必要な用語がまだKGに追加されていない場合や、ボットにナレッジグラフが存在していない場合に使用できます。
特定用語に追加：ボットがナレッジグラフをすでに構成している場合、必要なノードに選択したコンテンツをドラッグアンドドロップします。

Webサイトからの抽出

コンテンツの抽出先ボットを開きます。
構築のトップメニューアイテムを選択します。
左側ペインから、会話スキル > ナレッジグラフをクリックします。
抽出セクションで、URLから抽出をクリックします。
抽出のための名前を入力します。
ページのURLを入力して、続行をクリックします。
抽出が完了すると、成功ステータスのページが表示されます。
ナレッジグラフに対して、関連する質問を見直して追加します。詳細は下記をご覧ください。

ファイルから抽出

メモ：ファイルサイズは5MB以下とします。ファイル形式の詳細については、サポートされている形式をご参照ください。

コンテンツの抽出先ボットを開きます。
構築のトップメニューアイテムを選択します。
左側ペインから、会話スキル > ナレッジグラフをクリックします。
抽出セクションで、URLから抽出をクリックします。
ブラウズをクリックして、ファイル（PDFまたはCSV）を探します。
続行をクリックします。
PDFファイルの場合は、抽出前に文書に注釈を付けるオプションがあります。詳細は以下をご確認ください。
抽出が完了すると、成功ステータスのページが表示されます。
ナレッジグラフに対して、関連する質問を見直して追加します。詳細は下記をご覧ください。

注釈と抽出

(v8.0で導入) ビジネスに関連するすべてのFAQがPDFファイルであって、プラットフォームで義務付けられている形式ではないかもしれません。v8.0より前のバージョンでは、このようなファイルは使用できません。しかし、アノテーションツールの導入により、コンテンツの重要なセクションを特定して文書に注釈を付けることができます。ナレッジ抽出エンジンはこの情報を利用して、文書からFAQを抽出します。メモ：これは、PDF文書にのみ適用されます。

新規にまたは過去に抽出したPDFファイルを選択します。なお、以前に抽出したファイルを使用することはできますが、そのファイルの質問をナレッジグラフに追加することはできません。
注釈と抽出をクリックします（すでに抽出されたファイルの場合は「見直して追加」オプション）。
PDF文書がアノテーションツールに読み込まれ、文書のさまざまなセクションにアノテーションを施すことができます。
注釈をつけるには、テキストを選択し、以下のようにタグをつけます。
- 見出しタグは、質問を識別するために使用します。見出しは、質問を識別するためのモデルのトレーニングに使用され、2つの連続した見出しの間の内容は、前の見出しの回答として扱われます。
- ヘッダー – このようにマークされたテキストは無視されます。ヘッダーとしてマークされたテキストは、モデルの識別と無視のトレーニングに使用されます。フッターやパラグラフなどのテキストをヘッダーとしてマークすると、バックエンドのMLモデルが無効になり、最適な結果が得られなくなるため、テキストをランダムにヘッダーとしてマークすることは避ける必要があります。
- フッター – このようにマークされたテキストは無視されます。フッターとしてマークされたテキストは、モデルの識別と無視のトレーニングに使用されます。フッターと同様にヘッダーやパラグラフなどのテキストをフッターとしてマークすると、バックエンドのMLモデルが無効になり、最適な結果が得られなくなるため、テキストをランダムにフッターとしてマークすることは避ける必要があります。
- 除外 – このテキストは抽出には使用されません。
- 無視ページ – 無視とマークされたページは、抽出に使用されません。
- 誤ったアノテーションを修正するために、アノテーションを除外することができます。
ナレッジグラフエンジンでは、抽出処理の際に見出し、ヘッダー、フッターを使用します。モデルはKGエンジンによってトレーニングされるため、文書全体に注釈を施す必要はありません。見出し、ヘッダー、フッターで数ページに注釈を施し、質問を抽出して見直すことができます。結果に満足した場合、ナレッジグラフへの質問の追加に進むことができます。そうでない場合は、満足のいく結果が得られるまで、アノテーション処理を繰り返します。
追加の文書情報が提供されます。
- 文書情報 – 文書の名前、サイズ、ページ数。
- アノテーション概要 – 特定のページおよび文書全体について、各カテゴリーにマークされたアノテーションの数。
アノテーションを行った後は、文書を抽出することができます。
質問の見直しタブでは、アノテーションやトレーニングに応じてKGエンジンが抽出した質問が表示されます。ナレッジグラフに追加したいものを選択することができます。それらをナレッジグラフの適切なノードにドラッグアンドドロップします。
抽出されたコンテンツに満足できない場合は、いつでも文書に再注釈を施すことができます。アノテーションタブをクリックするだけで、アノテーションツールに戻ることができます。
再アノテーションについても、上記と同様の手順に従います。再アノテーションを行う際には、以下の点に留意する必要があります。
- このファイルからの質問がナレッジグラフに追加されていない場合、文書に再注釈を施すことができます。
- すでに質問が追加されている場合は、注釈付きドキュメントのコピーを作成して作業することもできます。作成されたコピーには、すべてのアノテーションがそのまま残っています。

抽出したコンテンツの編集

ボットを開きます。
構築のトップメニューアイテムを選択します。
左側ペインから、会話スキル > ナレッジグラフをクリックします。
ナレッジ抽出セクションには、すべての抽出物のリストが表示されます。
編集しようとする成功した抽出物の名前をクリックします。
修正する質問と回答のペアをポイントし、[編集]アイコンをクリックします。
必要な変更を行い、保存をクリックします。

抽出したコンテンツの追加

抽出したコンテンツをナレッジグラフに追加するには、2つの方法があります。

抽出セクションより

ボットを開きます。
構築のトップメニューアイテムを選択します。
左側ペインから、会話スキル > ナレッジグラフをクリックします。
ナレッジ抽出セクションから、追加したい成功した抽出物の名前を選択します。
必要なQ&Aを、追加したいノード／用語にドラッグアンドドロップします。ドラッグアンドドロップすると、子ノードが展開されます。
複数のQ&Aを選択し、一括移動することができます。

ナレッジグラフより

ボットを開きます。
構築のトップメニューアイテムを選択します。
左側ペインから、会話スキル > ナレッジグラフをクリックします。
この質問・回答を追加するノードを選択します。
抽出から追加をクリックします。成功した抽出、失敗した抽出のリストを開きます。
移動先の成功した抽出物の名前をクリックします。
移動させたい質問・回答ペアの横にあるチェックボックスを選択して、「追加」をクリックします。

メモ：質問・回答ペアを抽出物からナレッジグラフに移動させると、もう一度移動させることはできません。このプラットフォームでは、コレクションにすでに存在する質問を抽出物から移動させようとすると、重複エラーが発生します。移動したコンテンツの変更は、ナレッジグラフから行うことができます。しかし、質問が修正されたり、ナレッジグラフから除外された場合、開発者はその質問をもう一度ナレッジグラフに追加することができます。

サポートされている形式

ナレッジ抽出サービスでは、サポートされているCSV、PDF、URL形式からのみ、FAQの抽出をサポートすることができます。なお、ファイルサイズは5MB以下とします。

CSV

ナレッジ抽出サービスは、1列目のテキストを質問とし、2列目のテキストを回答として解釈します。
ファイルにヘッダーを付けてはいけません。
ナレッジ抽出サービスでは、ヘッダーや他の列にあるテキストは無視します。

PDF

ナレッジ抽出サービスは、PDFからコンテンツを処理し、質問・回答ペアに変換します。
目次のある文書：目次のある文書が理想的であり、推奨されます。このような場合、ナレッジ抽出サービスは、まず目次を抽出し、それを使用して文書を解析し、見出しを特定します。目次に記載されている情報をもとに、見出しの階層（見出し、小見出し、副小見出しなど）を導き出します。これらのレベルは、抽出処理の一環として、デリミター（見出し｜小見出し｜副小見出し）として縦線で区切られます。
目次のない文書：このような場合、ナレッジ抽出サービスでは、事前にトレーニングした機械学習モデルを使用して、フォントスタイルまたはフォントサイズに基づいて見出しを識別します。フォントサイズを利用する場合は、見出しの階層も導き出すことができます。
統一されたヘッダーと段落ブロックで、テキストをフォーマット化します。

Webページ

ナレッジ抽出サービスでは、以下の3種類の形式のFAQ Webページをサポートしています。

直線的な質問・回答ペアで構成されたプレーンなFAQページ。
質問のハイパーリンクが同じページの回答を指しているページ。
質問のハイパーリンクが別のページの回答を指しているページ。

以下の条件では、Webページ上の特定のFAQの抽出に失敗します。

FAQページでは、質問テキストが複数のHTMLタグに分割されます。
回答に適用されたタグは、HTML DOMの構造上、抽出された質問の子でも兄弟姉妹でもありません。
質問には回答へのハイパーリンクがありません（ハイパーリンクのあるFAQに適用）。
質問が回答にハイパーリンクされているが、質問テキストが回答の上に繰り返されない場合（ハイパーリンクのあるFAQに適用）。

上記のような複数のFAQページタイプで構成されている場合は、FAQページ全体の抽出に失敗します。

KG - 概要

スモールトーク

On this Page