Web サイトを取り込む

Web サイトのコンテンツを取り込んでボットに学習させることで、そのサイトの情報に基づいた回答を生成できるようになります。ボットごとに最大 3 つの Web サイトを取り込めます。

取り込めないサイトについて

以下のような Web サイトは取り込めません：

認証が必要なサイト。
robots.txt で取り込みが拒否されている Web サイト。
SSL 証明書に問題があるサイト。
アクセスしたあとに [追加で読み込む] のようなボタンをクリックすることで追加コンテンツが取得できるサイト。

この場合、追加コンテンツは学習できません。

Web サイトの URL を 1 つ指定して巡回方式で取り込む

指定した URL を起点にリンクされたページを自動的に巡回して取り込む方法です。サイト全体の情報を効率的に学習させたい場合に適しています。巡回方式では Web サイトごとに、最大 300 ページまで巡回して取り込めます。

管理コンソールにログインして、メニューの [学習データ] → [Web サイト取り込み] を順にクリックします。

Web サイト取り込み画面が表示されます。
[Web サイトの追加] の [取り込み方法] で「Web サイト巡回」を選択します。

以下の項目を設定します。

項目	説明
[URL]	取り込む Web サイトの URL を入力します。例: `https://example.com`
[学習タイプ]	Web サイトの種類に応じて選択します。 Simple (一般的な静的 Web サイト): 一般的な静的 Web サイトを取り込む場合に選択します。 SPA (高度な動的 Web サイト): 高度な動的 Web サイト向けの設定です。「Simple (一般的な静的 Web サイト)」を選択した場合と比べて時間がかかりますが、より正確に取り込めます。
[スコープ]	取り込む範囲を選択します。 domain (ドメイン全体): ドメイン全体のページを取り込みます。たとえば、`https://example.com/docs/` を指定すると `https://example.com/` 全体が対象になります。 path (指定パス以下): 指定したパス以下のページのみ取り込みます。たとえば、`https://example.com/docs/` を指定すると `/docs/` 以下のページのみが対象になります。
[リクエスト間隔（ミリ秒）]	リクエスト間隔を設定します。`0` を指定すると制限なしで取り込みます。設定範囲は `0～5000` ミリ秒、既定値は `300` ミリ秒です。
[ページごとの読み込み待機時間（ミリ秒）]	ページごとの読み込み待機時間を設定します。 [学習タイプ] が SPA の場合のみ設定できます。設定範囲は `100～5000` ミリ秒、既定値は `4000` ミリ秒です。

[学習開始] をクリックします。

Web サイトが取り込まれ、学習が開始されます。

学習処理のロックについて

他の学習処理 (ファイルアップロード、Box 連携、直接入力、再学習など) が実行中の場合、入力や [学習開始] が無効になります。完了後に再度実行してください。

Web サイトの URL を複数指定してその URL のみを取り込む

特定の URL のみを指定して取り込む方法です。Web サイト巡回ではページ数の制限で取り込めなかった重要なページや、必要なページだけを厳選して学習させたい場合に便利です。

管理コンソールにログインして、メニューの [学習データ] → [Web サイト取り込み] を順にクリックします。

Web サイト取り込み画面が表示されます。
[Web サイトの追加] の [取り込み方法] で「URL を一覧で指定」を選択します。

以下の項目を設定します。

項目	説明
[URL 一覧]	取り込む Web ページの URL を改行区切り (1 行につき 1 つの URL) で入力します。例: `https://example.com/page1 https://example.com/page2 https://example.com/page3` 最大 300 行まで入力できます。全体で 100 KB まで入力できます。
[学習タイプ]	Web サイトの種類に応じて選択します。 Simple (一般的な静的 Web サイト): 一般的な静的 Web サイトを取り込む場合に選択します。 SPA (高度な動的 Web サイト): 高度な動的 Web サイト向けの設定です。「Simple (一般的な静的 Web サイト)」を選択した場合と比べて時間がかかりますが、より正確に取り込めます。
[リクエスト間隔（ミリ秒）]	リクエスト間隔を設定します。`0` を指定すると制限なしで取り込みます。設定範囲は `0～5000` ミリ秒、既定値は `300` ミリ秒です。
[ページごとの読み込み待機時間（ミリ秒）]	ページごとの読み込み待機時間を設定します。 [学習タイプ] が SPA の場合のみ設定できます。設定範囲は `100～5000` ミリ秒、既定値は `4000` ミリ秒です。

[学習開始] をクリックします。

取り込み処理が開始され、学習が開始されます。

学習処理のロックについて

他の学習処理 (ファイルアップロード、Box 連携、直接入力、再学習など) が実行中の場合、入力や [学習開始] が無効になります。完了後に再度実行してください。

取り込んだページの内容を管理する

取り込んだページの内容は、Markdown 形式に変換され、ボットの知識として学習されます。この Markdown 形式のデータを確認することで、ボットが適切に回答できるかどうかを判断できます。

Web サイト取り込み画面を表示します。

取り込み済みの Web サイトがある場合、 [取り込み済みの Web サイト] に以下の情報が表示されます。
- URL: 取り込み済みの Web サイト URL が表示されます。なお、取り込み時に選択した [取り込み方法] によって表示される URL が異なります。
  - [取り込み方法] で「Web サイト巡回」を選択した場合は、指定した URL (巡回の起点となった URL) が表示されます。
  - [取り込み方法] で「URL を一覧で指定」を選択した場合は、指定した URL の数と 1 行目に入力した URL が表示されます。
- タグ: 取り込み方法 (Web サイト巡回、URL を一覧で指定)、学習タイプ (Simple または SPA)、およびスコープ (domain、path、exact) が表示されます。
  - Web サイト巡回: 指定した URL を起点にリンクされたページを自動的に巡回して取り込みました。
  - URL を一覧で指定: 指定した URL のみを取り込みました。
  - Simple: 一般的な静的 Web サイト向けの設定で取り込みました。
  - SPA: 高度な動的 Web サイト向けの設定で取り込みました。
  - domain: ドメイン全体を巡回する設定で取り込みました。
  - path: 指定したパス以下のページを巡回する設定で取り込みました。
  - exact: 一覧で指定した URL のみを対象とした設定で取り込みました。
- [最終更新] : 処理状況が最後に更新された日時が表示されます。
- [再取り込み] をクリックすると、「再取り込みオプション」画面が表示されます。
  - 「Web サイト巡回」で取り込んだ場合は、 [学習タイプ] 、 [スコープ] 、 [リクエスト間隔 (ミリ秒)] 、 [ページごとの読み込み待機時間 (ミリ秒)] を変更して再取り込みできます。
  - 「URL を一覧で指定」で取り込んだ場合は、 [URL 一覧] 、 [学習タイプ] 、 [リクエスト間隔 (ミリ秒)] 、 [ページごとの読み込み待機時間 (ミリ秒)] を変更して再取り込みできます。
  なお、 [学習タイプ] で「Simple (一般的な静的 Web サイト)」を選択した場合は、 [ページごとの読み込み待機時間 (ミリ秒)] は変更できません。
- [Web サイトを削除] → [削除] の順にクリックすると、この Web サイトを削除できます。なお、Web サイトを削除したときは、ボットに Web サイトを忘れさせるために (削除したことを学習させるために)、続けて再学習を実行します。詳しくは、再学習を実行するを参照してください。
内容を確認する Web サイトの [取り込み済みURL] をクリックします。

取り込み済み URL 一覧画面が表示されます。
内容を確認する URL の [表示] をクリックします。

取り込み済みの内容画面が表示され、取り込まれたページの内容が確認できます。正しく取り込まれていることを確認してください。
- [Markdown 表示] をクリックすると、簡易レイアウトされた状態を確認できます。 [テキスト表示] をクリックすると、元の表示に戻ります。
取り込まれたページの内容について
- 取り込み済み URL 一覧画面で [表示] をクリックしたときに表示される内容が、ボットが学習した内容です。ここで表示されない内容は、ボットは回答できません。
- Web サイトの仕様と Wisora の相性により、学習した内容が期待通りではない場合があります。
  
  たとえば、Web サイトを取り込む際、 [学習タイプ] で「Simple (一般的な静的 Web サイト)」を選択すると、期待した内容が取り込まれないことがあります。そのときは、 [学習タイプ] で「SPA (高度な動的 Web サイト)」を選択して Web サイトを取り込んでください。
  
  具体的には、取り込み済みの内容画面で [閉じる] → [Web サイト取り込み画面に戻る] の順にクリックし、 [取り込み済みの Web サイト] の [Web サイトを削除] → [削除] の順にクリックして Web サイトを削除してから、あらためて Web サイトを取り込みます。
- 表示された内容は読み取り専用です。編集できません。
不要な URL を学習させないようにするには

[取り込み方法] で「Web サイト巡回」を選択して取り込むと、学習させる必要がない URL が取り込まれる場合があります。不要な URL は以下の手順で削除できます。
1. 取り込み済み URL 一覧画面で、削除する URL の [URL を削除] をクリックします。
2. [今後この URL を取り込まない] にチェックを入れて、 [削除] をクリックします。
  
  [今後この URL を取り込まない] にチェックを入れて削除した場合は、Web サイト取り込み画面の [無視する URL] に追加されます。
無視する URL (不要な URL) を取り消して再び取り込むには

Web サイト取り込み画面で [無視する URL] をクリックして、再び取り込む URL の [無視リストから削除] → [無視リストから削除] を順にクリックします。

実行履歴を確認するには

Web サイト取り込み画面下部の [実行履歴] で、取り込み処理の状況を確認できます。 [履歴を更新] をクリックすると、最新の実行状況を確認できます。

項目	説明
[開始時刻]	取り込み処理を開始した日時です。
[ステータス]	取り込み処理の状況（完了、実行中など）です。
[指定したURL]	[取り込み方法] の設定によって表示が異なります。「Web サイト巡回」を選択した場合は、取り込み対象として指定した URL です。「URL を一覧で指定」を選択した場合は「-」が表示されます。
[取り込み方法]	使用した取り込み方法 (Web サイト巡回、または URL を一覧で指定) です。
[学習タイプ]	使用した学習タイプです。 Simple: 一般的な静的 Web サイト向けの設定で取り込みました。 SPA: 高度な動的 Web サイト向けの設定で取り込みました。
[スコープ]	取り込み範囲の設定です。 domain: ドメイン全体を巡回する設定で取り込みました。 path: 指定したパス以下のページを巡回する設定で取り込みました。 exact: 一覧で指定した URL のみを対象とした設定で取り込みました。
[実行時間]	取り込み処理にかかった時間です。

取り込めないサイトについて

Web サイトの URL を 1 つ指定して巡回方式で取り込む

学習処理のロックについて

Web サイトの URL を複数指定してその URL のみを取り込む

学習処理のロックについて

取り込んだページの内容を管理する

取り込まれたページの内容について

不要な URL を学習させないようにするには

無視する URL (不要な URL) を取り消して再び取り込むには

実行履歴を確認するには