このガイドでは、以下を学ぶことができる:
- ディファイとは?
- オールインワンのスクレイピング・プラグインと統合すべき理由。
- DifyとBright Dataスクレイピングプラグインを統合するメリット。
- Difyのスクレイピングワークフローを作成するためのステップバイステップのチュートリアルです。
さあ、飛び込もう!
ディファイローコードAI開発の力
DifyはオープンソースのLLMアプリ開発プラットフォームです。AIを搭載したアプリケーションの作成を簡素化するLLM-opsソリューションとして機能する。
より具体的には、開発者がすぐに使えるエージェント型AIアプリケーションを構築し、立ち上げることができるように支援する:
- ビジュアルワークフロービルダー:ドラッグ&ドロップのインターフェースを使用して、マルチステップのAIプロセスを設計できます。定型的なコードに煩わされることなく、さまざまなモデル、ツール、ロジックを連鎖させることができます。
- モデル非依存主義:OpenAIのGPTシリーズのようなプロプライエタリなモデルから、様々なオープンソースの代替品まで、幅広いLLMと統合できます。これにより、ユースケースに最適なものを柔軟に選択できます。
- バックエンド・アズ・ア・サービス(BaaS):バックエンドインフラのホスティング、スケーリング、管理の複雑さを処理します。これにより、お客様は基盤となるインフラを管理する代わりに、AIの機能を活用することに集中することができます。
- 拡張性:サードパーティプロバイダのプラグインやカスタムツールにより、簡単に機能を拡張することができます。これにより、Difyは幅広いユースケースに適応します。
Difyにおけるスクレイピング専用プラグインの必要性
大規模なウェブスクレイピングには多くの課題がある。ウェブサイトはボット対策を行っているため、単純なデータ取得の試みは簡単にブロックされてしまう。その結果、これらのハードルを克服するためのシステムを構築し維持することは、複雑でリソースを必要とする。
そこで、Bright Data Difyプラグインが活躍します。このプラグインは、プロキシのローテーションやIPの管理から、CAPTCHAの解決やデータの解析まで、基本的な複雑さをすべて処理します。つまり、Difyエージェントが一貫した高品質のウェブデータを受信できるようにするのです。
詳細には、Bright Dataプラグインはこれらのツールを提供します:
- 構造化データフィード:eコマースの商品ページや不動産物件など、50以上のプラットフォームから構造化され整理されたデータを取得する。
- マークダウンとしてスクレイピング:広告、ナビゲーションバー、その他必要でない要素を取り除き、マークダウン形式のクリーンなテキストを提供します。
- 検索エンジンツール:Google、Bing、Yandexなどの検索エンジンに直接クエリを実行します。特定のキーワードの検索順位をモニターしたり、競合コンテンツを発見したり、SERP RAGワークフローで使用できます。
DifyとBright Dataプラグインを統合するメリット
DifyのAIオーケストレーション機能とBright Dataのスクレイピング機能を連携させると、この機能が解放されます:
- リアルタイム・データへのアクセス:古いデータに依存する代わりに、AIエージェントはライブウェブで最新の情報を照会できます。これにより、AIアプリケーションは利用可能な最新のデータで動作することが保証されます。
- 複雑な調査と分析を自動化Difyワークフロー内のLLMに直接データを入力することで、通常であれば手作業で何時間もかかる作業を自動化することができます。例えば、RAGワークフローを構築して、eコマースサイトの競合商品リストを監視することができます。
- 技術的な複雑さを簡素化する:Webスクレイピングは、サイトが洗練されたアンチスクレイピングブロック技術を採用しているため、簡単ではありません。Bright Dataプラグインはそのブロックを回避します。Difyは、この力を利用するためのシンプルなインターフェイスを提供します。
- 多様なユースケースに対応する汎用性:このプラグインは、構造化データの取得、クリーンなマークダウンへのあらゆるページのスクレイピング、検索エンジンクエリの実行など、複数のツールを備えています。そのため、Dify + Bright Dataの統合は、様々なユースケースに適応することができます。
商品要約のためのDifyとBright Dataの統合:ステップバイステップのチュートリアル
ステップバイステップのチュートリアルで、DifyとBright Dataの統合の使い方を学びましょう。
あなたが作成するワークフローのゴールは、入力としてアマゾンの製品を与え、その要約を受け取ることです。使用する製品はAmazonのもので、Apple AirTagです:
AIスクレイピングの目的を達成するために、異なるノードを接続して4段階のワークフローを構築する。各ノードには特定のジョブがある:
- 入力変数を定義するための “Start “ノード。
- 構造化データフィード」ノードは、そのURLを取得し、そのコンテンツをスクレイピングし、Amazonページからすべての構造化データを抽出する。
- スクレイピングされたデータを処理する “LLM “ノード。LLM “ノードには、製品概要を生成するための特定のプロンプトを指示する。
- LLMによって生成された要約テキストを提示する「End」ノード。
この4段階のAIスクレイピング・プロセスはすべて完全に視覚化されている。これらのノードをシンプルなフローで接続し、コードを1行も書く必要はありません。
指示に従って、Bright Dataを利用したコード不要のWebスクレイピングAIワークフローをDifyで構築してください!
必要条件
DifyとBright Dataを統合する方法についてのこのチュートリアルを再現するには、以下のものが必要です:
- Difyアカウント(無料アカウントで十分です。)
- Bright Data APIキー。
まだお持ちでない方は、上記のリンクから手順に従ってセットアップしてください。
前提条件
LLMノードを使用するには、まずDifyでLLM統合を設定する必要があります。これを行うには、プロフィール画像をクリックし、”設定 “オプションを選択します:
モデルを選択するページ(”Model Provider “タブ)にリダイレクトされます。例えば、OpenAIプロバイダプラグインをインストールすることができます:
とても良い!これでDifyによるWebスクレイピングのワークフローを開始する準備が整いました。
ステップ #1: Bright Dataプラグインをダウンロードして統合する
Dify公式リポジトリから最新のBright Dataプラグインパッケージをダウンロードします。次に、”PLUGINS “を押し、”Install from Local Package File “オプションを選択します:
先ほどダウンロードしたローカルファイルを選択し、「インストール」ボタンをクリックします:
よろしい!Bright Dataの統合パッケージがDifyにインストールされました。
ステップ#2: 新規Difyアプリケーションの作成
Difyワークスペースのホームページから、下図のように “Create from Blank “を選択し、新規アプリケーションをゼロから作成します:
次に、「ワークフロー」タイプを選択し、「作成」をクリックする:
以下は、新しい空白のワークフローのイメージである:
素晴らしい!新しいDifyワークフローができました。Webスクレイピングに必要なノードを追加しましょう。
ステップ #3: ウェブスクレイピングのためのノードの設定
ワークフローにノードを追加し、Bright Data経由でDifyのWebスクレイピングワークフローに必要なパラメータを設定します。
まず “Start “ノードをクリックし、次に “INPUT FIELD “をクリックする:
タイプとして “Paragraph “を選択し、”Variable Name “フィールドに名前を付けます。例えば、product_url
。Max length “の値を少なくとも200に変更する。これは、スクレイピングするターゲットページのURLを表します。ワークフローを起動するには、このフィールドに入力を渡す必要がある。
保存」ボタンをクリックして確認する:
完璧だ!Start “ノードが正しく設定されている。
Start “ノードの “+”をクリックします。ツール” > “Bright Data Web Scraper” > “Structured Data Feeds “を選択します:
Bright Dataノードは、Difyのワークフローを[Bright Data AIインフラストラクチャ](
/ai)に接続する橋渡しの役割を果たします。AIスクレイピングエージェントにウェブから必要な情報をスクレイピングする機能を提供します。
構造化データフィード」ツールを選択することで、乱雑なアマゾンの商品ページを、予測可能なデータフィールドを持つ構造化されたJSON出力に変えることができる。
Authorize」をクリックして、Bright Data APIトークンを入力してください:
入力変数としてproduct_url
を選択します。そうすることで、”Start “ノードは、Bright Dataノードの入力として、商品URLの実際の値を渡します。
これを行うには、”Target URL “フィールドに”/”を入力すると、使用可能な変数のリストが表示されます。また、”Data Request Description “フィールドに説明を追加する:
よろしい!Bright Dataノードがセットアップされました。次のノードに移動できます。
をクリックし、LLMノードを追加する:
MODEL “セクションで “Configure model “を選択し、リストからLLMモデルを選択する:
SYSTEM」セクションに、次のようなプロンプトを追加する:
You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.
Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.
Data:
{{Structure_Data_Feeds.text}}
このプロンプトは、LLMにeコマースアナリストとして、スクレイピングされた商品の要約を作成するよう指示する。また、商品名や主な特徴のような具体的な詳細も求めています。最後にBright Dataプラグインノードのテキスト結果が含まれていることに注意してください。
記入欄はこのようになります:
プロンプトの “Data “セクションの下に、入力変数としてテキストを
追加する。これにより、LLMはBright DataノードがターゲットURLから取得したコンテンツを使用できるようになります。をクリックすると、選択可能な変数のリストが表示されます。
よろしい!これでワークフローに最後のノードを追加できる。
ワークフローの出力は、”End “ノードを追加することで得られる:
出力変数は、LLMノードからの文字列でなければならない。そのためには、”OUTPUT VARIABLE “セクションをクリックし、”LLM “の下にある “text “を選択する:
驚いた!ワークフローが正しく設定されました。これでワークフローを実行する準備が整いました。
ステップ4:ワークフローの実行
以下は、Bright Dataプラグインを使ったDifyでのWebスクレイピングのワークフローです:
ご覧のように、この章では4つのノードだけで構成されています。また、目標を達成するためにコードを1行も書く必要はありません!
ワークフローを実行するには、”Run “をクリックする。この時、”product_url “フィールドにAmazon商品のURLを追加する必要があります。そして、”Start Run “をクリックし、DifyのWebスクレイピングワークフローを起動します:
結果は「結果」タブで見ることができる:
以下はその結果である:
**Product Name:** Apple AirTag
Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.
**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.
**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews
This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.
LLMは、あなたがプロンプトで要求したことを報告した:
- 製品の概要を一文。
- 5つの主な特徴
- 評価だ。
- この製品が誰のためのものなのかを示す、決定的な一文。
アマゾンのような大手eコマースサイトをスクレイピングしようとしたことがある人なら、その難しさを知っているだろう:
ここでBright Dataの統合が大きな違いを生み出します。Bright Dataは、複雑なスクレイピング対策をすべて裏で処理し、データ検索プロセスが期待通りに機能するようにします。
出来上がりです!DifyとBright Dataを統合する最初のプロジェクトが完了しました。
結論
この記事では、Difyを使ってノーコードのAIスクレイピングワークフローを構築する方法を学びました。これはBright Data Difyプラグインなしでは不可能だったでしょう。ここで示したように、このプラグインはAIワークフローの中でウェブスクレイピングのためのいくつかの高度なツールを公開しています。
AIエージェントのための信頼性の高いスクレイピングワークフローを構築する主な課題の一つは、高品質のウェブデータにアクセスすることです。これには、ウェブコンテンツを取得、検証、変換するツールが必要であり、ブライト・データのAIインフラはまさにこれを提供するために構築されています。
無料のBright Dataアカウントを作成し、今すぐAI対応データツールの実験を始めましょう!