このガイドでは、次の内容について説明します。
- 基本的なcURLダウンロードファイル構文
- cURLでファイルをダウンロードする際の複雑なシナリオの処理方法
- 複数のファイルを同時にダウンロードする方法
- cURLを効果的に使用するためのベストプラクティス
- cURLとWgetの簡単な比較
さっそく始めましょう!
基本的なcURLダウンロードファイル構文
これが、最も基本的なcURLダウンロードファイルの構文となります。
注:Windowsでは、 curl
を curl.exe
に置き換えてください。この操作が必要となるのは、 curl
がWindows PowerShellにおける Invoke-WebRequest
のエイリアスであり、 curl.exe
が明示的にcURLコマンドラインツールを実行するためです。
-O
フラグは、 <file_url>
で指定されたURLから、ダウンロードしたファイルを元の名前で保存するようにcURLに指示します。同様に、 --remote-name
を使用することもできます。
例として、次のダウンロードファイルcURLコマンドについて考えてみましょう。
これにより、以下のようなダウンロードプログレスバーが表示された出力が生成されます。
進行状況が100%に達すると、cURLコマンドを実行したフォルダに CSRiAeN.jpg
という名前のファイルが表示されます。
cURLについての概要と提供されるオプションの詳細については、 cURLガイドをご覧ください。より複雑なシナリオについて学ぶときがきました!
cURLを使用したファイルのダウンロード:高度なオプション
cURLダウンロードファイルの基本構文の次は、追加オプションによりコマンドをカスタマイズする方法を学びます。
ダウンロードしたファイル名の変更
-O
オプションは、デフォルトではターゲットURLで指定されたファイルを元の名前でダウンロードします。URLで指定されたリモートファイルに名前が含まれていない場合、cURLは curl_response
という拡張子のないファイルを作成します。
cURLはこの動作を通知する警告も出力します。
ダウンロードされたファイルのカスタム名を指定するには、次のように -o
(または --output
)フラグをご使用ください。
このコマンドは、指定されたファイルURLにGETリクエストを実行するようcURLに指示します。これにより、ダウンロードしたコンテンツはstdoutに出力されず、 -o
の後に指定された名前で保存されます。
今回の出力ファイルは logo.jpg
ファイルになります。
リダイレクトのフォロー
一部のURLは目的のファイルを直接指定しないため、最終的な宛先に到達するには自動リダイレクトが必要となります。
cURLにリダイレクトに従うよう指示するには、 -L
オプションを使用する必要があります。
-L
フラグがない場合、cURLはリダイレクトレスポンスヘッダー( 301 Moved Permanently
や 302 Found
など)を出力します。具体的に言うと、 Location
ヘッダーで提供される新しい場所に自動的には従いません。
サーバーとの認証
一部のサーバーはリソースへのアクセスを制限し、ユーザー認証を必要とします。基本的なHTTPまたはFTP認証を実行するには、 -u
(または --user
)オプションを使用することができます。これにより、ユーザー名とパスワードを次の形式で指定することができます。
ユーザー名とパスワードはコロン(:
)で区切られているため、ユーザー名にコロンを含めることはできません。ただし、パスワードにはコロンを含めることができます。
<password>
文字列は任意です。ユーザー名のみを指定すると、cURLはパスワードの入力を求めます。
cURLでサーバー認証を使用してファイルをダウンロードする場合の構文は次のとおりです。
例として、次のコマンドを使用することにより、認証付きのURLから .png
ファイルをダウンロードすることができます。
cURLは、認証情報として myUser
と myPassword
を使用し、サーバーとの認証を行います。これにより、 secret.txt
ファイルのダウンロードが開始します。
帯域幅制限の適用
cURLは、デフォルトでは利用可能な帯域幅をすべて使用してファイルのダウンロードを行いますが、これは必ずしも望ましい動作ではありません。ダウンロード速度を制御するには、 --limit-rate
オプションの後に、設定希望で最大のダウンロード速度を指定します。
出力は次のようになります。
ダウンロード速度(5198バイト/秒、これは5KB/秒に相当)がオプションで指定された速度と一致していることにご留意ください。これは、マシンの通常のダウンロード速度が --limit-rate
で設定された値より速い場合でも発生します。
--limit-rate
は、帯域幅の使用量を制御してネットワークへの過負荷を回避したり、帯域幅制限を遵守したり、またテストのためにより遅いネットワーク状態をシミュレートしたりするのに役立ちます。
プロキシサーバー経由でのダウンロード
cURLを使用してダウンロードリクエストを実行すると、IPアドレスがターゲットサーバーに公開されます。プライバシーの維持や、 レート制限のようなアンチボット対策の回避を希望する場合、これは問題となります。
IPアドレスをマスクしてリクエストをプロキシ経由でルーティングするには、cURLコマンドで -x
(または --proxy
)オプションをご使用ください。
<proxy_url>
は次の形式で指定する必要があります。
プロキシURLは、HTTP、HTTPS、SOCKSプロキシーのどれを使用しているかによって異なることにご留意ください。詳細な手順については、 cURLプロキシ統合ガイドをご参照ください。
例として、HTTPプロキシを使用している場合、コマンドは次のようになります。
バックグラウンドダウンロードの実行
cURL download fileコマンドは、デフォルトでは失敗時にプログレスバーまたはエラーメッセージを表示します。これらの出力を無効にするには、 -s
(または --silent
)オプションを使用して「サイレント」モードまたは「クワイエット」モードを有効にすることができます。
これにより、cURLはサイレントモードで動作するようになります。ダウンロードが成功すると、ファイルは現在のディレクトリに表示されますが、ターミナルにはフィードバックは表示されません。
詳細な情報を表示
エラーが発生した場合や、cURLが裏でどのようなことを行っているのかをよりよく理解するためには、 -v
(または --verbose
)オプションを使用して詳細モードを有効にすることをお勧めします。
このコマンドを実行すると、リクエストとレスポンスのプロセス関連の詳細情報を含む追加の出力が表示されます。
これには、接続の詳細やリクエストヘッダー、レスポンスヘッダー、その他のダウンロード進行状況情報が含まれます。
簡易プログレスバーを設定
標準のcURLダウンロードファイルプログレスバーは、ユーザーのニーズに合わない場合があります。 -#
(または --progress-bar
)オプションを使用すると、よりシンプルなプログレスバーを有効にすることができます。
これにより、 #
文字を使用したプログレスバーが表示されます。これは、ファイルがダウンロードされるにつれて徐々に増えていきます。
#
バーでは、デフォルトのcURL進行状況出力と比較して、ダウンロードの進行状況がより簡素に表示されます。
cURLで複数のファイルをダウンロードする方法
ここまで、cURLを使用してファイルをダウンロードする方法を学びました。さて、1つのコマンドで複数のファイルをダウンロードする場合はどうでしょう。学ぶ準備はできましたか?
レンジファイルのダウンロード
cURLは、URL拡張を使用した複数ファイルの同時ダウンロードをサポートしています。具体的には、中括弧 {}
を使用して指定することにより、同じリモートURLを持つ複数のファイルをダウンロードすることができます。
これにより、指定された3つのファイルをダウンロードすることができます。
{}
で指定されたファイルの拡張子が異なることが確認できます。
同様に、角括弧 []
構文を使用することもできます。
これにより、最初の例と同じ結果が得られます。この場合、 []
のすべてのファイルは同じ拡張子を共有している必要があります。
注:カスタムオプション(サイレントモードの場合は -s
、帯域幅制限の場合は --limit-rate
など)を含めた場合、これはダウンロード中のすべてのファイルに適用されます。
複数ファイルのダウンロード
異なるURLから複数のファイルをダウンロードするには、 -O
オプションを複数回指定する必要があります。
このコマンドは i.imgur.com
から CSRiAeN.jpg
をダウンロードし、 brightdata.com
から upload_blog_20201220_153903.jpg
をダウンロードします。
出力には、指定されたURLごとのダウンロードバーが含まれます。
同様に、複数の -o
オプションを使用することができます。
上記のコマンドでは、 CSRiAeN.jpg
がダウンロードされて logo.jpg
として保存され、 upload_blog_20201220_153903.svg
はダウンロード後、 blog_post.svg
として保存されます。
また、 -O
と -o
オプションを混在させることもできます。
これにより、前と同じように logo.jpg
がダウンロードされ、 upload_blog_20201220_153903.svg
は元のファイル名にてダウンロードされます。
-v
や -s
、 --limit-rate
など他のオプションはすべてのURLに個別に適用されるため、一度指定する必要があることにご留意ください。
cURLを使用してファイルをダウンロードする際のベストプラクティス
以下は、cURLファイルダウンロードにおける最も重要なベストプラクティスのリストになります。
- Windowsでは、curlの代わりに
curl.exe
を使用する:Windowsでは、Invoke-WebRequest
コマンドレットとの競合を避けるため、curl
ではなくcurl.exe
をご使用ください。 - HTTPSおよびSSL/TLSエラーを無視する(注意が必要):SSL/TLS証明書検証エラーを無視するには、
-k
(または--insecure
)オプションをご使用ください。ただし、これによってセキュリティが危険にさらされる可能性があるため、信頼できる環境でのみ使用すべきであることにご留意ください。 - 適切なHTTPメソッドを指定する:リクエストを行うときは、GETやPOST、PUTなど適切なHTTPメソッドをご使用ください。メソッドは、サーバーのリクエストへの応答方法に影響します。
-X
オプションを使用してメソッドを指定してください。 - URLを引用符で囲み、特殊文字はエスケープする:特殊文字が正しく処理されるよう、必ずURLを一重引用符または二重引用符で囲んでください。URL内のスペースやアンパサンド、その他特殊文字関連の問題を避けるには、エスケープ文字(
\
)をご使用ください。 - 個人情報を保護するためのプロキシを指定する:
-x
(または--proxy
)オプションを使用し、cURLリクエストをプロキシ経由でルーティングしてください。これにより、ファイルをスクレイピングまたはダウンロードする際にIPアドレスを保護し、プライバシーを維持することができます。 - 異なるリクエスト間でCookieを保存して再利用する:後続のリクエストでクッキーを保存して再利用するには、
-c
と-b
のオプションをご利用ください。これは、セッションの永続性維持や、認証、追跡に役立ちます。 - より良い制御のためにダウンロード速度を制限する:
--limit-rate
オプションを使用してダウンロード速度を制御し、ネットワーク接続への過負荷やサーバーのレート制限を防止してください。 - デバッグ用の詳細出力を追加する:リクエストとレスポンスに関する詳細情報を取得するには、
-v
オプションを使用し、詳細モードを有効にしてください。これはデバッグやトラブルシューティングに役立ちます。 - エラーレスポンスを確認する:必ず
-w
オプションよりHTTPレスポンスコードを確認し、ファイルのダウンロードが成功したか(例:200 OK
)、またはエラー(例:404 Not Found
)が発生したかをご確認ください。
ファイルのダウンロード時におけるcURLとWgetの比較
cURLとWgetはどちらも、リモートサーバーからファイルを取得するためのコマンドラインツールです。これらの主な違いは次のとおりです。
- Wgetは、ウェブからファイルをダウンロードするよう設計されています。HTTPやHTTPS、FTP、およびその他の多くのプロトコルをサポートしています。Wgetは、ファイルの再帰的なダウンロードや中断されたダウンロードの再開、バックグラウンドプロセスでの機能の高さにより知られています。 Pythonでウェブページをダウンロードする方法をご参照ください。
- cURL は、さまざまなインターネットプロトコルでのサーバー間のデータ転送に使用される、多目的のコマンドラインツールです。これは通常、エンドポイントのテストやシンプルなHTTPリクエストの実行、単一ファイルのダウンロードなどに使用されます。また、cURLは Webスクレイピングにも使用することができます。
cURLとWgetの主な違いは、cURLではデータ転送をより細かく制御できることにあります。これは具体的には、カスタムヘッダーや認証、その他のプロトコルなどがサポートされていることを意味します。これとは対照的にWgetはシンプルで、一括ダウンロードや再帰、中断された転送の処理などに適しています。
まとめ
今回のガイドでは、cURLを使用してファイルをダウンロードする方法を学びました。基本的なcURLダウンロードファイルの構文から始め、より複雑なシナリオとユースケースを検討しました。これにより、cURLを使用して1つまたは複数のファイルをスクレイピングする方法がお分かりいただけたと思います。
また、HTTPリクエストを行うことにより、インターネット上に痕跡が残ることにご留意ください。身元やプライバシーを保護し、セキュリティを強化するには、プロキシとcURLの統合をご検討ください。幸いなことに、Bright Dataがこの問題を解決することができます!
Bright Dataは、世界最高水準のプロキシサーバーを管理しており、フォーチュン500企業を含む2万以上のお客様にサービスを提供しています。その世界規模のプロキシネットワークには、次の内容が含まれます。
- データセンタープロキシ — 77万を超えるデータセンターIP
- 住宅用プロキシ — 195ヵ国以上、7200万件を超える住宅用IP
- ISPプロキシ — 70万を超えるISP用IP
- モバイルプロキシ — 700万を超えるモバイル用IP
総合的に見て、Bright Dataはプロキシ業界で最大かつ最も信頼性の高いスクレイピング用プロキシネットワークの1つであると言えるでしょう。
今すぐ登録し、当社のプロキシとスクレイピングソリューションを無料でテストしてみましょう!
クレジットカードは必要ありません