アフィリエイト広告を利用しています

Browser Use x Python 未来のWeb操作を体験!ChatGPTとの対話で実現する自動化の新時代

こんにちは、最近話題の「Browser Use」を実際に試してみましたので、セットアップから実践までをご紹介します。

Browser Useって何がすごいの?

Pythonの数行なプログラムが必要になるけれど、話し言葉でブラウザを操作できる。そんな革新的なツールが登場し、生成AI界隈で大きな話題を呼んでいます。

実際に動いている様子の動画はこちら

セットアップ

macOSでの環境構築のポイントは3つ

  1. HomebrewでPythonをインストール
  2. パスの設定(ここが最初の関門!)
  3. 仮想環境の構築

セットアップで色々とつまずきましたが、エラーのたびにChatGPTに相談することで、スムーズに解決できました。

以下の手順は、macOS Sequoia 環境です。

HomebrewでPythonをインストール

brew install python 

パスの設定

~/.zshrcが存在しなかったので、まずはファイルを作ります

touch ~/.zshrc

パスを確認する

find /opt/homebrew -name pip  

~/.zshrcに、パスを設定

export PATH="$PATH:/opt/homebrew/Cellar/[email protected]/3.12.8/libexec/bin"

保存後、設定を反映します

source ~/.zshrc

仮想環境の構築

ホームフォルダの直下に” browser-use “を作り、その中に入る

cd browser-use

仮想環境を作成します

python3 -m venv myenv

仮想環境を有効化

source myenv/bin/activate

Browser Use インストール

こちらを参考にし

インストールコマンドを実行する

pip install browser-use
playwright install

同じフォルダの中に .env ファイルを作り、APIキーを設定する

OPENAI_API_KEY=USER_API_KEY_here
ANTHROPIC_API_KEY=

APIキーはそのまま記入し、”などの囲みは不要、ChatGPTを使うのみなら、ANTHROPIC_API_KEYは空白のままでOKです。

あとは、サンプルコードを test.py ファイルに保存したあと、

python3 test.py

を実行し、1回目は上手く動かなかったけど、再度、2回目の実行をしたところ、macOSのターミナルから、ブラウザーを操作していいかという、確認画面が出て、これを許可したところ、無事に動作しました。

\(^^)/

試しにサンプルコードを書き換えて、

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Find a one-way flight from Tokyo to Osaka on 1 January 2025 on Google Flights. Return me the cheapest option.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

2025年1月1日の東京-大阪間のフライトを検索してみると…

ジェットスターの6,000円台の飛行機を自動で見つけることができました。

これは凄い!

APIの費用はどんな感じ

4回ぐらい使った後、APIの費用を調べたところ、こんな感じでした。

1.67ドル(ざっくり 250円)でした。

使ったトークンは、64万トークン、かなり多くのトークンを使う感じです。

ブラウザーを操作しているのが画期的

こうやって自動でブラウザーを自動で操作できちゃうのが画期的で、もっともっといろんなことができそうだなぁって感じています。

参考記事

✓ あわせて読みたい
Browser Use 使ってみる

この記事を書いた人

大東 信仁

カンパチが好きです。

プロフィールはこちら

10月14日開催 参加者募集中
(画像をタップ→詳細へ)

ミッションナビゲート モニター
(画像をタップ→詳細へ)

広告