こんにちは、最近話題の「Browser Use」を実際に試してみましたので、セットアップから実践までをご紹介します。
Browser Useって何がすごいの?
Pythonの数行なプログラムが必要になるけれど、話し言葉でブラウザを操作できる。そんな革新的なツールが登場し、生成AI界隈で大きな話題を呼んでいます。
実際に動いている様子の動画はこちら
セットアップ
macOSでの環境構築のポイントは3つ
- HomebrewでPythonをインストール
- パスの設定(ここが最初の関門!)
- 仮想環境の構築
セットアップで色々とつまずきましたが、エラーのたびにChatGPTに相談することで、スムーズに解決できました。
以下の手順は、macOS Sequoia 環境です。
HomebrewでPythonをインストール
brew install python
パスの設定
~/.zshrc
が存在しなかったので、まずはファイルを作ります
touch ~/.zshrc
パスを確認する
find /opt/homebrew -name pip
~/.zshrcに、パスを設定
export PATH="$PATH:/opt/homebrew/Cellar/[email protected]/3.12.8/libexec/bin"
保存後、設定を反映します
source ~/.zshrc
仮想環境の構築
ホームフォルダの直下に” browser-use “を作り、その中に入る
cd browser-use
仮想環境を作成します
python3 -m venv myenv
仮想環境を有効化
source myenv/bin/activate
Browser Use インストール
こちらを参考にし
インストールコマンドを実行する
pip install browser-use
playwright install
同じフォルダの中に .env ファイルを作り、APIキーを設定する
OPENAI_API_KEY=USER_API_KEY_here
ANTHROPIC_API_KEY=
APIキーはそのまま記入し、”などの囲みは不要、ChatGPTを使うのみなら、ANTHROPIC_API_KEYは空白のままでOKです。
あとは、サンプルコードを test.py ファイルに保存したあと、
python3 test.py
を実行し、1回目は上手く動かなかったけど、再度、2回目の実行をしたところ、macOSのターミナルから、ブラウザーを操作していいかという、確認画面が出て、これを許可したところ、無事に動作しました。
\(^^)/
試しにサンプルコードを書き換えて、
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="Find a one-way flight from Tokyo to Osaka on 1 January 2025 on Google Flights. Return me the cheapest option.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
2025年1月1日の東京-大阪間のフライトを検索してみると…
ジェットスターの6,000円台の飛行機を自動で見つけることができました。
これは凄い!
APIの費用はどんな感じ
4回ぐらい使った後、APIの費用を調べたところ、こんな感じでした。
1.67ドル(ざっくり 250円)でした。
使ったトークンは、64万トークン、かなり多くのトークンを使う感じです。
ブラウザーを操作しているのが画期的
こうやって自動でブラウザーを自動で操作できちゃうのが画期的で、もっともっといろんなことができそうだなぁって感じています。