Gradioをはじめよう

この記事の目次

はじめに
導入手順
デモンストレーション
まとめ

はじめに

今回はPythonライブラリである、Gradioについて紹介します。

まず結論から申し上げますと、機械学習、データサイエンス向けのWeb UIをめっっちゃ簡単に構築できるPythonライブラリです。

そしてGradioにはこんな特徴があります。

めっちゃ使いやすい
- サーバーサイド言語であるPythonで簡単にかけて、コマンド一つで実行できるため、スピーディーにUIを構築することができます。
多様な入出力形式をサポートしている
- Gradioは、テキスト、画像、音声、ビデオ、ファイルアップロードの入出力の関数、コンポーネントを備えています。画像の表示、音楽、動画再生のコンポーネントが標準で使うことができます。そのため機械学習のモデルに簡単に多種多様なデータを入力することができます。
公開が簡単
- Hugging faceというサイトにてGradioで作ったアプリケーションを簡単にデプロイでき、公開することができます！またHuggin face spacesで公開された大量のアプリケーションを使うこともできます！

導入手順

続いては導入手順について説明します。

導入は簡単で、pythonの実行環境で

pip install gradio

を実行するだけです。

ただこれだけでも簡単ですが、もっと簡単な方法があります。

それはgradioのホームページから、gradio playgroundにアクセスすることでGradioの開発環境が用意できちゃいます。

このように、Gradioの右側にエディタ、左側に実行結果を確認するタブが表示されます。

また左側のDemosのタブからサンプルコードを参照することもできます。

デモンストレーション

ここからは実際にデモンストレーションを通して、

「どれくらい簡単にGUIが構築できるのか？」

という部分にフォーカスして、自分が作成したOCRアプリをもとに一部のコンポーネントを解説します！

そして今回作成したOCRアプリがこちらになります

左側のブロックで画像を入力し、submitボタンを押すと、右側にテキストが出力されます！

このようにGradioは外部のAPIと連携させることで、様々なアプリを作成することができます！

早速中身を紹介していきます！

ディレクトリ構造

ディレクトリ構造はこのようになっています。

OCRの部分は外部のAPIを利用するため別ファイルに関数を定義します。

project_dir/
├── ocr.py
└── main.py

【ocr.py】OCRのAPIと関数の用意

import requests


def ocr_space_api(image_path):
   # OCR.space APIキーを設定してください
   api_key = "APIキーを入力してください"
  
   # OCR.space APIのエンドポイントURL
   api_url = 'https://api.ocr.space/parse/image'
  
   # APIリクエストのペイロードを設定
   payload = {
       'isOverlayRequired': False,  # オーバーレイ情報が必要かどうか
       'apikey': api_key,           # APIキー
       'language': 'jpn',           # 使用する言語（日本語）
   }
  
   # 画像ファイルをバイナリモードで開く
   with open(image_path, 'rb') as image_file:
       # OCR.space APIにPOSTリクエストを送信
       response = requests.post(api_url, files={'file': image_file}, data=payload)
  
   # レスポンスをJSON形式で解析
   result = response.json()
  
   # 処理中にエラーが発生したか確認
   if result['IsErroredOnProcessing']:
       # エラーメッセージを返す
       return 'Error: ' + result['ErrorMessage'][0]
   else:
       # 解析されたテキストを返す
       return result['ParsedResults'][0]['ParsedText']

OCRの利用についてはOCR Space（https://ocr.space/）というサービスを利用しました。こちらの関数では入力画像のファイルパスが入力されると、OCRのAPIに画像がPOSTされ、最終的にテキストが出力される流れになっています。

こちらの関数については深く解説しません。

Gradioの実装

import gradio as gr
from PIL import Image
import numpy as np


from ocr import ocr_space_api


def process_image(input_image):
   image = Image.fromarray(np.uint8(input_image['composite'])).convert('RGB')
   temp_image_path = "/tmp/handwritten_image.png"
   image.save(temp_image_path)
   return ocr_space_api(temp_image_path)


with gr.Blocks() as demo:
   gr.Markdown("## OCR App")
   with gr.Row():
       with gr.Column():
           image_editor = gr.ImageEditor(type="numpy",label="Upload or Draw Image", interactive=True)
       with gr.Column():
           text_output = gr.Textbox(label="OCR Output")
  
   submit_button = gr.Button("Submit")  # 送信ボタン
   submit_button.click(fn=process_image, inputs=image_editor, outputs=text_output)


demo.launch(server_name="0.0.0.0", auth=("admin", "password"))

こちらがGradio部分のコードです。
それぞれの部分について解説していきます。

ライブラリのインポート

import gradio as gr
from PIL import Image
import numpy as np

from ocr import ocr_space_api

Gradio：ユーザーインターフェースを簡単に作成するためのライブラリです。

PIL：画像の処理と変換に使用します。

NumPy：画像データを数値配列として扱います。

ocr_space_api：OCR機能を提供する関数。

OCRを実行するprocess_image関数

def process_image(input_image):
image = Image.fromarray(np.uint8(input_image[‘composite’])).convert(‘RGB’)
temp_image_path = “/tmp/handwritten_image.png”
image.save(temp_image_path)
return ocr_space_api(temp_image_path)

こちらのprocess_image関数は、ユーザーがアップロードまたは描画した画像を受け取り、それを見やすい形式に変換して一時的に保存します。そして、その画像をOCRサービスに送信して、画像内のテキストを取り出してくれる仕組みになっています。

Gradio部分

with gr.Blocks() as demo:
gr.Markdown(“## OCR App”)
with gr.Row():
with gr.Column():
image_editor = gr.ImageEditor(type=“numpy”, label=“Upload or Draw Image”, interactive=True)
with gr.Column():
text_output = gr.Textbox(label=“OCR Output”)

submit_button = gr.Button(“Submit”) # 送信ボタン
submit_button.click(fn=process_image, inputs=image_editor, outputs=text_output)demo.launch(server_name=“0.0.0.0”)

ここからはGradioの解説に入ります。使用されているコンポーネントについてそれぞれ解説していきます。

gr.Blocks: Gradioのレイアウトコンテナです。UIコンポーネントをブロック単位で配置できます。
gr.Markdown: タイトル「OCR App」を表示します。
gr.Rowとgr.Column: レイアウトを横に2つのカラムに分割します。
左カラム (gr.ImageEditor): ユーザーが画像をアップロードまたは描画できるエディターです。
type=”numpy”: 画像データをNumPy配列として扱います。
interactive=True: ユーザーがインタラクティブに画像を編集できます。
右カラム (gr.Textbox): OCRで抽出されたテキストを表示するテキストボックスです。
gr.Button: 「Submit」ボタンです。
submit_button.click(…): ボタンがクリックされたときにprocess_image関数を実行し、image_editorから入力を受け取り、text_outputに出力を表示します。
demo.launch(…): Gradioアプリケーションを起動します。

アプリケーションの起動

ターミナルで以下のコマンドを実行します。

python3 app.py

ブラウザでhttp://localhost:7860にアクセスすると、OCRアプリケーションが表示されます。

まとめ

こんな感じでGradioを活用することでアプリケーションのモックの作成だったり、APIを試しに使ってみたり、簡単なアプリ制作が可能です！！

皆さんもぜひGradioを活用してアプリ開発をしてみてください！

それでは良いエンジニアライフを！！

この情報は役に立ちましたか？

フィードバックをいただき、ありがとうございました！

Gradioをはじめよう

はじめに

導入手順

デモンストレーション

ディレクトリ構造

【ocr.py】OCRのAPIと関数の用意

Gradioの実装

ライブラリのインポート

OCRを実行するprocess_image関数

Gradio部分

アプリケーションの起動

まとめ

この情報は役に立ちましたか？

関連記事

Latest AI trends

調達マネジメント：外部リソースを最大限に活用するコツ

プロジェクトリーダーに必要な3つの力

Enhancing Your Ruby on Rails App…

信頼されるDjangoアプリケーションのためのデータハンドリング…

情シスナビ一週間のおまとめニュースをメルマガ登録しませんか？

メニュー

関連記事

結合テストとは？手法と観点のポイントを解説

上司も納得！UIデザイン改善に向けた作戦

SaaSへの理解で差をつける！情報システム部が事業に与える影響とは？

ピックアップ記事

外部デザイナーと契約する最適解とは？

外部デザイナー活用のコスト比較｜最適な工数補填方法とは

よく使っているけれど知らないシリーズ｜PCの動作を瞬時に軽くする方法

情シス求人

システム開発におけるテスト工程の重要性と各テストの役割

チームメンバーで作字やってみた#1

情シスナビ一週間のおまとめニュースをメルマガ登録しませんか？

メニュー

Gradioをはじめよう

はじめに

導入手順

デモンストレーション

ディレクトリ構造

【ocr.py】OCRのAPIと関数の用意

Gradioの実装

ライブラリのインポート

OCRを実行するprocess_image関数

Gradio部分

アプリケーションの起動

まとめ

この情報は役に立ちましたか？

＜類似記事＞

関連記事

Latest AI trends

調達マネジメント：外部リソースを最大限に活用するコツ

プロジェクトリーダーに必要な3つの力

Enhancing Your Ruby on Rails App…

信頼されるDjangoアプリケーションのためのデータハンドリング…

情シスナビ 一週間のおまとめニュースをメルマガ登録しませんか？

メニュー

関連記事

結合テストとは？手法と観点のポイントを解説

上司も納得！UIデザイン改善に向けた作戦

SaaSへの理解で差をつける！情報システム部が事業に与える影響とは？

ピックアップ記事

外部デザイナーと契約する最適解とは？

外部デザイナー活用のコスト比較｜最適な工数補填方法とは

よく使っているけれど知らないシリーズ｜PCの動作を瞬時に軽くする方法

情シス求人

システム開発におけるテスト工程の重要性と各テストの役割

チームメンバーで作字やってみた#1

情シスナビ 一週間のおまとめニュースをメルマガ登録しませんか？

メニュー

情シスナビ一週間のおまとめニュースをメルマガ登録しませんか？

情シスナビ一週間のおまとめニュースをメルマガ登録しませんか？