GPT-4o(Vision)を活用したOCRツールの進化:OCRから翻訳、画像解説まで

前回紹介したGPT-4o Visionを使用したOCRツールをさらに発展させ、より包括的な画像処理・理解ツールへと進化させました。

あわせて読みたい
【実装例】GPT-4o Vision APIで作る高精度OCRツール|手書き文字認識の新時代 なぜGPT-4 VisionベースのOCRツールが必要だったのか ビジネスシーンでは、手書きのメモやドキュメントをデジタル化する需要が依然として高く存在します。従来のOCRツー...

新バージョンでは、テキスト抽出に加えて翻訳、要約機能、そして画像解説機能を実装し、より幅広いユースケースに対応できるようになりました。

目次

主要な機能拡張

テキスト処理の強化
単純なOCR機能から、抽出したテキストの翻訳や要約機能を追加することで、より実用的なツールへと進化しました。これにより、外国語文書の理解や長文データの効率的な処理が可能になります。

画像理解機能の実装
OCRとは別に、画像全体を理解し解説する機能を新たに追加しました。この機能により、画像に含まれる視覚的な情報を言語化し、より深い理解を得ることができます。

使い方

動作確認のため内閣府の公開しているPDFデータを使って機能の紹介をしていきます。

使ったデータへのリンクはこちらです。

令和6年 年次経済財政報告

https://www5.cao.go.jp/j-j/wp/wp-je24/index_pdf.html

テキスト処理

PDFの3ページ目に各章の概要を記載しているページがありました。こちらを使ってOCR処理からの要約と日英翻訳をしてみました。

・OCR結果(1章のみをエリア選択してOCRを実行)

第1章 マクロ経済の動向と課題

● GDPは名目597兆円と過去最高水準に増加(P1:1図)
● 企業収益は過去最高。設備投資意欲も旺盛(P5:1、3図)
 他方、消費は力強さを欠く(P2:1図)
● 企業の現預金残高は国際的に突出。これまでの投資不足に 
 より潜在成長率は低水準(P6:1、2図)
● 消費者物価上昇率は、昨年秋以降2%台(P9:1図)
● 物価上昇率を考慮した賃金の伸びは、パート時給が
 昨年年初からプラス、フルタイム労働者の月給も春季に
 マイナス幅縮小(P11:3図)
● 春季労使交渉の賃上げ率は年3.1%、ベア3.56%と33年
 ぶりの高水準、多くの企業でより高い賃上げ率が実現して
 おり(P10:1、2図)、今後にも賃上金の発現期待。
● 仕入価格から販売価格への転嫁は、デフレ以前(1980年
 代から平成初期)の状況にはほぼ回帰(P12:1図)
● 物価と賃金の好循環に向けて、中小企業の労務費価格転嫁
 対策が重要。
● サービス収支は、デジタル関係を中心に赤字が拡大。海外 
 企業に優位性のある分野への国内需要が急増。強みのある 
 分野での国際競争力を取ること(稼ぐ力を強化する取組)が重要(P7:1、2図)
● ワーキングアプリ(スポットワークアプリ)の延べ利用者は4年で70倍増(P4:4
 図)。DXによるマッチング多様化が進む。

マーカーで記した部分が間違った箇所で、()内が正しい文章です。

当然ながら全文が一致しているわけではないですが、かなりの精度でテキスト抽出できていました。

その内容をボタンひとつで簡単に翻訳、要約することができるように機能を追加しました。

・要約(エリア選択横の”要約”をクリック)

・翻訳(要約横の”翻訳”をクリック)

画像解説

次に画像解説機能です。

こちらの機能を使う場合は、「OCRモード」を「画像解説」に切り替えてから利用します。

同様の資料の4ページ目にGDPのグラフと特殊要因を記載していましたので、その内容を読み込んでみました。

・読み込んだページ

・画像解説結果(ページ左側の図1をエリア選択で読み込み)

この画像は、日本の名目GDPと実質GDPの推移を示したグラフです。

**1. グラフの概要**
- 縦軸: GDPの金額(兆円)
- 横軸: 年と四半期(2012年から2024年まで)
- 名目GDP(赤色)と実質GDP(緑色)の2つのラインで表示されています。

**2. グラフの特徴**
- 名目GDPは増加傾向にあり、2024年には597兆円に達しています。
- 実質GDPも増加傾向にありますが、2024年1月~3月期には特定の減少要因が影響しています。

**3. 2024年1月~3月期の実質成長率の要因**
- 令和6年豪雪や地震の被災の影響で▲0.1%程度減少。
- 一部自動車メーカーの出荷停止事案の影響。
- 消費(家計支出)で▲0.5%程度減少。
- 投資(設備投資)で▲0.1%程度減少。
- サービス輸出で▲0.6%程度減少。

全体として、名目GDPは増加を続ける一方で、実質GDPは特定の要因で一時的に減少しています。

OCRではテキストのみを抽出することになるため、当然理解させることが難しいグラフやそれに関する特殊要因についてもしっかり理解して解説してくれていることがわかります。

開発における発見

生成AIの驚異的な進化
これまでは複数のたくさんのPythonライブラリを組み合わせて実現していた機能が、単一のAPIコールで実現できるようになりました。この技術的な進歩により、開発効率が劇的に向上し、より複雑な機能を短期間で実装することが可能になっています。

現時点での課題はAPIコストになってきますが、ここは個人的にはローカルLLMへの期待を持っており、今後APIコストを気にすることなく動かせる環境へ移行していきたいと思っています。

Cursorを活用した効率的な開発
開発ツールとしてCursorを使用することで、これらの高度な機能を驚くほど簡単に実装できました。生成AIを活用した開発支援ツールの進化により、開発プロセス自体が大きく変革されています。

今後の展望

RAGシステムとの統合
このツールの次なる進化として、RAG(Retrieval-Augmented Generation)システムとの連携を計画しています。これにより、画像やテキストを含むマルチモーダルなデータを効率的に取り込み、社内の知識ベースを強化することが可能になります。

システム開発のパラダイムシフト
生成AIの進化により、システム開発のアプローチが大きく変化しています。従来は複雑な実装が必要だった機能が、APIを通じて簡単に実現できるようになり、開発者はより高次の問題解決に注力できるようになっています。

まとめ

GPT-4 Visionを活用したツールの開発を通じて、生成AI技術の急速な進化とそれがもたらす開発手法の変革を実感することができました。特に、複雑な機能を簡単に実装できる環境が整いつつあることは、今後のAI開発の可能性を大きく広げるものと考えられます。

今回開発したツールに興味を持った方はGithubに公開しておりますので、ご確認ください。

https://github.com/hrtaym1114-github/vision-assist-pro

今後は、このツールをRAGシステムと連携させることで、より実用的なマルチモーダルデータ処理システムへと発展させていく予定です。生成AIの進化は、私たちの開発アプローチを根本から変えつつあり、その可能性は無限に広がっています。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次