知財業務に生成AIを活用する (1/4)
第1回 生成AIによる特許分析用プロンプトの工夫
ポイント:生成AIのプロンプト文字制限の範囲で特許を分析する
生成AIの利用が進んでいます。生成AIは、大量のデータを学習した巨大な言語モデルLLM(Large Language Model)で、データの特徴やパターンを把握し、新しいデータを作り出します。言語モデルですから、人間と同じように言語解釈に長けています。一方で、DB検索や数値モデルによる統計などは従来の技術で行うよう割り切っています。ですので、DBの検索を生成AIに頼むと断られますし、ときどき忖度して記憶の範囲で間違った答えを出してくることもあるので注意が必要です。
今回は生成AIの特許業務での活用を考えてみたいと思います。特許は特有の記述様式で書かれていますが、生成AIが得意とするテキストベースの言語処理の対象であることは間違いありません。生成AIで特許分析をする場合は、特許検索システムを使い事前に特許データを用意します。そのデータを生成AIのプロンプトデータとしてインプットし分析依頼をします。一般公開の生成AIはプロンプト以外のデータのインプットは受け付けていません。
何はともあれ、試しに特許をインプットしてみましょう。NTT様のAI画像特許1件をChatGPTのプロンプトとしてインプットしました。データは「出願番号、出願日、出願年、名称、IPC、出願人、要約、請求の範囲、課題、技術分野、背景技術、課題を解決するための手段、産業上の利用可能性、効果」です。
すると、“The message you submitted was too long, please reload the conversation and submit something shorter.”のメッセージが出て、それ以上処理をしてくれません。ちなみに文字数を数えると6,540文字でした。今回は一般公開のChatGPTを利用しています。ChatGPTに字数制限について尋ねてみると、一度のリクエストでのプロンプトの最大長は4096バイトということなので制限オーバーです。
他の生成AIでも多かれ少なかれ、テキストの塊である特許を生成AIで処理させようとすると、このプロンプト文字制限を意識した工夫をする必要があります。それでは、同じ特許の「請求項」だけを切り出してプロンプトにいれてみるとどうでしょう。先ほどのエラーを出さずに読んでくれました。文字数は1,242文字に減りました。以下がChatGPTからの回答です。
———————————————————————————————————–
この文書は特許出願の記載内容を表しており、画像認識学習装置に関するものです。以下に要点をまとめます。
この特許の請求項は、学習装置と検知装置の構成や動作方法に関するものです。
JP2019028339W
以下は請求項の要点です:
1. 学習装置:
正常な通信データを複数取得する取得部
正常な通信データを学習し、確率密度を推定し、モデルのパラメータを更新する第1の推定部
第1の推定部によって推定された確率密度に基づいて正常な通信データをクラスタリングするクラスタリング部
クラスタリングされた各クラスタごとに学習を行い、クラスタごとの確率密度の特徴を表すモデルのパラメータを更新する第2の推定部
推定されたクラスタごとの確率密度を統合する統合部
2. 検知装置と検知システム:
モデルのパラメータを更新する学習装置と検知装置を有する検知システム
第2の推定部によって更新されたモデルのパラメータを適用して、検知対象の通信データの確率密度を推定する第3の推定部
第3の推定部によって推定された確率密度を基に、検知対象の通信データの異常の有無を検知する検知部
3. 学習方法:
正常な通信データを複数取得する取得工程
正常な通信データを学習し、確率密度を推定する第1の推定工程
第1の推定工程において推定された確率密度に基づいて正常な通信データをクラスタリングするクラスタリング工程
クラスタリングされた各クラスタごとに学習を行い、クラスタごとの確率密度の特徴を表すモデルのパラメータを更新する第2の推定工程
推定されたクラスタごとの確率密度を統合する統合工程
4. 学習プログラム:
学習装置の機能をコンピュータ上で実行するための学習プログラム
これらの請求項に基づいて、正常な通信データの学習と異常の検知を行う学学習装置は、正常な通信データを取得し、そのデータを学習して確率密度を推定します。第1の推定部は、学習されたデータの確率密度を推定し、モデルのパラメータを更新します。その後、クラスタリング部は推定された確率密度に基づいて正常な通信データをクラスタリングします。
クラスタリングされた各クラスタごとに学習が行われ、第1の推定部によって学習済みのパラメータが使用されます。これにより、各クラスタごとの正常な通信データの確率密度を推定し、モデルのパラメータを更新する第2の推定部が作成されます。
推定された各クラスタごとの確率密度は、統合部によって統合されます。これにより、異常検知対象の通信データの確率密度を推定する第3の推定部が作成されます。
検知装置は、第2の推定部によって更新されたモデルのパラメータを使用して、異常検知対象の通信データの確率密度を推定します。そして、第3の推定部によって推定された確率密度を基に、異常の有無を検知する検知部が行われます。
学習方法や学習プログラムは、上記の手順を含んでおり、コンピュータ上で学習装置の機能を実行するために使用されます。
この特許の技術を利用することで、正常な通信データの特徴を学習し、異常な通信データを検知することが可能となります。これにより、セキュリティやネットワーク監視などの領域で有用な応用が期待されます。
———————————————————————————————————–
なんとももっともらしい答えが返ってきました。
さらに請求項の構成として、インプット>作用>アウトプットという形式でポイントを整理させると、
———————————————————————————————————–
インプット:
正常な通信データを複数取得する。
作用:
第1の推定部: 取得した正常な通信データを学習し、正常な通信データの確率密度を推定する。
クラスタリング部: 第1の推定部によって推定された確率密度に応じて正常な通信データをクラスタリングする。
第2の推定部: クラスタごとに学習を行い、クラスタごとの正常な通信データの確率密度の特徴を表すモデルのパラメータを更新する。
統合部: 推定されたクラスタごとの確率密度を統合する。
アウトプット:
統合された確率密度を利用して検知対象の通信データの確率密度を推定し、異常の有無を検知する。
上記の整理によって、各特許の請求項のインプット、作用、アウトプットが明確になります。
———————————————————————————————————–
という具合に整理して表示してくれます。なるほど、言語モデルといわれるのもうなずけます。以上、一般公開の生成AIであるChatGPTの基本機能を使って、特許解析の入り口を実験してみました。
今のところ、一般公開の生成AIで特許を分析する場合は1件ごとに処理する必要があります。特許集合をまとめて分析させることは無理です。生成AIのAPIを利用すれば、ユーザプログラム側で特許を1件ごとに分けて生成AIに分析させ、結果を取りまとめることができます。ニーズエクスプローラ社ではそのような仕組みを採用しています。
とはいえ、特許集合に対するキーワード検索や書誌情報による統計処理は従来の方式で行うべきですし、正確です。しかし、その結果を生成AIに言語的に分析させる手はあります。生成AIを使い始めるとなんでもできるのではないかと錯覚してしまいますが、餅屋は餅屋です。
特許のプロから見るとこんな荒い見方では意味がないと思われることでしょう。しかし、今後、生成AIの実力(読み込むデータ量も)は格段と上がってくることは確かです。今では、特許データをDBから検索することが当たり前である様に、近い将来、特許読解は生成AIに任せる時代がくると思いませんか。そのときになって慌てないよう、今からあなたの知財業務の助手として手なずけてはどうでしょう。
現在の生成AIの特性を知ったうえでその価値を引き出して知財業務に応用することを考えてください。ただし、生成AIに頼り過ぎにはご注意を。人間による検証が必要であることは変わりません。
ニーズエクスプローラ社は生成AIによる知財業務の改革をご支援いたします。
キーワード:特許と生成AI、ChatGPT、プロンプト、文字制限、LLM、言語モデル