Jupyter Notebookで特許分析(2)

さて、前回の続きになりますが、共同出願人の処理からでしたね。

これのやりかたが習得できれば、同じく1セルに複数の情報を含む特許分類や自分で付与した独自分類なんかの集計処理も同様に行うことができます。

前回までのJupyterの画面の続きから操作していきます。まずは、データフレームdf1の出願人データを区切り文字である’;’で切り分けてapnsに保管していきます。

apns = df1['出願人'].map(lambda x: x.split(';'))
 次に作ったapnsをシリーズ形式のデータに変換します。
ser1 = pd.Series(np.hstack(apns.values))
 出来上がったシリーズ形式の出願人名から重複を除去したシリーズデータに変換します。
unique_apns = ser1.str.strip().unique()
unique_apns.sort()
  一つの出願人について1行のデータリストを作成するための関数を定義します。

def filter_df_by_apn(df, apn):
    apn_df = df.loc[df['出願人'].map(lambda x: apn in x)].copy()
    apn_df['出願人'] = apn
    return apn_df
上記関数を用いて、先の処理で重複を取り除いた出願人のリスト中の出願人ごとに対象の出願の行を抜き出してリストに追加します。
apn_df_list =[filter_df_by_apn(df1, apn) for apn in unique_apns]
 あとは、できたリストを新たなデータフレームdf2に格納するだけです。データフレームをシンプル化するために公報番号と
df2 = pd.concat(apn_df_list)
df2 = df2.loc[:,['公報番号','出願人','出願日']]
df2.sort_values('公報番号', inplace=True)
df2.head()
 こんな感じのデータフレームになります。
公報番号 出願人 出願日
120 特表2017-502711 セーフオプサージカルインコーポレイテッド 2014-11-06
119 特表2017-503167 スリーエムイノベイティブプロパティズカンパニー 2014-12-22
118 特表2017-503223 テンテンテクノロジーズリミテッド 2013-11-15
117 特表2017-504087 コーニンクレッカフィリップスエヌヴェ 2014-11-10
116 特表2017-504323 アイフォーシーイノベーションズインコーポレイテッド 2014-12-30
あとは前回と同様に集計してみるだけですね。
df2['公報番号'].groupby([df2['出願人'], df2['出願日'].dt.year]).count()
出願人                                    出願日 
みこらった株式会社                              2014    1
                                       2015    1
アイフォーシーイノベーションズインコーポレイテッド              2014    1
アクシスアーベー                               2016    1
アディダスアーゲー                              2012    1
アーマッド・アルサエド・エム・アルガジ                    2015    1
アール・エイ・アイ・ストラテジック・ホールディングス・インコーポレイテッド  2015    1
ア-カムアーベー                               2015    1
イウン、スツ・ファン                             2015    1
インタートラストテクノロジーズコーポレイション                2015    1
インターナショナル・ビジネス・マシーンズ・コーポレーション          2016    1
インテルアイピーコーポレイション                       2015    2
インテルコーポレイション                           2016    1
インテル・コーポレーション                          2016    1
ウィルマーディング・コミュニケーションズ・エルエルシー            2015    1
ウテエス・ア・デシャン・エ・フィス                      2016    1
エスゼットディージェイアイテクノロジーカンパニーリミテッド          2013    1
オムロン株式会社                               2013    1
カシオ計算機株式会社                             2012    1
キム,ヨンソク                                2015    1
キヤノンマーケティングジャパン株式会社                    2016    1
キヤノンITソリューションズ株式会社                     2016    1
ギガコリアコーリミテッド                           2014    1
クアルコム,インコーポレイテッド                       2014    3
                                       2015    1
グリー株式会社                                2013    2
グーグルインコーポレイテッド                         2013    2
                                       2014    1
                                       2015    1
コウアヒェ,ノルディン                            2014    1
                                              ..
ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング       2016    1
ヴァイアヴィ・ソリューションズ・インコーポレイテッド             2016    2
ヴェルトアナリティクスオサケウフティオ                    2014    1
三星電子株式会社                               2016    1
国立大学法人埼玉大学                             2012    1
国立大学法人東北大学                             2014    2
国立研究開発法人情報通信研究機構                       2014    1
太田崇博                                   2015    1
富士ゼロックス株式会社                            2016    1
小米科技有限責任公司                             2015    1
日本信号株式会社                               2012    1
日立マクセル株式会社                             2012    1
旭化成ホームズ株式会社                            2016    1
東芝ライテック株式会社                            2012    1
株式会社カカオ                                2015    1
株式会社ケット科学研究所                           2013    1
株式会社スクウェア・エニックス・ホールディングス               2012    1
株式会社ブリヂストン                             2012    1
株式会社リコー                                2012    1
株式会社ワイティーエム                            2011    1
株式会社三洋物産                               2012    1
株式会社北電子                                2011    1
株式会社半導体エネルギー研究所                        2000    1
                                       2001    1
株式会社東芝                                 2012    1
                                       2014    2
株式会社Agoop                              2013    1
株式会社REALONETECHNOLOGY                  2016    1
華為技術有限公司                               2014    1
華為終端有限公司                               2014    1
Name: 公報番号, Length: 118, dtype: int64
こんな感じになります。名寄せは出来ていないのでローベルトボッシュ等の項目に違和感はありますが、これの処理についてはまた次回にでも。特許分類であれば名寄せはいらないと思いますので、今回の出願人で用いた手法を使いまわすことができます。そして作った出願人の切り分けデータフレームと特許分類の切り分けデータフレームを合体させて集計を行うと、おなじみの出願人ー分類別件数集計表や出願人ー分類バブルマップ等につながるわけですが、こちらも次回以降で。
【参考書籍】

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

%d人のブロガーが「いいね」をつけました。