ケンオール通信第4号では、郵便番号データの処理方法の最初の一歩として、複数行の結合について紹介しました。データ処理の続きを説明する前に、まず日本の住所とはどういう構造になっているかを紹介します。
日本の住所の構造
日本の住所は、領域の大きい地域名から小さい地域に向かって書いていくという構造です。この大から小という構造は、日本の他に中国や韓国、台湾などが用いており、東アジア諸国では一般的な記法ですが、世界的には小さい領域から大きい領域に向かって書いていくという記法が一般的です。 余談ですが、東アジア以外の全ての国が小から大という表記ではなく、ハンガリーなど一部の国で大から小という表記形式を採用しています。
さて、日本の住所構造を詳しくみていくことにします。以下の図は、今尾恵介著「番地の謎」(光文社知恵の森文庫)より引用させていただいた、地名の階層構造です。この「番地の謎」は大変素晴らしい内容ですので、日本の住所に興味のある方は是非読んでください。
「東京23区」「政令指定市」「区」「市」「郡」「町村」に相当する部分が、地方自治法第1条の3で定義される地方公共団体となります。これらの名称およびIDについては全国地方公共団体コードで定義されており、構造ゆれや表記ゆれ等は存在しません。
この次の階層に登場するのが、「町または大字」です。ここで表記される「町」は、地方公共団体としての「町」とは異なるものですので注意が必要です。 「町または大字」の下には「丁目」や「字あるいは小字」が続きます。 大字・小字とありますが、これはもともと小字の方が古来から存在していた住所単位です。大字は1889年(明治22年)の市町村合併、いわゆる明治の大合併時に生まれたもので、合併前の旧町村名を大字としなさいという内務大臣の訓令(内務大臣訓令第352号、明治21年6月13日)によるものでした。*1 *2 *3なお、この合併による大字の新設は1953年(昭和28年)から始まる昭和の大合併でも実施されています。
ここからさらに下の住所階層としては、地番や街区符号などが登場しますが、郵便番号データとしてはここまで理解していれば十分なので説明は省略します。
郵便番号データの住所構造
以上を踏まえた上で、あらためて郵便番号データの住所表記について見てみることにします。日本郵便様が提供している郵便番号データの説明を読むと、住所表記に関するカラムは以下の3つが存在します。
- 都道府県名
- 市区町村名
- 町域名
一見シンプルなようですが、町域名以下の部分はかなり複雑です。
先程の実際の住所構造を参考に、郵便番号データの住所構造を描いてみたものが以下の図です。
都道府県と市区町村については、先述の通り、全国地方公共団体コードでも明確に定義されている表記のため、この部分については問題ありません。
京都の通り名
町域以下ですが、先述の住所構造と違う部分がいくつかあります。
日本の住所構造としては正規の構造としてあまり扱われない、京都の通り名が郵便番号データには記載されています。ただし、通り名を記載する場合は、同一行政区に同一町名が存在した場合などに限るため、京都市内の全ての郵便番号に通り名が記載されているわけではありません。なお、同一行政区同一町名は109組260町存在します(2021年5月31日現在)。
同一行政区、同一町名の例としては以下のものがあります。
6028064: 京都府 京都市上京区 一町目(上長者町通堀川東入、東堀川通上長者町上る、東堀川通中立売通下る) 6028134: 京都府 京都市上京区 一町目(大宮通椹木町下る、大宮通丸太町上る、椹木町通大宮西入、丸太町通大宮東入) 6028103: 京都府 京都市上京区 一町目(松屋町通出水下る、松屋町通下立売上る)
また、京都市の住所表記は通り名+町名が一般的ですが、大宮通寺之内下る東入1丁目
のように、通り名に丁目を持つ地域もあります。
以下はその一例です。
6028414: 京都府 京都市上京区 西北小路町(猪熊通上立売上る、猪熊通寺之内下る、大宮通寺之内下る東入、大宮通寺之内半丁下る東入、大宮通寺之内下る東入1丁目、寺之内通大宮東入下る、寺之内通大宮東入1丁目下る)
一般に「丁目」とは町のある区画を指しますが、京都の通り名で使われる丁目は距離を示すためのものです。
京都の通り名の処理や「丁目」表記の詳細については、ケンオール通信第14号:括弧つきの町域(4) 京都の通り名を参照してください。
地割
次に、地割(じわり)の存在です。地割は、岩手県に存在する特殊な地名単位です。住所構造上は丁目と同レベルで存在します。
0282402: 岩手県 宮古市 川井(第9地割~第11地割) 0285102: 岩手県 岩手郡葛巻町 葛巻(第40地割「57番地125、176を除く」~第45地割) 0295523: 岩手県 和賀郡西和賀町 越中畑64地割~越中畑66地割 0240341: 岩手県 和賀郡西和賀町 杉名畑44地割(湯田ダム管理事務所、後口山、当楽)
地割を含むレコードは50件あります。
地割の処理については、ケンオール通信第11号:括弧つきの町域(1) 括弧の内側と外側の分割や、ケンオール通信第12号:括弧つきの町域(2) 丁目や番地の処理を参照してください。
特定の番地に割り当てられた郵便番号
ほとんどの郵便番号データには番地以下の情報は含まれていませんが、一部の町域では特定の番地のみを指定して郵便番号を割り振っているケースがあります。
9420083: 新潟県 上越市 大豆(1の2、3の2~6、4の2・4・6、11の1番地) 0482402: 北海道 余市郡仁木町 大江(1丁目、2丁目「651、662、668番地」以外、3丁目5、13-4、20、678、687番地) 0285233: 岩手県 二戸郡一戸町 中山(新田17-2、37番地、東火行1番地) 2892614: 千葉県 旭市 江ケ崎(12~22、127~140、1709、1723-3、1728-4番地) 8996602: 鹿児島県 霧島市 牧園町三体堂(1824-2、1824-9、1824-41、1835-81、1835-108、1835-109 、1835-228、1835-238、1835-253、2003-5、2003-9、2003-14、2003-17、2003-18、2057-8)
このようなレコードは約242件ほど存在します。 番地と書いているものもあれば、数字だけ並んでいるものもあり、正確にカウントすることは容易ではありません。上記の数字はあくまで目安です。
番地の処理については、ケンオール通信第12号:括弧つきの町域(2) 丁目や番地の処理を参照してください。
ビルに割り当てられた郵便番号
そして最後に、ビルの存在です。郵便番号データは、大きなオフィスビルなどに対しては階層ごとに個別の郵便番号を付与していることがあります。これは、申請式の個別事業所番号とは異なります。
9806190: 宮城県 仙台市青葉区 中央アエル(地階・階層不明) 9806101: 宮城県 仙台市青葉区 中央アエル(1階) 9806102: 宮城県 仙台市青葉区 中央アエル(2階)
郵便番号データに登録されているビルは84棟あります。
ビル郵便番号については、ケンオール通信第8号: ビル名の処理を参照してください。
このように、郵便番号データに含まれる住所の構造を把握することで、ようやく郵便番号データの整形処理のための準備をすることができます。
PyData.Osaka に登壇します
2021/7/3(土) にオンライン開催される PyData.Osaka にて、@shiumachi が登壇いたします。上記のような話を紹介しますので、興味ある方はご参加ください。
ケンオールについて
「かゆいところにケンオール」
ケンオールは、郵便番号住所検索APIをはじめとした、システム開発を加速する高品質で安全なAPIサービスです。
サービスを試してみたい方はこちらから: kenall.jp
編集履歴
2021/12/14: 京都の通り名の例のうち、丁目を持つ郵便番号の例が京都府 京都市上京区 一町目
となっていましたが、この例には丁目が含まれておりません。丁目を含む例として京都府 京都市上京区 西北小路町
を新たに掲載しました。
2021/12/14: 最近のケンオール通信へのリンクを数点追加しました。
(この記事はShodoで執筆されました)
*1:「番地の謎」p.43、今尾恵介、光文社知恵の森文庫。ただし原著では「内務省訓令」と記述されている
*2:「明治22年新町村名の研究」井戸庄三、地理学評論、1976年