- 相關(guān)推薦
通訊地址查詢(xún)郵政編碼系統設計論文
隨著(zhù)電子商務(wù)的突飛猛進(jìn)和物流行業(yè)的信息化,使得人們在足不出戶(hù)的情況下完成購物和郵寄物品,大大節約了時(shí)間和金錢(qián)成本。
1 現狀分析
隨著(zhù)電子商務(wù)的突飛猛進(jìn)和物流行業(yè)的信息化,使得人們在足不出戶(hù)的情況下完成購物和郵寄物品,大大節約了時(shí)間和金錢(qián)成本。電子商務(wù)和物流行業(yè)都離不開(kāi)通信地址(又稱(chēng)為通訊地址,簡(jiǎn)稱(chēng)為地址)和郵編,這些數據都需要用戶(hù)提供,當前一些電子商務(wù)網(wǎng)站和物流行業(yè)的主要的做法如下:
(1)讓用戶(hù)手工輸入完整的地址和地址對應的郵編。
(2)通過(guò)下拉列表提供省,省下面地級市和地級市下面的區縣,這些比較固定的地址讓用戶(hù)選擇,余下的地址和郵編由用戶(hù)手工輸入。
(3)保留用戶(hù)輸入的地址和郵編,方便下次再次使用,即如果本次輸入的地址和郵編之前已經(jīng)有了一份,直接選中,就避免了讓用戶(hù)重復輸入。
這些做法主要存在的問(wèn)題如下:
(1)很多情況下用戶(hù)未必知道自己輸入的地址對應的郵編。
(2)由于基于拼音的輸入法和漢語(yǔ)本身存在的缺陷(漢字存在多音字,多個(gè)漢字擁有相同的讀音,多數基于拼音的輸入法都是基于統計的語(yǔ)言模型),再加上地址中存在的一些生僻字的原因會(huì )導致輸入的地址存在錯別字。
(3)由于地名存在別名現象,即同一個(gè)地名有多種叫法,例如“廣東省”的別名有“廣東”和“粵”,因此他們識別不了對同一個(gè)地名的不同描述。
(4)有些情況下用戶(hù)無(wú)法輸入完整的地址,當輸入的時(shí)候一臉茫然和無(wú)助。
(5)由于地址存在變更和搜集不完全的問(wèn)題,這些網(wǎng)站的數據往往得不到更新。
當前一些其他的網(wǎng)站能夠解決第一個(gè)問(wèn)題,即幫助用戶(hù)得到地址對應的郵編。但是他們往往采用數據庫技術(shù)來(lái)實(shí)現的系統,對于低于區縣級別的地址,往往采用字串模糊查詢(xún)(like %XXX%)的方式參與檢索,由于性能的原因此種方式對于大數據量的查詢(xún)效率很差。另外基于數據庫實(shí)現的查詢(xún)使得用戶(hù)的輸入格式和內容受到了很大的限制,比如:
用戶(hù)首先選擇省級行政區(包括省、特別行政區、自治區和直轄市)的名字,其次是選擇地級行政區(包括地級市、自治州、地區和盟)級別的名字,然后再縣級行政區(包括市轄區、縣、旗、特區、林區、自治縣和自治旗等)級別的名字,最后用戶(hù)輸入鄉鎮級別及村莊道路等。查詢(xún)的輸入過(guò)程非常機械。
另外基于數據庫的查詢(xún)模式,要求地址格式全部滿(mǎn)足四級,即省級,地級市級,區縣級,然后是其他具體地址。但是并不是所有的地址都滿(mǎn)足此種情況,例如直轄市下和省與直轄縣或省直轄縣級市之間就沒(méi)有地級市級,一些特殊的地級市沒(méi)有區縣級,如廣東省中山市、廣東省東莞市、海南省三亞市、海南省三沙市、甘肅省嘉峪關(guān)市;他們的解決辦法,起個(gè)其他的名字代替,例如“直轄區縣”,“市轄區”,“省直轄縣”等,但是查詢(xún)的結果中一般也包含這些非真正地址的數據。
本方法嘗試解決如下問(wèn)題:
(1)幫助用戶(hù)輸入,即提供輸入提示功能(類(lèi)似Google Suggestion)。
(2)采用基于搜索引擎技術(shù)使得用戶(hù)輸入的查詢(xún)格式更加自由,并且通過(guò)一個(gè)比較短的地址片段就可以找到完整的地址。
(3)基于命名實(shí)體識別技術(shù)能夠識別出用戶(hù)輸入地址元數據的級別,從而實(shí)現地址的逐級查詢(xún)(例如已知一個(gè)地級市,給出該地級市下所有縣級行政區的名字和對應的郵編;已知一個(gè)省的名字,給出該省下所有地級行政區的名字和對應的郵編等)。
(4)自動(dòng)從互聯(lián)網(wǎng)上抓取地址數據,完成參考數據的更新。
(5)對不用來(lái)源的參考數據進(jìn)行校驗,識別出有問(wèn)題的參考數據,使得參考數據更加準確。
(6)有時(shí)候由于參考數據在鄉鎮級行政區級別及以下級別上收錄得不是很全,本方法可以通過(guò)地址補全方式完善查詢(xún)結果。
(7)實(shí)現查詢(xún)結果地址的切分和級別標注,方便用戶(hù)靈活使用結果。
(8)將地址和對應的郵編加密到二維碼中,方便用戶(hù)通過(guò)二維碼掃描軟件直接獲取完整的地址和郵編。
(9)將用戶(hù)的檢索結果鏈接到知名的地圖廠(chǎng)商(百度,谷歌,搜狗地圖等)獲取相關(guān)地址的經(jīng)緯度數據。
2 系統設計
2.1 總體架構設計
本系統的總體架構如圖1所示。
從圖1郵編查詢(xún)系統的總體架構圖可以看出,該系統需要三種數據:
(1)用于通過(guò)通信地址查詢(xún)郵政編碼的通信地址和郵政編碼對應關(guān)系的數據。
(2)用于輸入地址提示的標準化的通信地址數據。
(3)用于地址切分,地址標注,命名實(shí)體識別和Query語(yǔ)句生成的地址元數據字典數據。
第一種數據:通信地址和郵政編碼的對應關(guān)系,可以從一些數據比較新而且數據比較標準和完整的郵編查詢(xún)網(wǎng)站上,利用基于種子的網(wǎng)絡(luò )爬蟲(chóng)和信息抽取技術(shù)抓取相關(guān)數據。
第二種數據:標準化的通信地址數據,一種來(lái)源是第一種數據去掉郵政編碼后的通信地址數據,第二種來(lái)源,從維基百科和國家統計局網(wǎng)站上,最新的有關(guān)中國行政區劃上的網(wǎng)頁(yè)上利用爬蟲(chóng)技術(shù)和信息抽取技術(shù)抽取得來(lái)。
第三種數據:地址元數據字典數據,源自維基百科和國家統計局有關(guān)中國行政區劃的地址元數據,以及通過(guò)地址切分和識別技術(shù)從完整的通信地址中獲得。
地址元數據包含的數據主要有:省級行政區名(包括省、自治區、直轄市和特別行政區)、地級行政區名(地級市、自治州、地區、盟)、縣級行政區名(包含市轄區、縣級市、縣、自治縣、旗、自治旗、特區和林區)、鄉級行政區名(包括鄉、鎮、街道、蘇木、區公所),其他地址數據(包括道路名、村莊名、小區名、建筑物名和廣場(chǎng)名)等。
2.2 地址查詢(xún)編碼過(guò)程設計
地址查詢(xún)郵編索引結構如圖2所示。
其中地址的最低等級域(Level Field)包含的數據值如下:
(1)省級行政區級(包括省、自治區、直轄市和特別行政區),用province表示。
(2)地級行政區級(包括地級市、自治州、地區、盟、直轄市轄區),用city表示。
(3)縣級行政區級(包括市轄區、縣、旗、特區、林區、自治縣和自治旗等),用district表示。
(4)鄉級行政區級(包括鄉、鎮、街道、蘇木、區公所),用town表示。
(5)低于鄉級行政區級,用all表示。
一個(gè)地址文本,其對應的最低地址等級域的值計算如下:
(1)首先對地址文本做預處理,預處理包括刪除多余的空格,全角字符轉換成半角字符。
(2)其次是地址切分和地址標注。
(3)接著(zhù)是地址命名實(shí)體識別,獲取最終的地名實(shí)體標注序列。
(4)然后根據規則計算出此地址文本的最低地址等級的值。
(5)將最低地址等級映射到最低地址等級域的值:1→province;2→city;3→district;4→town;0→all。
2.3 地址解析過(guò)程
本系統是基于開(kāi)源的全文搜索引擎工具包Lucene實(shí)現的系統,中文分詞模型采用的是二元模型(bigram)。為了提高搜索的精度和排序的質(zhì)量,需要對輸入的文本進(jìn)行解析,解析的結果是生成相關(guān)的Query語(yǔ)句。因此整個(gè)流程為首先對用戶(hù)輸入的文本進(jìn)行預處理,切分,標注和地名實(shí)體識別,識別出不同級別的地名,然后對不同級別的地名分別用半角的雙引號“””括起來(lái)生成PhraseQuery查詢(xún)語(yǔ)句,并賦以不同的權值,權值的設定應遵循如下原則,已被收錄到字典里的地名(即確定被識別的地名)其對應的權值要大于未知的地名。舉例如圖3所示。
圖3中“29號”是不能識別的地址,因此其對應的權值W5設置的值要比其他的權值小。通常情況下W5的值一般設置成1.0,其他確定已被識別的地址對應的權值的值一般大于1.0。
接著(zhù)用地址的標注等級序列獲得地址的最低標注等級,為了能夠支持地址的分級查詢(xún)(僅限四級以上的地址),即:搜索的結果首先是當前地址的標準形式,其次是當前地址等級下的直屬行政等級(即子等級)的所有地址,然后才是更下一級的地址。例如:當輸入“深圳市”時(shí),排在第一個(gè)的應該是“廣東省深圳市”,其次是“深圳市”下的直轄區縣,然后是區縣下的鄉鎮街道,最后是道路,小區,村莊等。系統在最低標注等級映射到最低等級域上要做分級查詢(xún)處理,具體做法是:獲得當前最低等級及下屬的等級域的值,然后按照逐級遞減的方向賦上遞減的加權值。規則如下:
(1)1→province city;
(2)2→city district town;
(3)3→district town。
當用戶(hù)提交查詢(xún)請求后,系統會(huì )返回查詢(xún)的結果,并把與用戶(hù)輸入的地址文本最相似的地址排在第一位。由于參考數據搜集的不是太全,加上每年都有新增的建筑,道路,小區等,還有一些行政區劃的變更等等,使得排在第一位置上的地址中區縣位置之后的地址和用戶(hù)輸入的地址有出入,本系統采用地址補全技術(shù),對最相似的返回結果進(jìn)行改造,使得更接近用戶(hù)的要求。
2.4 地址補全
地址補全是根據用戶(hù)的輸入來(lái)完善查詢(xún)結果的技術(shù),使得結果更貼近用戶(hù)的需求。地址補全主要用在某一級別的地址很難搜集全,而且新增量比較大,主要集中在四級和五級地址上。地址補全的條件時(shí)用戶(hù)輸入的地址文本其地址級別的順序是正常的,即不存在一二三級地址出現在四級或者五級地址之后。識別出用戶(hù)輸入的地址級別中四級地址及以后的部分,拼接到搜索結果最相似的那條地址中三級地址之后。
3 總結
本文設計的系統是用來(lái)實(shí)現地址查詢(xún)編碼這一功能的。在分析了現有系統情況之后,使用了地址解析、補全、查詢(xún)等技術(shù),來(lái)滿(mǎn)足實(shí)際生產(chǎn)的需要。實(shí)際使用情況顯示本文提出的諸多解決方案能夠很好地滿(mǎn)足需求。
【通訊地址查詢(xún)郵政編碼系統設計論文】相關(guān)文章:
FPGA數據采集與回放系統設計論文04-24
基于系統設計的科研管理論文09-22
解析科技競賽賽務(wù)系統的設計與實(shí)現論文04-19
綜合布線(xiàn)系統設計項目教學(xué)模式應用論文07-12
高考報名號查詢(xún)系統06-25
機器學(xué)習的服務(wù)器調優(yōu)系統設計論文04-20
查詢(xún)系統推廣廣告語(yǔ)12-28
關(guān)于景觀(guān)導視系統設計實(shí)踐教學(xué)方法的論文07-12
系統類(lèi)畢業(yè)論文03-10