郭榮彥(Barry)|法律大數據,資料結構化是第一步

作者:Barry 郭榮彥 Lawsnote創辦人

2012年開始興起的大數據風潮,事隔多年後也吹進了法律圈中,對於法律人而言,這個看似熟悉其實又陌生的名詞逐漸在諸多法律名詞中開始佔有一席之地。在法律領域,從來都不缺乏大量的數據。台灣在過去20年間累積了超過1,200萬筆的裁判書,如果我們把範圍擴張到訴願決定、評議和交通事件裁決,這個數字將會擴張到2億筆,在資料分析領域,毫無疑問的這些資料量非常巨大。然而,這些資料可以稱作大數據嗎?

大量數據=大數據?

2003年司改會對竊盜罪的量刑分析統計結果,是透過人工來統計析;2011年司法院開始著手進行的量刑系統,以既有的判決資料進行量刑的分析,在決定刑度參數的資料,至今仍倚賴人工進行資料的擷取。2016年新立委上任,有立委希望知道通姦罪對配偶撤告的比例,因為統計室沒有預先統計這方面的資料,導致必須依賴大量人工重新統計。所有法實證研究的分析,我們可以發現一個共通點,就是人工!我們需要人工去擷取資料,才能透過這些擷取出來的資料進行分析。人工在法實證研究上,是一個無法免除的過程。一旦數據要經過人工擷取才能被電腦統計分析,縱使原始資料量非常龐大,離所謂的大數據還是有很長的一段路要走,因為人工成本極其昂貴,並且處理的資料量非常有限。

喜歡這篇文章嗎
快來媒體小農灌溉法律白話文運動

電腦都可以選土豆,怎麼沒辦法整理判決?

那為什麼非要經過人工不可?因為法律資料是高度的非結構化資料!有次我和一位律師前輩聊到判決非結構化的問題,前輩回說「Barry,你可能都在做非訟不太熟悉判決書,其實它是非常有結構的。」因為這樣,我察覺到「資料非結構化」這個概念在法律圈是很容易被誤解的,因此有必要特別解釋。我們拿世界上把個人資料結構化最徹底的Facebook來舉例好了。為什麼Barry在Facebook上的個人檔案像圖一而不是圖二。

 

圖一
圖二

如果資料結構化是一個光譜,左邊就是結構化的那一端,而右邊則是非結構化的那一端。差別在於要怎麼教電腦辨識需要投入的成本。電腦可以分辨左邊的資訊,知道Barry在Lawsnote打雜,當過律師,住在新北市,對法律領域的粉絲團有興趣,但電腦看不懂右邊部分,Barry的工作、專業、居住地、就讀的學校和興趣,電腦完全無法分辨。

資料結構化的目的就是為了電腦「容易懂」,越是非結構的資料,電腦越難看懂。而判決書,就是電腦非常難以看懂的一種非結構資料。舉例來說,當我們在判決中提到民法第一百八十四條,就有超過10種表示方法:民法第一百八十四條、民法第一八四條、民法一百八十四條、民法一八四條、民法第184條、民法184、同法第184條、本法第一八四條…電腦很笨,不像人類知道這些敘述指的都是同一條法條,每多一種表示方式,我們就必須教電腦一次,而且這還算是比較簡單的。

判決結構化的難題

判決書中,對於律師來說最重要的是「法院見解」的部分,但法院見解的段落幾乎沒有固定的表示方式和分段,以「本院見解」或「經查」開頭的段落還算簡單,許多最高法院的判決書幾乎沒有分段,連人類都難以判斷,電腦更是無以為繼。

例如最高法院刑事判決九十六年度台上字第三七三四號,對資料科學來說就是一個絕難的挑戰。除了判決本文的高度非結構化非常難以透過電腦判讀之外,它的前審,也就是『臺灣高等法院 95年度上重更(二)字第19號』這個字號就包含了7個裁定和1個判決,這對講求唯一資料編號(UID)的資料科學來說也是一個難題。諸如此類的判決結構都會變成橫亙於法律大數據前的一堵高牆。
法律的資料科學在司法改革中並非顯學,甚至可以說幾乎是被遺忘的一環。

法界在遇到資料科學的問題時常常用很片面的方式去解決,例如判決的金額常常使用『叁』這個數字,但判決用的big5編碼只有『參』而沒有『叁』。因此在去年司法院大幅翻修成unicode之前,『叁』這個字司法院一直是用造字程式呈現了20年,然而對於沒有透過造字檔的資料庫,這個字會無法辨識,對於判決的再利用產生很大的不便。資料結構化在資料科學中是個根本性的問題,幾乎所有處理資料的公司例如Google、Facebook等,都盡量期望把資料結構化,因為這將會影響到接下來我們可以怎麼透過電腦處理資料。

在司法改革國是會議的第一次直播中,王金壽教授大力的建言希望建置專責的研究機構,以落實台灣的法實證研究。其用意不外乎是希望改善台灣在法制度建立時缺乏法實證依據,「憑空立法」的窘境,而法資料結構化正是要完成這件事的基本工。法律資料結構化除了幫助法實證研究,幫助協助修法參考外,對於節省司法成本也有諸多好處,結構化後將大大增加司法人員搜尋法律資料的效率、減少資料蒐集、整理和傳遞的成本、輔助量刑系統的建置等。許多原本必須透過人力海撈資料分析才能完成的工作,透過資料結構化可以由電腦來協助完成。最重要的是,當我們討論法律大數據,討論用電腦自動化和AI人工智慧來協助法律人工作,討論得很開心的時候,也千萬別忽略這些火紅名詞的第一步驟,都是『資料結構化』。

為了進一步將法律資料更容易使用在資料科學上,有幾個建議可以參考:

  1. 放棄現行使用├ ─ ┼ ┴ ┬等符號畫出的ASCII表格,改用改用一般文書處理較常見的表格。
  2. 統一資料引用的格式,並在所有的法律資料(判決、決議、函釋、法規)中嚴格遵循。不要讓一條法條、判決字號、函釋令號有這麼多的表現方式,甚至是透過系統直接選取是更精確的方式。
  3. 每一筆資料有獨一無二的編號(UID),而非很多裁判共用一個字號。
  4. 文件的段落分明,最好要有統一的標題。我國的判決目前只略分成『主文』和『事實及理由』兩個部分,其他部份則隨法官習慣各自編排,有無標題均屬常見,人眼閱讀可以理解,但電腦卻無法判讀。就算是透過人類判讀,但目前的判決書架構就連律師或法官都難以一眼掌握整篇判決的段落,哪一段是法院的見解,哪一段是當事人的主張,透過固定的格式要求,同時也能增加判決書的可讀性。
  5. 文件修改(例如判決更正、法規修正)時應紀錄修正歷程,而非以新文件直接取代舊文件。

 

法律白話文駐站作者