文本文件行去重化工具 v2.1.10

文本文件行去重化工具 v2.1.10? Text Line Dereplication BigData Tool

這只是篇介紹文,沒有資源可下載,工具作者并沒有開放下載這款工具,

而是通過加密狗的形式出售,咨詢了下價格在3500RMB~4500RMB左右,

有剛需的朋友可以聯系,作者的QQ是24759362。

文本文件行去重化工具 v2.1.10

我平時偶爾需要對很大的文本文件去重,也嘗試過許許多多的小工具,Linux命令、網站在線去重等方式,但文件若很大很大則去重過長就會很漫長,或者導致軟件直接卡死。

這款工具號稱全網最快,也是唯一能處理超過100G,甚至超過500G、1T以上大數據的去重軟件,光是看軟件的界面就能看出作者是花了許多心思在上面,功能做的很細致。

但由于價格高昂,自己也并不是剛需,所以沒有購買,暫時通過Linux命令行下對大文件去重,Windows下的工具用過的基本都很難處理太大的文件,直接就卡死無響應。

以下是原作者對軟件的介紹:

例如:多個TXT大數據文本文件合并以及文本行去重 130GB20億行數據60分鐘即可完成去重操作

測試數據大小:20億行130GB的數據只需60分鐘

平均去重速度:2000000000(行) ÷ 3600(秒) =? 555555(行/秒)≈55萬行/秒 .

文本文件行去重化工具 v2.1.10

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
2008-4-25【數據來源于】【編號0255713】培訓班簽到表_3
2008-2-8【數據來源于】【編號0414755】培訓班簽到表_3
2008-12-10【數據來源于】【編號0362890】培訓班簽到表_6
2008-7-14【數據來源于】【編號0031453】培訓班簽到表_3
2008-10-11【數據來源于】【編號0062763】培訓班簽到表_5
2008-4-16【數據來源于】【編號0722391】培訓班簽到表_5
2008-10-2【數據來源于】【編號0919890】培訓班簽到表_5
2008-1-5【數據來源于】【編號0087451】培訓班簽到表_6
2008-10-16【數據來源于】【編號0790573】培訓班簽到表_6
2008-4-11【數據來源于】【編號0713075】培訓班簽到表_3
2008-11-4【數據來源于】【編號0478024】培訓班簽到表_6
2008-5-23【數據來源于】【編號0733822】培訓班簽到表_5
2008-1-11【數據來源于】【編號0673685】培訓班簽到表_6
2008-2-3【數據來源于】【編號0159964】培訓班簽到表_1
2008-12-28【數據來源于】【編號0811027】培訓班簽到表_1
2008-12-27【數據來源于】【編號0352763】培訓班簽到表_4
2008-1-2【數據來源于】【編號0615848】培訓班簽到表_5
2008-7-6【數據來源于】【編號0764659】培訓班簽到表_2
2008-9-17【數據來源于】【編號0572933】培訓班簽到表_1
2008-9-15【數據來源于】【編號0316727】培訓班簽到表_2
2008-8-4【數據來源于】【編號0746945】培訓班簽到表_5
2008-4-16【數據來源于】【編號0544330】培訓班簽到表_1

以上工具會生成如下格式的測試數據一共4列20億行(條):

Text Line Dereplication BigData Tool 文本行去重化 大數據工具

演示視頻:


本軟件特點及其描述:
1.平均處理速度60Mb/s(讀寫速度),例如130Gb的txt文件,大約60分鐘即可完成文本行去重;
2.處理最大文本(txt或者csv)文件的能力——沒有行數限制,沒有文件大小限制,輕松處理超過1000Gb的文本文件,被去重的文本行可以是1列N行,也可以是N列N行的格式,允許被去重的文本格式每一行數據之中的任何一列,或者兩列或者多列甚至全部列文本內容都可以為空,支持處理長短各異,雜亂無章的文本行去重;
3.一次性可合并去重處理多個大數據文件,可以對歷史數據進行持續更新升級,對,沒錯,是對您的大數據文件進行升級;
4.具備自動文件編碼探測功能,被去重的所有大數據文件必須是同樣的文件編碼;
5.本軟件是目前互聯網上銷售的單機版文本行去重軟件中去重速度最快的軟件,其它專業性的軟件公司開發的類似產品最快處理速度才5Mb/s而已;
6.標準版與極速版合二為一,實時的百分比處理進度條更新,讓您目測整個操作過程大約需要的時間;
7.獨特的拆分算法,巧妙構思的快速數學計算模型,讓您的CPU利用率幾乎一直處于50%的線性水平,標準版幾乎能讓內存消耗處在7Gb的線性水平;
8.文件的大小與硬件性能之間關系:是線性關系,對,您沒看錯,不是指數關系,所以處理大數據的能力非常強悍!
9.支持所有64位的操作系統

以下是測速環境,如果您的硬件性能比以下配置要好的話,那么您的硬盤讀寫的速度會更快,文本行去重過程需要的時間會更短:

操作系統:Windows 10 x64
CPU型號:Intel(R) Core(TM) i5-4570 CPU @ 3.2GHz 4核處理器
固態硬盤型號:GLOWAY STK512GS3-S7
內存型號:金士頓HyperX 8Gb DDR3 1600 4條內存,實際上只使用了1條8Gb的內存容量

標準版文本行去重化處理速度(讀/寫)&硬件(固態硬盤,CPU,內存條)性能界面截屏:

文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10

文本文件行去重化工具 v2.1.10

任務管理器性能測試截圖表明:
1). CPU運算能力消耗折線走向瞬間沒有出現明顯地上下跳躍,始終保持在40%這樣一條直線上,
表明CPU負載很低,工作得很輕松;

2). 內存消耗折線走向瞬間沒有出現明顯地上下跳躍,始終保持在7個GB這樣一條直線上,
表明內存消耗很穩定,不會出現內存不夠用這樣的突發的狀況;
3). 固態硬盤讀寫平均速度一直在65M/秒的速率處理大數據,表明處理大數據的數學建模計算
模型速度非常優秀,計算模型已經超越了目前互聯網上所有已知軟件算法;

從測試截圖上,我們通過分析這些硬件工作時的折線走勢,就能根據它是否平滑或者水平(也
就是軟件運行時具備線性特性),來衡量軟件設計是否優秀,運行時是否穩定,

從實際消耗系統資源(例如 CPU,內存,硬盤),就能判斷此軟件在自己的電腦上是否能快
速長時間地處理大量數據。

測試固態硬盤讀寫速度420M/s,如果你的硬盤比我這款還要
好,那么我可以肯定的告訴你,此軟件處理數據時平均讀寫速率肯定會超過65M/秒。

文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10

極速版文本行去重化處理速度(讀/寫)&硬件(固態硬盤,CPU,內存條)性能界面截屏:

文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10 文本文件行去重化工具 v2.1.10