做了一個簡單的在線字數統計工具

2021-02-13 簡言

前言

做翻譯的朋友都知道,很多人最後結算稿酬時都按字數來算。嚴格來說,「統計字數」並不是唯一一種核算筆譯服務報酬的方法,因為在筆譯服務中還有很多你付出了勞動的工作與字數無關,比如提取術語、項目管理、圖片處理、格式轉換等等。

不過在今天的這個帖子中,我將主要關注「統計字數」這個環節,嘗試做一個簡單的在線字數統計工具。

正文

一、MS Word怎麼數字數

想像著你現在要翻譯一篇文章,想知道這篇文章有多少字,一般這個時候都需要放到Word裡去統計一下字數。

比如我們看這樣一句話:「北京語言大學(Beijing Language and Culture University, BLCU)成立於1962年。」

這句話中有這麼一些東西:

① 中文:10

北京語言大學成立於年

② 英文字符:39

BeijingLanguageandCultureUniversityBLCU

③ 英文單詞:6

Beijing Language and Culture University BLCU

④ 數字:4

1962

⑤ 中文標點:3

()。

⑥ 英文標點:1

,

⑦ 空格:5

我把這部分文字放到MS Word 2016裡:

仔細一看,似乎有以下字數統計的「規律」:

「字數統計」裡的「字數」 =  20 =  ① + ③ + ④ = 中文 + 英文單詞 + 數字

「字數統計」裡的「字符數(不計空格)」 = 57 = ① + ② + ④ + ⑤ + ⑥ = 中文 + 英文字符 + 數字 + 中文標點 + 英文標點

「字數統計」裡的「字符數(計空格)」 = 62 = ① + ② + ④ + ⑤ + ⑥ + ⑦ = 中文 + 英文字符 + 數字 + 中文標點 + 英文標點 + 空格

「字數統計」裡的「非中文單詞」 = 7 = ③ + ⑥ = 英文單詞 + 英文標點

「字數統計」裡的「中文字符+朝鮮語單詞」 = 13 = ① + ⑤ = 中文 + 中文標點

對於我們做翻譯的而言,我們翻譯的都是「字兒」,這個字兒既包括中英文字兒,也包括中英文標點符號,空格就不用算了。

我們國家有這樣一個標準:

「《翻譯服務規範第1部分:筆譯》(Specification for Translation Service—Part 1: Translation):中華人民共和國國家標準GB/T 19363.1—2003。中華人民共和國國家質量監督檢驗檢疫總局2003年11月27日發布,2004年6月1日實施。」

其中這樣寫道:

4.2.4.5 計字方法

計字一般以中文為基礎。在原文和譯文均為外文時,由顧客和翻譯服務方協商。

版面計字:按實有正文計算,即以排版的版面每行字數乘以全部實有的行數計算

不足一行或佔行題目的,按一行計算;

計算機計字:按文字處理軟體的計數為依據,通常採用「中文字符數(不計空

格)」。

也就是說我們在翻譯「北京語言大學(Beijing Language and Culture University, BLCU)成立於1962年。」這句話時要按照「57」來算字數了。

什麼?這句話從中文翻譯到英文時英文都不用翻還要算錢?按照國家標準來算,是的。

在微博上,一位翻譯公司的老總@Arthurye 發過這樣一個帖子:

我們先放下這個帖子不管,而是繼續去寫我們的字數統計的程序。

二、寫一個簡單的字數統計工具

我接下來要做的就是用一個叫「PHP」的程式語言裡自帶的各種內置功能來統計上面這段話裡的字數。

我首先準備好編程環境(參見「簡言」之前的文章),然後新建一個空白的「index.php」文件,並開始製作這個程序。

1)統計英文單詞個數

在上面的這段代碼中,我用了一個叫「str_word_count()」的函數,這個函數的基本功能是統計一句話裡所有的英文單詞的個數。

運行結果如下:

這與人工統計的結果是一致的。

如果我想查看究竟有哪些英文單詞,則使用下面的代碼:

這段代碼先用「str_word_count($sen,1)」函數獲得所有單詞,然後用「foreach」函數遍歷所有英文單詞,並將單詞全部顯示出來,如下圖:

2)統計所有的空格

在這段代碼中我用了一個叫「substr_count()」的函數,這個函數的功能是統計括號中雙引號裡的內容在前面的字符串中出現的字數。根據我的代碼,我在雙引號中輸入了一個空格,前面的「$sen」代表的是我輸入的那句話。

代碼執行後,效果如下:

這與人工統計的結果是一致的。

3)統計所有的中文字數

統計中文字數的方法稍微麻煩一些,代碼如下:

在這段代碼中,我主要用了兩個重要的函數:「preg_replace()」和「mb_strlen()」。前者用來去掉句子中所有的中英文標點符號、數字和空格,後者用來統計中文字數。「preg_replace()」的用法我在之前的文章中已經講過,這個就不再介紹其用法了。

效果如下:

4)統計所有的數字

在這段代碼中,我用了兩個重要的函數:「strlen()」和「is_numeric()」,前者用於計算句子的長度,方便用for循環來遍歷句子中的每一個字符,後者用於判斷一個字符是不是數字,如果是的話就放到「$numresult」這個變量中,最後再用一次「strlen()」函數,把數字的總數算出來。

代碼運行的結果為:

5)按照Word裡計數的方法,統計「字數」

Word裡統計字數時是將中文的字數、英文單詞的字數和數字的字數放在了一起,所以計算一下:

運行結果為:

6)按照Word裡計數的方法,統計「字符數(不計空格)」和「字符數(計空格)」

代碼如下:

運行效果如下:

三、把這個字數統計工具稍微包裝一下放到伺服器上

這部分內容我就不再詳細寫了,就是多寫了一個可以手動輸入內容的輸入框,效果如下:

前往下面的網址或者點擊「閱讀原文」可以親自體驗一下這個簡易的字數統計工具。

地址:http://translation.education/count/index.php

結語

這個工具目前來說還是一個半成品,因為事實上它與Word統計字數的方式還是有區別的,具體是什麼樣的區別大家親自去試試看,看看能否發現?

另外,大家再去仔細思考以下國家標準中統計字數的方法是否合理?再去看看我前面貼的@Arthurye 葉志遠葉總的帖子,看看裡面就什麼算字數的門道?

歡迎大家打賞這篇文章,繼續激發我創作的熱情:-)

相關焦點

  • PDF怎麼快速統計文檔字數?這兩種方法很簡單
    我們都知道Word文檔有統計字數的工具,那麼PDF文檔是否也能直接查看文檔字數呢?下面從普通文檔和掃描文檔兩種形式教你怎麼快速統計PDF字數。一、普通文檔這一類文檔一般是由Word導出或新建PDF製作,可以直接複製或編輯,統計字數也比較簡單,只需要用到PDF編輯器就可以了;1、首先用極速PDF編輯器打開PDF文檔後,選擇右上角導航欄「文檔」下拉選項中的「字數統計」;2、默認是計算整個文檔字數
  • 如何使用word統計字數 word統計字數
    我們在編輯word文檔的時候,往往有很多時候有字數的規定,不能超過多少,不能低於多少,下面介紹下用word統計字數方法打開word文檔,錄入要統計的文本內容信息點擊工具欄上的「審閱」功能按鈕在審閱的菜單界面中,選擇字數統計功能按鈕,就能查看到默認的整個文檔的字數統計信息
  • 各個版本的word如何進行統計字數
    最近一直有人問word中如何統計字數,這應該是一個再簡單不過的問題了,可為什麼還有好多人不知道呢,原來word也有很多版本,而每個版本字數統計的位置都不一樣,下面就把各個版本的字數統計功能匯總一下。下面用各個版本的word來統計這篇文字的字數。
  • 如何統計Excel表格中指定部分的字數?
    可要是遇上這樣的情況:客戶提供的都是Excel表格,尤其是那種ShitSheet特別多內容又特別多的Excel表格,那麼光統計要翻譯的文本的字數就夠譯者喝一壺的。所以在今天的這篇帖子中,我就準備仔細說一下如何統計Excel表格中指定部分的字數。正文首先,我先給大家介紹一下我準備使用的演示材料和程序開發需求。
  • Word的字數統計,都統計些什麼?
    普通大學論文字數大約在6000-8000左右,而一些要求較高或者重點學校則要求論文字數在1萬左右或以上,學校不一樣,專業不一樣,字數也就不一樣。然而就會有人疑惑,這個字數怎麼算,難道要一個個地數麼?哈哈!沒那麼複雜,直接用Word字數統計功能就OK啦!提到Word字數統計功能,用過Word的寶寶們應該都不陌生。
  • PDF文件可以查看字數嗎?PDF如何統計字數?
    有時在查閱PDF文檔時需要知道整篇文章一共有多少字數,是否只能先將文檔轉成Word後再快速統計呢?那PDF可以直接查看字數嗎?如何快速統計PDF字數?一般我們查看PDF文檔都是通過PDF閱讀器,首先用極速PDF閱讀器打開文檔後,點擊工具欄最上方一排中的「編輯」快速切換到極速PDF編輯器頁面。
  • 如何統計一篇文章的字數、行數
    寫的文章篇幅較長,怎樣利用電腦快速統計出其字數。在word中是有專門的功能的,通過菜單欄-編輯-查找功能還可以統計出整篇文章中某幾個字的字數。全部統計都是word自動進行。首先將文章打開,或者複製別處的文章到word中。文章進來後,點擊菜單欄-工具-字數統計。
  • 正規翻譯公司之翻譯文件字數統計原則
    本篇來簡單介紹一下字數統計的原則。在接到客戶委託稿件後的工作流程,先由審稿人員對稿件的語種、內容及字數進行審核,以便報價。感謝馮老師在做挪威語翻譯百忙之中給大家帶來的文章。中譯英稿件,字數參考word文檔——審閱——字數統計——字數,「字數」中顯示的數字為稿件中文字數,以每一千字價格作為單價,包括翻譯費、校對費和排版費。
  • 如何在Mac上設置系統範圍的字數統計服務
    在本文中,我們將向您展示如何創建系統範圍的服務,使您能夠在TextEdit,Safari,Mail或Mac上的任何可讓您突出顯示文本的應用程式中立即獲得字數統計和字符計數。以下步驟將指導您完成使用macOS Automator應用創建自己的字數統計服務的過程。這是一個簡單的過程遵循,應該只需要五分鐘,但如果你想使用其他第三方解決方案,然後檢查WordCounter,從Onekerato一個免費的Mac菜單欄工具。
  • WPS文字的字數統計在哪?如何查看當前文檔有多少個字?
    那麼 WPS 文字的字數統計在哪裡呢?如何查看當前文檔有多少個字呢?下面老古就分電腦版和手機版 WPS 文字來說一下字數統計在哪裡。一、電腦版 WPS 文字的字數統計方法一、常規方法打開想要查看字數的文檔,點擊菜單欄中的「審閱 > 字數統計」即可看到當前文檔的字數統計信息。
  • word怎麼看字數,這2種方法簡單快捷!
    本篇將介紹的是word中怎麼查看字數,有興趣的朋友可以了解一下!word是我們生活中很常用的文檔編輯工具,不管是學習還是工作都能看見它的蹤影。我們應該了解它的一些常用功能,今天將介紹的就是word中用的很多的一個功能,word怎麼看字數。接下來將介紹2種方法,不會的可以看看。
  • 小技巧:誰說EmEditor沒有字數統計功能?
    用EmEditor的人估計都找過它的「字數統計」功能,且大多數都是無功而返,筆者就是其中一位。無意中發現,其實我們不用作任何設置,EmEditor就已經把「字數統計」功能展現在我們面前了。編輯文稿,當想統計字數的時候,點擊工具欄上的「保存」按鈕(也可依次點擊「文件→保存」實現保存)。
  • WORD學習教程,帶圈字符,數學公式,字數統計
    WORD學習教程,帶圈字符,數學公式,字數統計1、下面我們來學習「帶圈字符」和「合併字符」功能,先看下面的兩個效果:這些功能都在「格式」菜單——「中文版式」項裡。3、「工具」菜單的使用:(1)拼寫檢查:「工具」菜單中「拼寫」主要是針對英文起作用的。當你輸入一單詞若發現有紅色波浪線則說明該單詞可能是誤寫或是新單詞。
  • 天天在用Word的你,真的會統計文檔字數嗎?
    最近有朋友詢問,如何快速統計出Word文檔的字數?這個問題其實非常簡單,但往往是這種最簡單的知識容易被大家忽視,因此造成困擾。
  • 學韓語的你,真的會統計韓語的字數嗎
    此外,學韓語的你,如果將來打算做一份韓語翻譯小兼職,這篇仔細閱讀,你會少跌好幾個字數統計上的坑。今天的第一部分,純掃盲。因為偶爾還是有人認為,韓語和英文那樣,一個空格算一個字數,或者有時候微軟的office裡面少數情況下有時也會以這種方式統計字數,所以有必要說說,比如 나는 예쁜 여자를 좋아해요. 這句話,他認為是3個字,包括標點符號也不算字。
  • 你會統計字數嗎?
    在日常工作中,常常會對文本進行統計,雖然是小技巧,但經常使用,所以這裡Word妹介紹幾種統計字數的方法。
  • word文檔內容校對,字數統計
    在word文檔排版中,完成之後需對內容字數統計,如果用手動去數,比較麻煩,耗時間比較長,而且不一定準確,今天就用word文檔自帶的字數統計功能,自動計算字數,頁數,空格,標點符號等,非常方便快捷。方法一、打開「word文檔「,切換到,「審閱「,面板中,然後選擇,「字數統計」。在彈出的對話框中,就可以看到整篇文檔內容的字數,頁數,空格,單詞等非常詳細的統計信息。
  • 在線製作表單,分發、統計更簡單-Zoho Forms
    表單是一種很有用的小工具,比如企業內部的團建地點意見徵集,或者對客戶的售後服務問卷調查,使用場景很多。不過一般都需要列印、人工分發、回收統計,工作很繁瑣。而使用在線表單處理工具Zoho Forms,就再也不必這麼麻煩了。
  • 字數統計中沒有哦
    如何統計Word中純漢字的數量及相關注意事項編輯文章一般都需要統計漢字字數。Word自帶有統計字數的工具,但它並不能統計純漢字的數量。統計字數的工具的界面如下,「中文字符和朝鮮語單詞」是最接近漢字數量的。
  • 翻譯字數統計方式,到底應該按哪一項?
    對於這個問題,是有一個標準答案的譯者接翻譯項目時,在和客戶溝通價格和字數統計方式的時候,完全可以把這份國家標準亮出來,要求按照標準執行。如果按照「字符數(不計空格)」統計出來的字數和其他幾項差距不大,一般就沒什麼問題。但如果差得不少,那麼客戶就不一定會同意。