计算机汉字处理知识.docx
- 文档编号:9597160
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:17
- 大小:27.79KB
计算机汉字处理知识.docx
《计算机汉字处理知识.docx》由会员分享,可在线阅读,更多相关《计算机汉字处理知识.docx(17页珍藏版)》请在冰豆网上搜索。
计算机汉字处理知识
计算机汉字处理知识
現代計算機技術雖然先進,但大多數人只知錄入GB-2313字符集內的6763箇簡體漢字,對包含21003箇簡繁體漢字的GBK字符集的文字錄入、字體顯示就已不甚了解(大陸市面上絕大多數所謂的繁體字體,其實采用的是GB2313字符集簡體字的編碼,用字體顯示爲繁體字,而不是直接用GBK字符集中繁體字的編碼,錯誤百出)。
而漢字總數至少有近10萬箇,目前計算機能處理的,亦有7萬多箇,已非一般人所能知能用了。
這裏僅就所知,提供相關的知識及字體等下載,供參考研究。
目錄
一、計算機漢字處理基本知識
二、漢字字體下載
0、漢字字體(字庫)概況
1、大陸字體
2、臺灣字體
3、香港字體
4、韓國字體
5、日本字體
6、越南字體
7、其他漢字字體
8、WindowsVista操作系統字體
9、MacOSX操作系統字體
三、漢字輸入法
四、相關網站及網頁
五、字體製作、修改、安裝、改名等
一、計算機漢字處理基本知識
一、如何處理無法輸入計算機的漢字
一些漢字無法輸入計算機,一般不外乎以下二種情況:
一是計算機操作系統所支持的字符集及其相應支持字體的問題,一是輸入法的問題。
(一)編碼字符集、字體、輸入法
①GB2313字符集,收入漢字6763箇,符號715箇,總計7478箇字符,這是大陸普遍使用的簡體字符集(包括了沒有簡體與繁體之分的傳統傳承漢字,如金木水火土人民在大小等等,有4000多箇,真正由繁體字簡化而來的簡體漢字約2235箇)。
楷體-GB2313、仿宋-GB2313、華文行楷等市面上絕大多數字體支持顯示這箇字符集,亦是大多數輸入法(如智能ABC)所採用的字符集。
大陸市面上絕大多數所謂的繁體字體,其實采用的是GB-2313字符集簡體字的編碼,用字體顯示爲繁體字,而不是直接用GBK字符集中繁體字的編碼,錯誤百出。
②BIG-5字符集,收入13060箇繁體漢字,808箇符號,總計13868箇字符(包括了無簡體與繁體之分的傳統傳承漢字),目前普遍使用於臺灣、香港等地區。
臺灣教育部標準宋體楷體等港臺字體都支持這箇字符集的顯示。
③GBK字符集,又稱大字符集(GB=GuóBiāo國標,K=擴展),包含以上兩種字符集漢字,收入21003箇漢字,882箇符號,共計21885箇字符,包括了中日韓(CJK)統一漢字20902箇、擴展A集(CJKExt-A)中的漢字52箇。
Windows95\98簡體中文版就帶有這箇GBK.txt文件。
宋體、隸書、黑體、幼圓、華文中宋、華文細黑、華文楷體、標楷體(DFKai-SB)、ArialUnicodeMS、MingLiU、PMingLiU等字體支持顯示這箇字符集。
微軟拼音輸入法2003、全拼、紫光拼音、極點中文、龍鳳五筆等輸入法,能夠錄入如镕鎔炁夬喆嚞姤赟贇龑昳堃慜靕臹等GBK簡繁體漢字。
★繁體字的輸入:
凡是能夠錄入GBK字符集漢字的輸入法,自然都能夠錄入繁體字。
如果只想錄入繁體字,可以在輸入法設置中修改。
右鍵點擊屏幕右下角的語言欄→設置→微軟拼音輸入法2003→屬性→字符集→繁體中文。
選擇大字符集,則簡體和繁體漢字都能夠輸入。
其他輸入法,亦可以用這箇方法修改設置。
有一些五筆輸入法,還有打簡體字輸出繁體字的設置。
但要注意一點,輸入法提供的繁體字,有時並不是想要的漢字,如想錄入“云、后、才”字(子曰詩云、皇后、人才),輸入法提供的卻是“雲、後、纔”字(彩雲、後來、纔可以),反之亦然,需要自己掌握。
文本文字的簡體與繁體之間的轉換,可以用MircrosoftOffice軟件自帶的漢字簡繁體轉換功能,亦可以用BabelPad、TextPro或Convertz之類的軟件來解決,但不可能解決一切問題,轉換後,錯誤或多或少仍然存在,以及大陸與港臺間表達上的差異(可修改轉換設置:
word2003→工具→語言→中文簡繁體轉換→詞彙:
轉換時包括詞彙),仍需要手工操作。
★拼音輸入法的最大缺點,只能輸入已知讀音的漢字,此外則輸入者難以爲力。
一箇人能識讀的漢字畢竟極其有限,遠不及不能識讀的漢字之多。
在此特別推薦使用手寫輸入法逍遙筆,安裝後即可用鼠標書寫,使用非常方便,可以作爲輔助輸入法。
這裏亦顯示出五筆字形輸入法之優越性,無論簡體字繁體字,不論認識與否,按形輸入,不成問題。
★★亂碼的問題:
BIG-5(大五碼,繁體中文)與GB-2313(國標碼,簡體中文),是兩種完全不同的編碼系統,互不兼容,相同的字符在不同編碼的操作系統中便產生亂碼。
文本文字簡繁體編碼間的轉換,可以用BabelPad或TextPro軟件來解決。
在網頁中,可點擊右鍵→編碼→繁體中文或簡體中文以解決。
若是程序,WindowsXP操作系統,可用MicrosoftAppLocaleUtility解決;Windows2000的操作系統,大概只有用:
中文之星、四通利方、南極星、金山快譯之類的轉碼軟件方能解決了。
各種字體雖分大五碼或國標碼(簡體或繁體),但並不妨礙在簡體或繁體操作系統中安裝與顯示。
④GB18030字符集,包含GBK字符集、CJKExt-A全部6582箇漢字,共計27533箇漢字。
宋體-18030、方正楷體(FZKai-Z03)、書同文楷體(MSSong)宋體(ht_cjk+)、香港華康標準宋體(DFSongStd)、華康香港標準楷體、CERGChineseFont、韓國NewGulim,以及微軟WindowsVista操作系統提供的宋黑楷仿宋等字體亦支持這箇字符集的顯示。
Windows98支持這箇字符集,以下的字符集則不支持。
手寫輸入法逍遙筆4.0版支持GB18030字符集及方正超大字符集漢字的錄入。
⑤方正超大字符集,包含GB18030字符集、CJKExt-B中的36862箇漢字,共計64395箇漢字。
宋體-方正超大字符集支持這箇字符集的顯示。
MicrosoftOfficeXP或2003簡體中文版就自帶有這箇字體。
Windows2000的操作系統需安裝超大字符集支持包“Surrogate更新”。
⑥ISO/IEC10646/Unicode字符集,這是全球可以共用的編碼字符集,兩者相互兼融,涵蓋了世界上主要語文的字符,其中包括簡繁體漢字,計有:
CJK統一漢字20902箇,CJKExt-A6582箇,Ext-B42711箇,共計70195箇漢字。
方正楷體超大字符集(簡體版FZKaiS-Extended(SIP)或繁體版FZKaiT-Extended(SIP))、SimSun-ExtB(宋體)、MingLiU-ExtB(細明體)能顯示全部Ext-B漢字。
至今尚無單獨一款字體能夠顯示全部70195箇漢字,但可用海峰五筆、新概念五筆、手寫輸入法逍遙筆5.2版、倉頡輸入法世紀版、新版的微軟新注音、倉頡輸入法6.0版(單碼功能)等輸入法錄入。
Ext-C還有2萬多箇漢字。
詳情請參閱香港中文大學網站、馬來西亞倉頡之友網站。
⑦漢字構形資料庫
2007年9月20日開放的漢字構形資料庫2.5版,83.3M,收錄古今漢字112,533箇;其中楷書字形62,366箇,小篆及重文11,100箇,金文及重文20,069箇,楚系簡帛文字及重文16,801箇,甲骨文及重文2,197箇;另收《漢語大字典》異體字表12,208組。
對於整理某些古代文獻十分有用。
★★如果超出了輸入法所支持的字符集,此字符集外的漢字就不能用這種輸入法錄入計算機,請更換另一種相應的輸入法。
一箇已編輯好的文本,在另一臺計算上,如果沒有相應字體的支持,文本字體會用別的字體顯示,但仍保留原文本的字體名。
如果操作系統或應用軟件不支持該字符集,尤其是GBK字符集以外的漢字,則顯示爲黑框、方框、空白、問號(一箇或兩箇),在網頁上亦存在同樣的情況。
在word2003中,在沒有安裝相應字體的計算機上亦能完全顯示與打印的方法是:
另存爲→(右上角)工具→保存選項→嵌入TrueType字體→只嵌入所用字符;或者用AdobeAcrobat等軟件把文本打印成pdf文檔,但仍要嵌入相應字體纔行,否則在沒安裝相應字體的計算機上亦不能顯示,即顯示爲空白。
(二)輔助輸入法
★★在此特別推薦使用手寫輸入法逍遙筆5.2版,增加了詞彙聯想功能,能輸入70000多漢字。
安裝後即可用鼠標書寫,使用非常方便,可以作爲輔助輸入法。
★★
亦可以用系統自帶的中文內碼輸入法、增強區位輸入法,錄入相應字符集的漢字。
用右鍵點擊屏幕右下角的“語言欄”→設置→添加→輸入法→Chinese(Simplified)-EnhancedUnicodeIME,或中文(簡體)-內碼→確定→應用→確定。
然後在“語言欄”選擇該輸入法,在屏幕的左下角就會出現狀態欄,可用右鍵點擊查看幫助信息。
次外,如果已知一箇字符的內碼,就可以在Word2003中直接鍵入其內碼,再按下鍵盤中的[Alt+X]組合鍵,就能呈現該字符。
若再按下[Alt+X]組合鍵,又可呈現其內碼。
因此亦可用此法在Word2003中查出任何一箇字符的內碼。
(三)難字的處理方法
①字符集裏的漢字。
對於字符集裏原有的漢字,如果沒有合適的輸入法可供錄入,可以先輸入這箇漢字的部首或同部首的漢字,然後插入→符號,找到所要的漢字。
或者:
開始→程序→附件→系統工具→字符映射表→勾上“高級查看”→分組→按偏旁部首分類的表意文字。
注意字體。
找到所要的字後,再點“選擇”和“複製”,粘貼到Word。
亦可以查看這箇文件,內含全部漢字的部首檢字表。
②字符集外的漢字。
對於字符集裏沒有的漢字,除了造字(開始→程序→附件→TrueType造字程序)之外,還可以將這些漢字全部做成圖片,插入正文中,調整至與周圍文字相稱,可以不受計算機字符集的限制。
Ext-C區2萬多箇漢字,因爲目前尚無相應字體的支持,無法顯示,但可以用圖片字代替。
③圖片字簡易製作法。
在Word中打出其部件可供截用的字,或顯示屏上的任何內容,按鍵盤上的[PrintScreen]鍵,粘貼到畫圖板上(開始→程序→附件),編輯成所需要的字或圖形,將這箇圖片字直接剪切粘貼到正文中。
亦可使用SnagIt或HyperSnap之類的抓圖軟件,以JPG或BMP(文字圖片以後者爲優)格式存儲,然後在Word中插入這箇圖片字,縮小到與周圍文字大小相當,再右鍵點擊圖片,用“設置圖片格式→大小”進行微調,再調整上下位置:
格式→字體→字符間距→位置→降低。
凡直接可以由部首或幾箇字合成的文字,可以用字符縮放、改變行距(設爲固定值)、調整字符大小及間距等方法,製作成所需要的文字。
具體技巧,可參看:
二、給漢字標注拼音
MicrosoftOfficeXP或2003的Word就有這箇功能。
選定要注音的文字,用:
格式→中文版式→拼音指南,Word就會在所選文字的上方自動標注拼音。
如果出現的是注音符號而不是拼音符號,先選定這些文字,檢查:
工具→語言→設置語言,確定是“中文(中國)”而不是“中文(臺灣)”。
但Word能夠自動標注拼音的漢字大約兩萬箇,此外漢字的拼音,就只能在所選文字的“格式→中文版式→拼音指南→拼音文字”處用鍵盤錄入了;拼音若有錯誤,亦可以在此處手工更正。
可以把“拼音文字”處的拼音,用[Ctrl+C]組合鍵複製,再用[Ctrl+V]組合鍵粘貼到Word中。
反之亦可以用這種方法把Word中的拼音複製到“拼音文字”處。
可惜Word一次最多只能標注30箇漢字。
若要給整篇文檔標注拼音,就只能用“拼音大師”、“中華拼讀王(輕鬆漢字通)”、“實用漢字轉拼音”之類的軟件了。
中文輸入法的狀態欄一般都有一箇鍵盤符號,用右鍵點擊,選擇“拼音字母”,就可以錄入那些帶有聲調的字母;點左鍵取消或開啟。
三、WPS文檔與Word文檔之間的轉換
只要用WPSOffice2002或以上版本,就能徹底解決這箇問題。
在程序安裝過程中,注意在“文件關聯設置”處勾上“MicrosoftWord文檔”就能實現。
安裝完成後,所有的Word文檔都會用WPS來打開。
若要改回,用右鍵點擊一箇Word文檔,選擇“打開方式→選擇程序→Word”,再在“始終使用選擇的程序打開這種文件”前打勾就行了。
WPS文檔可另存爲Word文檔,亦可用WPS打開Word文檔,再另存爲WPS文檔。
當然可以用“RTF格式”文檔作爲中介,但是有些信息會丟失(用另存爲、用復制粘貼,結果不完全一樣)。
亦可以另存爲網頁文件,但要還轉爲文本格式,仍有問題。
上面所述如有不能實現者,當是操作系統或辦公軟件的緣故,建議升級至WindowsXP、MicrosoftOffice2003。
二、漢字字體下載
0、漢字字符集(字庫)概況
字體名後面的數字,是指能顯示的GBK+CJK-Ext-A+CJK-Ext-B漢字的箇數。
GB-2313字符集:
6763箇簡體漢字,715箇符號,總計7478箇字符
GBK字符集:
21003箇簡繁體漢字,882箇符號,共計21885箇字符
(包含BIG-5字符集:
13060箇繁體漢字+808箇符號=13868箇字符)
GB18030字符集:
GBK字符集+CJKExt-A=27533箇漢字
(CJK-A中有52字與GBK中的漢字重複,但內碼不同,在計總數時不算在內)
Unicode字符集,CJK:
20902箇漢字(包含在GBK字符集中)
Unicode字符集,CJKExt-A:
6582箇漢字(包含在GB18030字符集中)
Unicode字符集,CJKExt-B:
42711箇漢字
全部70244箇漢字下載(27533+42711=70244)
★古難字索引(CJK+Ext-A+Ext-B)★部首檢字表
1、大陸字體
01、华文彩云、华文琥珀、华文隶书、华文新魏、华文行楷6763
02、楷体、仿宋6763
03、方正舒体9690方正姚体9826
04、幼圆、黑体、隶书、宋体、新宋体21003
05、华文楷体、华文仿宋、华文宋体、华文细黑、华文中宋21003
(以上字體MSOfficeXP\2003簡體版自帶)
06、FZNewXiuLi-Z11方正新秀麗(舊字形)15290
方正書宋、楷體、仿宋、黑體-GBK21003(包含在四通利方轉碼軟件內)
07、北師大說文小篆、北師大說文重文11100箇 (說文小篆PDF文本)
此兩款字體包含在“漢字構形資料庫”中。
http:
//www.sinica.edu.tw/~cdp/zip/font/cdpfonts24.exe
08、宋体-18030、新宋体-1803021003+6582=27533
09、MSSong書同文楷體21003+6582=27533(即FZKai-Z03方正楷體簡體版)
ht_cjk+書同文宋體21003+6582=27533(包含在四部叢刊軟件中)
10、FZKai-Z03 方正楷體21003+6582=27533
此外還自造了近5000箇在古籍中較常使用的漢字(能顯示八卦六十四卦符號,非Unicode),共計32000編碼漢字。
下載簡體中文版的是大陸標準楷體的寫法,下載繁體中文版的是台灣教育部楷體的寫法,同時還有日本和韓國的楷體寫法。
四箇字體都是相同的文件名、字體名,除非更改字體名稱,否則沒有辦法兩箇同時安裝。
★★方正楷體超大字符集:
採用最新ISO/IEC10646:
2003Unicode5.0國際標準編碼大字庫,包含70195個CJK漢字,外加UnicodeCJKEXT-C漢字12592個,總計82787個漢字,包含於《文淵閣四庫全書電子版》3.0版中。
注意:
簡體版FZKaiS-Extended、FZKaiS-Extended(SIP),繁體版FZKaiT-Extended、FZKaiT-Extended(SIP),兩者字形不同,文件名及字體名亦不同,可同時安裝使用。
11、宋体-方正超大字符集21003+6582+36862=64395 (MSOfficeXP\2003簡體版自帶)
Windows2000超大字符集(Surrogate)支持包“Surrogate更新”:
...laylang=zh-cnFamilyID=1A8B048F-C76F-4E55-A0CF-E695CEF87C81
12、UniSongGBK1.01
宋體-全漢字集71564(采采卷耳制作)
能顯示Unicode5.0全部漢字,以及易經、太玄經全部符號。
13、SIMSUN制作者fromnuaa@
在Windows2000/XP的宋體/新宋體字庫simsun.ttc基礎上進行加工,原本的simsun.ttc只支持12x12,13x13,14x14,15x15,16x16和18x18的點陣,現新增10x10,11x11,17x17和19x19的點陣字形檔,使得7.5-14.5point的字體全部直接調用點陣字形檔顯示(基於顯示器默認的96dpi設置值),效果比原來好了許多。
原本的simsun.ttc只支持英文和GBK兩箇codepage,現在新增加了BIG-5、韓文(KSC5601)和日文(Shift-JIS)三箇codepage,使得這些編碼的網頁或者文檔可以用宋體/新宋體顯示或列印。
系統字體的刪除與安裝:
直接把C:
\WINDOWS\Fonts文件夾中的字體文件拖到另一處(同時按住Shift鍵),再把要安裝的字體拖入其中,重新啟動電腦即可。
14、特制simsun5.00.06和mingliu5.05.01字库
制作者fromnuaa@
是在WindowsVista自帶的simsun.ttc和mingliu.ttc字庫基礎上改造的:
删除了simsun自帶的難看的漢字點陣字庫,換上了WindowsXP的simsun的點陣字庫,並添加了多套漢字點陣字庫,同時補充了所欠缺的CJKEXTA區的6000多漢字的點陣數據,支持GB18030字符集28000多字。
添加了mingliu字庫所缺乏的多套漢字點陣字庫,支持Big5字符集以及其它漢字共24000多字。
除了添加漢字點陣字庫外,也添加了幾套小點陣的ASCII點陣字庫,使得在7.5pt-21pt(基于96dpi顯示)時,均能以點陣方式顯示漢字,提高了漢字顯示的質量。
ASCII字符甚至能顯示更小的點陣。
所有點陣字庫均進行了手工調整,修改了原點陣字庫的一些錯誤。
simsun和mingliu字庫各自可同時支持GBK代碼頁(936)和BIG5代碼頁(950),可直接顯示兩岸三地的中文文檔和網頁,無需切換到其它字庫。
simsun和mingliu字庫中的曲綫字庫同原有的曲綫字庫保持兼容,所以可用來直接取代Windows2000/XP/2003/Vista自帶的simsun和mingliu字庫。
15、Sun-ExtA,Sun-ExtB
UniFonts5.3版包含近10萬標準字符,其中中日韓越通用中文字符75814箇:
CJK20924字,CJK-Ext-A6582字,CJK-Ext-B42711字,CJK-Ext-C4219字,CJK相容擴展542字,CJK部首擴展116字,CJK康熙部首214字,CJK筆劃36字,CJK相容474字。
能顯示《易經》符號、《太玄經》符號等一些特殊符號。
配套的海峰五笔輸入法9.4版下載地址:
2、臺灣字體
1、教育部標準楷書、宋體、隸書等13063
http:
//www.edu.tw/EDU_WEB/EDU_MG...?
FILEID=52968open
2、DFKai-SB(kaiu.ttf)標楷體21003
3、cwTeXTrueType13346(舊字形),字體有錯誤,慎重使用。
CJK-LaTeXUnicodeType1字型。
http:
//cle.linux.org.tw/fonts/cwttf/?
C=S;O=A
http:
//www.ossacc.org/Download/misc/cwttf-1.0/view
4、MingLiU、PMingLiU臺灣細明體(MingLightUnicode)
version2.00版17260version3.00版20923version3.21版20923
5、新細明體更新套件MingLiU.ttc5.03版+MingLiUB.ttc1.05版27533+42711=70244
6、漢字構形資料庫:
2007年9月20日開放的漢字構形資料庫2.5版,83.3M,收錄古今漢字112,533箇;其中楷書字形62,366箇,小篆及重文11,100箇,金文及重文20,069箇,楚系簡帛文字及重文16,801箇,甲骨文及重文2,197箇;另收《漢語大字典》異體字表12,208組。
可使用解決亂碼的軟件MicrosoftAppLocaleUtility以安裝,亦可以解壓後使用其中的字體文件。
注意更新!
詳情:
http:
//www.sinica.edu.tw/~cdp/
7、全字庫楷體內含:
TW-Kai,TW-Kai-Ext-B,TW-Kai-Plus
相關網頁:
http:
//open.cosa.org.tw/COSA/Fonts/
8、全新OpenType規格之華康中文字型127套
9、《华康金蝶2006活用版字型》(DYNAFONT2006)2006[ISO]
3、香港字體
1、ARPLMingti2LBig5明體13070
2、ARPLKaitiMBig5楷體13070
3、DFSongStd華康標準宋體21003+6582+1640=29173
4、楷體四種宋體三種20923+6582=27505
5、CERGChineseFont21003+6582=27533
http:
//cerg1.ugc.edu.hk/cergprod/static
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 汉字 处理 知识