文章編號:10535時間:2024-09-28人氣:
先安裝lxml這個庫,才能正常安裝pyspider,另外你是WIN64的話就放棄pyspider吧python爬蟲一些安裝包錯誤解決方法
意圖使用Python對考研英語真題中的單詞進(jìn)行詞頻分析,并添加翻譯等輔助信息,以便于記憶。 手持近20年的考研英語一二真題Word文檔,共計數(shù)十個,需逐個文件讀取內(nèi)容,并提取文章及題目部分,排除介紹內(nèi)容。 借助docx包讀取Word文檔,因docx格式支持,將原有文件另存為docx格式。 導(dǎo)入所需庫,并定義去除的標(biāo)點符號和停用詞,停用詞通過nltk庫導(dǎo)入。 運用docx的Document方法讀取Word文件,構(gòu)建待讀取文件的列表。 輸入文件名列表,輸出分詞后的列表。 docx中的runs對象代表相同樣式文本的連續(xù)部分,通過判斷runs[0]或runs[0]判斷段落開頭是否為粗體或斜體,即題目介紹,這部分不參與統(tǒng)計。 使用re庫的正則表達(dá)式替換特殊符號為空格,以便后續(xù)分詞,具體操作參考相關(guān)博客。 利用nltk中的word_Tokenize進(jìn)行分詞,去除停用詞與標(biāo)點符號,將所有文件和段落分詞列表疊加,輸出words。 為提高詞性還原準(zhǔn)確度,采用nltk的WordNetLemmatizer方法提取詞干,通過單詞和詞性(可選)兩個參數(shù)獲取詞干。 使用pos_tag獲取單詞詞性,但需進(jìn)行轉(zhuǎn)換,以便于lemmatize使用。 使用collections庫的counter統(tǒng)計單詞個數(shù),并返回每個單詞及其個數(shù),通過most_common(n)獲取前n個單詞。 利用有道智云的文本翻譯API進(jìn)行翻譯,參考相關(guān)文檔。 translate_alls函數(shù):輸入統(tǒng)計的單詞,對每個單詞進(jìn)行翻譯,并將單詞、翻譯、詞頻放入字典中。 將上述函數(shù)進(jìn)行操作。 使用openpyxl進(jìn)行Excel的讀寫。 單詞結(jié)果可在鏈接中獲取/s/1Zdr8yD...,提取碼:s985,結(jié)果分為英一、英二、英一+英二。
猜測你使用的 Python 版本為 Python2 但是使用 coding: UTF-8 設(shè)置中文編碼只在 Python 3 有效
所以 設(shè)置默認(rèn)編碼 應(yīng)在代碼開始部分應(yīng)該加上
中文分詞是眾多應(yīng)用技術(shù)的基礎(chǔ),如搜索引擎、翻譯和文本分析等。 在Python中,jieba庫因其卓越性能和易用性被譽為最佳選擇。 開發(fā)團隊以結(jié)巴這個生動且富含程序員幽默感的名字賦予它,展現(xiàn)了他們的愿景。 截至2022年4月,jieba在GitHub上收獲了28.3K星,人氣爆棚,且支持多種編程語言,從PC到移動設(shè)備都能使用。 要開始使用jieba,首先通過pip安裝,它兼容Python 2和3。 分詞過程簡單,導(dǎo)入庫后,調(diào)用cut()方法即可將文本內(nèi)容切分成詞語。 jieba提供了四種分詞模式:精確模式(默認(rèn))注重分詞準(zhǔn)確性;全模式快速但可能存在歧義;搜索引擎模式增強長詞召回;paddle模式則利用深度學(xué)習(xí)框架進(jìn)行分詞,不過目前很少使用。 在使用時,可以自定義分詞詞典,添加或刪除特定詞語,調(diào)整詞頻或詞性。 jieba還提供了關(guān)鍵詞提取功能,基于TF-IDF或TextRank算法,以及詞性標(biāo)注服務(wù),采用兼容ictclas的標(biāo)記法。 此外,jieba的Tokenize模塊還能返回詞語在原文的位置信息。 要了解更多詳細(xì)信息,可以參考jieba的官方GitHub文檔/fxsjy/jieba。 通過這個強大的工具,中文分詞變得更加便捷和精確。
下面這個程序是對一個文本文件里的內(nèi)容進(jìn)行分詞的程序[python] view plain copy#!/usr/bin/python#-*- encoding:utf-8 -*-import jieba#導(dǎo)入jieba模塊def splitSentence(inputFile, outputFile):fin = open(inputFile, r)#以讀的方式打開文件fout = open(outputFile, w)#以寫得方式打開文件for eachLine in fin:line = ()(utf-8, IGNORE) #去除每行首尾可能出現(xiàn)的空格,并轉(zhuǎn)為Unicode進(jìn)行處理wordList = list((line))#用結(jié)巴分詞,對每行內(nèi)容進(jìn)行分詞outStr = for word in wordList:outStr += wordoutStr += / (()(utf-8) + \n) #將分詞好的結(jié)果寫入到輸出文件()()splitSentence(, )寫完程序之后,在Linux重點輸入:python 即可運行程序進(jìn)行分詞。
內(nèi)容聲明:
1、本站收錄的內(nèi)容來源于大數(shù)據(jù)收集,版權(quán)歸原網(wǎng)站所有!
2、本站收錄的內(nèi)容若侵害到您的利益,請聯(lián)系我們進(jìn)行刪除處理!
3、本站不接受違法信息,如您發(fā)現(xiàn)違法內(nèi)容,請聯(lián)系我們進(jìn)行舉報處理!
4、本文地址:http://m.hudongshop.com/article/35b8648aa348b8796fc0.html,復(fù)制請保留版權(quán)鏈接!
在微服務(wù)架構(gòu)中,服務(wù)通常是獨立部署和運行的,這給跨服務(wù)發(fā)現(xiàn)、安全性和路由帶來了挑戰(zhàn),為了解決這些挑戰(zhàn),我們可以使用Zuul和NetflixOSS等組件,ZuulZuul是Netflix開發(fā)的邊緣服務(wù)網(wǎng)關(guān),它可以提供以下功能,路由,將請求路由到后端服務(wù)安全,保護(hù)后端服務(wù)免受未經(jīng)授權(quán)的訪問監(jiān)控,監(jiān)控后端服務(wù)的健康狀況彈性,處理請求失敗并重...。
最新資訊 2024-09-25 01:52:03
Perl是一種高級、通用的動態(tài)編程語言,最初由拉里·沃爾于1987年開發(fā),它以其強大的文本處理能力、豐富的庫以及與各種操作系統(tǒng)和平臺的兼容性而聞名,Perl的特點高度靈活,Perl是一種高度靈活的語言,允許程序員輕松實現(xiàn)各種任務(wù),跨平臺,Perl可以跨多個操作系統(tǒng)運行,包括Windows、Linux、macOS和Unix等,強大的文本...。
本站公告 2024-09-16 16:35:56
正則表達(dá)式,RegularExpression,是一種用于文本匹配的強大工具,它們由一系列字符組成,用于描述要搜索或替換的文本模式,通過使用正則表達(dá)式,你可以輕松地查找、提取和修改文本,從而節(jié)省大量時間并提高文本處理的效率,正則表達(dá)式的組成正則表達(dá)式由以下部分組成,字符文字,表示要匹配的特定字符,元字符,具有特殊含義的字符,如,匹配任...。
互聯(lián)網(wǎng)資訊 2024-09-16 16:30:08
數(shù)據(jù)可視化是一種以圖形和圖表方式呈現(xiàn)數(shù)據(jù)以幫助理解數(shù)據(jù)模式和趨勢的強大工具,通過數(shù)據(jù)可視化,我們可以輕松快速地識別數(shù)據(jù)中的重要見解,做出明智的決策,SQL簡介SQL,結(jié)構(gòu)化查詢語言,是一種廣泛用于管理和查詢關(guān)系數(shù)據(jù)庫的編程語言,使用SQL,我們可以從數(shù)據(jù)庫中提取、修改和操縱數(shù)據(jù),使用SQL提取數(shù)據(jù)為了進(jìn)行數(shù)據(jù)可視化,我們需要首先使用S...。
最新資訊 2024-09-16 08:56:13
交貨時間表是一個有用的工具,可以幫助您跟蹤訂單的預(yù)計交貨時間,它可以幫助您避免交貨延遲,并確保您的客戶獲得他們訂購的產(chǎn)品,要創(chuàng)建交貨時間表,您需要收集以下信息,訂單日期訂單號客戶名稱產(chǎn)品名稱數(shù)量預(yù)計交貨日期一旦您收集了所需信息,您就可以創(chuàng)建一個交貨時間表,您可以使用電子表格程序,如MicrosoftExcel,或在線工具,如Googl...。
互聯(lián)網(wǎng)資訊 2024-09-15 19:01:51
FastReport是一個功能強大的跨平臺報告引擎,可讓企業(yè)創(chuàng)建令人驚嘆的報告和儀表板,其最新版本FastReport3.0提供了一系列令人興奮的新功能和增強功能,將報告和儀表板的創(chuàng)建提升到了一個新的水平,可視化數(shù)據(jù)分析的無限可能性FastReport3.0增強了其數(shù)據(jù)可視化功能,使企業(yè)能夠以前所未有的方式探索和分析數(shù)據(jù),新增加的儀表...。
互聯(lián)網(wǎng)資訊 2024-09-14 17:19:16
活動和體驗,吸引和培養(yǎng)受眾,教育和培訓(xùn),提供互動教育和培訓(xùn)內(nèi)容,增強受眾的知識和技能,案例研究品牌已經(jīng)使用Showwindow實現(xiàn)了驚人的效果,Nike,使用VR體驗讓受眾仿佛置身于最新的運動鞋中,LOréal,利用AR技術(shù),讓受眾在購買前虛擬試用化妝品,三星,通過Showwindow舉辦虛擬產(chǎn)品發(fā)布會,吸引了全球受眾,結(jié)論Showw...。
本站公告 2024-09-14 11:16:27
概述ActiveX控件是一種Microsoft技術(shù),允許在網(wǎng)頁中嵌入交互式內(nèi)容,其主要優(yōu)點包括跨平臺兼容性、豐富的功能集以及易于與其他Windows應(yīng)用程序集成,ActiveX控件也存在一些缺點,如安全性問題和對InternetExplorer,IE,瀏覽器的依賴,功能ActiveX控件提供了一系列強大的功能,包括,在網(wǎng)頁中嵌入動態(tài)內(nèi)...。
技術(shù)教程 2024-09-12 10:43:29
歡迎來到Windows網(wǎng)絡(luò)編程的世界!網(wǎng)絡(luò)編程是計算機科學(xué)的一個重要領(lǐng)域,它使應(yīng)用程序能夠通過網(wǎng)絡(luò)進(jìn)行通信,Windows平臺為網(wǎng)絡(luò)編程提供了廣泛的API和框架,使開發(fā)人員能夠創(chuàng)建強大、可擴展和可靠的網(wǎng)絡(luò)應(yīng)用程序,網(wǎng)絡(luò)編程的基礎(chǔ)知識在開始了解Windows網(wǎng)絡(luò)編程之前,讓我們回顧一下網(wǎng)絡(luò)編程的一些基本概念,套接字,套接字是網(wǎng)絡(luò)通信的端...。
技術(shù)教程 2024-09-10 11:51:06
在安裝Java時遇到問題很常見,本指南將幫助您解決一些最常見的Java安裝問題,常見的Java安裝問題以下是一些常見的Java安裝問題,無法安裝Java安裝Java時出現(xiàn)錯誤Java無法運行Java已安裝但無法使用無法安裝Java如果您無法安裝Java,可能是因為以下原因之一,您沒有管理員權(quán)限您的計算機未連接到互聯(lián)網(wǎng)Java下載文件已...。
最新資訊 2024-09-10 04:59:20
解決沖突是一項復(fù)雜而艱巨的任務(wù),需要持續(xù)的關(guān)注和努力,僅僅采取行動來解決沖突是不夠的,同樣重要的是要追蹤進(jìn)展,重新評估情況,以確保正在采取的行動有效地解決問題,追蹤進(jìn)展的重要性追蹤進(jìn)展對于了解沖突解決工作的進(jìn)展情況和有效性至關(guān)重要,它使您能夠確定哪些策略有效,哪些策略無效,并根據(jù)需要進(jìn)行調(diào)整,通過定期監(jiān)控進(jìn)展,您可以及時識別任何問題,...。
本站公告 2024-09-08 06:53:03
1982年,河南省安陽市發(fā)生了一系列詭異事件,至今仍令人難以解釋,這些事件包括武器失蹤、靈異現(xiàn)象和不明飛行物目擊事件,震驚了整個中國甚至世界,武器失蹤案1982年5月14日凌晨,安陽市某部隊駐地發(fā)生了一起嚴(yán)重的武器失蹤案,據(jù)報道,當(dāng)晚有32支沖鋒槍和59發(fā)子彈從軍械庫中無故消失,軍方展開大規(guī)模搜索,但沒有任何發(fā)現(xiàn),事件發(fā)生后,軍隊派出...。
互聯(lián)網(wǎng)資訊 2024-09-03 05:38:44