Spaces:

mikeee
/

radiobee-aligner

Build error

App Files Files Community

freemt commited on Jan 14, 2022

Commit

7fd4e54

•

1 Parent(s): d6448a5

Update slow-track for more lang pairs

Browse files

Files changed (21) hide show

data/xiyouji-ch1-de.txt +0 -115
docs/build/doctrees/environment.pickle +0 -0
docs/build/doctrees/intro.doctree +0 -0
docs/build/doctrees/userguide-zh.doctree +0 -0
docs/build/html/_sources/intro.rst.txt +4 -4
docs/build/html/_sources/userguide-zh.rst.txt +1 -1
docs/build/html/intro.html +4 -4
docs/build/html/searchindex.js +1 -1
docs/build/html/userguide-zh.html +1 -1
docs/source/intro.rst +4 -4
docs/source/userguide-zh.rst +1 -1
gradio_queue.db +0 -0
img/plt.png +0 -0
radiobee/__main__.py +1 -1
radiobee/detect.py +32 -16
radiobee/detect_alt.py +66 -0
radiobee/gradiobee.py +11 -6
radiobee/text2lists.py +17 -4
tests/test_detect.py +17 -3
tests/test_text2lists.py +14 -6
tests/test_text2lists_bug2.py +4 -6

data/xiyouji-ch1-de.txt CHANGED Viewed

@@ -2,125 +2,10 @@ Wu Ch’êng-ên
 Monkeys Pilgerfahrt
-Hugendubel
 Nach der englischen Übersetzung von Arthur Waley übertragen von Georgette Boner und Maria Nils.
-1980 © der deutschen Ausgabe Heinrich Hugendubel Verlag, München, Titel der Originalausgabe MONKEY © George Allen & Unwin Ltd. London
-Alle Rechte vorbehalten
-Umschlaggestaltung: Dieter Bonhorst, mit einer Illustration von Maja Weber
-Druck und Bindung: May & Co., Darmstadt
-ISBN 3 88034 9
-Printed in Germany
-* * *
-Die Rechtschreibung und Interpunktion der Originalausgabe sind unverändert. Offensichtliche Fehler wurden stillschweigend korrigiert.
-Inhalt
-Vorwort zur englischen Ausgabe von Arthur Waley
-1. Kapitel: Die Geburt des magischen Affen Monkey
-2. Kapitel: Monkey’s Lehrjahre beim Patriarchen
-3. Kapitel: Die Waffen des Drachenkönigs; Monkey streicht seinen Namen aus der Liste Yamas, des Königs der Toten und erregt den Zorn des Jade-Kaisers
-4. Kapitel: Monkey erhält den Posten eines Pferdeknechts im Himmel und kehrt wegen dieser Beleidigung schnellstens auf die Erde zurück
-5. Kapitel: ›Der Große Weise Himmelsebenbürtige‹
-6. Kapitel: Der Zauberer Erh-lang und Lao-tsu nehmen Monkey gefangen
-7. Kapitel: Monkey verliert eine Wette gegen Buddha
-8. Kapitel: Ein Bote für die Heiligen Schriften
-9. Kapitel: Die Gesetze des Karma
-10. Kapitel: Ein gebrochenes Versprechen
-11. Kapitel: Der Kaiser vor dem Totengericht
-12. Kapitel: Tripitaka erhält den Auftrag, die Heiligen Schriften aus Indien zu holen
-13. Kapitel: Der Tod von Tripitakas Reisegefährten
-14. Kapitel: Tripitaka hebt den Bann von Monkey auf und macht ihn zu seinem Reisegefährten
-15. Kapitel: Monkeys Kampf mit dem verwunschenen Drachen
-16. Kapitel: Monkey vertreibt einen ›Unhold‹
-17. Kapitel: Der ›Unhold‹ Pigsy beschließt, Tripitaka und Monkey zu begleiten
-18. Kapitel: ›Das Ungeheuer vom Strom‹ schließt sich der Pilgerfahrt an
-19. Kapitel: Der Geist des toten Königs bittet Monkey um seine Hilfe
-20. Kapitel: Die durch bösen Zauber verwunschene Stadt Kräh-Hahn
-21. Kapitel: Lao-tsu’s Elexier erweckt den toten König wieder zum Leben; der falsche Zauberer wird in seine ursprüngliche Gestalt, einen Löwen, zurückverwandelt
-22. Kapitel: 500 Buddhisten werden von Monkey aus der Sklaverei befreit
-23. Kapitel: Monkey verulkt Taoisten, die einen Gottesdienst feiern
-24. Kapitel: Eine Wette mit tödlichem Ausgang
-25. Kapitel: Menschenopfer
-26. Kapitel: Der Flußkönig stellt Tripitaka eine Falle
-27. Kapitel: Göttliche Intervention und Rettung Tripitakas
-28. Kapitel: Tripitaka erhält die Heiligen Schriften
-29. Kapitel: Die Heimreise
-30. Kapitel: Willkommensfest in Ch’ang-an
-Arthur Waley zur deutschen Ausgabe
-Vorwort zur englischen Ausgabe von Arthur Waley
-Die vorliegende Erzählung wurde von Wu Ch’êng-ên aus Huai-an in Kiangsu niedergeschrieben. Seine genauen Daten sind nicht bekannt. Doch scheint er zwischen 1505 und 1580 n. Chr. gelebt und sich als Dichter eines gewissen Ruhmes erfreut zu haben. Einige seiner eher unbedeutenden Verse sind in einer Anthologie der Ming-Dichtung überliefert.
-Tripitaka, dessen Pilgerfahrt nach Indien das Thema der Erzählung bildet, ist eine wirkliche Person, in der Geschichte besser bekannt als Hsüan Tsang. Er lebte im siebten Jahrhundert n. Chr. Über seine Reise gibt es eingehende zeitgenössische Berichte. Bereits im zehnten Jahrhundert, und vermutlich schon früher, war Tripitakas Pilgerfahrt Gegenstand eines ganzen Zyklus phantastischer Legenden. Seit dem dreizehnten Jahrhundert sind diese Legenden ständig auf der chinesischen Bühne dargestellt worden. Wu Ch’êng-ên standen daher für seine lange Märchenerzählung eine Menge Bausteine zur Verfügung. Das ursprüngliche Buch ist von unendlichem Umfang und wird gewöhnlich in gekürzten Fassungen gelesen. Bei diesen Bearbeitungen blieb die ursprüngliche Anzahl der einzelnen Episoden bestehen; ihre Länge jedoch wurde, besonders durch Streichen von Dialogen, erheblich gekürzt. — Ich habe meist das entgegengesetzte Prinzip angewandt, indem ich zahlreiche Episoden ausließ, die beibehaltenen jedoch nahezu ungekürzt übersetzte, mit Ausnahme der meisten eingestreuten, für eine Übertragung ins Englische ungeeigneten Verse.
-Monkey ist ein wahrhaft einzigartiges Werk in seiner Verbindung von Schönheit mit Ungereimtheit, von Tiefe mit Unsinn. Folklore, Allegorie, Religion, Geschichte, antibürokratische Satire und reine Poesie — dies sind die außerordentlich verschiedenen Elemente, aus denen das Buch sich zusammenfügt. Die Bürokraten der Erzählung sind Heilige im Himmel, und man könnte auf die Vermutung kommen, daß die Satire sich noch eher gegen die Religion als gegen die Bürokratie wandte. Dem ist aber nicht so. Es ist nämlich eine in China geläufige Anschauung, daß die Hierarchie im Himmel ein Spiegelbild der Regierungsform auf Erden sei. Hier wie so oft lassen die Chinesen die Katze aus dem Sack, wo andere Völker uns Rätsel aufgeben. Es ist häufig als Theorie geltend gemacht worden, daß eines Volkes Götter die Spiegelung seiner irdischen Regenten darstellen. In den meisten Fällen bleibt die Ableitung im Dunkeln. Im Volksglauben der Chinesen jedoch gibt es keinerlei Doppelsinn. Der Himmel ist einfach das gesamte bürokratische System, leibhaftig ins Empyreum versetzt.
-Was die Allegorie anbelangt, so versinnbildlicht Tripitaka unverkennbar den ängstlich und beflissen durch die Schwierigkeiten des Lebens tappenden Menschen, während Monkey die ewige Unruhe des Genies personifiziert. Pigsy wiederum symbolisiert offensichtlich die physischen Begierden, primitive Kraft und eine Art schwerfälliger Geduld. Sandy ist rätselhafter. Die Kommentatoren sagen, er stelle ch’êng dar, was gewöhnlich mit ›Redlichkeit‹ übersetzt wird, allein noch eher etwas im Sinne von ›Integrität des Herzens‹ bedeutet. Er kam nicht als nachträglicher Einfall in die Erzählung, erscheint er doch bereits in einigen der frühesten Fassungen der Legende. Aber es muß zugegeben werden, daß sein Bild, obgleich für die Erzählung in unerklärlicher Weise nötig, dennoch in den Umrissen seltsam undeutlich und farblos bleibt.
-Auszüge des vorliegenden Buches sind erschienen in Giles’ History of Chinese Literature und in Timothy Richard’s Mission to Heaven, zu einer Zeit, als nur die gekürzten Fassungen bekannt waren. Eine zugängliche, doch recht ungenaue Beschreibung des Werkes gibt Helen Hayes in A Buddhist Pilgrim’s Progress (Wisdom of the East Series). Ferner existiert eine recht freie japanische Paraphrase von verschiedenen Händen, mit einer 1806 datierten Einleitung des bekannten Novellisten Bakin und Illustrationen, deren einige von Hokusai stammen. Einer der Übersetzer, Hokusais Schüler Gakutei, gesteht, daß er keine Kenntnis von der Chinesischen Umgangssprache hatte, als er die Arbeit unternahm.
-Der meiner Übersetzung zugrundeliegende Text erschien 1921 in der Oriental Press, Shanghai, mit einer ausführlichen und gelehrten Einleitung von Dr. Hu Shih, derzeitigem chinesischen Botschafter in Washington.


2
3	Monkeys Pilgerfahrt
4




5
6
7	Nach der englischen Übersetzung von Arthur Waley übertragen von Georgette Boner und Maria Nils.
8















































































































9
10
11

docs/build/doctrees/environment.pickle CHANGED Viewed

Binary files a/docs/build/doctrees/environment.pickle and b/docs/build/doctrees/environment.pickle differ

docs/build/doctrees/intro.doctree CHANGED Viewed

Binary files a/docs/build/doctrees/intro.doctree and b/docs/build/doctrees/intro.doctree differ

docs/build/doctrees/userguide-zh.doctree CHANGED Viewed

Binary files a/docs/build/doctrees/userguide-zh.doctree and b/docs/build/doctrees/userguide-zh.doctree differ

docs/build/html/_sources/intro.rst.txt CHANGED Viewed

@@ -3,19 +3,19 @@ Introduction
 ``radiobee`` (or ``radiobee aligner`` in full) is a powerful dualtext aligner.
-The aim here was to provide an interface to align two texts.
 The current implementation has been developed in Python 3 and ``gradio``.
 Motivation
 **********
-Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.
 Limitations
 ***********
-Currently, only zh-en/en-zh pairs are supported for fast-track alignment although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.
-An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnages pairs.

 ``radiobee`` (or ``radiobee aligner`` in full) is a powerful dualtext aligner.
+The aim is to provide an interface to align two texts.
 The current implementation has been developed in Python 3 and ``gradio``.
 Motivation
 **********
+Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find many applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.
 Limitations
 ***********
+Currently, only zh-en/en-zh pairs are supported for fast-track mode although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.
+An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnage pairs.

docs/build/html/_sources/userguide-zh.rst.txt CHANGED Viewed

@@ -3,7 +3,7 @@
 -   ``radiobee aligner`` 是 ``bumblebee aligner`` 的孪生兄弟。请加入qq群 ``316287378`` 了解这些对齐工具。
--  ``radiobee`` 目前仅支持中英、英中对齐。
 -  ``radiobee`` 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 ``docx``, ``pdf``, ``srt``, ``html`` 等格式。
 -  ``file 2`` 为空白时，``radiobee`` 则会视 ``file 1`` 为中英文混合文本及试着分离中英文，然后进行对齐。
 -  英中、中英非空行限制在 ``2000`` 以内，其他语言对的对齐（``500`` 对约需5分钟）则限制在 ``200`` 以内。

 -   ``radiobee aligner`` 是 ``bumblebee aligner`` 的孪生兄弟。请加入qq群 ``316287378`` 了解这些对齐工具。
+-  ``radiobee`` 快对模式目前仅支持中英、英中对齐。
 -  ``radiobee`` 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 ``docx``, ``pdf``, ``srt``, ``html`` 等格式。
 -  ``file 2`` 为空白时，``radiobee`` 则会视 ``file 1`` 为中英文混合文本及试着分离中英文，然后进行对齐。
 -  英中、中英非空行限制在 ``2000`` 以内，其他语言对的对齐（``500`` 对约需5分钟）则限制在 ``200`` 以内。

docs/build/html/intro.html CHANGED Viewed

@@ -77,17 +77,17 @@
   <section id="introduction">
 <h1>Introduction<a class="headerlink" href="#introduction" title="Permalink to this headline"></a></h1>
 <p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> (or <code class="docutils literal notranslate"><span class="pre">radiobee</span> <span class="pre">aligner</span></code> in full) is a powerful dualtext aligner.</p>
-<p>The aim here was to provide an interface to align two texts.</p>
 <p>The current implementation has been developed in Python 3 and <code class="docutils literal notranslate"><span class="pre">gradio</span></code>.</p>
 <section id="motivation">
 <h2>Motivation<a class="headerlink" href="#motivation" title="Permalink to this headline"></a></h2>
-<p>Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.</p>
 </section>
 <section id="limitations">
 <h2>Limitations<a class="headerlink" href="#limitations" title="Permalink to this headline"></a></h2>
-<p>Currently, only zh-en/en-zh pairs are supported for fast-track alignment although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.</p>
-<p>An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnages pairs.</p>
 </section>
 </section>

   <section id="introduction">
 <h1>Introduction<a class="headerlink" href="#introduction" title="Permalink to this headline"></a></h1>
 <p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> (or <code class="docutils literal notranslate"><span class="pre">radiobee</span> <span class="pre">aligner</span></code> in full) is a powerful dualtext aligner.</p>
+<p>The aim is to provide an interface to align two texts.</p>
 <p>The current implementation has been developed in Python 3 and <code class="docutils literal notranslate"><span class="pre">gradio</span></code>.</p>
 <section id="motivation">
 <h2>Motivation<a class="headerlink" href="#motivation" title="Permalink to this headline"></a></h2>
+<p>Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find many applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.</p>
 </section>
 <section id="limitations">
 <h2>Limitations<a class="headerlink" href="#limitations" title="Permalink to this headline"></a></h2>
+<p>Currently, only zh-en/en-zh pairs are supported for fast-track mode although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.</p>
+<p>An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnage pairs.</p>
 </section>
 </section>

docs/build/html/searchindex.js CHANGED Viewed

@@ -1 +1 @@

- Search.setIndex({docnames:["examples","index","intro","modules","radiobee","userguide","userguide-zh"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,sphinx:56},filenames:["examples.rst","index.rst","intro.rst","modules.rst","radiobee.rst","userguide.rst","userguide-zh.rst"],objects:{},objnames:{},objtypes:{},terms:{"1":[5,6],"12":[5,6],"2":[5,6],"200":[5,6],"2000":[5,6],"3":2,"316287378":[5,6],"4":[5,6],"5":2,"500":[2,6],"8":[5,6],"\u4e00\u822c\u65e0\u9700\u7406\u4f1a\u8fd9\u4e9b\u53c2\u6570":6,"\u4e2d\u82f1\u975e\u7a7a\u884c\u9650\u5236\u5728":6,"\u4e3a\u4e2d\u82f1\u6587\u6df7\u5408\u6587\u672c\u53ca\u8bd5\u7740\u5206\u79bb\u4e2d\u82f1\u6587":6,"\u4e3a\u7a7a\u767d\u65f6":6,"\u4e86\u89e3\u8fd9\u4e9b\u5bf9\u9f50\u5de5\u5177":6,"\u4ee5\u5185":6,"\u4ee5\u540e\u53ef\u80fd\u4f1a\u652f\u6301":6,"\u4f18\u8d28\u5bf9":6,"\u4f7f\u7528\u8bf4\u660e":1,"\u5176\u4ed6\u8bed\u8a00\u5bf9\u7684\u5bf9\u9f50":6,"\u5219\u4f1a\u89c6":6,"\u5219\u9650\u5236\u5728":6,"\u53e6\u4e00\u65b9\u9762":6,"\u53ef\u4ee5\u53f3\u51fb\u62f7\u51fa\u56fe\u7684\u94fe\u63a5\u7528\u6d4f\u89c8\u5668\u72ec\u7acb\u8bbf\u95ee\u62f7\u51fa\u6765\u7684\u94fe\u63a5\u6216\u53f3\u51fb\u5b58\u76d8\u518d\u7528\u770b\u56fe\u7a0b\u5e8f\u6253\u5f00\u5b58\u76d8\u7684\u56fe\u6587\u4ef6":6,"\u548c":6,"\u5acc\u56fe\u592a\u5c0f\u7684\u8bdd":6,"\u5b58\u4e0b\u6709\u5173\u53c2\u6570\u67e5\u770b\u6216\u901a\u77e5\u5f00\u53d1\u8005":6,"\u5bf9\u7ea6\u97005\u5206\u949f":6,"\u662f":6,"\u6700\u5c0f":6,"\u7136\u540e\u8fdb\u884c\u5bf9\u9f50":6,"\u7684\u5b6a\u751f\u5144\u5f1f":6,"\u7684\u5efa\u8bae\u503c":6,"\u76ee\u524d\u4ec5\u652f\u6301\u4e2d\u82f1":6,"\u76ee\u524d\u4ec5\u652f\u6301\u7eaf\u6587\u672c\u6587\u4ef6\u4e0a\u8f7d":6,"\u7b2c\u4e8c\u6b21\u4e0a\u8f7d\u6587\u4ef6\u524d\u8bf7\u70b9\u51fb":6,"\u7b49":6,"\u7b49\u683c\u5f0f":6,"\u82f1\u4e2d":6,"\u82f1\u4e2d\u5bf9\u9f50":6,"\u8bbe\u5927\u4e9b\u5219\u4f1a\u5f97\u5230\u5c11\u4e00\u4e9b\u5bf9\u9f50\u5bf9\u56e0\u4e3a\u53ef\u80fd\u9519\u5931\u4e86\u4e00\u4e9b":6,"\u8bbe\u5927\u4e9b\u6216":6,"\u8bbe\u5c0f\u4e9b\u53ef\u4ee5\u5f97\u5230\u66f4\u591a\u7684\u5bf9\u9f50\u5bf9\u4f46\u4e5f\u4f1a\u6709\u66f4\u591a":6,"\u8bbe\u5c0f\u4e9b\u6216":6,"\u8bef\u62a5\u5bf9":6,"\u8bf7\u52a0\u5165qq\u7fa4":6,"\u8fd0\u884c\u51fa\u9519\u65f6\u53ef\u4ee5\u70b9\u51fb":6,"\u9519\u8bef\u5224\u65ad\u4e3a\u5bf9\u9f50\u7684\u5bf9":6,"do":5,"new":5,As:0,For:0,If:[2,5],On:5,The:[2,5],To:5,about:5,ad:2,address:5,aim:2,align:[0,2,5,6],align_s:[1,3],align_text:[1,3],also:5,although:2,amend_avec:[1,3],an:2,app:[1,3],applic:2,approxim:2,ar:[2,5],attempt:5,been:[0,2],befor:5,better:5,blank:5,browser:5,built:0,bumblebe:[5,6],can:5,candid:5,cannot:0,cat:2,chines:5,clear:[5,6],click:[0,5],cmat2tset:[1,3],co:0,contact:2,content:3,copi:5,csv:[5,6],current:2,de:2,develop:[2,5],dl_type:[5,6],docterm_scor:[1,3],docx:[5,6],download:0,dual:2,dualtext:2,e:2,ebook:2,educ:2,en2zh:[1,3],en2zh_token:[1,3],en:[2,5],english:5,epsilon:[5,6],esp:[5,6],etc:[2,5],exampl:[1,2,5],experiment:2,fals:5,fast:2,file2text:[1,3],file:[5,6],files2df:[1,3],find:2,first:5,flag:[5,6],format:5,full:2,further:2,g:2,gen_aset:[1,3],gen_eps_minsampl:[1,3],gen_model:[1,3],gen_pset:[1,3],gen_row_align:[1,3],go:5,good:5,gradio:2,group:5,ha:[0,2],hand:5,have:5,help:2,here:2,how:1,html:[5,6],http:0,huggingfac:0,identifi:5,idf_typ:[5,6],imag:5,implement:2,index:1,inform:5,insert_spac:[1,3],instal:1,interfac:2,interpolate_pset:[1,3],introduct:1,introduec:2,ja:2,join:5,just:0,know:5,languag:2,languang:5,larger:5,later:5,laugnag:2,learn:2,left:5,limit:[1,5],line:5,lists2cmat:[1,3],loadtext:[1,3],look:5,machin:2,mai:5,md:[5,6],mdx_e2c:[1,3],method:0,mikee:0,min_sampl:[5,6],minimum:5,minut:2,miss:5,mix:5,mode:2,modul:[1,3],more:5,motiv:1,need:5,non:5,norm:[5,6],normal:5,now:0,number:5,one:0,onli:2,onlin:0,open:5,other:[2,5],output:5,packag:[0,1,3],page:1,pair:[2,5],paragraph:2,particular:2,pdf:[5,6],per:2,permit:2,pip:0,pleas:5,plot_cmat:[1,3],plot_df:[1,3],posit:5,power:2,proced:5,process_upload:[1,3],properli:2,provid:2,publish:0,pure:5,pypi:0,python:2,qq:5,radiobe:[0,2,5,6],result:5,right:5,row:0,ru:2,save:5,search:1,seg_text:[1,3],select:5,sentenc:2,separ:5,should:5,shuffle_s:[1,3],sibl:5,slow:2,smaller:5,smatrix:[1,3],someth:5,space:0,srt:[5,6],submit:[0,5],submodul:[1,3],subsequ:5,suggest:[0,5],support:[2,5],tab:5,tabl:0,tend:5,term:2,testrun:0,text:[2,5],tf_type:[5,6],them:5,time:2,tmx:2,touch:5,track:2,translat:2,treat:5,trim_df:[1,3],two:2,txt:[5,6],unless:5,upload:5,us:[0,1],usag:1,valu:5,version:0,wa:2,welcom:2,what:5,when:[2,5],willing:2,wrong:5,yet:0,you:[2,5],zh:[2,5],zip:0},titles:["Examples","Welcome to radiobee\u2019s documentation!","Introduction","radiobee","radiobee package","How to use","\u4f7f\u7528\u8bf4\u660e"],titleterms:{"\u4f7f\u7528\u8bf4\u660e":6,align_s:4,align_text:4,amend_avec:4,app:4,cmat2tset:4,content:[1,4],docterm_scor:4,document:1,en2zh:4,en2zh_token:4,exampl:0,file2text:4,files2df:4,gen_aset:4,gen_eps_minsampl:4,gen_model:4,gen_pset:4,gen_row_align:4,how:5,indic:1,insert_spac:4,instal:0,interpolate_pset:4,introduct:2,limit:2,lists2cmat:4,loadtext:4,mdx_e2c:4,modul:4,motiv:2,packag:4,plot_cmat:4,plot_df:4,process_upload:4,radiobe:[1,3,4],s:1,seg_text:4,shuffle_s:4,smatrix:4,submodul:4,tabl:1,trim_df:4,us:5,usag:0,welcom:1}})

+ Search.setIndex({docnames:["examples","index","intro","modules","radiobee","userguide","userguide-zh"],envversion:{"sphinx.domains.c":2,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":4,"sphinx.domains.index":1,"sphinx.domains.javascript":2,"sphinx.domains.math":2,"sphinx.domains.python":3,"sphinx.domains.rst":2,"sphinx.domains.std":2,sphinx:56},filenames:["examples.rst","index.rst","intro.rst","modules.rst","radiobee.rst","userguide.rst","userguide-zh.rst"],objects:{},objnames:{},objtypes:{},terms:{"1":[5,6],"12":[5,6],"2":[5,6],"200":[5,6],"2000":[5,6],"3":2,"316287378":[5,6],"4":[5,6],"5":2,"500":[2,6],"8":[5,6],"\u4e00\u822c\u65e0\u9700\u7406\u4f1a\u8fd9\u4e9b\u53c2\u6570":6,"\u4e2d\u82f1\u975e\u7a7a\u884c\u9650\u5236\u5728":6,"\u4e3a\u4e2d\u82f1\u6587\u6df7\u5408\u6587\u672c\u53ca\u8bd5\u7740\u5206\u79bb\u4e2d\u82f1\u6587":6,"\u4e3a\u7a7a\u767d\u65f6":6,"\u4e86\u89e3\u8fd9\u4e9b\u5bf9\u9f50\u5de5\u5177":6,"\u4ee5\u5185":6,"\u4ee5\u540e\u53ef\u80fd\u4f1a\u652f\u6301":6,"\u4f18\u8d28\u5bf9":6,"\u4f7f\u7528\u8bf4\u660e":1,"\u5176\u4ed6\u8bed\u8a00\u5bf9\u7684\u5bf9\u9f50":6,"\u5219\u4f1a\u89c6":6,"\u5219\u9650\u5236\u5728":6,"\u53e6\u4e00\u65b9\u9762":6,"\u53ef\u4ee5\u53f3\u51fb\u62f7\u51fa\u56fe\u7684\u94fe\u63a5\u7528\u6d4f\u89c8\u5668\u72ec\u7acb\u8bbf\u95ee\u62f7\u51fa\u6765\u7684\u94fe\u63a5\u6216\u53f3\u51fb\u5b58\u76d8\u518d\u7528\u770b\u56fe\u7a0b\u5e8f\u6253\u5f00\u5b58\u76d8\u7684\u56fe\u6587\u4ef6":6,"\u548c":6,"\u5acc\u56fe\u592a\u5c0f\u7684\u8bdd":6,"\u5b58\u4e0b\u6709\u5173\u53c2\u6570\u67e5\u770b\u6216\u901a\u77e5\u5f00\u53d1\u8005":6,"\u5bf9\u7ea6\u97005\u5206\u949f":6,"\u5feb\u5bf9\u6a21\u5f0f\u76ee\u524d\u4ec5\u652f\u6301\u4e2d\u82f1":6,"\u662f":6,"\u6700\u5c0f":6,"\u7136\u540e\u8fdb\u884c\u5bf9\u9f50":6,"\u7684\u5b6a\u751f\u5144\u5f1f":6,"\u7684\u5efa\u8bae\u503c":6,"\u76ee\u524d\u4ec5\u652f\u6301\u4e2d\u82f1":[],"\u76ee\u524d\u4ec5\u652f\u6301\u7eaf\u6587\u672c\u6587\u4ef6\u4e0a\u8f7d":6,"\u7b2c\u4e8c\u6b21\u4e0a\u8f7d\u6587\u4ef6\u524d\u8bf7\u70b9\u51fb":6,"\u7b49":6,"\u7b49\u683c\u5f0f":6,"\u82f1\u4e2d":6,"\u82f1\u4e2d\u5bf9\u9f50":6,"\u8bbe\u5927\u4e9b\u5219\u4f1a\u5f97\u5230\u5c11\u4e00\u4e9b\u5bf9\u9f50\u5bf9\u56e0\u4e3a\u53ef\u80fd\u9519\u5931\u4e86\u4e00\u4e9b":6,"\u8bbe\u5927\u4e9b\u6216":6,"\u8bbe\u5c0f\u4e9b\u53ef\u4ee5\u5f97\u5230\u66f4\u591a\u7684\u5bf9\u9f50\u5bf9\u4f46\u4e5f\u4f1a\u6709\u66f4\u591a":6,"\u8bbe\u5c0f\u4e9b\u6216":6,"\u8bef\u62a5\u5bf9":6,"\u8bf7\u52a0\u5165qq\u7fa4":6,"\u8fd0\u884c\u51fa\u9519\u65f6\u53ef\u4ee5\u70b9\u51fb":6,"\u9519\u8bef\u5224\u65ad\u4e3a\u5bf9\u9f50\u7684\u5bf9":6,"do":5,"new":5,As:0,For:0,If:[2,5],On:5,The:[2,5],To:5,about:5,ad:2,address:5,aim:2,align:[0,2,5,6],align_s:[1,3],align_text:[1,3],also:5,although:2,amend_avec:[1,3],an:2,app:[1,3],applic:2,approxim:2,ar:[2,5],attempt:5,been:[0,2],befor:5,better:5,blank:5,browser:5,built:0,bumblebe:[5,6],can:5,candid:5,cannot:0,cat:2,chines:5,clear:[5,6],click:[0,5],cmat2tset:[1,3],co:0,contact:2,content:3,copi:5,csv:[5,6],current:2,de:2,develop:[2,5],dl_type:[5,6],docterm_scor:[1,3],docx:[5,6],download:0,dual:2,dualtext:2,e:2,ebook:2,educ:2,en2zh:[1,3],en2zh_token:[1,3],en:[2,5],english:5,epsilon:[5,6],esp:[5,6],etc:[2,5],exampl:[1,2,5],experiment:2,fals:5,fast:2,file2text:[1,3],file:[5,6],files2df:[1,3],find:2,first:5,flag:[5,6],format:5,full:2,further:2,g:2,gen_aset:[1,3],gen_eps_minsampl:[1,3],gen_model:[1,3],gen_pset:[1,3],gen_row_align:[1,3],go:5,good:5,gradio:2,group:5,ha:[0,2],hand:5,have:5,help:2,here:[],how:1,html:[5,6],http:0,huggingfac:0,identifi:5,idf_typ:[5,6],imag:5,implement:2,index:1,inform:5,insert_spac:[1,3],instal:1,interfac:2,interpolate_pset:[1,3],introduct:1,introduec:2,ja:2,join:5,just:0,know:5,languag:2,languang:5,larger:5,later:5,laugnag:2,learn:2,left:5,limit:[1,5],line:5,lists2cmat:[1,3],loadtext:[1,3],look:5,machin:2,mai:5,mani:2,md:[5,6],mdx_e2c:[1,3],method:0,mikee:0,min_sampl:[5,6],minimum:5,minut:2,miss:5,mix:5,mode:2,modul:[1,3],more:5,motiv:1,need:5,non:5,norm:[5,6],normal:5,now:0,number:5,one:0,onli:2,onlin:0,open:5,other:[2,5],output:5,packag:[0,1,3],page:1,pair:[2,5],paragraph:2,particular:2,pdf:[5,6],per:2,permit:2,pip:0,pleas:5,plot_cmat:[1,3],plot_df:[1,3],posit:5,power:2,proced:5,process_upload:[1,3],properli:2,provid:2,publish:0,pure:5,pypi:0,python:2,qq:5,radiobe:[0,2,5,6],result:5,right:5,row:0,ru:2,save:5,search:1,seg_text:[1,3],select:5,sentenc:2,separ:5,should:5,shuffle_s:[1,3],sibl:5,slow:2,smaller:5,smatrix:[1,3],someth:5,space:0,srt:[5,6],submit:[0,5],submodul:[1,3],subsequ:5,suggest:[0,5],support:[2,5],tab:5,tabl:0,tend:5,term:2,testrun:0,text:[2,5],tf_type:[5,6],them:5,time:2,tmx:2,touch:5,track:2,translat:2,treat:5,trim_df:[1,3],two:2,txt:[5,6],unless:5,upload:5,us:[0,1],usag:1,valu:5,version:0,wa:[],welcom:2,what:5,when:[2,5],willing:2,wrong:5,yet:0,you:[2,5],zh:[2,5],zip:0},titles:["Examples","Welcome to radiobee\u2019s documentation!","Introduction","radiobee","radiobee package","How to use","\u4f7f\u7528\u8bf4\u660e"],titleterms:{"\u4f7f\u7528\u8bf4\u660e":6,align_s:4,align_text:4,amend_avec:4,app:4,cmat2tset:4,content:[1,4],docterm_scor:4,document:1,en2zh:4,en2zh_token:4,exampl:0,file2text:4,files2df:4,gen_aset:4,gen_eps_minsampl:4,gen_model:4,gen_pset:4,gen_row_align:4,how:5,indic:1,insert_spac:4,instal:0,interpolate_pset:4,introduct:2,limit:2,lists2cmat:4,loadtext:4,mdx_e2c:4,modul:4,motiv:2,packag:4,plot_cmat:4,plot_df:4,process_upload:4,radiobe:[1,3,4],s:1,seg_text:4,shuffle_s:4,smatrix:4,submodul:4,tabl:1,trim_df:4,us:5,usag:0,welcom:1}})

docs/build/html/userguide-zh.html CHANGED Viewed

@@ -74,7 +74,7 @@
 <h1>使用说明<a class="headerlink" href="#id1" title="Permalink to this headline"></a></h1>
 <ul class="simple">
 <li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span> <span class="pre">aligner</span></code> 是 <code class="docutils literal notranslate"><span class="pre">bumblebee</span> <span class="pre">aligner</span></code> 的孪生兄弟。请加入qq群 <code class="docutils literal notranslate"><span class="pre">316287378</span></code> 了解这些对齐工具。</p></li>
-<li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 目前仅支持中英、英中对齐。</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 <code class="docutils literal notranslate"><span class="pre">docx</span></code>, <code class="docutils literal notranslate"><span class="pre">pdf</span></code>, <code class="docutils literal notranslate"><span class="pre">srt</span></code>, <code class="docutils literal notranslate"><span class="pre">html</span></code> 等格式。</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">file</span> <span class="pre">2</span></code> 为空白时，<code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 则会视 <code class="docutils literal notranslate"><span class="pre">file</span> <span class="pre">1</span></code> 为中英文混合文本及试着分离中英文，然后进行对齐。</p></li>
 <li><p>英中、中英非空行限制在 <code class="docutils literal notranslate"><span class="pre">2000</span></code> 以内，其他语言对的对齐（<code class="docutils literal notranslate"><span class="pre">500</span></code> 对约需5分钟）则限制在 <code class="docutils literal notranslate"><span class="pre">200</span></code> 以内。</p></li>

 <h1>使用说明<a class="headerlink" href="#id1" title="Permalink to this headline"></a></h1>
 <ul class="simple">
 <li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span> <span class="pre">aligner</span></code> 是 <code class="docutils literal notranslate"><span class="pre">bumblebee</span> <span class="pre">aligner</span></code> 的孪生兄弟。请加入qq群 <code class="docutils literal notranslate"><span class="pre">316287378</span></code> 了解这些对齐工具。</p></li>
+<li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 快对模式目前仅支持中英、英中对齐。</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 <code class="docutils literal notranslate"><span class="pre">docx</span></code>, <code class="docutils literal notranslate"><span class="pre">pdf</span></code>, <code class="docutils literal notranslate"><span class="pre">srt</span></code>, <code class="docutils literal notranslate"><span class="pre">html</span></code> 等格式。</p></li>
 <li><p><code class="docutils literal notranslate"><span class="pre">file</span> <span class="pre">2</span></code> 为空白时，<code class="docutils literal notranslate"><span class="pre">radiobee</span></code> 则会视 <code class="docutils literal notranslate"><span class="pre">file</span> <span class="pre">1</span></code> 为中英文混合文本及试着分离中英文，然后进行对齐。</p></li>
 <li><p>英中、中英非空行限制在 <code class="docutils literal notranslate"><span class="pre">2000</span></code> 以内，其他语言对的对齐（<code class="docutils literal notranslate"><span class="pre">500</span></code> 对约需5分钟）则限制在 <code class="docutils literal notranslate"><span class="pre">200</span></code> 以内。</p></li>

docs/source/intro.rst CHANGED Viewed

@@ -3,19 +3,19 @@ Introduction
 ``radiobee`` (or ``radiobee aligner`` in full) is a powerful dualtext aligner.
-The aim here was to provide an interface to align two texts.
 The current implementation has been developed in Python 3 and ``gradio``.
 Motivation
 **********
-Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.
 Limitations
 ***********
-Currently, only zh-en/en-zh pairs are supported for fast-track alignment although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.
-An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnages pairs.

 ``radiobee`` (or ``radiobee aligner`` in full) is a powerful dualtext aligner.
+The aim is to provide an interface to align two texts.
 The current implementation has been developed in Python 3 and ``gradio``.
 Motivation
 **********
+Properly aligned texts (paragraph-to-paragraph or sentence-to-sentence) find many applications in machine learning (e.g. machine translation), CAT (tmx, translation terms etc.) and education (dual-language ebook), etc.
 Limitations
 ***********
+Currently, only zh-en/en-zh pairs are supported for fast-track mode although further pairs will be added if and when time permits.
 If you are willing to help with a particular pair (for example, de-zh, ja-zh, ru-zh, etc.), you are welcome to contact the developer.
+An experimental slow-track mode (approximately 500 pairs per 5 minutes) is introdueced for other laugnage pairs.

docs/source/userguide-zh.rst CHANGED Viewed

@@ -3,7 +3,7 @@
 -   ``radiobee aligner`` 是 ``bumblebee aligner`` 的孪生兄弟。请加入qq群 ``316287378`` 了解这些对齐工具。
--  ``radiobee`` 目前仅支持中英、英中对齐。
 -  ``radiobee`` 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 ``docx``, ``pdf``, ``srt``, ``html`` 等格式。
 -  ``file 2`` 为空白时，``radiobee`` 则会视 ``file 1`` 为中英文混合文本及试着分离中英文，然后进行对齐。
 -  英中、中英非空行限制在 ``2000`` 以内，其他语言对的对齐（``500`` 对约需5分钟）则限制在 ``200`` 以内。

 -   ``radiobee aligner`` 是 ``bumblebee aligner`` 的孪生兄弟。请加入qq群 ``316287378`` 了解这些对齐工具。
+-  ``radiobee`` 快对模式目前仅支持中英、英中对齐。
 -  ``radiobee`` 目前仅支持纯文本文件上载 (txt, md, csv 等)。 以后可能会支持 ``docx``, ``pdf``, ``srt``, ``html`` 等格式。
 -  ``file 2`` 为空白时，``radiobee`` 则会视 ``file 1`` 为中英文混合文本及试着分离中英文，然后进行对齐。
 -  英中、中英非空行限制在 ``2000`` 以内，其他语言对的对齐（``500`` 对约需5分钟）则限制在 ``200`` 以内。

gradio_queue.db CHANGED Viewed

Binary files a/gradio_queue.db and b/gradio_queue.db differ

img/plt.png CHANGED Viewed

radiobee/__main__.py CHANGED Viewed

@@ -309,7 +309,7 @@ if __name__ == "__main__":
         else:
             raise SystemExit(f"Tried {numb} times to no avail, giving up...")
-    description = "WIP showcasing a blazing fast dualtext aligner, currrently supported language pairs: en-zh/zh-en"
     # moved to userguide.rst in docs
     article = dedent(

         else:
             raise SystemExit(f"Tried {numb} times to no avail, giving up...")
+    description = "WIP showcasing a blazing fast dualtext aligner, currrently supported language pairs: en-zh/zh-en for fast-track, other language pairs are handled by slow-track"
     # moved to userguide.rst in docs
     article = dedent(

radiobee/detect.py CHANGED Viewed

@@ -27,12 +27,23 @@ def with_func_attrs(**attrs: Any) -> Callable:
 # @with_func_attrs(set_languages=None)
 # def detect(text: str) -> str:
 def detect(text: str, set_languages: Optional[List[str]] = None) -> str:
-    """Detect language via polyglot and fastlid."""
     # if not text.strip(): return "en"
     try:
-        _ = [(elm.code[:2], elm.confidence) for elm in Detector(text).languages]
-        detect.lang_conf = _
-        lang, conf = _[0]
     except UnknownLanguage:
         if set_languages is None:
             def_lang = "en"
@@ -40,26 +51,31 @@ def detect(text: str, set_languages: Optional[List[str]] = None) -> str:
             # def_lang = set_languages[-1]
             def_lang = set_languages[0]
         logger.warning(" UnknownLanguage exception: probably snippet too short, setting to %s", def_lang)
-        lang, conf = def_lang, 0
     except Exception as exc:
         logger.error(exc)
-        lang, conf = "en", 0
     del conf
-    # set_languages = detect.set_languages
     if set_languages is None:
-        return lang
     # set_languages is set
     if not isinstance(set_languages, (list, tuple)):
         logger.warning("set_languages (%s) ought to be a list/tuple")
-    if lang in set_languages:
-        return lang
-    # lang not in set_languages, use fastlid
-    fastlid.set_languages = set_languages
-    lang, _ = fastlid(text)
-    return lang

 # @with_func_attrs(set_languages=None)
 # def detect(text: str) -> str:
 def detect(text: str, set_languages: Optional[List[str]] = None) -> str:
+    """Detect language via polyglot and fastlid.
+    check first with fastlid, if conf < 0.3, check with
+    Alternative in detec_alt.py
+    """
     # if not text.strip(): return "en"
+    fastlid.set_languages = set_languages
+    lang, conf = fastlid(text)
+    detect.lang_conf = lang, conf
+    if conf >= 0.3 or lang in ["zh"]:
+        return lang
     try:
+        langs = [(elm.code[:2], elm.confidence) for elm in Detector(text).languages]
+        detect.lang_conf = langs
+        # lang, conf = _[0]
     except UnknownLanguage:
         if set_languages is None:
             def_lang = "en"
             # def_lang = set_languages[-1]
             def_lang = set_languages[0]
         logger.warning(" UnknownLanguage exception: probably snippet too short, setting to %s", def_lang)
+        langs = [(def_lang, 0)]
     except Exception as exc:
         logger.error(exc)
+        langs = [("en", 0)]
     del conf
+    # return first enrty's lang
     if set_languages is None:
+        def_lang = langs[0][0]
+    else:
+        def_lang = "en"
+        # pick the first in Detector(text).languages
+        # just to silence pyright
+        # set_languages_: List[str] = [""] if set_languages is None else set_languages
+        for elm in langs:
+            if elm[0] in set_languages:  # type: ignore
+                def_lang = elm[0]
+                break
     # set_languages is set
     if not isinstance(set_languages, (list, tuple)):
         logger.warning("set_languages (%s) ought to be a list/tuple")
+    return def_lang

radiobee/detect_alt.py ADDED Viewed

	@@ -0,0 +1,66 @@

+"""Detect language via polyglot and fastlid."""
+# pylint: disable=
+from typing import Any, Callable, List, Optional
+from polyglot.text import Detector
+import polyglot.detect.base
+from polyglot.detect.base import UnknownLanguage
+from fastlid import fastlid
+from logzero import logger
+polyglot.detect.base.logger.setLevel("ERROR")
+def with_func_attrs(**attrs: Any) -> Callable:
+    """Define func_attrs."""
+    def with_attrs(fct: Callable) -> Callable:
+        for key, val in attrs.items():
+            setattr(fct, key, val)
+        return fct
+    return with_attrs
+# @with_func_attrs(set_languages=None)
+# def detect(text: str) -> str:
+def detect(text: str, set_languages: Optional[List[str]] = None) -> str:
+    """Detect language via polyglot and fastlid."""
+    # if not text.strip(): return "en"
+    try:
+        _ = [(elm.code[:2], elm.confidence) for elm in Detector(text).languages]
+        detect.lang_conf = _
+        lang, conf = _[0]
+    except UnknownLanguage:
+        if set_languages is None:
+            def_lang = "en"
+        else:
+            # def_lang = set_languages[-1]
+            def_lang = set_languages[0]
+        logger.warning(" UnknownLanguage exception: probably snippet too short, setting to %s", def_lang)
+        lang, conf = def_lang, 0
+    except Exception as exc:
+        logger.error(exc)
+        lang, conf = "en", 0
+    del conf
+    # if set_languages is None,
+    # trust polyglot.text.Detector
+    if set_languages is None:
+        return lang
+    # set_languages is set
+    if not isinstance(set_languages, (list, tuple)):
+        logger.warning("set_languages (%s) ought to be a list/tuple")
+    if lang in set_languages:
+        return lang
+    # lang not in set_languages, use fastlid
+    fastlid.set_languages = set_languages
+    lang, _ = fastlid(text)
+    return lang

radiobee/gradiobee.py CHANGED Viewed

@@ -2,6 +2,7 @@
 # pylint: disable=invalid-name
 from pathlib import Path
 import platform
 from itertools import zip_longest
 # import tempfile
@@ -32,7 +33,7 @@ uname = platform.uname()
 HFSPACES = False
 if "amzn2" in uname.release:  # on hf spaces
     HFSPACES = True
-    import SentenceTransformer
     model_s = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v1')
 sns.set()
 sns.set_style("darkgrid")
@@ -102,7 +103,7 @@ def gradiobee(
     # process file1/text1: split text1 to text1 text2 to zh-en
     len_max = 2000
-    if not text2.strip():
         _ = [elm.strip() for elm in text1.splitlines() if elm.strip()]
         if not _:  # essentially empty file1
             return error_msg("Nothing worthy of processing in file 1")
@@ -151,7 +152,9 @@ def gradiobee(
         # return  df_trimmed, output_plot, file_dl, file_dl_xlsx, df_aligned
     # end if single file
     else:  # file1 file 2: proceed
         lang1, _ = fastlid(text1)
         lang2, _ = fastlid(text2)
@@ -175,13 +178,14 @@ def gradiobee(
         df_trimmed = trim_df(df1)
     # --- end else single
     logger.debug("lang1: %s, lang2: %s", lang1, lang2)
     if debug:
-        print("gradiobee ln 179 lang1: %s, lang2: %s" % (lang1, lang2))
         print("fast track? ", lang1 in lang_en_zh and lang2 in lang_en_zh)
     # fast track
-    lang_en_zh = ["en", "zh"]
     if lang1 in lang_en_zh and lang2 in lang_en_zh:
         try:
             cmat = lists2cmat(
@@ -208,10 +212,11 @@ def gradiobee(
         try:
             vec1 = model_s.encode(list1)
             vec2 = model_s.encode(list2)
-            cmat = vec1.dot(vec2.T)
         except Exception as exc:
             logger.error(exc)
-            return error_msg(exc)
     tset = pd.DataFrame(cmat2tset(cmat))
     tset.columns = ["x", "y", "cos"]

 # pylint: disable=invalid-name
 from pathlib import Path
 import platform
+import inspect
 from itertools import zip_longest
 # import tempfile
 HFSPACES = False
 if "amzn2" in uname.release:  # on hf spaces
     HFSPACES = True
+    from sentence_transformers import SentenceTransformer
     model_s = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v1')
 sns.set()
 sns.set_style("darkgrid")
     # process file1/text1: split text1 to text1 text2 to zh-en
     len_max = 2000
+    if not text2.strip():  # empty file2
         _ = [elm.strip() for elm in text1.splitlines() if elm.strip()]
         if not _:  # essentially empty file1
             return error_msg("Nothing worthy of processing in file 1")
         # return  df_trimmed, output_plot, file_dl, file_dl_xlsx, df_aligned
     # end if single file
+    # not single file
     else:  # file1 file 2: proceed
+        fastlid.set_languages = None
         lang1, _ = fastlid(text1)
         lang2, _ = fastlid(text2)
         df_trimmed = trim_df(df1)
     # --- end else single
+    lang_en_zh = ["en", "zh"]
     logger.debug("lang1: %s, lang2: %s", lang1, lang2)
     if debug:
+        print("gradiobee.py ln 82 lang1: %s, lang2: %s" % (lang1, lang2))
         print("fast track? ", lang1 in lang_en_zh and lang2 in lang_en_zh)
     # fast track
     if lang1 in lang_en_zh and lang2 in lang_en_zh:
         try:
             cmat = lists2cmat(
         try:
             vec1 = model_s.encode(list1)
             vec2 = model_s.encode(list2)
+            # cmat = vec1.dot(vec2.T)
+            cmat = vec2.dot(vec1.T)
         except Exception as exc:
             logger.error(exc)
+            return error_msg(f"{exc}, {__file__} {inspect.currentframe().f_lineno}, period")
     tset = pd.DataFrame(cmat2tset(cmat))
     tset.columns = ["x", "y", "cos"]

radiobee/text2lists.py CHANGED Viewed

@@ -7,6 +7,7 @@ from typing import Iterable, List, Optional, Tuple, Union  # noqa
 import numpy as np
 # from fastlid import fastlid
 from logzero import logger
 from radiobee.lists2cmat import lists2cmat
@@ -21,9 +22,8 @@ def text2lists(
     Args:
         text: mixed text
-        set_languages: default to ["en", "zh"];
-            if set_languages is None:
-                set_languages = ["en", "zh"]
     Attributes:
         cmat: correlation matrix (len(list_l) x len(list_r))
@@ -42,7 +42,19 @@ def text2lists(
     # set_languages default to ["en", "zh"]
     if set_languages is None:
-        set_languages = ["en", "zh"]
     # fastlid.set_languages = set_languages
@@ -51,6 +63,7 @@ def text2lists(
     # lang0, _ = fastlid(text[:15000])
     lang0 = detect(text, set_languages)
     res = []
     left = True  # start with left list1

 import numpy as np
 # from fastlid import fastlid
+from polyglot.text import Detector
 from logzero import logger
 from radiobee.lists2cmat import lists2cmat
     Args:
         text: mixed text
+        set_languages: no default (open-end)
+            use polyglot.text.Detector to pick two languages
     Attributes:
         cmat: correlation matrix (len(list_l) x len(list_r))
     # set_languages default to ["en", "zh"]
     if set_languages is None:
+        lang12 = [elm.code for elm in Detector(text).languages]
+        # set_languages = ["en", "zh"]
+        # set 'un' to 'en'
+        # set_languages = ['en' if elm in ['un'] else elm for elm in lang12[:2]]
+        set_languages = []
+        for elm in lang12[:2]:
+            if elm in ["un"]:
+                logger.warning(" Unknown language, set to en")
+                set_languages.append("en")
+            else:
+                set_languages.append(elm)
     # fastlid.set_languages = set_languages
     # lang0, _ = fastlid(text[:15000])
     lang0 = detect(text, set_languages)
     res = []
     left = True  # start with left list1

tests/test_detect.py CHANGED Viewed

@@ -21,6 +21,20 @@ def test_detect(test_input, expected):
 def test_detect_de():
     """Test detect de."""
-    text = "4\u3000In der Beschränkung zeigt sich erst der Meister, / Und das Gesetz nur kann uns Freiheit geben. 参见http://www.business-it.nl/files/7d413a5dca62fc735a072b16fbf050b1-27.php."  # noqa
-    assert detect(text) == "de"
-    assert detect(text, ["en", "zh"]) == "zh"

 def test_detect_de():
     """Test detect de."""
+    text_de = "4\u3000In der Beschränkung zeigt sich erst der Meister, / Und das Gesetz nur kann uns Freiheit geben. 参见http://www.business-it.nl/files/7d413a5dca62fc735a072b16fbf050b1-27.php."  # noqa
+    assert detect(text_de) == "de"
+    assert detect(text_de, ["en", "zh"]) == "zh"
+def test_elm1():
+    """Test ——撰文：Thomas Gibbons-Neff和Fahim Abed，摄影：Jim Huylebroek=."""
+    elm1 = "——撰文：Thomas Gibbons-Neff和Fahim Abed，摄影：Jim Huylebroek"
+    assert detect(elm1) == "ja"
+    assert detect(elm1, ["en", "zh"]) == "zh"
+def test_elm2():
+    """Test 在卢旺达基加利的一家牛奶吧。 JACQUES NKINZINGABO FOR THE NEW YORK TIMES."""
+    elm2 = "在卢旺达基加利的一家牛奶吧。 JACQUES NKINZINGABO FOR THE NEW YORK TIMES"
+    assert detect(elm2) == "zh"
+    assert detect(elm2, ["en", "zh"]) == "zh"

tests/test_text2lists.py CHANGED Viewed

@@ -4,18 +4,19 @@ from radiobee.loadtext import loadtext
 from radiobee.text2lists import text2lists
-def test_text2lists():
     """Test text2lists data\test-dual.txt."""
     filename = r"data\test-dual.txt"
     text = loadtext(filename)  # noqa
     l1, l2 = text2lists(text)
     assert l2[0] in [""]
-    assert "国际\n中\n双语" in l1[0]
 def test_shakespeare1000():
     """Separate first 1000.
     from pathlib import Path
     import zipfile
     dir_loc = r""
@@ -34,11 +35,11 @@ def test_shakespeare1000():
                 break
             line += 1
     Path(f"data/shakespeare-zh-en-{numb_lines}.txt").write_text("\n".join(text1000), encoding="utf8")
     tset = cmat2test(cmat)
     df = pd.DataFrame(tset).rename(columns=dict(zip(range(0, 3), ['x', 'y', 'cos'])))
     plot_df(df)
     """
     # text1000a = Path("data/shakespeare-zh-en-1000.txt").read_text(encoding="utf8")
     # text2000 = Path("data/shakespeare-zh-en-1000.txt").read_text(encoding="utf8")
@@ -46,5 +47,12 @@ def test_shakespeare1000():
     # l1000a, l10002b = text2lists(text1000)
     # l2000a, l2000b = text2lists(text2000)
     l4000, r4000 = text2lists(text4000)

 from radiobee.text2lists import text2lists
+def test_text2lists_dual1():
     """Test text2lists data\test-dual.txt."""
     filename = r"data\test-dual.txt"
     text = loadtext(filename)  # noqa
     l1, l2 = text2lists(text)
     assert l2[0] in [""]
+    assert "国际\n中\n双语"[:2] in l1[0]
+    assert '2021' in l2[5]
 def test_shakespeare1000():
     """Separate first 1000.
     from pathlib import Path
     import zipfile
     dir_loc = r""
                 break
             line += 1
     Path(f"data/shakespeare-zh-en-{numb_lines}.txt").write_text("\n".join(text1000), encoding="utf8")
     tset = cmat2test(cmat)
     df = pd.DataFrame(tset).rename(columns=dict(zip(range(0, 3), ['x', 'y', 'cos'])))
     plot_df(df)
     """
     # text1000a = Path("data/shakespeare-zh-en-1000.txt").read_text(encoding="utf8")
     # text2000 = Path("data/shakespeare-zh-en-1000.txt").read_text(encoding="utf8")
     # l1000a, l10002b = text2lists(text1000)
     # l2000a, l2000b = text2lists(text2000)
     l4000, r4000 = text2lists(text4000)
+def test_test_dual2():
+    """Test data/test-dual.txt."""
+    test_dual = Path("data/test-dual.txt").read_text(encoding="utf8")
+    l_dual, r_dual = text2lists(test_dual)

tests/test_text2lists_bug2.py CHANGED Viewed

@@ -7,10 +7,8 @@ from radiobee.text2lists import text2lists
 def test_text2lists_bug2():
     """Test text2lists data\问题2测试文件.txt."""
     filename = r"data\问题2测试文件.txt"
-    text = loadtext(filename)  # noqa
-    l1, l2 = text2lists(text)
-    # assert l2[0] in [""]
-    # assert "国际\n中\n双语" in l1[0]
-    assert len(l1) == 4
-    assert len(l2) == 5

 def test_text2lists_bug2():
     """Test text2lists data\问题2测试文件.txt."""
     filename = r"data\问题2测试文件.txt"
+    textbug2 = loadtext(filename)  # noqa
+    l1, l2 = text2lists(textbug2)
+    assert len(l1) == 5
+    assert len(l2) == 4