2 years ago · 7daf4f95ef
--- a/searx/data/engine_traits.json
+++ b/searx/data/engine_traits.json
@@ -5121,7 +5121,116 @@
 
															     "all_locale": null,
														
 
															     "custom": {},
														
 
															     "data_type": "supported_languages",
														
 
															-    "languages": {},
														
 
															+    "languages": {
														
 
															+      "af": "af",
														
 
															+      "ak": "tw",
														
 
															+      "am": "am",
														
 
															+      "ar": "ar",
														
 
															+      "as": "as",
														
 
															+      "az": "az",
														
 
															+      "be": "be",
														
 
															+      "bg": "bg",
														
 
															+      "bn": "bn",
														
 
															+      "bo": "bo",
														
 
															+      "bs": "bs",
														
 
															+      "ca": "ca",
														
 
															+      "chr": "chr",
														
 
															+      "ckb": "ckb",
														
 
															+      "cs": "cs",
														
 
															+      "da": "da",
														
 
															+      "de": "de",
														
 
															+      "dsb": "dsb",
														
 
															+      "el": "el",
														
 
															+      "en": "en",
														
 
															+      "es": "es",
														
 
															+      "et": "et",
														
 
															+      "fa": "fa",
														
 
															+      "fi": "fi",
														
 
															+      "fil": "tl",
														
 
															+      "fo": "fo",
														
 
															+      "fr": "fr",
														
 
															+      "fur": "fur",
														
 
															+      "fy": "fy",
														
 
															+      "gl": "gl",
														
 
															+      "gsw": "als",
														
 
															+      "gu": "gu",
														
 
															+      "gv": "gv",
														
 
															+      "haw": "haw",
														
 
															+      "he": "he",
														
 
															+      "hi": "hi",
														
 
															+      "hsb": "hsb",
														
 
															+      "hu": "hu",
														
 
															+      "hy": "hy",
														
 
															+      "id": "id",
														
 
															+      "is": "is",
														
 
															+      "it": "it",
														
 
															+      "ja": "ja",
														
 
															+      "jv": "jv",
														
 
															+      "ka": "ka",
														
 
															+      "km": "km",
														
 
															+      "kn": "kn",
														
 
															+      "ko": "ko",
														
 
															+      "ks": "ks",
														
 
															+      "ksh": "ksh",
														
 
															+      "kw": "kw",
														
 
															+      "lb": "lb",
														
 
															+      "lg": "lg",
														
 
															+      "ln": "ln",
														
 
															+      "lo": "lo",
														
 
															+      "lt": "lt",
														
 
															+      "lv": "lv",
														
 
															+      "mai": "mai",
														
 
															+      "mk": "mk",
														
 
															+      "ml": "ml",
														
 
															+      "mn": "mn",
														
 
															+      "mr": "mr",
														
 
															+      "ms": "ms",
														
 
															+      "mt": "mt",
														
 
															+      "nds": "nds-nl",
														
 
															+      "ne": "ne",
														
 
															+      "no": "no",
														
 
															+      "om": "om",
														
 
															+      "or": "or",
														
 
															+      "os": "os",
														
 
															+      "pa": "pa",
														
 
															+      "pl": "pl",
														
 
															+      "ps": "ps",
														
 
															+      "pt": "pt",
														
 
															+      "qu": "qu",
														
 
															+      "rm": "rm",
														
 
															+      "ro": "ro",
														
 
															+      "ru": "ru",
														
 
															+      "rw": "rw",
														
 
															+      "sa": "sa",
														
 
															+      "sah": "sah",
														
 
															+      "sd": "sd",
														
 
															+      "se": "se",
														
 
															+      "shi": "shi",
														
 
															+      "si": "si",
														
 
															+      "sk": "sk",
														
 
															+      "sl": "sl",
														
 
															+      "smn": "smn",
														
 
															+      "so": "so",
														
 
															+      "sq": "sq",
														
 
															+      "sr": "sr",
														
 
															+      "ta": "ta",
														
 
															+      "te": "te",
														
 
															+      "th": "th",
														
 
															+      "tk": "tk",
														
 
															+      "to": "to",
														
 
															+      "tr": "tr",
														
 
															+      "ug": "ug",
														
 
															+      "uk": "uk",
														
 
															+      "ur": "ur",
														
 
															+      "uz": "uz",
														
 
															+      "vi": "vi",
														
 
															+      "wo": "wo",
														
 
															+      "xh": "xh",
														
 
															+      "yi": "yi",
														
 
															+      "zh": "zh",
														
 
															+      "zh_Hans": "zh",
														
 
															+      "zh_Hant": "zh-classical"
														
 
															+    },
														
 
															     "regions": {},
														
 
															     "supported_languages": {
														
 
															       "ab": {
														
@@ -6402,7 +6511,116 @@
 
															     "all_locale": null,
														
 
															     "custom": {},
														
 
															     "data_type": "supported_languages",
														
 
															-    "languages": {},
														
 
															+    "languages": {
														
 
															+      "af": "af",
														
 
															+      "ak": "tw",
														
 
															+      "am": "am",
														
 
															+      "ar": "ar",
														
 
															+      "as": "as",
														
 
															+      "az": "az",
														
 
															+      "be": "be",
														
 
															+      "bg": "bg",
														
 
															+      "bn": "bn",
														
 
															+      "bo": "bo",
														
 
															+      "bs": "bs",
														
 
															+      "ca": "ca",
														
 
															+      "chr": "chr",
														
 
															+      "ckb": "ckb",
														
 
															+      "cs": "cs",
														
 
															+      "da": "da",
														
 
															+      "de": "de",
														
 
															+      "dsb": "dsb",
														
 
															+      "el": "el",
														
 
															+      "en": "en",
														
 
															+      "es": "es",
														
 
															+      "et": "et",
														
 
															+      "fa": "fa",
														
 
															+      "fi": "fi",
														
 
															+      "fil": "tl",
														
 
															+      "fo": "fo",
														
 
															+      "fr": "fr",
														
 
															+      "fur": "fur",
														
 
															+      "fy": "fy",
														
 
															+      "gl": "gl",
														
 
															+      "gsw": "als",
														
 
															+      "gu": "gu",
														
 
															+      "gv": "gv",
														
 
															+      "haw": "haw",
														
 
															+      "he": "he",
														
 
															+      "hi": "hi",
														
 
															+      "hsb": "hsb",
														
 
															+      "hu": "hu",
														
 
															+      "hy": "hy",
														
 
															+      "id": "id",
														
 
															+      "is": "is",
														
 
															+      "it": "it",
														
 
															+      "ja": "ja",
														
 
															+      "jv": "jv",
														
 
															+      "ka": "ka",
														
 
															+      "km": "km",
														
 
															+      "kn": "kn",
														
 
															+      "ko": "ko",
														
 
															+      "ks": "ks",
														
 
															+      "ksh": "ksh",
														
 
															+      "kw": "kw",
														
 
															+      "lb": "lb",
														
 
															+      "lg": "lg",
														
 
															+      "ln": "ln",
														
 
															+      "lo": "lo",
														
 
															+      "lt": "lt",
														
 
															+      "lv": "lv",
														
 
															+      "mai": "mai",
														
 
															+      "mk": "mk",
														
 
															+      "ml": "ml",
														
 
															+      "mn": "mn",
														
 
															+      "mr": "mr",
														
 
															+      "ms": "ms",
														
 
															+      "mt": "mt",
														
 
															+      "nds": "nds-nl",
														
 
															+      "ne": "ne",
														
 
															+      "no": "no",
														
 
															+      "om": "om",
														
 
															+      "or": "or",
														
 
															+      "os": "os",
														
 
															+      "pa": "pa",
														
 
															+      "pl": "pl",
														
 
															+      "ps": "ps",
														
 
															+      "pt": "pt",
														
 
															+      "qu": "qu",
														
 
															+      "rm": "rm",
														
 
															+      "ro": "ro",
														
 
															+      "ru": "ru",
														
 
															+      "rw": "rw",
														
 
															+      "sa": "sa",
														
 
															+      "sah": "sah",
														
 
															+      "sd": "sd",
														
 
															+      "se": "se",
														
 
															+      "shi": "shi",
														
 
															+      "si": "si",
														
 
															+      "sk": "sk",
														
 
															+      "sl": "sl",
														
 
															+      "smn": "smn",
														
 
															+      "so": "so",
														
 
															+      "sq": "sq",
														
 
															+      "sr": "sr",
														
 
															+      "ta": "ta",
														
 
															+      "te": "te",
														
 
															+      "th": "th",
														
 
															+      "tk": "tk",
														
 
															+      "to": "to",
														
 
															+      "tr": "tr",
														
 
															+      "ug": "ug",
														
 
															+      "uk": "uk",
														
 
															+      "ur": "ur",
														
 
															+      "uz": "uz",
														
 
															+      "vi": "vi",
														
 
															+      "wo": "wo",
														
 
															+      "xh": "xh",
														
 
															+      "yi": "yi",
														
 
															+      "zh": "zh",
														
 
															+      "zh_Hans": "zh",
														
 
															+      "zh_Hant": "zh-classical"
														
 
															+    },
														
 
															     "regions": {},
														
 
															     "supported_languages": {
														
 
															       "ab": {
														
--- a/searx/engines/wikidata.py
+++ b/searx/engines/wikidata.py
@@ -16,6 +16,7 @@ from searx.network import post, get
 
															 from searx.utils import match_language, searx_useragent, get_string_replaces_function
														
 
															 from searx.external_urls import get_external_url, get_earth_coordinates_url, area_to_osm_zoom
														
 
															 from searx.engines.wikipedia import (  # pylint: disable=unused-import
														
 
															+    fetch_traits,
														
 
															     _fetch_supported_languages,
														
 
															     supported_languages_url,
														
 
															 )
														
--- a/searx/engines/wikipedia.py
+++ b/searx/engines/wikipedia.py
@@ -5,9 +5,12 @@
 
															 from urllib.parse import quote
														
 
															 from json import loads
														
 
															-from lxml.html import fromstring
														
 
															+from lxml import html
														
 
															 from searx.utils import match_language, searx_useragent
														
 
															-from searx.network import raise_for_httperror
														
 
															+from searx import network
														
 
															+from searx.enginelib.traits import EngineTraits
														
 
															+
														
 
															+engine_traits: EngineTraits
														
 
															 # about
														
 
															 about = {
														
@@ -68,7 +71,7 @@ def response(resp):
 
															             ):
														
 
															                 return []
														
 
															-    raise_for_httperror(resp)
														
 
															+    network.raise_for_httperror(resp)
														
 
															     results = []
														
 
															     api_result = loads(resp.text)
														
@@ -98,7 +101,7 @@ def response(resp):
 
															 # get supported languages from their site
														
 
															 def _fetch_supported_languages(resp):
														
 
															     supported_languages = {}
														
 
															-    dom = fromstring(resp.text)
														
 
															+    dom = html.fromstring(resp.text)
														
 
															     tables = dom.xpath('//table[contains(@class,"sortable")]')
														
 
															     for table in tables:
														
 
															         # exclude header row
														
@@ -114,3 +117,166 @@ def _fetch_supported_languages(resp):
 
															                 supported_languages[code] = {"name": name, "english_name": english_name}
														
 
															     return supported_languages
														
 
															+
														
 
															+
														
 
															+# Nonstandard language codes
														
 
															+#
														
 
															+# These Wikipedias use language codes that do not conform to the ISO 639
														
 
															+# standard (which is how wiki subdomains are chosen nowadays).
														
 
															+
														
 
															+lang_map = {
														
 
															+    'be-tarask': 'bel',
														
 
															+    'ak': 'aka',
														
 
															+    'als': 'gsw',
														
 
															+    'bat-smg': 'sgs',
														
 
															+    'cbk-zam': 'cbk',
														
 
															+    'fiu-vro': 'vro',
														
 
															+    'map-bms': 'map',
														
 
															+    'nrm': 'nrf',
														
 
															+    'roa-rup': 'rup',
														
 
															+    'nds-nl': 'nds',
														
 
															+    #'roa-tara: – invented code used for the Tarantino Wikipedia (again, roa is the standard code for the large family of Romance languages that the Tarantino dialect falls within)
														
 
															+    #'simple: – invented code used for the Simple English Wikipedia (not the official IETF code en-simple)
														
 
															+    'zh-classical': 'zh_Hant',
														
 
															+    'zh-min-nan': 'nan',
														
 
															+    'zh-yue': 'yue',
														
 
															+    'an': 'arg',
														
 
															+}
														
 
															+
														
 
															+unknown_langs = [
														
 
															+    'ab',  # Abkhazian
														
 
															+    'alt',  # Southern Altai
														
 
															+    'an',  # Aragonese
														
 
															+    'ang',  # Anglo-Saxon
														
 
															+    'arc',  # Aramaic
														
 
															+    'ary',  # Moroccan Arabic
														
 
															+    'av',  # Avar
														
 
															+    'ba',  # Bashkir
														
 
															+    'be-tarask',
														
 
															+    'bar',  # Bavarian
														
 
															+    'bcl',  # Central Bicolano
														
 
															+    'bh',  # Bhojpuri
														
 
															+    'bi',  # Bislama
														
 
															+    'bjn',  # Banjar
														
 
															+    'blk',  # Pa'O
														
 
															+    'bpy',  # Bishnupriya Manipuri
														
 
															+    'bxr',  # Buryat
														
 
															+    'cbk-zam',  # Zamboanga Chavacano
														
 
															+    'co',  # Corsican
														
 
															+    'cu',  # Old Church Slavonic
														
 
															+    'dty',  # Doteli
														
 
															+    'dv',  # Divehi
														
 
															+    'ext',  # Extremaduran
														
 
															+    'fj',  # Fijian
														
 
															+    'frp',  # Franco-Provençal
														
 
															+    'gan',  # Gan
														
 
															+    'gom',  # Goan Konkani
														
 
															+    'hif',  # Fiji Hindi
														
 
															+    'ilo',  # Ilokano
														
 
															+    'inh',  # Ingush
														
 
															+    'jbo',  # Lojban
														
 
															+    'kaa',  # Karakalpak
														
 
															+    'kbd',  # Kabardian Circassian
														
 
															+    'kg',  # Kongo
														
 
															+    'koi',  # Komi-Permyak
														
 
															+    'krc',  # Karachay-Balkar
														
 
															+    'kv',  # Komi
														
 
															+    'lad',  # Ladino
														
 
															+    'lbe',  # Lak
														
 
															+    'lez',  # Lezgian
														
 
															+    'li',  # Limburgish
														
 
															+    'ltg',  # Latgalian
														
 
															+    'mdf',  # Moksha
														
 
															+    'mnw',  # Mon
														
 
															+    'mwl',  # Mirandese
														
 
															+    'myv',  # Erzya
														
 
															+    'na',  # Nauruan
														
 
															+    'nah',  # Nahuatl
														
 
															+    'nov',  # Novial
														
 
															+    'nrm',  # Norman
														
 
															+    'pag',  # Pangasinan
														
 
															+    'pam',  # Kapampangan
														
 
															+    'pap',  # Papiamentu
														
 
															+    'pdc',  # Pennsylvania German
														
 
															+    'pfl',  # Palatinate German
														
 
															+    'roa-rup',  # Aromanian
														
 
															+    'sco',  # Scots
														
 
															+    'sco',  # Scots (https://sco.wikipedia.org) is not known by babel, Scottish Gaelic (https://gd.wikipedia.org) is known by babel
														
 
															+    'sh',  # Serbo-Croatian
														
 
															+    'simple',  # simple english is not know as a natural language different to english (babel)
														
 
															+    'sm',  # Samoan
														
 
															+    'srn',  # Sranan
														
 
															+    'stq',  # Saterland Frisian
														
 
															+    'szy',  # Sakizaya
														
 
															+    'tcy',  # Tulu
														
 
															+    'tet',  # Tetum
														
 
															+    'tpi',  # Tok Pisin
														
 
															+    'trv',  # Seediq
														
 
															+    'ty',  # Tahitian
														
 
															+    'tyv',  # Tuvan
														
 
															+    'udm',  # Udmurt
														
 
															+    'vep',  # Vepsian
														
 
															+    'vls',  # West Flemish
														
 
															+    'vo',  # Volapük
														
 
															+    'wa',  # Walloon
														
 
															+    'xal',  # Kalmyk
														
 
															+]
														
 
															+
														
 
															+
														
 
															+def fetch_traits(engine_traits: EngineTraits):
														
 
															+    """Fetch languages from Wikipedia"""
														
 
															+    # pylint: disable=import-outside-toplevel
														
 
															+
														
 
															+    engine_traits.data_type = 'supported_languages'  # deprecated
														
 
															+
														
 
															+    import babel
														
 
															+    from searx.locales import language_tag
														
 
															+
														
 
															+    resp = network.get('https://meta.wikimedia.org/wiki/List_of_Wikipedias')
														
 
															+    if not resp.ok:
														
 
															+        print("ERROR: response from Wikipedia is not OK.")
														
 
															+
														
 
															+    dom = html.fromstring(resp.text)
														
 
															+    for row in dom.xpath('//table[contains(@class,"sortable")]//tbody/tr'):
														
 
															+
														
 
															+        cols = row.xpath('./td')
														
 
															+        if not cols:
														
 
															+            continue
														
 
															+
														
 
															+        cols = [c.text_content().strip() for c in cols]
														
 
															+        articles = int(cols[4].replace(',', '').replace('-', '0'))
														
 
															+        users = int(cols[8].replace(',', '').replace('-', '0'))
														
 
															+        depth = cols[11].strip('-')
														
 
															+
														
 
															+        if articles < 1000:
														
 
															+            # exclude languages with too few articles
														
 
															+            continue
														
 
															+
														
 
															+        # depth: rough indicator of a Wikipedia’s quality, showing how
														
 
															+        #        frequently its articles are updated.
														
 
															+        if depth == '':
														
 
															+            if users < 1000:
														
 
															+                # depth is not calculated --> at least 1000 user should registered
														
 
															+                continue
														
 
															+        elif int(depth) < 20:
														
 
															+            continue
														
 
															+
														
 
															+        eng_tag = cols[3]
														
 
															+
														
 
															+        if eng_tag in unknown_langs:
														
 
															+            continue
														
 
															+
														
 
															+        try:
														
 
															+            sxng_tag = language_tag(babel.Locale.parse(lang_map.get(eng_tag, eng_tag)))
														
 
															+        except babel.UnknownLocaleError:
														
 
															+            print("ERROR: %s -> %s is unknown by babel" % (cols[1], eng_tag))
														
 
															+            continue
														
 
															+
														
 
															+        conflict = engine_traits.languages.get(sxng_tag)
														
 
															+        if conflict:
														
 
															+            if conflict != eng_tag:
														
 
															+                print("CONFLICT: babel %s --> %s, %s" % (sxng_tag, conflict, eng_tag))
														
 
															+            continue
														
 
															+        engine_traits.languages[sxng_tag] = eng_tag
														
 
															+
														
 
															+    engine_traits.languages['zh_Hans'] = 'zh'